diff --git a/NOTICE.md b/NOTICE.md
index 62341fc..31b571e 100644
--- a/NOTICE.md
+++ b/NOTICE.md
@@ -4,62 +4,26 @@ This repository incorporates material as listed below or described in the code.
 
 #### Component.
 
-GauXC
+torch scatter in src/skala/utils/scatter.py
 
 #### Open Source License/Copyright Notice.
 
-GauXC Copyright (c) 2020, The Regents of the University of California,
-through Lawrence Berkeley National Laboratory (subject to receipt of
-any required approvals from the U.S. Dept. of Energy). All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-(1) Redistributions of source code must retain the above copyright notice,
-this list of conditions and the following disclaimer.
-
-(2) Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in the
-documentation and/or other materials provided with the distribution.
-
-(3) Neither the name of the University of California, Lawrence Berkeley
-National Laboratory, U.S. Dept. of Energy nor the names of its contributors
-may be used to endorse or promote products derived from this software
-without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
-CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
-SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
-INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
-CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
-ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
-POSSIBILITY OF SUCH DAMAGE.
-
-You are under no obligation whatsoever to provide any bug fixes, patches,
-or upgrades to the features, functionality or performance of the source
-code ("Enhancements") to anyone; however, if you choose to make your
-Enhancements available either publicly, or directly to Lawrence Berkeley
-National Laboratory, without imposing a separate written license agreement
-for such Enhancements, then you hereby grant the following license: a
-non-exclusive, royalty-free perpetual license to install, use, modify,
-prepare derivative works, incorporate into other computer software,
-distribute, and sublicense such enhancements or derivative works thereof,
-in binary and source code form.
-
-#### Additional Attribution.
-
-Primary Developer and Maintainer: David Williams--Young - LBNL (dbwy at lbl dot gov)
-
-GauXC has received major contributions from the following developers (in no particular order):
-
-Thom Popovici (LBNL) - Optimized sn-K kernels for CPU and GPU architectures
-Teri Lambros (UW) - Unrestricted (UKS) and Generalized (GKS) DFT
-Daniel Mejia-Rodriguez (PNNL) - Meta-GGA DFT
-We have also receieved significant support from industry collaborators:
-
-David Clark (NVIDIA) - Optimization of critical kernels for NVIDIA architectures
-Damon McDougall (AMD) - Optimization of critical kernels for AMDGPU architectures
+Copyright (c) 2020 Matthias Fey <matthias.fey@tu-dortmund.de>
+
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+
+The above copyright notice and this permission notice shall be included in
+all copies or substantial portions of the Software.
+
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN
+THE SOFTWARE.
diff --git a/README.md b/README.md
index 24c4c2c..24375f4 100644
--- a/README.md
+++ b/README.md
@@ -16,10 +16,10 @@ Learn more about Skala in our [ArXiv paper](https://arxiv.org/abs/2506.14665).
 This repository contains three main components:
 
 1. The Python package `microsoft-skala`, which is also distributed [on PyPI](https://pypi.org/project/microsoft-skala/) and contains a Pytorch implementation of the Skala model, its hookups to quantum chemistry packages [PySCF](https://pyscf.org/) and [ASE](https://ase-lib.org/), and an independent client library for the Skala model served [in Azure AI Foundry](https://ai.azure.com/catalog/models/Skala).
-2. A development version of the CPU/GPU C++ library for XC functionals [GauXC](https://github.com/wavefunction91/GauXC) with an add-on supporting Pytorch-based functionals like Skala. GauXC is part of the stack that serves Skala in Azure AI Foundry and can be used to integrate Skala into other third-party DFT codes.
+2. A development version of the CPU/GPU C++ library for XC functionals [GauXC](https://github.com/wavefunction91/GauXC/tree/skala) with an add-on supporting Pytorch-based functionals like Skala. GauXC is part of the stack that serves Skala in Azure AI Foundry and can be used to integrate Skala into other third-party DFT codes.
 3. An example of using Skala in C++ CPU applications through LibTorch, see [`examples/cpp/cpp_integration`](examples/cpp/cpp_integration).
 
-All information below relates to the Python package, the development version of GauXC including its license and other information can be found in [`third_party/gauxc`](https://github.com/microsoft/skala/tree/main/third_party/gauxc).
+All information below relates to the Python package, the development version of GauXC including its license and other information can be found in the [`skala` branch of the GauXC repository](https://github.com/wavefunction91/GauXC/tree/skala).
 
 ## Getting started
 
diff --git a/docs/index.rst b/docs/index.rst
index 4cfc352..950591d 100644
--- a/docs/index.rst
+++ b/docs/index.rst
@@ -34,4 +34,4 @@ Please stay tuned for updates and new releases.
    :hidden:
 
    Skala preprint <https://aka.ms/skaladft/preprint>
-   Breaking bonds, breaking ground <https://aka.ms/skaladft/blog>
\ No newline at end of file
+   Breaking bonds, breaking ground <https://aka.ms/skaladft/blog>
diff --git a/src/skala/foundry/__init__.py b/src/skala/foundry/__init__.py
index f43375c..4d4691f 100644
--- a/src/skala/foundry/__init__.py
+++ b/src/skala/foundry/__init__.py
@@ -1,2 +1,4 @@
+# SPDX-License-Identifier: MIT
+
 from skala.foundry.client import SkalaFoundryClient  # noqa: F401
 from skala.foundry.schemas import SkalaConfig, SkalaInput, SkalaOutput  # noqa: F401
diff --git a/src/skala/foundry/client.py b/src/skala/foundry/client.py
index 63f7a55..0df7d8a 100644
--- a/src/skala/foundry/client.py
+++ b/src/skala/foundry/client.py
@@ -1,3 +1,5 @@
+# SPDX-License-Identifier: MIT
+
 import json
 import logging
 import time
diff --git a/src/skala/foundry/schemas.py b/src/skala/foundry/schemas.py
index 8225f0a..d5414b3 100644
--- a/src/skala/foundry/schemas.py
+++ b/src/skala/foundry/schemas.py
@@ -1,3 +1,5 @@
+# SPDX-License-Identifier: MIT
+
 from typing import Literal, TypeAlias
 
 import numpy as np
diff --git a/src/skala/functional/model.py b/src/skala/functional/model.py
index c089137..72eb356 100644
--- a/src/skala/functional/model.py
+++ b/src/skala/functional/model.py
@@ -1,3 +1,5 @@
+# SPDX-License-Identifier: MIT
+
 import math
 
 import torch
diff --git a/src/skala/pyscf/backend.py b/src/skala/pyscf/backend.py
index 0cbc9d1..23987ef 100644
--- a/src/skala/pyscf/backend.py
+++ b/src/skala/pyscf/backend.py
@@ -1,3 +1,5 @@
+# SPDX-License-Identifier: MIT
+
 from typing import (
     TYPE_CHECKING,
     TypeAlias,
diff --git a/src/skala/utils/scatter.py b/src/skala/utils/scatter.py
index b36fc08..b24b1b0 100644
--- a/src/skala/utils/scatter.py
+++ b/src/skala/utils/scatter.py
@@ -1,3 +1,4 @@
+# SPDX-License-Identifier: MIT
 # A copy of useful code from torch scatter
 # https://github.com/rusty1s/pytorch_scatter/blob/96aa2e3587123ba4ef31820899d5e62141e9a4c2/torch_scatter/scatter.py
 
diff --git a/third_party/gauxc/.github/workflows/build_and_test_compiler_zoo.yml b/third_party/gauxc/.github/workflows/build_and_test_compiler_zoo.yml
deleted file mode 100644
index e28b353..0000000
--- a/third_party/gauxc/.github/workflows/build_and_test_compiler_zoo.yml
+++ /dev/null
@@ -1,273 +0,0 @@
-name: Build and Test - Compiler Zoo
-
-on: [pull_request, workflow_dispatch] 
-
-env:
-  GH_ACTIONS_TOOLCHAIN: .github/workflows/toolchains/gh-actions.cmake
-  ENV_PREFIX_PATH: "/home/software/install/blis-lp64-sequential;/usr/local/libxc/exchcxx-patch"
-
-jobs:
-  release_build:
-    name: Release Build and Test
-    runs-on: ubuntu-latest
-    container:
-        image: dbwy/chemistry
-    strategy:
-      matrix:
-        compiler:
-          - {suite: gnu,  version: 12}
-          - {suite: llvm, version: 19}
-        mpi_flag: [ON, OFF]
-        openmp_flag: [ON, OFF]
-        exclude:
-            - compiler: {suite: llvm, version: 19}
-              openmp_flag: ON
-
-    steps:
-    - uses: actions/checkout@v4
-
-    - name: Install LLVM toolchain
-      if: ${{ matrix.compiler.suite == 'llvm' }}
-      shell: bash
-      run: |
-        set -euo pipefail
-        apt-get update
-        apt-get install -y wget gnupg lsb-release software-properties-common
-        wget https://apt.llvm.org/llvm.sh
-        chmod +x llvm.sh
-        ./llvm.sh ${{ matrix.compiler.version }} -y
-
-    - name: Setup Compiler 
-      shell: bash
-      run: $GITHUB_WORKSPACE/.github/workflows/scripts/compiler_setup.sh 
-           ${{matrix.compiler.suite}} ${{matrix.compiler.version}}
-           
-    - name: Enable or Disable MPI
-      shell: bash
-      run: echo "set(GAUXC_ENABLE_MPI ${{matrix.mpi_flag}} CACHE BOOL \"\" FORCE)" >> 
-             ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Enable or Disable OpenMP
-      shell: bash
-      run: echo "set(GAUXC_ENABLE_OPENMP ${{matrix.openmp_flag}} CACHE BOOL \"\" FORCE)" >> 
-              ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Setup Build Type
-      shell: bash
-      run: echo "set(CMAKE_BUILD_TYPE Release CACHE BOOL \"\" FORCE)" >> 
-             ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Configure CMake
-      shell: bash
-      run: cmake -S $GITHUB_WORKSPACE -B ${{runner.workspace}}/build
-                 -DCMAKE_INSTALL_PREFIX=${{runner.workspace}}/install 
-                 -DCMAKE_PREFIX_PATH=${ENV_PREFIX_PATH}
-                 -DCMAKE_TOOLCHAIN_FILE=${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Build
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build -j2 
-
-    - name: Test
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build --target test
-
-  nvidia_build:
-    name: NVIDIA Build (No Test)
-    runs-on: ubuntu-latest
-    #needs: release_build
-    container:
-        image: dbwy/chemistry-gpu
-        #options: --gpus all
-    strategy:
-        matrix:
-            flags: [ {magma: OFF, cutlass: OFF}, {magma: ON, cutlass: OFF}, {magma: OFF, cutlass: ON} ]
-
-    steps:
-    - uses: actions/checkout@v4
-
-    - name: Setup Build Type
-      shell: bash
-      run: echo "set(CMAKE_BUILD_TYPE Release CACHE BOOL \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Setup Enable CUDA
-      shell: bash
-      run: |
-        echo "set(GAUXC_ENABLE_CUDA  ON  CACHE BOOL \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-        echo "set(CMAKE_CUDA_ARCHITECTURES  80  CACHE STRING \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-        echo "set(GAUXC_ENABLE_MAGMA   ${{matrix.flags.magma}}    CACHE BOOL \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-        echo "set(GAUXC_ENABLE_CUTLASS   ${{matrix.flags.cutlass}}    CACHE BOOL \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-        echo "set(GAUXC_ENABLE_MPI   OFF    CACHE BOOL \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-        echo "set(MAGMA_ROOT_DIR \"/usr/local/magma/2.6.2/install\" CACHE PATH \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Configure CMake
-      shell: bash
-      run: cmake -S $GITHUB_WORKSPACE -B ${{runner.workspace}}/build
-                 -DCMAKE_INSTALL_PREFIX=${{runner.workspace}}/install 
-                 -DCMAKE_PREFIX_PATH=${ENV_PREFIX_PATH}
-                 -DCMAKE_TOOLCHAIN_FILE=${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Build
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build -j2 
-
-    #- name: Test
-    #  shell: bash
-    #  run: cmake --build ${{runner.workspace}}/build --target test
-
-  debug_build:
-    name: Debug Build and Test
-    runs-on: ubuntu-latest 
-    container:
-        image: dbwy/chemistry
-
-    steps:
-    - uses: actions/checkout@v4
-
-    - name: Setup Compiler 
-      shell: bash
-      run: $GITHUB_WORKSPACE/.github/workflows/scripts/compiler_setup.sh gnu 12
-
-    - name: Setup Build Type
-      shell: bash
-      run: echo "set(CMAKE_BUILD_TYPE Debug CACHE BOOL \"\" FORCE)" >> ${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Configure CMake
-      shell: bash
-      run: cmake -S $GITHUB_WORKSPACE -B ${{runner.workspace}}/build
-                 -DCMAKE_INSTALL_PREFIX=${{runner.workspace}}/install 
-                 -DCMAKE_PREFIX_PATH=${ENV_PREFIX_PATH}
-                 -DCMAKE_TOOLCHAIN_FILE=${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Build
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build -j2 
-
-    - name: Test
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build --target test
-
-  subproject_build:
-    name: Build as Subproject
-    needs: release_build
-    runs-on: ubuntu-latest
-    container:
-        image: dbwy/chemistry
-    
-    steps:
-    - uses: actions/checkout@v4
-
-    - name: Setup Compiler 
-      shell: bash
-      run: $GITHUB_WORKSPACE/.github/workflows/scripts/compiler_setup.sh gnu 12
-
-    - name: CMake Subproject Configure
-      shell: bash
-      run: cmake -S $GITHUB_WORKSPACE/tests/cmake/subproject 
-                 -B ${{runner.workspace}}/cmake_subproject_build 
-                 -DGITHUB_REPOSITORY=$GITHUB_ACTOR/GauXC
-                 -DGIT_REVISION=$GITHUB_HEAD_REF 
-                 -DFETCHCONTENT_SOURCE_DIR_GAUXC=$GITHUB_WORKSPACE
-                 -DCMAKE_PREFIX_PATH=${ENV_PREFIX_PATH}
-                 -DCMAKE_TOOLCHAIN_FILE=${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: CMake Subproject Build
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/cmake_subproject_build -j2
-
-  cmake_discovery:
-    name: CMake Discovery
-    needs: release_build
-    runs-on: ubuntu-latest
-    container:
-        image: dbwy/chemistry
-
-    steps:
-    - uses: actions/checkout@v4
-
-    - name: Setup Compiler
-      shell: bash
-      run: $GITHUB_WORKSPACE/.github/workflows/scripts/compiler_setup.sh gnu 12
-
-    - name: Configure CMake
-      shell: bash
-      run: cmake -S $GITHUB_WORKSPACE -B ${{runner.workspace}}/build
-                 -DCMAKE_INSTALL_PREFIX=${{runner.workspace}}/install
-                 -DCMAKE_PREFIX_PATH=${ENV_PREFIX_PATH}
-                 -DCMAKE_TOOLCHAIN_FILE=${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: Build
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build -j2
-
-    - name: Install
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/build --target install
-
-    - name: CMake Discovery Configure
-      shell: bash
-      run: cmake -S $GITHUB_WORKSPACE/tests/cmake/discovery -B ${{runner.workspace}}/cmake_discovery_build
-                 -DCMAKE_PREFIX_PATH="${{runner.workspace}}/install;${ENV_PREFIX_PATH}"
-                 -DCMAKE_TOOLCHAIN_FILE=${GITHUB_WORKSPACE}/${GH_ACTIONS_TOOLCHAIN}
-
-    - name: CMake Discovery Build
-      shell: bash
-      run: cmake --build ${{runner.workspace}}/cmake_discovery_build -j2
-
-  macos_build:
-    name: macOS Build and Test
-    runs-on: macos-14
-
-    steps:
-    - uses: actions/checkout@v4
-
-    - uses: mamba-org/setup-micromamba@v2
-      with:
-        environment-name: gauxc
-        create-args: >-
-          python=3.11
-          c-compiler
-          cxx-compiler
-          fortran-compiler
-          mpich
-          cmake
-          hdf5
-          openblas
-          ccache
-        init-shell: bash
-        cache-environment: true
-
-    - name: Setup ccache
-      shell: micromamba-shell {0}
-      run: |
-        ccache --set-config=max_size=2G
-        ccache --set-config=compression=true
-        echo "CMAKE_C_COMPILER_LAUNCHER=ccache" >> $GITHUB_ENV
-        echo "CMAKE_CXX_COMPILER_LAUNCHER=ccache" >> $GITHUB_ENV
-
-    - name: Restore ccache
-      uses: actions/cache@v4
-      with:
-        path: ~/.ccache
-        key: ccache-macos-${{ github.sha }}
-        restore-keys: |
-          ccache-macos-
-
-    - name: Build
-      shell: micromamba-shell {0}
-      run: |
-        cmake -S . -B build \
-          -DCMAKE_BUILD_TYPE=Release \
-          -DGAUXC_ENABLE_MPI=ON \
-          -DGAUXC_ENABLE_TESTS=ON \
-          -DBUILD_TESTING=ON \
-          -DCMAKE_POLICY_VERSION_MINIMUM=3.5
-        cmake --build build -j3
-
-    - name: ccache statistics
-      shell: micromamba-shell {0}
-      run: ccache --show-stats
-
-    - name: Test
-      shell: micromamba-shell {0}
-      run: ctest --test-dir build --output-on-failure
diff --git a/third_party/gauxc/.github/workflows/scripts/compiler_setup.sh b/third_party/gauxc/.github/workflows/scripts/compiler_setup.sh
deleted file mode 100755
index 467ed0f..0000000
--- a/third_party/gauxc/.github/workflows/scripts/compiler_setup.sh
+++ /dev/null
@@ -1,28 +0,0 @@
-#!/bin/bash
-
-export CSUITE=$1
-export CVER=$2
-
-if [[ "${CSUITE}" == "llvm" ]]
-then
-  # register the specific clang version as an alternative (needed once per version)
-  update-alternatives --install /usr/bin/clang   clang   /usr/bin/clang-${CVER}   50
-  update-alternatives --install /usr/bin/clang++ clang++ /usr/bin/clang++-${CVER} 50
-  update-alternatives --set clang   /usr/bin/clang-${CVER}
-  update-alternatives --set clang++ /usr/bin/clang++-${CVER}
-  update-alternatives --install /usr/bin/cc  cc  /usr/bin/clang   30
-  update-alternatives --install /usr/bin/c++ c++ /usr/bin/clang++ 30
-elif [[ "${CSUITE}" == "gnu" ]]
-then
-  update-alternatives --set gcc /usr/bin/gcc-${CVER}
-  update-alternatives --set g++ /usr/bin/g++-${CVER}
-  update-alternatives --install /usr/bin/cc  cc  /usr/bin/gcc 30
-  update-alternatives --install /usr/bin/c++ c++ /usr/bin/g++ 30
-else
-  echo "Compiler Suite Not Recognized!"
-  exit 125
-fi
-
-echo "Selected compilers:"
-echo "  cc  -> $(command -v cc)  | $(cc --version | head -1)"
-echo "  c++ -> $(command -v c++) | $(c++ --version | head -1)"
diff --git a/third_party/gauxc/.github/workflows/toolchains/gh-actions.cmake b/third_party/gauxc/.github/workflows/toolchains/gh-actions.cmake
deleted file mode 100644
index 68607d8..0000000
--- a/third_party/gauxc/.github/workflows/toolchains/gh-actions.cmake
+++ /dev/null
@@ -1,5 +0,0 @@
-set( CMAKE_C_COMPILER   cc  )
-set( CMAKE_CXX_COMPILER c++ )
-
-set(CMAKE_CXX_FLAGS_INIT "-march=native")
-set(CMAKE_C_FLAGS_INIT   "-march=native")
diff --git a/third_party/gauxc/.gitignore b/third_party/gauxc/.gitignore
deleted file mode 100644
index be531ab..0000000
--- a/third_party/gauxc/.gitignore
+++ /dev/null
@@ -1,14 +0,0 @@
-*pycache**
-src/xc_integrator/local_work_driver/host/obara_saika/src/*.o
-src/xc_integrator/local_work_driver/host/obara_saika/*.a
-src/xc_integrator/local_work_driver/host/obara_saika/test/*.o
-src/xc_integrator/local_work_driver/host/obara_saika/test/*.x
-src/xc_integrator/local_work_driver/host/obara_saika/generator/integral*
-src/xc_integrator/local_work_driver/host/obara_saika/generator/obara*
-src/xc_integrator/local_work_driver/host/obara_saika/generator/*.x
-*.swp
-
-# Build directories
-build/
-_build/
-cmake-build-*/
diff --git a/third_party/gauxc/CMakeLists.txt b/third_party/gauxc/CMakeLists.txt
deleted file mode 100644
index 0c148a9..0000000
--- a/third_party/gauxc/CMakeLists.txt
+++ /dev/null
@@ -1,132 +0,0 @@
-cmake_minimum_required( VERSION 3.20 FATAL_ERROR )
-
-include(FetchContent)
-set( FETCHCONTENT_UPDATES_DISCONNECTED ON CACHE BOOL "Disable FC Updates" )
-
-project( GauXC VERSION 1.0.0 LANGUAGES C CXX )
-
-# Place local modules in the path
-list( PREPEND CMAKE_MODULE_PATH ${PROJECT_SOURCE_DIR}/cmake )
-list( PREPEND CMAKE_MODULE_PATH ${PROJECT_SOURCE_DIR}/cmake/modules )
-include( gauxc-linalg-modules )
-
-# Guard some options settings to only default when not a subproject
-if(CMAKE_PROJECT_NAME STREQUAL PROJECT_NAME)
-  # Populate BUILD_TESTING prior to dependencies to avoid clash
-  include(CTest)
-
-  # Default the built type
-  if( NOT CMAKE_BUILD_TYPE AND NOT CMAKE_CONFIGURATION_TYPES )
-    set( CMAKE_BUILD_TYPE RelWithDebInfo CACHE STRING "Choose the type of build" FORCE )
-    # Set the possible values of build type for cmake-gui
-    set_property(CACHE CMAKE_BUILD_TYPE PROPERTY STRINGS
-      "Debug" "Release" "MinSizeRel" "RelWithDebInfo")
-  endif()
-endif()
-
-
-
-# GauXC Options
-option( GAUXC_ENABLE_HOST       "Enable Host Integrator"      ON  )
-option( GAUXC_ENABLE_CUDA       "Enable CUDA Bindings"        OFF )
-option( GAUXC_ENABLE_HIP        "Enable HIP Bindings"         OFF )
-option( GAUXC_ENABLE_MPI        "Enable MPI Bindings"         ON  )
-option( GAUXC_ENABLE_OPENMP     "Enable OpenMP Compilation"   ON  )
-option( GAUXC_ENABLE_TESTS      "Enable Unit Tests"           ON  )
-option( GAUXC_ENABLE_GAU2GRID   "Enable Gau2Grid Collocation" ON  )
-option( GAUXC_ENABLE_HDF5       "Enable HDF5 Bindings"        ON  )
-option( GAUXC_ENABLE_ONEDFT     "Enable ONEDFT Functional"    ON )
-option( GAUXC_USE_FAST_RSQRT    "Enable Fast RSQRT"           OFF )
-option( GAUXC_BLAS_PREFER_ILP64 "Prefer ILP64 for host BLAS"  OFF )
-option( GAUXC_LINK_CUDA_STATIC  "Link GauXC with static CUDA libs"  OFF )
-
-include(CMakeDependentOption)
-cmake_dependent_option( GAUXC_ENABLE_MAGMA    
-  "Enable MAGMA Linear Algebra"           ON
-  "GAUXC_ENABLE_CUDA OR GAUXC_ENABLE_HIP" OFF  
-)
-cmake_dependent_option( GAUXC_ENABLE_NCCL 
-  "Enable NCCL Collectives" OFF  
-  "GAUXC_ENABLE_CUDA"       OFF 
-)
-cmake_dependent_option( GAUXC_ENABLE_CUTLASS  
-  "Enable CUTLASS Linear Algebra" OFF  
-  "GAUXC_ENABLE_CUDA"             OFF 
-)
-
-# Default the feature variables
-set( GAUXC_HAS_HOST       FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_CUDA       FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_HIP        FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_MPI        FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_OPENMP     FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_GAU2GRID   FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_HDF5       FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_MAGMA      FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_NCCL       FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_CUTLASS    FALSE CACHE BOOL "" FORCE )
-set( GAUXC_HAS_ONEDFT    FALSE CACHE BOOL "" FORCE )
-set( GAUXC_BLAS_IS_LP64   FALSE CACHE BOOL "" FORCE )
-
-mark_as_advanced( FORCE 
-  GAUXC_HAS_HOST     
-  GAUXC_HAS_CUDA     
-  GAUXC_HAS_HIP      
-  GAUXC_HAS_MPI      
-  GAUXC_HAS_OPENMP   
-  GAUXC_HAS_GAU2GRID 
-  GAUXC_HAS_HDF5     
-  GAUXC_HAS_MAGMA    
-  GAUXC_HAS_NCCL     
-  GAUXC_HAS_CUTLASS  
-  GAUXC_HAS_ONEDFT
-  GAUXC_BLAS_IS_LP64 
-)
-
-
-if( NOT GAUXC_ENABLE_GAU2GRID )
-  message( FATAL_ERROR "Gau2Grid is currently a required dependency which 
-                        will be made optional in a future release of GauXC [WIP]" ) 
-endif()
-
-
-if( GAUXC_ENABLE_HOST ) 
-  set(GAUXC_HAS_HOST TRUE CACHE BOOL "GauXC has Host Bindings" FORCE)
-endif()
-
-if( GAUXC_ENABLE_CUDA )
-  enable_language( CUDA )
-  set( GAUXC_HAS_CUDA TRUE CACHE BOOL "GauXC has CUDA and will build CUDA bindings" FORCE )
-endif()
-
-if( GAUXC_ENABLE_HIP )
-  enable_language( HIP )
-  set( GAUXC_HAS_HIP TRUE CACHE BOOL "GauXC has HIP and will build HIP bindings" FORCE )
-endif()
-
-# Decided if we're compiling device bindings
-if( GAUXC_HAS_CUDA OR GAUXC_HAS_HIP )
-  set( GAUXC_HAS_DEVICE TRUE CACHE BOOL "Enable Device Code" )
-else()
-  set( GAUXC_HAS_DEVICE FALSE CACHE BOOL "Enable Device Code" )
-endif()
-
-
-
-if( NOT (${GAUXC_HAS_HOST} OR ${GAUXC_HAS_DEVICE}) )
-  message( FATAL_ERROR "Neither Host nor Device Integrators have been enabled!" )
-endif()
-
-
-add_subdirectory( src )
-
-if( CMAKE_PROJECT_NAME STREQUAL PROJECT_NAME AND GAUXC_ENABLE_TESTS AND BUILD_TESTING )
-  add_subdirectory( tests )
-endif()
-
-list(REMOVE_AT CMAKE_MODULE_PATH 0)
-list(REMOVE_AT CMAKE_MODULE_PATH 0)
-
-if( linalg-cmake-modules_POPULATED )
-  list(REMOVE_AT CMAKE_MODULE_PATH 0)
-endif()
diff --git a/third_party/gauxc/CODE_OF_CONDUCT.md b/third_party/gauxc/CODE_OF_CONDUCT.md
deleted file mode 100644
index 686e5e7..0000000
--- a/third_party/gauxc/CODE_OF_CONDUCT.md
+++ /dev/null
@@ -1,10 +0,0 @@
-# Microsoft Open Source Code of Conduct
-
-This project has adopted the [Microsoft Open Source Code of Conduct](https://opensource.microsoft.com/codeofconduct/).
-
-Resources:
-
-- [Microsoft Open Source Code of Conduct](https://opensource.microsoft.com/codeofconduct/)
-- [Microsoft Code of Conduct FAQ](https://opensource.microsoft.com/codeofconduct/faq/)
-- Contact [opencode@microsoft.com](mailto:opencode@microsoft.com) with questions or concerns
-- Employees can reach out at [aka.ms/opensource/moderation-support](https://aka.ms/opensource/moderation-support)
diff --git a/third_party/gauxc/CONTRIBUTING.md b/third_party/gauxc/CONTRIBUTING.md
deleted file mode 100644
index ebf23ac..0000000
--- a/third_party/gauxc/CONTRIBUTING.md
+++ /dev/null
@@ -1,14 +0,0 @@
-# Contributing
-
-This project welcomes contributions and suggestions. Most contributions require you to
-agree to a Contributor License Agreement (CLA) declaring that you have the right to,
-and actually do, grant us the rights to use your contribution. For details, visit
-https://cla.microsoft.com.
-
-When you submit a pull request, a CLA-bot will automatically determine whether you need
-to provide a CLA and decorate the PR appropriately (e.g., label, comment). Simply follow the
-instructions provided by the bot. You will only need to do this once across all repositories using our CLA.
-
-This project has adopted the [Microsoft Open Source Code of Conduct](https://opensource.microsoft.com/codeofconduct/).
-For more information see the [Code of Conduct FAQ](https://opensource.microsoft.com/codeofconduct/faq/)
-or contact [opencode@microsoft.com](mailto:opencode@microsoft.com) with any additional questions or comments.
diff --git a/third_party/gauxc/CONTRIBUTORS.md b/third_party/gauxc/CONTRIBUTORS.md
deleted file mode 100644
index 689d4e6..0000000
--- a/third_party/gauxc/CONTRIBUTORS.md
+++ /dev/null
@@ -1,17 +0,0 @@
-# This is the list of GauXC's significant contributors.
-#
-# This does not necessarily list everyone who has contributed code.
-# To see the full list of contributors, see the revision history in
-# source control.
-
-Primary Developer and Maintainer: David Williams--Young - Microsoft (davidwillia at microsoft dot com)
-
-* Thom Popovici (LBNL) 
-* Teri Lambros (UW) 
-* Mikael Kovtun (UW)
-* Daniel Mejia-Rodriguez (PNNL)
-
-* Yingrong Chen (Microsoft)
-* Jiashu Liang (Microsoft)
-* David Clark (NVIDIA)
-* Damon McDougall (AMD)
diff --git a/third_party/gauxc/LICENSE.txt b/third_party/gauxc/LICENSE.txt
deleted file mode 100644
index f2904da..0000000
--- a/third_party/gauxc/LICENSE.txt
+++ /dev/null
@@ -1,46 +0,0 @@
-GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-through Lawrence Berkeley National Laboratory (subject to receipt of
-any required approvals from the U.S. Dept. of Energy).
-
-(c) 2024-2025, Microsoft Corporation
-
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-(1) Redistributions of source code must retain the above copyright notice,
-this list of conditions and the following disclaimer.
-
-(2) Redistributions in binary form must reproduce the above copyright
-notice, this list of conditions and the following disclaimer in the
-documentation and/or other materials provided with the distribution.
-
-(3) Neither the name of the University of California, Lawrence Berkeley
-National Laboratory, U.S. Dept. of Energy nor the names of its contributors
-may be used to endorse or promote products derived from this software
-without specific prior written permission.
-
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
-ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT OWNER OR CONTRIBUTORS BE
-LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR
-CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF
-SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS
-INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
-CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
-ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
-POSSIBILITY OF SUCH DAMAGE.
-
-You are under no obligation whatsoever to provide any bug fixes, patches,
-or upgrades to the features, functionality or performance of the source
-code ("Enhancements") to anyone; however, if you choose to make your
-Enhancements available either publicly, or directly to Lawrence Berkeley
-National Laboratory, without imposing a separate written license agreement
-for such Enhancements, then you hereby grant the following license: a
-non-exclusive, royalty-free perpetual license to install, use, modify,
-prepare derivative works, incorporate into other computer software,
-distribute, and sublicense such enhancements or derivative works thereof,
-in binary and source code form.
diff --git a/third_party/gauxc/NOTICE.md b/third_party/gauxc/NOTICE.md
deleted file mode 100644
index 4fcbf5d..0000000
--- a/third_party/gauxc/NOTICE.md
+++ /dev/null
@@ -1,38 +0,0 @@
-# NOTICES
-
-This repository incorporates material as listed below or described in the code.
-
--------------------------------------------------------------------------------
-gau2grid. 
-
-BSD 3-Clause License
-
-Copyright (c) 2017, Daniel Smith
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice,
-  this list of conditions and the following disclaimer in the documentation
-  and/or other materials provided with the distribution.
-
-* Neither the name of the copyright holder nor the names of its
-  contributors may be used to endorse or promote products derived from
-  this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
--------------------------------------------------------------------------------
-
diff --git a/third_party/gauxc/README.md b/third_party/gauxc/README.md
index 082ac6c..1ebcc86 100644
--- a/third_party/gauxc/README.md
+++ b/third_party/gauxc/README.md
@@ -1,241 +1 @@
-# About
-
-GauXC 
-
-Copyright (c) 2020-2024, The Regents of the University of California,
-through Lawrence Berkeley National Laboratory (subject to receipt of
-any required approvals from the U.S. Dept. of Energy). 
-
-(c) 2024-2025, Microsoft Corporation
-
-All rights reserved.
-
-
-NOTICE.  This Software was developed under funding from the U.S. Department
-of Energy and the U.S. Government consequently retains certain rights.  As
-such, the U.S. Government has been granted for itself and others acting on
-its behalf a paid-up, nonexclusive, irrevocable, worldwide license in the
-Software to reproduce, distribute copies to the public, prepare derivative
-works, and perform publicly and display publicly, and to permit others to do so.
-
-# Synopsis
-
-GauXC is a modern, modular C++ library for the evaluation of quantities related
-to the exchange-correlation (XC) and exact-exchange (K) energy (e.g. potential, etc) in the Gaussian
-basis set discretization of Kohn-Sham density function theory (KS-DFT). GauXC
-provides efficient, scalable distributed memory XC and K integrators for both CPU and
-accelerator-based (GPU) architectures. Currently, GPU support is provided through
-the
-[CUDA](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html) and
-[HIP](https://rocmdocs.amd.com/en/latest/Programming_Guides/HIP-GUIDE.html)
-frameworks to target NVIDIA and AMD GPUs, respectively.
-Evaluation
-of the XC functional CPU/accelerator architectures is provided by the
-[ExchCXX](https://github.com/wavefunction91/ExchCXX) library. Quadratures are generated
-by the [IntegratorXX](https://github.com/wavefunction91/IntegratorXX) library.
-
-# Design Goals
-
-* Provide a stable, portable and high-performance implementation of numerical
-integrators optimized for the evaluation of XC and K related quantities in Gaussian
-basis set KS-DFT on CPU and accelerator based architectures.
-* Develop a modern, modular, extensible C++ software infrastructure which allows
-for flexible and agile development in the field of KS-DFT.
-
-# Dependencies
-
-* CMake (3.20+)
-* BLAS (for CPU integrators)
-* [ExchCXX](https://github.com/wavefunction91/ExchCXX)
-* [IntegratorXX](https://github.com/wavefunction91/IntegratorXX)
-* [Gau2Grid](https://github.com/dgasmith/gau2grid) (pregenerated source packaged with GauXC)
-* MPI (Optional)
-* OpenMP (CPU parallelism, Optional)
-* [Cereal](https://github.com/USCiLab/cereal) (Optional)
-* [HDF5](https://www.hdfgroup.org/solutions/hdf5/) (Optional)
-* [Eigen3](https://eigen.tuxfamily.org/dox/) (Testing Only)
-* [CUDA](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html)/[cuBLAS](https://docs.nvidia.com/cuda/cublas/index.html) (Required only if CUDA enabled)
-* [HIP](https://rocmdocs.amd.com/en/latest/Programming_Guides/HIP-GUIDE.html)/[ROCm](https://github.com/RadeonOpenCompute/ROCm) (Required only if HIP enabled)
-* [MAGMA](https://icl.utk.edu/magma/) (Optional if CUDA/HIP enabled)
-
-# Major Contributors
-
-See CONTRIBUTORS.md for a list of major contributors to GauXC.
-
-# Publications
-
-## GauXC
-Please cite the following publications if GauXC was used in your publication:
-```
-% Relativistic integrals
-@article{kovtun2024relativistic,
-  author = {Kovtun, Mikael and Lambros, Eleftherios and Liu, Aodong and Tang, Diandong and Williams--Young, David B. and Li, Xiaosong},
-  title = {Accelerating Relativistic Exact-Two-Component Density Functional Theory Calculations with Graphical Processing Units},
-  journal = {Journal of Chemical Theory and Computation},
-  volume = {20},
-  number = {18},
-  pages = {7694--7699},
-  year = {2024},
-  doi = {10.1021/acs.jctc.4c00843},
-}
-
-% Distributed Memory Seminumerical Exact Exchange implementation
-@article{williams2023distributed,
-  title = {Distributed memory, GPU accelerated Fock construction for hybrid, Gaussian basis density functional theory},
-  author = {Williams--Young, David B. and Asadchev, Andrey and Popovici, Doru Thom and Clark, David and Waldrop, Jonathan and
-            Windus, Theresa L. and Valeev, Edward F. and de Jong, Wibe A.},
-  journal = {The Journal of Chemical Physics},
-  volume = {158},
-  number = {23},
-  pages = {234104},
-  year = {2023},
-  doi = {10.1063/5.0151070},
-  url = {https://doi.org/10.1063/5.0151070}
-}
-
-% Performance Portability (HIP/SYCL implementations)
-@article{williams2021achieving,
-  title={Achieving performance portability in Gaussian basis set density functional
-         theory on accelerator based architectures in NWChemEx},
-  author={Williams--Young, David B and Bagusetty, Abhishek and de Jong, Wibe A and
-          Doerfler, Douglas and van Dam, Hubertus JJ and V{\'a}zquez-Mayagoitia, {\'A}lvaro and
-          Windus, Theresa L and Yang, Chao},
-  journal={Parallel Computing},
-  volume={108},
-  pages={102829},
-  year={2021},
-  doi={10.1016/j.parco.2021.102829},
-  url={https://www.sciencedirect.com/science/article/pii/S0167819121000776?via%3Dihub}
-}
-
-% CUDA and distributed memory implementation
-@article{williams20on,
-  author={David B. Williams--Young and Wibe A. de Jong and Hubertus J.J. van Dam and
-          Chao Yang},
-  title={On the Efficient Evaluation of the Exchange Correlation Potential on
-         Graphics Processing Unit Clusters},
-  journal={Frontiers in Chemistry},
-  volume={8},
-  pages={581058},
-  year={2020},
-  doi={10.3389/fchem.2020.581058},
-  url={https://www.frontiersin.org/articles/10.3389/fchem.2020.581058/abstract},
-  preprint={https://arxiv.org/abs/2007.03143}
-}
-
-% Algorithm for XC potential assembly and shared-memory CPU implementation
-@article{petrone18an,
-  author={Alessio Petrone and David B. Williams--Young and Shichao Sun and
-          Torin F. Stetina and Xiaosong Li},
-  title={An Efficient Implementation of Two-Component Relativistic Density
-         Functional Theory with Torque-Free Auxiliary Variables},
-  journal={The European Physical Journal B},
-  volume={91},
-  number={169},
-  pages={169},
-  year={2018},
-  doi={10.1140/epjb/e2018-90170-1},
-  url={https://link.springer.com/article/10.1140/epjb/e2018-90170-1}
-}
-```
-
-## Density functionals
-
-If GauXC was used for the evaluation of exchange-correlation related
-quantities in your publication, we request that you also cite
-[Libxc](https://libxc.gitlab.io/) which provides the underlying
-implementation of the exchange-correlation functionals used in GauXC
-via the [ExchCXX](https://github.com/wavefunction91/ExchCXX) library:
-
-```
-% Actual Implementations of the Density Functionals
-@article{lehtola2018libxc,
-  author  = {Lehtola, Susi and Steigemann, Conrad and Oliveira, Micael J. T. and Marques, Miguel A. L.},
-  journal = {SoftwareX},
-  title   = {Recent developments in {LIBXC}---a comprehensive library of functionals for density functional theory},
-  year    = {2018},
-  pages   = {1--5},
-  volume  = {7},
-  doi     = {10.1016/j.softx.2017.11.002},
-}
-```
-
-# Build Instructions
-
-GauXC provides a CMake build system with automatic dependency management (through [FetchContent](https://cmake.org/cmake/help/latest/module/FetchContent.html)).
-As such, a simple CMake invocation will often suffice for most purposes
-```
-cmake -S /path/to/gauxc -B /path/to/build [GauXC configure options]
-cmake --build /path/to/build
-```
-
-
-GauXC is linkable both as an installed library as well as a CMake subproject via `FetchContent`
-```
-# GauXC Discovery
-find_package( gauxc REQUIRED )
-target_link_libraries( my_target PUBLIC gauxc::gauxc )
-```
-
-```
-# GauXC as CMake Subproject
-include(FetchContent)
-
-# Set GauXC CMake options (see below)
-
-# Pull master branch of GauXC
-FetchContent_Declare( gauxc
-  GIT_REPOSITORY https://github/com/wavefunction91/GauXC.git
-  GIT_TAG master
-)
-FetchContent_MakeAvailable( gauxc )
-
-# Link to target
-target_link_libraries( my_target PUBLIC gauxc::gauxc )
-```
-
-
-## Influential CMake Variables
-
-| Variable Name              | Description                                               | Default  |
-|----------------------------|-----------------------------------------------------------|----------|
-| `GAUXC_ENABLE_TESTS`       | Enable Testing Framework (Catch2)                         | `ON`     |
-| `GAUXC_ENABLE_HOST`        | Enable HOST integrators                                   | `ON`     |
-| `GAUXC_ENABLE_CUDA`        | Enable CUDA integrators                                   | `OFF`    |
-| `GAUXC_ENABLE_HIP`         | Enable HIP integrators                                    | `OFF`    |
-| `GAUXC_ENABLE_MAGMA`       | Enable MAGMA for batched BLAS (No effect if no GPU)       | `ON`     |
-| `GAUXC_ENABLE_CUTLASS`     | Enable CUTLASS for batched BLAS (No effect if no CUDA)    | `OFF`    |
-| `GAUXC_ENABLE_NCCL`        | Enable NCCL bindings for topology aware GPU reductions    | `OFF`    |
-| `GAUXC_ENABLE_MPI`         | Enable MPI Bindings                                       | `ON`     |
-| `GAUXC_ENABLE_OPENMP`      | Enable OpenMP Bindings                                    | `ON`     |
-| `CMAKE_CUDA_ARCHITECTURES` | CUDA architechtures (e.g. 70 for Volta, 80 for Ampere)    |  --      |
-| `BLAS_LIBRARIES`           | Full BLAS linker.                                         |  --      |
-| `MAGMA_ROOT_DIR`           | Install prefix for MAGMA.                                 |  --      |
-
-
-
-
-# Example Usage
-
-See `test/standalone_driver.cxx` for an example end-to-end invocation of GauXC for various integrands.
-
-
-# License
-
-GauXC is made freely available under the terms of a modified 3-Clause BSD license. See
-LICENSE.txt for details.
-
-# Acknowledgments
-
-The development of GauXC was previously supported by the Exascale Computing Project
-(17-SC-20-SC), a collaborative effort of the U.S. Department of Energy Office
-of Science and the National Nuclear Security Administration.
-
-##Trademarks 
-
-This project may contain trademarks or logos for projects, products, or
-services. Authorized use of Microsoft trademarks or logos is subject to and
-must follow Microsoft’s Trademark & Brand Guidelines. Use of Microsoft
-trademarks or logos in modified versions of this project must not cause
-confusion or imply Microsoft sponsorship. Any use of third-party trademarks or
-logos are subject to those third-party’s policies.
+The development version of GauXC with added support for Skala was moved to the `skala` branch of the main GauXC repo at https://github.com/wavefunction91/GauXC/tree/skala.
diff --git a/third_party/gauxc/SECURITY.md b/third_party/gauxc/SECURITY.md
deleted file mode 100644
index 656f791..0000000
--- a/third_party/gauxc/SECURITY.md
+++ /dev/null
@@ -1,14 +0,0 @@
-<!-- BEGIN MICROSOFT SECURITY.MD V1.0.0 BLOCK -->
-
-## Security
-
-Microsoft takes the security of our software products and services seriously, which
-includes all source code repositories in our GitHub organizations.
-
-**Please do not report security vulnerabilities through public GitHub issues.**
-
-For security reporting information, locations, contact information, and policies,
-please review the latest guidance for Microsoft repositories at
-[https://aka.ms/SECURITY.md](https://aka.ms/SECURITY.md).
-
-<!-- END MICROSOFT SECURITY.MD BLOCK -->
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/impl.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/impl.hpp
deleted file mode 100644
index f297dc9..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/impl.hpp
+++ /dev/null
@@ -1,32 +0,0 @@
-#pragma once
-
-#include <gauxc/oop_xc_integrator/xc_integrator_impl.hpp>
-
-namespace GauXC {
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::XCIntegrator( std::unique_ptr<pimpl_type>&& pimpl ) :
-  pimpl_( std::move( pimpl ) ) { }
-
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::~XCIntegrator() noexcept = default;
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::XCIntegrator(XCIntegrator&&) noexcept = default;
-
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_vxc_type
-  XCIntegrator<MatrixType>::eval_exc_vxc( const MatrixType& P ) {
-  if( not pimpl_ ) throw std::runtime_error("Not Initialized");
-  return pimpl_->eval_exc_vxc(P);
-};
-
-template <typename MatrixType>
-const util::Timer& XCIntegrator<MatrixType>::get_timings() const {
-  if( not pimpl_ ) throw std::runtime_error("Not Initialized");
-
-  return pimpl_->get_timings();
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/integrator_factory.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/integrator_factory.hpp
deleted file mode 100644
index 18cf57a..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/integrator_factory.hpp
+++ /dev/null
@@ -1,44 +0,0 @@
-#pragma once
-
-#include <gauxc/new_xc_integrator/impl.hpp>
-#include <gauxc/new_xc_integrator/replicated/impl.hpp>
-#include <gauxc/new_xc_integrator/replicated/reference_xc_host_integrator.hpp>
-#include <gauxc/new_xc_integrator/replicated/incore_xc_device_integrator.hpp>
-#include <gauxc/new_xc_integrator/replicated/shellbatched_xc_device_integrator.hpp>
-
-#include <gauxc/util/forward_as_shared_ptr.hpp>
-
-namespace GauXC {
-
-template <typename MatrixType, typename... Args>
-XCIntegrator<MatrixType>
-  make_default_integrator( ExecutionSpace ex, Args&&... args ) {
-
-  using value_type = typename XCIntegrator<MatrixType>::value_type;
-
-  if( ex == ExecutionSpace::Host ) {
-
-    return XCIntegrator<MatrixType>(
-      std::make_unique<detail::ReplicatedXCIntegrator<MatrixType>>(
-        detail::make_reference_host_integrator_impl<value_type>( 
-          detail::forward_as_shared_ptr(args)... 
-        )
-      )
-    );
-
-  } else {
-
-    return XCIntegrator<MatrixType>(
-      std::make_unique<detail::ReplicatedXCIntegrator<MatrixType>>(
-        detail::make_incore_device_integrator_impl<value_type>( 
-        //detail::make_shellbatched_device_integrator_impl<value_type>( 
-          detail::forward_as_shared_ptr(args)... 
-        )
-      )
-    );
-
-  }
-
-}
-
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/impl.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/impl.hpp
deleted file mode 100644
index 51ba869..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/impl.hpp
+++ /dev/null
@@ -1,47 +0,0 @@
-#pragma once
-
-#include <gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::
-  ReplicatedXCIntegrator( std::unique_ptr<pimpl_type>&& pimpl ) : 
-    pimpl_(std::move(pimpl)){ }
-
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::ReplicatedXCIntegrator(): 
-  ReplicatedXCIntegrator(nullptr){ }
-
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::~ReplicatedXCIntegrator() noexcept = default; 
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::
-  ReplicatedXCIntegrator(ReplicatedXCIntegrator&&) noexcept = default; 
-
-template <typename MatrixType>
-const util::Timer& ReplicatedXCIntegrator<MatrixType>::get_timings_() const {
-  if( not pimpl_ ) throw std::runtime_error( "Not Initialized" );
-  return pimpl_->get_timings();
-}
-
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_vxc_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& P ) {
-
-  matrix_type VXC( P.rows(), P.cols() );
-  value_type  EXC;
-
-  if( not pimpl_ ) throw std::runtime_error( "Not Initialized" );
-  pimpl_->eval_exc_vxc( P.rows(), P.cols(), P.data(), P.rows(),
-                        VXC.data(), VXC.rows(), &EXC );
-
-  return std::make_tuple( EXC, VXC );
-
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/incore_xc_device_integrator.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/incore_xc_device_integrator.hpp
deleted file mode 100644
index bc27141..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/incore_xc_device_integrator.hpp
+++ /dev/null
@@ -1,59 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-#ifdef GAUXC_ENABLE_DEVICE
-template <typename ValueType>
-class IncoreXCDeviceIntegrator : public ReplicatedXCIntegratorImpl<ValueType> {
-
-  using base_type  = ReplicatedXCIntegratorImpl<ValueType>;
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  XCIntegratorState state_; 
-
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp, value_type* VXC, int64_t ldvxc,
-                      value_type* EXC ) override;
-
-public:
-
-  template <typename... Args>
-  IncoreXCDeviceIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  IncoreXCDeviceIntegrator( const IncoreXCDeviceIntegrator& );
-  IncoreXCDeviceIntegrator( IncoreXCDeviceIntegrator&& ) noexcept;
-
-  ~IncoreXCDeviceIntegrator() noexcept;
-
-};
-
-extern template class IncoreXCDeviceIntegrator<double>;
-#endif
-
-
-template <typename ValueType, typename... Args>
-std::unique_ptr< ReplicatedXCIntegratorImpl<ValueType> >
-  make_incore_device_integrator_impl( Args&&... args ) {
-
-#ifdef GAUXC_ENABLE_DEVICE
-  return std::make_unique<IncoreXCDeviceIntegrator<ValueType>>(
-    std::forward<Args>(args)...
-  );
-#else
-  std::string msg = std::string(__PRETTY_FUNCTION__)  + 
-	            ": GAUXC_ENABLE_DEVICE = FALSE";
-  throw std::runtime_error(msg.c_str());
-  return nullptr;
-#endif
-
-}
-
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/reference_xc_host_integrator.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/reference_xc_host_integrator.hpp
deleted file mode 100644
index 46dbc75..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/reference_xc_host_integrator.hpp
+++ /dev/null
@@ -1,57 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-#ifdef GAUXC_ENABLE_HOST
-template <typename ValueType>
-class ReferenceXCHostIntegrator : public ReplicatedXCIntegratorImpl<ValueType> {
-
-  using base_type  = ReplicatedXCIntegratorImpl<ValueType>;
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  XCIntegratorState state_; 
-
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp, value_type* VXC, int64_t ldvxc,
-                      value_type* EXC ) override;
-
-public:
-
-  template <typename... Args>
-  ReferenceXCHostIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  ReferenceXCHostIntegrator( const ReferenceXCHostIntegrator& );
-  ReferenceXCHostIntegrator( ReferenceXCHostIntegrator&& ) noexcept;
-
-  ~ReferenceXCHostIntegrator() noexcept;
-
-};
-
-extern template class ReferenceXCHostIntegrator<double>;
-#endif
-
-
-template <typename ValueType, typename... Args>
-std::unique_ptr< ReplicatedXCIntegratorImpl<ValueType> >
-  make_reference_host_integrator_impl( Args&&... args ) {
-
-#ifdef GAUXC_ENABLE_HOST
-  return std::make_unique<ReferenceXCHostIntegrator<ValueType>>(
-    std::forward<Args>(args)...
-  );
-#else
-  throw std::runtime_error(__PRETTY_FUNCTION__ ": GAUXC_ENABLE_HOST = FALSE");
-  return nullptr;
-#endif
-
-}
-
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp
deleted file mode 100644
index 0cdae2b..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp
+++ /dev/null
@@ -1,66 +0,0 @@
-#pragma once
-
-#include <gauxc/new_xc_integrator/replicated_xc_integrator.hpp>
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-class ReplicatedXCIntegratorImpl {
-
-public:
-
-  using value_type = ValueType;
-  using basis_type = BasisSet< value_type >;
-
-protected:
-
-#ifdef GAUXC_ENABLE_MPI
-  MPI_Comm comm_;
-#endif
-
-  std::shared_ptr< functional_type > func_;
-  std::shared_ptr< basis_type >      basis_;
-
-  std::shared_ptr< LoadBalancer >    load_balancer_;
-
-  util::Timer timer_;
-
-
-  virtual void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                              int64_t ldp, value_type* VXC, int64_t ldvxc,
-                              value_type* EXC ) = 0;
-public:
-
-#ifdef GAUXC_ENABLE_MPI
-
-  ReplicatedXCIntegratorImpl( MPI_Comm comm,
-                              std::shared_ptr< functional_type > func,
-                              std::shared_ptr< basis_type >      basis,
-                              std::shared_ptr< LoadBalancer >    lb );
-
-#else
-
-  ReplicatedXCIntegratorImpl( std::shared_ptr< functional_type > func,
-                              std::shared_ptr< basis_type >      basis,
-                              std::shared_ptr< LoadBalancer >    lb );
-
-#endif
-
-  virtual ~ReplicatedXCIntegratorImpl() noexcept;
-
-  void eval_exc_vxc( int64_t m, int64_t n, const value_type* P,
-                     int64_t ldp, value_type* VXC, int64_t ldvxc,
-                     value_type* EXC ); 
-
-  inline const util::Timer& get_timings() const { return timer_; }
-
-};
-
-
-extern template class ReplicatedXCIntegratorImpl<double>;
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/shellbatched_xc_device_integrator.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/shellbatched_xc_device_integrator.hpp
deleted file mode 100644
index a17f8ff..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated/shellbatched_xc_device_integrator.hpp
+++ /dev/null
@@ -1,59 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-#ifdef GAUXC_ENABLE_DEVICE
-template <typename ValueType>
-class ShellBatchedXCDeviceIntegrator : public ReplicatedXCIntegratorImpl<ValueType> {
-
-  using base_type  = ReplicatedXCIntegratorImpl<ValueType>;
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  XCIntegratorState state_; 
-
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp, value_type* VXC, int64_t ldvxc,
-                      value_type* EXC ) override;
-
-public:
-
-  template <typename... Args>
-  ShellBatchedXCDeviceIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  ShellBatchedXCDeviceIntegrator( const ShellBatchedXCDeviceIntegrator& );
-  ShellBatchedXCDeviceIntegrator( ShellBatchedXCDeviceIntegrator&& ) noexcept;
-
-  ~ShellBatchedXCDeviceIntegrator() noexcept;
-
-};
-
-extern template class ShellBatchedXCDeviceIntegrator<double>;
-#endif
-
-
-template <typename ValueType, typename... Args>
-std::unique_ptr< ReplicatedXCIntegratorImpl<ValueType> >
-  make_shellbatched_device_integrator_impl( Args&&... args ) {
-
-#ifdef GAUXC_ENABLE_DEVICE
-  return std::make_unique<ShellBatchedXCDeviceIntegrator<ValueType>>(
-    std::forward<Args>(args)...
-  );
-#else
-  std::string msg = std::string(__PRETTY_FUNCTION__)  + 
-	            ": GAUXC_ENABLE_DEVICE = FALSE";
-  throw std::runtime_error(msg.c_str());
-  return nullptr;
-#endif
-
-}
-
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated_xc_integrator.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated_xc_integrator.hpp
deleted file mode 100644
index 548227c..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/replicated_xc_integrator.hpp
+++ /dev/null
@@ -1,42 +0,0 @@
-#pragma once
-
-#include <gauxc/new_xc_integrator/xc_integrator_impl.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-class ReplicatedXCIntegratorImpl;
-
-template <typename MatrixType>
-class ReplicatedXCIntegrator : public XCIntegratorImpl<MatrixType> {
-
-public:
-
-  using matrix_type   = typename XCIntegratorImpl<MatrixType>::matrix_type;
-  using value_type    = typename XCIntegratorImpl<MatrixType>::value_type;
-  using exc_vxc_type  = typename XCIntegratorImpl<MatrixType>::exc_vxc_type;
-
-private:
-
-  using pimpl_type = ReplicatedXCIntegratorImpl<value_type>;
-  std::unique_ptr< pimpl_type > pimpl_;
-
-  exc_vxc_type eval_exc_vxc_( const MatrixType& ) override;
-  const util::Timer& get_timings_() const override;
-
-public:
-
-  ReplicatedXCIntegrator();
-  ReplicatedXCIntegrator( std::unique_ptr<pimpl_type>&& );
-
-  ~ReplicatedXCIntegrator() noexcept;
-
-  ReplicatedXCIntegrator( const ReplicatedXCIntegrator& ) = delete;
-  ReplicatedXCIntegrator( ReplicatedXCIntegrator&& ) noexcept;
-
-};
-
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/xc_integrator_impl.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/xc_integrator_impl.hpp
deleted file mode 100644
index 09af24d..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/xc_integrator_impl.hpp
+++ /dev/null
@@ -1,41 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename MatrixType>
-class XCIntegratorImpl {
-
-public:
-
-  using matrix_type   = MatrixType;
-  using value_type    = typename matrix_type::value_type;
-  using exc_vxc_type  = typename XCIntegrator<MatrixType>::exc_vxc_type;
-
-protected:
-
-  virtual exc_vxc_type eval_exc_vxc_( const MatrixType& ) = 0;
-  virtual const util::Timer& get_timings_() const = 0;
-  
-public:
-
-  XCIntegratorImpl()                                   = default;
-  XCIntegratorImpl( const XCIntegratorImpl& )          = default;
-  XCIntegratorImpl( XCIntegratorImpl&&      ) noexcept = default;
-  virtual ~XCIntegratorImpl()                 noexcept = default;
-
-
-  exc_vxc_type eval_exc_vxc( const MatrixType& P ) {
-    return eval_exc_vxc_(P);
-  }
-
-  const util::Timer& get_timings() const {
-    return get_timings_();
-  }
-
-};
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/xc_integrator_state.hpp b/third_party/gauxc/attic/include/gauxc/new_xc_integrator/xc_integrator_state.hpp
deleted file mode 100644
index 4bc2113..0000000
--- a/third_party/gauxc/attic/include/gauxc/new_xc_integrator/xc_integrator_state.hpp
+++ /dev/null
@@ -1,10 +0,0 @@
-#pragma once
-
-namespace GauXC {
-
-struct XCIntegratorState {
-  bool load_balancer_populated     = false;
-  bool modified_weights_are_stored = false;
-};
-
-}
diff --git a/third_party/gauxc/attic/include/gauxc/util/forward_as_shared_ptr.hpp b/third_party/gauxc/attic/include/gauxc/util/forward_as_shared_ptr.hpp
deleted file mode 100644
index 44959df..0000000
--- a/third_party/gauxc/attic/include/gauxc/util/forward_as_shared_ptr.hpp
+++ /dev/null
@@ -1,38 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <memory>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename T>
-std::shared_ptr<std::decay_t<T>> forward_as_shared_ptr( const T& t ) {
-  return std::make_shared<std::decay_t<T>>( t );
-}
-
-//template <typename T>
-//std::shared_ptr<std::decay_t<T>> forward_as_shared_ptr( T& t ) {
-//  std::cout << "Resolving Ref Copy Forward" << std::endl;
-//  return std::make_shared<std::decay_t<T>>( t );
-//}
-//
-//template <typename T>
-//std::shared_ptr<std::decay_t<T>> forward_as_shared_ptr( T&& t ) {
-//  std::cout << "Resolving Move Forward" << std::endl;
-//  return std::make_shared<std::decay_t<T>>( std::move(t) );
-//}
-
-template <typename T>
-std::shared_ptr<T> forward_as_shared_ptr( std::shared_ptr<T> ptr ) {
-  return ptr;
-}
-
-// Disable forward for MPI_Comm
-#ifdef GAUXC_ENABLE_MPI
-MPI_Comm forward_as_shared_ptr( MPI_Comm comm ) {
-  return comm;
-}
-#endif
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/impl.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/impl.hpp
deleted file mode 100644
index 10b7a4f..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/impl.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-
-namespace GauXC {
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::XCIntegrator( std::unique_ptr<pimpl_type>&& pimpl ) :
-  pimpl_( std::move( pimpl ) ) { }
-
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::~XCIntegrator() noexcept = default;
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::XCIntegrator(XCIntegrator&&) noexcept = default;
-
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_vxc_type
-  XCIntegrator<MatrixType>::eval_exc_vxc( const MatrixType& P ) {
-  if( not pimpl_ ) throw std::runtime_error("Not Initialized");
-
-  return pimpl_->eval_exc_vxc(P);
-};
-
-template <typename MatrixType>
-const util::Timer& XCIntegrator<MatrixType>::get_timings() const {
-  if( not pimpl_ ) throw std::runtime_error("Not Initialized");
-
-  return pimpl_->get_timings();
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/incore_xc_cuda_integrator.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/incore_xc_cuda_integrator.hpp
deleted file mode 100644
index 3cdfa94..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/incore_xc_cuda_integrator.hpp
+++ /dev/null
@@ -1,210 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/xc_integrator/xc_integrator_impl.hpp>
-#include <gauxc/xc_integrator/xc_cuda_data.hpp>
-#include <gauxc/xc_integrator/xc_cuda_util.hpp>
-#include <gauxc/util/nccl_util.hpp>
-
-#ifdef GAUXC_ENABLE_CUDA
-namespace GauXC  {
-namespace detail {
-
-using namespace GauXC::integrator::cuda;
-
-
-template <typename MatrixType>
-class IncoreXCCudaIntegrator : public XCIntegratorImpl<MatrixType> {
-
-  using base_type     = XCIntegratorImpl<MatrixType>;
-  using matrix_type   = typename base_type::matrix_type;
-  using value_type    = typename base_type::value_type;
-  using basisset_type = typename base_type::basisset_type;
-  using exc_vxc_type  = typename base_type::exc_vxc_type;
-    
-  std::shared_ptr< XCCudaData< value_type > > cuda_data_;
-#ifdef GAUXC_ENABLE_NCCL
-  std::unique_ptr<util::nccl_comm>            nccl_comm_;
-#endif
-
-  exc_vxc_type eval_exc_vxc_( const MatrixType& ) override; 
-
-public:
-
-  template <typename... Args>
-  IncoreXCCudaIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { 
-#ifdef GAUXC_ENABLE_NCCL
-    nccl_comm_ = std::make_unique< util::nccl_comm >( this->comm_ );
-#endif
-    }
-
-  IncoreXCCudaIntegrator( const IncoreXCCudaIntegrator& ) = default;
-  IncoreXCCudaIntegrator( IncoreXCCudaIntegrator&& ) noexcept = default;
-
-  ~IncoreXCCudaIntegrator() noexcept = default;
-
-};
-
-
-
-
-template <typename MatrixType>
-typename IncoreXCCudaIntegrator<MatrixType>::exc_vxc_type 
-  IncoreXCCudaIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& P ) {
-
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Initialize MAGMA
-  {
-    auto ierr = magma_init();
-    GAUXC_MAGMA_ERROR( "MAGMA Init Failed", ierr );
-  }
-#endif
-
-#ifdef GAUXC_ENABLE_MPI
-  int32_t device_count, cur_device;
-  cudaGetDeviceCount( &device_count );
-  cudaGetDevice( &cur_device );
- 
-  int32_t world_rank, world_size;
-  MPI_Comm_rank( this->comm_, &world_rank );
-  MPI_Comm_size( this->comm_, &world_size );
-
-
-/* XXX: Does not work on Summit
-  MPI_Comm node_comm;
-  MPI_Comm_split_type(this->comm_, MPI_COMM_TYPE_SHARED, 0,
-                      MPI_INFO_NULL, &node_comm);
-
-  int32_t node_rank, node_size;
-  MPI_Comm_rank( node_comm, &node_rank );
-  MPI_Comm_size( node_comm, &node_size );
-
-  if( node_size > device_count )
-    throw std::runtime_error("GauXC + CUDA Assumes MPI <-> GPU is 1-to-1");
-
-  cudaSetDevice( node_rank );
-*/
-#endif
-
-
-  size_t nbf     = this->basis_->nbf();
-  size_t nshells = this->basis_->size();
-
-  //// TODO: Check that P is sane
-
-
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  //size_t max_npts       = this->load_balancer_->max_npts();
-  //size_t max_nbe        = this->load_balancer_->max_nbe();
-  //size_t max_npts_x_nbe = this->load_balancer_->max_npts_x_nbe();
-
-  size_t n_deriv = this->func_->is_gga() ? 1 : 0;
-
-  this->timer_.time_op("XCIntegrator.CUDAAlloc", [&](){
-
-    // Allocate Memory
-    cuda_data_ = std::make_shared<XCCudaData<value_type>>( );
-
-    // Partition out static memory segments for incore algorithm
-    cuda_data_->allocate_static_data( 
-      this->load_balancer_->molecule().size(),
-      n_deriv,
-      nbf,
-      nshells
-    );
-
-  });
-
-  // Results
-  matrix_type VXC( nbf, nbf );
-  value_type  EXC, N_EL;
-
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-
-    // Compute Local contributions to EXC / VXC
-    process_batches_cuda_replicated_density_incore_p< value_type>(
-      n_deriv, XCWeightAlg::SSF, *this->func_, *this->basis_,
-      this->load_balancer_->molecule(), this->load_balancer_->molmeta(),
-      *cuda_data_, tasks.begin(), tasks.end(), P.data(), 
-      VXC.data(), &EXC, &N_EL 
-    );
-
-  } );
-
-  // If we are not using NCCL then data transfer happens before reduction
-#ifndef GAUXC_ENABLE_NCCL
-  this->timer_.time_op("XCIntegrator.CUDADtoHTransfer", [&](){
-    device_transfer(*cuda_data_, VXC.data(), &EXC, &N_EL);
-  } );
-#endif
-
-#ifdef GAUXC_ENABLE_MPI
-
-  if( world_size > 1 ) {
-
-    this->timer_.time_op("XCIntegrator.AllReduce", [&]() {
-
-#ifdef GAUXC_ENABLE_NCCL
-      device_allreduce< value_type>(*nccl_comm_, *cuda_data_);
-#else
-      // Test of communicator is an inter-communicator
-      // XXX: Can't think of a case when this would be true, but who knows...
-      int inter_flag;
-      MPI_Comm_test_inter( this->comm_, &inter_flag );
-
-      // Is Intra-communicator, Allreduce can be done inplace
-      if( not inter_flag ) {
-
-        MPI_Allreduce( MPI_IN_PLACE, VXC.data(), nbf*nbf, MPI_DOUBLE,
-                       MPI_SUM, this->comm_ );
-        MPI_Allreduce( MPI_IN_PLACE, &EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-        MPI_Allreduce( MPI_IN_PLACE, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-      // Isn't Intra-communicator (weird), Allreduce can't be done inplace
-      } else {
-
-        matrix_type VXC_cpy = VXC;
-        value_type EXC_cpy = EXC, N_EL_cpy = N_EL;
-
-        MPI_Allreduce( VXC_cpy.data(), VXC.data(), nbf*nbf, MPI_DOUBLE,
-                       MPI_SUM, this->comm_ );
-        MPI_Allreduce( &EXC_cpy,  &EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-        MPI_Allreduce( &N_EL_cpy, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-      }
-#endif
-    } );
-
-  }
-
-#endif
-
-  // If we are using NCCL then data transfer happens after reduction
-#ifdef GAUXC_ENABLE_NCCL
-  this->timer_.time_op("XCIntegrator.CUDADtoHTransfer", [&](){
-    device_transfer(*cuda_data_, VXC.data(), &EXC, &N_EL);
-  } );
-#endif
-
-
-  this->timer_.time_op("XCIntegrator.CUDAFree", [&](){
-    cuda_data_.reset(); // Free up CUDA memory
-  } );
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Finalize MAGMA
-  {
-    auto ierr = magma_finalize();
-    GAUXC_MAGMA_ERROR( "MAGMA Finalize Failed", ierr );
-  }
-#endif
-
-  return exc_vxc_type{EXC, std::move(VXC)};
-
-} 
-
-}
-}
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/integrator_defaults.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/integrator_defaults.hpp
deleted file mode 100644
index c6fcb76..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/integrator_defaults.hpp
+++ /dev/null
@@ -1,39 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator/reference_xc_host_integrator.hpp>
-#include <gauxc/xc_integrator/incore_xc_cuda_integrator.hpp>
-#include <gauxc/xc_integrator/shellbatched_xc_cuda_integrator.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename MatrixType>
-using DefaultXCHostIntegrator = ReferenceXCHostIntegrator<MatrixType>;
-
-template <typename MatrixType>
-//using DefaultXCCudaIntegrator = IncoreXCCudaIntegrator<MatrixType>;
-using DefaultXCCudaIntegrator = ShellBatchedXCCudaIntegrator<MatrixType>;
-
-
-#ifdef GAUXC_ENABLE_HOST
-template <typename MatrixType, typename... Args>
-std::unique_ptr<XCIntegratorImpl<MatrixType>> 
-  make_default_host_integrator( Args&&... args ) {
-    return std::make_unique<DefaultXCHostIntegrator<MatrixType>>( 
-      std::forward<Args>(args)... 
-    );
-}
-#endif
-
-#ifdef GAUXC_ENABLE_CUDA
-template <typename MatrixType, typename... Args>
-std::unique_ptr<XCIntegratorImpl<MatrixType>> 
-  make_default_cuda_integrator( Args&&... args ) {
-  return std::make_unique<DefaultXCCudaIntegrator<MatrixType>>( 
-    std::forward<Args>(args)...
-  );
-}
-#endif
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/integrator_factory.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/integrator_factory.hpp
deleted file mode 100644
index 890d766..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/integrator_factory.hpp
+++ /dev/null
@@ -1,53 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator/integrator_defaults.hpp>
-#include <gauxc/util/forward_as_shared_ptr.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-
-template <typename MatrixType, typename... Args>
-std::unique_ptr<XCIntegratorImpl<MatrixType>> 
-  default_integrator_factory( ExecutionSpace ex, Args&&... args ) {
-  
-  if( ex == ExecutionSpace::Host ) {
-
-#ifdef GAUXC_ENABLE_HOST
-    return make_default_host_integrator<MatrixType>( 
-      forward_as_shared_ptr(args)... 
-    );
-#else
-    throw std::runtime_error("GAUXC_ENABLE_HOST is FALSE");
-    return nullptr;
-#endif
-
-  } else {
-
-#ifdef GAUXC_ENABLE_CUDA
-    return make_default_cuda_integrator<MatrixType>( forward_as_shared_ptr(args)... );
-#else
-    throw std::runtime_error("GAUXC_ENABLE_DEVICE is FALSE");
-    return nullptr;
-#endif
-
-  }
-}
-
-}
-
-
-template <typename MatrixType, typename... Args>
-XCIntegrator<MatrixType>
-  make_default_integrator( ExecutionSpace ex, Args&&... args ) {
-
-  return XCIntegrator<MatrixType>(
-    detail::default_integrator_factory<MatrixType>( ex, 
-      std::forward<Args>(args)... 
-    )
-  );
-
-}
-
-
-}
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/reference_xc_host_integrator.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/reference_xc_host_integrator.hpp
deleted file mode 100644
index 6080c92..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/reference_xc_host_integrator.hpp
+++ /dev/null
@@ -1,128 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/xc_integrator/xc_integrator_impl.hpp>
-#include <gauxc/xc_integrator/xc_host_data.hpp>
-#include <gauxc/xc_integrator/xc_host_util.hpp>
-
-#ifdef GAUXC_ENABLE_HOST
-namespace GauXC  {
-namespace detail {
-
-using namespace GauXC::integrator::host;
-
-
-template <typename MatrixType>
-class ReferenceXCHostIntegrator : public XCIntegratorImpl<MatrixType> {
-
-  using base_type     = XCIntegratorImpl<MatrixType>;
-  using matrix_type   = typename base_type::matrix_type;
-  using value_type    = typename base_type::value_type;
-  using basisset_type = typename base_type::basisset_type;
-  using exc_vxc_type  = typename base_type::exc_vxc_type;
-    
-  std::shared_ptr< XCHostData< value_type > > host_data_;
-
-  exc_vxc_type eval_exc_vxc_( const MatrixType& ) override; 
-
-public:
-
-  template <typename... Args>
-  ReferenceXCHostIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  ReferenceXCHostIntegrator( const ReferenceXCHostIntegrator& ) = default;
-  ReferenceXCHostIntegrator( ReferenceXCHostIntegrator&& ) noexcept = default;
-
-  ~ReferenceXCHostIntegrator() noexcept = default;
-
-};
-
-
-
-
-template <typename MatrixType>
-typename ReferenceXCHostIntegrator<MatrixType>::exc_vxc_type 
-  ReferenceXCHostIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& P ) {
-
-  size_t nbf = this->basis_->nbf();
-
-  //// TODO: Check that P is sane
-
-
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  size_t max_npts       = this->load_balancer_->max_npts();
-  size_t max_nbe        = this->load_balancer_->max_nbe();
-  size_t max_npts_x_nbe = this->load_balancer_->max_npts_x_nbe();
-
-  size_t n_deriv = this->func_->is_gga() ? 1 : 0;
-
-  // Allocate Memory
-  host_data_ = std::make_shared<XCHostData<value_type>>( 
-    n_deriv, nbf, max_npts, max_npts_x_nbe 
-  );
-
-
-  // Results
-  matrix_type VXC( nbf, nbf );
-  value_type  EXC, N_EL;
-
-  // Compute Local contributions to EXC / VXC
-  process_batches_host_replicated_p< value_type>(
-    n_deriv, this->integrator_state_, XCWeightAlg::SSF, *this->func_, 
-    *this->basis_, this->load_balancer_->molecule(), 
-    this->load_balancer_->molmeta(), *host_data_, tasks, P.data(), 
-    VXC.data(), &EXC, &N_EL 
-  );
-
-  // Update State of Integrator
-  this->integrator_state_.load_balancer_populated     = true;
-  this->integrator_state_.modified_weights_are_stored = true;
-
-            
-#ifdef GAUXC_ENABLE_MPI
-
-  int world_size;
-  MPI_Comm_size( this->comm_, &world_size );
-
-  if( world_size > 1 ) {
-
-    // Test of communicator is an inter-communicator
-    // XXX: Can't think of a case when this would be true, but who knows...
-    int inter_flag;
-    MPI_Comm_test_inter( this->comm_, &inter_flag );
-
-    // Is Intra-communicator, Allreduce can be done inplace
-    if( not inter_flag ) {
-
-      MPI_Allreduce( MPI_IN_PLACE, VXC.data(), nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, &EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-    // Isn't Intra-communicator (weird), Allreduce can't be done inplace
-    } else {
-
-      matrix_type VXC_cpy = VXC;
-      value_type EXC_cpy = EXC, N_EL_cpy = N_EL;
-
-      MPI_Allreduce( VXC_cpy.data(), VXC.data(), nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( &EXC_cpy,  &EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( &N_EL_cpy, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      
-
-    }
-
-  }
-
-#endif
-
-
-  return exc_vxc_type{EXC, std::move(VXC)};
-
-} 
-
-}
-}
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/shellbatched_xc_cuda_integrator.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/shellbatched_xc_cuda_integrator.hpp
deleted file mode 100644
index 2b2551a..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/shellbatched_xc_cuda_integrator.hpp
+++ /dev/null
@@ -1,176 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/xc_integrator/xc_integrator_impl.hpp>
-#include <gauxc/xc_integrator/xc_cuda_data.hpp>
-#include <gauxc/xc_integrator/xc_cuda_util.hpp>
-
-#ifdef GAUXC_ENABLE_CUDA
-namespace GauXC  {
-namespace detail {
-
-using namespace GauXC::integrator::cuda;
-
-
-template <typename MatrixType>
-class ShellBatchedXCCudaIntegrator : public XCIntegratorImpl<MatrixType> {
-
-  using base_type     = XCIntegratorImpl<MatrixType>;
-  using matrix_type   = typename base_type::matrix_type;
-  using value_type    = typename base_type::value_type;
-  using basisset_type = typename base_type::basisset_type;
-  using exc_vxc_type  = typename base_type::exc_vxc_type;
-    
-  std::shared_ptr< XCCudaData< value_type > > cuda_data_;
-
-  exc_vxc_type eval_exc_vxc_( const MatrixType& ) override; 
-
-public:
-
-  template <typename... Args>
-  ShellBatchedXCCudaIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  ShellBatchedXCCudaIntegrator( const ShellBatchedXCCudaIntegrator& ) = default;
-  ShellBatchedXCCudaIntegrator( ShellBatchedXCCudaIntegrator&& ) noexcept = default;
-
-  ~ShellBatchedXCCudaIntegrator() noexcept = default;
-
-};
-
-
-
-
-template <typename MatrixType>
-typename ShellBatchedXCCudaIntegrator<MatrixType>::exc_vxc_type 
-  ShellBatchedXCCudaIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& P ) {
-
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Initialize MAGMA
-  {
-    auto ierr = magma_init();
-    GAUXC_MAGMA_ERROR( "MAGMA Init Failed", ierr );
-  }
-#endif
-
-#ifdef GAUXC_ENABLE_MPI
-  int32_t device_count, cur_device;
-  cudaGetDeviceCount( &device_count );
-  cudaGetDevice( &cur_device );
- 
-  int32_t world_rank, world_size;
-  MPI_Comm_rank( this->comm_, &world_rank );
-  MPI_Comm_size( this->comm_, &world_size );
-
-/* XXX: Does not work on Summit
-  MPI_Comm node_comm;
-  MPI_Comm_split_type(this->comm_, MPI_COMM_TYPE_SHARED, 0,
-                      MPI_INFO_NULL, &node_comm);
-
-  int32_t node_rank, node_size;
-  MPI_Comm_rank( node_comm, &node_rank );
-  MPI_Comm_size( node_comm, &node_size );
-
-  if( node_size > device_count )
-    throw std::runtime_error("GauXC + CUDA Assumes MPI <-> GPU is 1-to-1");
-
-  cudaSetDevice( node_rank );
-*/
-#endif
-
-
-  size_t nbf     = this->basis_->nbf();
-  size_t nshells = this->basis_->size();
-
-  //// TODO: Check that P is sane
-
-
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  //size_t max_npts       = this->load_balancer_->max_npts();
-  //size_t max_nbe        = this->load_balancer_->max_nbe();
-  //size_t max_npts_x_nbe = this->load_balancer_->max_npts_x_nbe();
-
-  size_t n_deriv = this->func_->is_gga() ? 1 : 0;
-
-  this->timer_.time_op("XCIntegrator.CUDAAlloc", [&](){
-
-    // Allocate Memory
-    cuda_data_ = std::make_shared<XCCudaData<value_type>>( );
-
-  });
-
-  // Results
-  matrix_type VXC( nbf, nbf );
-  value_type  EXC, N_EL;
-
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-
-    // Compute Local contributions to EXC / VXC
-    process_batches_cuda_replicated_density_shellbatched_p< value_type>(
-      n_deriv, this->timer_, XCWeightAlg::SSF, *this->func_, *this->basis_,
-      this->load_balancer_->molecule(), this->load_balancer_->molmeta(),
-      *cuda_data_, tasks.begin(), tasks.end(), P.data(), 
-      VXC.data(), &EXC, &N_EL 
-    );
-
-  } );
-
-  this->timer_.time_op("XCIntegrator.CUDAFree", [&](){
-    cuda_data_.reset(); // Free up CUDA memory
-  } );
-
-#ifdef GAUXC_ENABLE_MPI
-
-
-  if( world_size > 1 ) {
-
-    this->timer_.time_op("XCIntegrator.AllReduce", [&]() {
-
-      // Test of communicator is an inter-communicator
-      // XXX: Can't think of a case when this would be true, but who knows...
-      int inter_flag;
-      MPI_Comm_test_inter( this->comm_, &inter_flag );
-
-      // Is Intra-communicator, Allreduce can be done inplace
-      if( not inter_flag ) {
-
-        MPI_Allreduce( MPI_IN_PLACE, VXC.data(), nbf*nbf, MPI_DOUBLE,
-                       MPI_SUM, this->comm_ );
-        MPI_Allreduce( MPI_IN_PLACE, &EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-        MPI_Allreduce( MPI_IN_PLACE, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-      // Isn't Intra-communicator (weird), Allreduce can't be done inplace
-      } else {
-
-        matrix_type VXC_cpy = VXC;
-        value_type EXC_cpy = EXC, N_EL_cpy = N_EL;
-
-        MPI_Allreduce( VXC_cpy.data(), VXC.data(), nbf*nbf, MPI_DOUBLE,
-                       MPI_SUM, this->comm_ );
-        MPI_Allreduce( &EXC_cpy,  &EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-        MPI_Allreduce( &N_EL_cpy, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-      }
-
-    } );
-
-  }
-
-#endif
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Finalize MAGMA
-  {
-    auto ierr = magma_finalize();
-    GAUXC_MAGMA_ERROR( "MAGMA Finalize Failed", ierr );
-  }
-#endif
-
-  return exc_vxc_type{EXC, std::move(VXC)};
-
-} 
-
-}
-}
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_cuda_data.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_cuda_data.hpp
deleted file mode 100644
index c65a810..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_cuda_data.hpp
+++ /dev/null
@@ -1,126 +0,0 @@
-#pragma once
-#include <vector>
-#include <cstdint>
-#include <memory>
-#include <gauxc/basisset.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/util/cuda_util.hpp>
-#include <gauxc/util/cublas_util.hpp>
-#include <gauxc/util/magma_util.hpp>
-
-#ifdef GAUXC_ENABLE_CUDA
-
-namespace GauXC {
-
-template <typename F>
-struct XCCudaData {
-
-  size_t nshells  = 0;
-  size_t nbf      = 0;
-  size_t n_deriv  = 0;
-  size_t natoms   = 0;
-  size_t LDatoms  = 0;
-
-  bool batch_l3_blas = true;
-  
-  void* device_ptr = nullptr;
-  void* dynmem_ptr = nullptr;
-  size_t devmem_sz = 0;
-  size_t dynmem_sz = 0;
-   
-  Shell<F>* shells_device             = nullptr;
-  Shell<F>* important_shells_device   = nullptr;
-
-  F*      vxc_device        = nullptr;
-  F*      nbe_scr_device    = nullptr;
-  F*      dmat_device       = nullptr;
-  F*      zmat_device       = nullptr;
-  F*      bf_eval_device    = nullptr;
-
-  F*      dbf_x_eval_device = nullptr;
-  F*      dbf_y_eval_device = nullptr;
-  F*      dbf_z_eval_device = nullptr;
-
-  F*      den_eval_device   = nullptr;
-  F*      den_x_eval_device = nullptr;
-  F*      den_y_eval_device = nullptr;
-  F*      den_z_eval_device = nullptr;
-  F*      eps_eval_device   = nullptr;
-  F*      gamma_eval_device = nullptr;
-
-  F*      vrho_eval_device    = nullptr;
-  F*      vgamma_eval_device  = nullptr;
-
-
-  F*     exc_device = nullptr;
-  F*     nel_device = nullptr;
-  F*     acc_scr_device = nullptr;
-
-  F*     rab_device    = nullptr;
-  F*     coords_device = nullptr;
-
-  F**    dmat_array_device = nullptr;
-  F**    zmat_array_device = nullptr;
-  F**    bf_array_device   = nullptr;
-
-  int*        m_array_device   = nullptr;
-  int*        n_array_device   = nullptr;
-  int*        k_array_device   = nullptr;
-  int*        lda_array_device = nullptr;
-  int*        ldb_array_device = nullptr;
-  int*        ldc_array_device = nullptr;
-
-  F*     dist_scratch_device = nullptr;
-
-  // Buffer Vars
-  F*           points_device_buffer     = nullptr;
-  F*           weights_device_buffer    = nullptr;
-  size_t*      shell_list_device_buffer = nullptr;
-  size_t*      shell_offs_device_buffer = nullptr;
-  int32_t*     submat_cut_device_buffer = nullptr;
-  int32_t*     submat_block_device_buffer = nullptr;
-  int32_t*     iparent_device_buffer    = nullptr;
-  F*           dist_nearest_buffer      = nullptr;
-
-  cuda::XCTaskDevice<F>* device_tasks  = nullptr;
-
-  // Execution management
-  std::unique_ptr<util::cuda_stream>   master_stream      = nullptr;
-  std::unique_ptr<util::cublas_handle> master_handle      = nullptr;
-
-#ifdef GAUXC_ENABLE_MAGMA
-  std::unique_ptr<util::magma_queue>   master_magma_queue = nullptr;
-#endif
-
-  std::vector<util::cuda_stream>       blas_streams;
-  std::vector<util::cublas_handle>     blas_handles;
-
-  XCCudaData( bool _batch_l3_blas = true );
-
-  ~XCCudaData() noexcept;
-  XCCudaData( const XCCudaData& )          = delete;
-  XCCudaData( XCCudaData&&      ) noexcept = delete;
-
-
-  using task_iterator = std::vector< XCTask >::iterator;
-  using device_task_container = std::vector< cuda::XCTaskDevice<F> >;
-
-
-  void allocate_static_data( size_t _natoms,
-                             size_t _n_deriv, 
-                             size_t _nbf,
-                             size_t _nshells );
-
-
-  std::tuple< task_iterator, device_task_container >
-    generate_buffers( const BasisSet<F>& basis,
-                      task_iterator      task_begin,
-                      task_iterator      task_end    );
- 
-};
-
-}
-
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_cuda_util.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_cuda_util.hpp
deleted file mode 100644
index fb67748..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_cuda_util.hpp
+++ /dev/null
@@ -1,89 +0,0 @@
-#pragma once
-#include <gauxc/xc_integrator/xc_cuda_data.hpp>
-#include <gauxc/xc_integrator.hpp>
-
-#include <gauxc/util/timer.hpp>
-
-#ifdef GAUXC_ENABLE_CUDA
-namespace GauXC  {
-namespace integrator {
-namespace cuda {
-
-using host_task_iterator = std::vector<XCTask>::iterator;
-
-template <typename F, size_t n_deriv>
-void process_batches_cuda_replicated_density_incore_p(
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCCudaData<F>    &     cuda_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-
-template <typename F, typename... Args>
-inline void process_batches_cuda_replicated_density_incore_p( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    process_batches_cuda_replicated_density_incore_p<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    process_batches_cuda_replicated_density_incore_p<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-
-
-template <typename F, size_t n_deriv>
-void process_batches_cuda_replicated_density_shellbatched_p(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCCudaData<F>    &     cuda_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-#ifdef GAUXC_ENABLE_NCCL
-template <typename F>
-void device_allreduce(
-  ncclComm_t             nccl_comm,
-  XCCudaData<F>    &     cuda_data
-); 
-#endif
-
-template <typename F>
-void device_transfer(
-  XCCudaData<F>    &     cuda_data,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-); 
-
-template <typename F, typename... Args>
-inline void process_batches_cuda_replicated_density_shellbatched_p( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    process_batches_cuda_replicated_density_shellbatched_p<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    process_batches_cuda_replicated_density_shellbatched_p<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-}
-}
-}
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_host_data.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_host_data.hpp
deleted file mode 100644
index 2be087f..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_host_data.hpp
+++ /dev/null
@@ -1,42 +0,0 @@
-#pragma once
-#include <vector>
-#include <cstdint>
-#include <stddef.h>
-
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_ENABLE_HOST
-namespace GauXC {
-
-template <typename F>
-struct XCHostData {
-
-  std::vector<F> eps;
-  std::vector<F> gamma;
-  std::vector<F> vrho;
-  std::vector<F> vgamma;
- 
-  std::vector<F> zmat;
-  std::vector<F> nbe_scr;
-  std::vector<F> den_scr;
-  std::vector<F> basis_eval;
-   
-
-  XCHostData( size_t n_deriv, 
-              size_t nbf,
-              size_t max_npts, 
-              size_t max_npts_x_nbe ) :
-    eps( max_npts ),
-    gamma( (n_deriv > 0) * max_npts ),
-    vrho( max_npts ),
-    vgamma( (n_deriv > 0) * max_npts ),
-    zmat( max_npts_x_nbe ),
-    nbe_scr( nbf * nbf ),
-    den_scr( (3*n_deriv + 1) * max_npts ),
-    basis_eval( (3*n_deriv + 1) * max_npts_x_nbe ) { }
-   
-
-};
-
-}
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_host_util.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_host_util.hpp
deleted file mode 100644
index a6d4d02..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_host_util.hpp
+++ /dev/null
@@ -1,43 +0,0 @@
-#pragma once
-#include <gauxc/xc_integrator/xc_host_data.hpp>
-
-#include <gauxc/xc_integrator.hpp>
-#include "xc_integrator_state.hpp"
-
-#ifdef GAUXC_ENABLE_HOST
-namespace GauXC  {
-namespace integrator {
-namespace host {
-
-
-template <typename F, size_t n_deriv>
-void process_batches_host_replicated_p(
-  XCIntegratorState      integrator_state,
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCHostData<F>    &     host_data,
-  std::vector< XCTask >& local_work,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-
-template <typename F, typename... Args>
-inline void process_batches_host_replicated_p( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    process_batches_host_replicated_p<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    process_batches_host_replicated_p<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-}
-}
-}
-#endif
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_integrator_impl.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_integrator_impl.hpp
deleted file mode 100644
index 442f427..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_integrator_impl.hpp
+++ /dev/null
@@ -1,72 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator.hpp>
-#include "xc_integrator_state.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename MatrixType>
-class XCIntegratorImpl {
-
-public:
-
-  using matrix_type   = MatrixType;
-  using value_type    = typename matrix_type::value_type;
-  using basisset_type = typename XCIntegrator<MatrixType>::basisset_type;
-  using exc_vxc_type  = typename XCIntegrator<MatrixType>::exc_vxc_type;
-
-protected:
-
-#ifdef GAUXC_ENABLE_MPI
-  MPI_Comm comm_;
-#endif
-  std::shared_ptr<functional_type> func_;
-  std::shared_ptr<basisset_type>   basis_;
-
-  std::shared_ptr<LoadBalancer>    load_balancer_;
-  XCIntegratorState                integrator_state_;
-
-  util::Timer                      timer_;
-
-  virtual exc_vxc_type eval_exc_vxc_( const MatrixType& ) = 0;
-  
-public:
-
-#ifdef GAUXC_ENABLE_MPI
-
-  XCIntegratorImpl( MPI_Comm                         comm, 
-                    std::shared_ptr<functional_type> func, 
-                    std::shared_ptr<basisset_type>   basis,
-                    std::shared_ptr<LoadBalancer>    lb 
-  ) : comm_(comm), func_(func), basis_(basis), load_balancer_(lb) { };
-
-#else
-
-  XCIntegratorImpl( std::shared_ptr<functional_type> func, 
-                    std::shared_ptr<basisset_type>   basis,
-                    std::shared_ptr<LoadBalancer>    lb 
-  ) : func_(func), basis_(basis), load_balancer_(lb) { };
-
-#endif
-  
-
-
-  XCIntegratorImpl( const XCIntegratorImpl& )          = default;
-  XCIntegratorImpl( XCIntegratorImpl&&      ) noexcept = default;
-
-
-  virtual ~XCIntegratorImpl() noexcept = default;
-
-
-  exc_vxc_type eval_exc_vxc( const MatrixType& P ) {
-    return eval_exc_vxc_(P);
-  }
-
-  const util::Timer& get_timings() const {
-    return timer_;
-  }
-};
-
-}
-}
diff --git a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_integrator_state.hpp b/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_integrator_state.hpp
deleted file mode 100644
index 4bc2113..0000000
--- a/third_party/gauxc/attic/include/gauxc/xc_integrator/xc_integrator_state.hpp
+++ /dev/null
@@ -1,10 +0,0 @@
-#pragma once
-
-namespace GauXC {
-
-struct XCIntegratorState {
-  bool load_balancer_populated     = false;
-  bool modified_weights_are_stored = false;
-};
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/CMakeLists.txt b/third_party/gauxc/attic/src/integrator/CMakeLists.txt
deleted file mode 100644
index f6fe2b4..0000000
--- a/third_party/gauxc/attic/src/integrator/CMakeLists.txt
+++ /dev/null
@@ -1,15 +0,0 @@
-# Common Integrator Utilities
-target_sources( gauxc PRIVATE integrator_common.cxx )
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${PROJECT_SOURCE_DIR}/src/integrator>
-)
-
-# Host Integrator Utilities
-if( GAUXC_ENABLE_HOST )
-  include( host/gauxc-host_integrator.cmake )
-endif()
-
-if( GAUXC_ENABLE_CUDA )
-  include( cuda/gauxc-cuda_integrator.cmake )
-endif()
diff --git a/third_party/gauxc/attic/src/integrator/cuda/buffer_adaptor.hpp b/third_party/gauxc/attic/src/integrator/cuda/buffer_adaptor.hpp
deleted file mode 100644
index 130f1f1..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/buffer_adaptor.hpp
+++ /dev/null
@@ -1,50 +0,0 @@
-#pragma once
-
-namespace GauXC {
-
-class buffer_adaptor {
-
-  size_t nalloc_;
-  size_t nleft_;
-  void*  top_;
-  void*  stack_;
-
-public:
-
-  buffer_adaptor() = delete;
-
-  inline buffer_adaptor( void* ptr, size_t len ) :
-    nalloc_(len), 
-    nleft_(len), 
-    top_(ptr), 
-    stack_(ptr) { }
-
-  template <typename T>
-  T* aligned_alloc( size_t len, 
-                    size_t align = alignof(T) ) {
-
-    char* old_stack = (char*)stack_;
-    if( std::align( align, 
-                    len*sizeof(T), 
-                    stack_, 
-                    nleft_          ) ) {
-
-      T* result = reinterpret_cast<T*>(stack_);
-      stack_ = (char*)stack_ + len*sizeof(T);
-      nleft_ -= std::distance( old_stack, 
-                               (char*)stack_ );
-      return result;
-
-    }
-
-    throw std::bad_alloc();
-
-  }
-
-  inline void* stack() const {return stack_;}
-  inline size_t nleft() const { return nleft_; }
-
-};
-
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_angular_cartesian.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_angular_cartesian.hpp
deleted file mode 100644
index 32088f5..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_angular_cartesian.hpp
+++ /dev/null
@@ -1,308 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x;
-  eval[npts * 1] = bf*y;
-  eval[npts * 2] = bf*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf + bf_x*x;
-  eval_x[npts * 1] = bf_x*y;
-  eval_x[npts * 2] = bf_x*z;
-
-  eval_y[npts * 0] = bf_y*x;
-  eval_y[npts * 1] = bf + bf_y*y;
-  eval_y[npts * 2] = bf_y*z;
-
-  eval_z[npts * 0] = bf_z*x;
-  eval_z[npts * 1] = bf_z*y;
-  eval_z[npts * 2] = bf + bf_z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x;
-  eval[npts * 1] = bf*x*y;
-  eval[npts * 2] = bf*x*z;
-  eval[npts * 3] = bf*y*y;
-  eval[npts * 4] = bf*y*z;
-  eval[npts * 5] = bf*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*(2*bf + bf_x*x);
-  eval_x[npts * 1] = y*(bf + bf_x*x);
-  eval_x[npts * 2] = z*(bf + bf_x*x);
-  eval_x[npts * 3] = bf_x*y*y;
-  eval_x[npts * 4] = bf_x*y*z;
-  eval_x[npts * 5] = bf_x*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x;
-  eval_y[npts * 1] = x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*z;
-  eval_y[npts * 3] = y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x;
-  eval_z[npts * 1] = bf_z*x*y;
-  eval_z[npts * 2] = x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*y*y;
-  eval_z[npts * 4] = y*(bf + bf_z*z);
-  eval_z[npts * 5] = z*(2*bf + bf_z*z);
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x*x;
-  eval[npts * 1] = bf*x*x*y;
-  eval[npts * 2] = bf*x*x*z;
-  eval[npts * 3] = bf*x*y*y;
-  eval[npts * 4] = bf*x*y*z;
-  eval[npts * 5] = bf*x*z*z;
-  eval[npts * 6] = bf*y*y*y;
-  eval[npts * 7] = bf*y*y*z;
-  eval[npts * 8] = bf*y*z*z;
-  eval[npts * 9] = bf*z*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*x*(3*bf + bf_x*x);
-  eval_x[npts * 1] = x*y*(2*bf + bf_x*x);
-  eval_x[npts * 2] = x*z*(2*bf + bf_x*x);
-  eval_x[npts * 3] = y*y*(bf + bf_x*x);
-  eval_x[npts * 4] = y*z*(bf + bf_x*x);
-  eval_x[npts * 5] = z*z*(bf + bf_x*x);
-  eval_x[npts * 6] = bf_x*y*y*y;
-  eval_x[npts * 7] = bf_x*y*y*z;
-  eval_x[npts * 8] = bf_x*y*z*z;
-  eval_x[npts * 9] = bf_x*z*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x*x;
-  eval_y[npts * 1] = x*x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*x*z;
-  eval_y[npts * 3] = x*y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = x*z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*x*z*z;
-  eval_y[npts * 6] = y*y*(3*bf + bf_y*y);
-  eval_y[npts * 7] = y*z*(2*bf + bf_y*y);
-  eval_y[npts * 8] = z*z*(bf + bf_y*y);
-  eval_y[npts * 9] = bf_y*z*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x*x;
-  eval_z[npts * 1] = bf_z*x*x*y;
-  eval_z[npts * 2] = x*x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*x*y*y;
-  eval_z[npts * 4] = x*y*(bf + bf_z*z);
-  eval_z[npts * 5] = x*z*(2*bf + bf_z*z);
-  eval_z[npts * 6] = bf_z*y*y*y;
-  eval_z[npts * 7] = y*y*(bf + bf_z*z);
-  eval_z[npts * 8] = y*z*(2*bf + bf_z*z);
-  eval_z[npts * 9] = z*z*(3*bf + bf_z*z);
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular_deriv1
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_angular_spherical_unnorm.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_angular_spherical_unnorm.hpp
deleted file mode 100644
index 9de5f11..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_angular_spherical_unnorm.hpp
+++ /dev/null
@@ -1,292 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*y;
-  eval[npts * 1] = bf*z;
-  eval[npts * 2] = bf*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x*y;
-  eval_x[npts * 1] = bf_x*z;
-  eval_x[npts * 2] = bf + bf_x*x;
-
-  eval_y[npts * 0] = bf + bf_y*y;
-  eval_y[npts * 1] = bf_y*z;
-  eval_y[npts * 2] = bf_y*x;
-
-  eval_z[npts * 0] = bf_z*y;
-  eval_z[npts * 1] = bf + bf_z*z;
-  eval_z[npts * 2] = bf_z*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_3*bf*x*y;
-  eval[npts * 1] = sqrt_3*bf*y*z;
-  eval[npts * 2] = bf*(-x*x - y*y + 2*z*z)/2;
-  eval[npts * 3] = sqrt_3*bf*x*z;
-  eval[npts * 4] = sqrt_3*bf*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_3*y*(bf + bf_x*x);
-  eval_x[npts * 1] = sqrt_3*bf_x*y*z;
-  eval_x[npts * 2] = -bf*x - bf_x*(x*x + y*y - 2*z*z)/2;
-  eval_x[npts * 3] = sqrt_3*z*(bf + bf_x*x);
-  eval_x[npts * 4] = sqrt_3*(bf*x + bf_x*(x*x - y*y)/2);
-
-  eval_y[npts * 0] = sqrt_3*x*(bf + bf_y*y);
-  eval_y[npts * 1] = sqrt_3*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -bf*y - bf_y*(x*x + y*y - 2*z*z)/2;
-  eval_y[npts * 3] = sqrt_3*bf_y*x*z;
-  eval_y[npts * 4] = sqrt_3*(-bf*y + bf_y*(x*x - y*y)/2);
-
-  eval_z[npts * 0] = sqrt_3*bf_z*x*y;
-  eval_z[npts * 1] = sqrt_3*y*(bf + bf_z*z);
-  eval_z[npts * 2] = 2*bf*z - bf_z*(x*x + y*y - 2*z*z)/2;
-  eval_z[npts * 3] = sqrt_3*x*(bf + bf_z*z);
-  eval_z[npts * 4] = sqrt_3*bf_z*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_10*bf*y*(3*x*x - y*y)/4;
-  eval[npts * 1] = sqrt_15*bf*x*y*z;
-  eval[npts * 2] = sqrt_6*bf*y*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 3] = bf*z*(-3*x*x - 3*y*y + 2*z*z)/2;
-  eval[npts * 4] = sqrt_6*bf*x*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 5] = sqrt_15*bf*z*(x*x - y*y)/2;
-  eval[npts * 6] = sqrt_10*bf*x*(x*x - 3*y*y)/4;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_10*y*(6*bf*x + bf_x*(3*x*x - y*y))/4;
-  eval_x[npts * 1] = sqrt_15*y*z*(bf + bf_x*x);
-  eval_x[npts * 2] = -sqrt_6*y*(2*bf*x + bf_x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 3] = -z*(6*bf*x + bf_x*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_x[npts * 4] = -sqrt_6*(bf*(3*x*x + y*y - 4*z*z) + bf_x*x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 5] = sqrt_15*z*(2*bf*x + bf_x*(x*x - y*y))/2;
-  eval_x[npts * 6] = sqrt_10*(3*bf*(x*x - y*y) + bf_x*x*(x*x - 3*y*y))/4;
-
-  eval_y[npts * 0] = sqrt_10*(-3*bf*(-x*x + y*y) + bf_y*y*(3*x*x - y*y))/4;
-  eval_y[npts * 1] = sqrt_15*x*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -sqrt_6*(bf*(x*x + 3*y*y - 4*z*z) + bf_y*y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 3] = -z*(6*bf*y + bf_y*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_y[npts * 4] = -sqrt_6*x*(2*bf*y + bf_y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 5] = sqrt_15*z*(-2*bf*y + bf_y*(x*x - y*y))/2;
-  eval_y[npts * 6] = sqrt_10*x*(-6*bf*y + bf_y*(x*x - 3*y*y))/4;
-
-  eval_z[npts * 0] = sqrt_10*bf_z*y*(3*x*x - y*y)/4;
-  eval_z[npts * 1] = sqrt_15*x*y*(bf + bf_z*z);
-  eval_z[npts * 2] = sqrt_6*y*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 3] = -3*bf*(x*x + y*y - 2*z*z)/2 - bf_z*z*(3*x*x + 3*y*y - 2*z*z)/2;
-  eval_z[npts * 4] = sqrt_6*x*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 5] = sqrt_15*(bf + bf_z*z)*(x*x - y*y)/2;
-  eval_z[npts * 6] = sqrt_10*bf_z*x*(x*x - 3*y*y)/4;
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular_deriv1
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_device_constants.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_device_constants.hpp
deleted file mode 100644
index ef3fb6b..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_device_constants.hpp
+++ /dev/null
@@ -1,14 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-  constexpr double sqrt_15 = 3.872983346207417;
-  constexpr double sqrt_3 = 1.7320508075688772;
-  constexpr double sqrt_6 = 2.449489742783178;
-  constexpr double sqrt_10 = 3.1622776601683795;
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_radial.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_radial.hpp
deleted file mode 100644
index 03d8efb..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/collocation_radial.hpp
+++ /dev/null
@@ -1,97 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-__inline__ __device__ void collocation_device_radial_eval(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  for( uint32_t i = 0; i < nprim; ++i )
-    tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-  *eval_device = tmp;
-
-}
-
-
-
-__inline__ __device__ void collocation_device_radial_eval_deriv1(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device,
-  double*        deval_device_x,
-  double*        deval_device_y,
-  double*        deval_device_z
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-  for( uint32_t i = 0; i < nprim; ++i ) {
-
-    const double a = alpha[i];
-    const double e = coeff[i] * std::exp( - a * rsq );
-
-    const double ae = 2. * a * e;
-
-    tmp   += e;
-    tmp_x -= ae * xc;
-    tmp_y -= ae * yc;
-    tmp_z -= ae * zc;
-
-  }
-
-  *eval_device    = tmp;
-  *deval_device_x = tmp_x;
-  *deval_device_y = tmp_y;
-  *deval_device_z = tmp_z;
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/deprecated/gaueval_kernels_template.cu b/third_party/gauxc/attic/src/integrator/cuda/collocation/deprecated/gaueval_kernels_template.cu
deleted file mode 100644
index c9d0a8c..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/deprecated/gaueval_kernels_template.cu
+++ /dev/null
@@ -1,129 +0,0 @@
-//#include <GauXC/device_util.hpp>
-#include <iostream>
-#include <cassert>
-
-#include "gaueval_kernels.hpp"
-#include "gaueval_angular_cartesian.hpp"
-#include "gaueval_angular_spherical.hpp"
-#include "gaueval_angular_spherical_unnorm.hpp"
-
-namespace GauXC {
-
-__global__
-void gaueval_device_$(ang_name)_kernel(
-  size_t             nshells,
-  size_t             nbf,
-  size_t             npts,
-  const StaticShell* shells_device,
-  const size_t*      offs_device,
-  const double*      pts_device,
-  double*            eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* O     = device::array_data( shell.O     );
-    const auto* alpha = device::array_data( shell.alpha );
-    const auto* coeff = device::array_data( shell.coeff );
-
-    const double xc = pt[0] - O[0];
-    const double yc = pt[1] - O[1];
-    const double zc = pt[2] - O[2];
-  
-    const double rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim; 
-    double tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    double * bf_eval = eval_device + ibf + ipt*nbf;
-    gaueval_$(ang_name)_angular( shell.l, tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-__global__
-void gaueval_device_$(ang_name)_kernel_deriv1(
-  size_t             nshells,
-  size_t             nbf,
-  size_t             npts,
-  const StaticShell* shells_device,
-  const size_t*      offs_device,
-  const double*      pts_device,
-  double*            eval_device,
-  double*            deval_device_x,
-  double*            deval_device_y,
-  double*            deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* O     = device::array_data( shell.O     );
-    const auto* alpha = device::array_data( shell.alpha );
-    const auto* coeff = device::array_data( shell.coeff );
-
-    const double xc = pt[0] - O[0];
-    const double yc = pt[1] - O[1];
-    const double zc = pt[2] - O[2];
-  
-    const double rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim; 
-    double tmp = 0.;
-    double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const double a = alpha[i];
-      const double e = coeff[i] * std::exp( - a * rsq );
-
-      const double ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    double * bf_eval = eval_device    + ibf + ipt*nbf;
-    double * dx_eval = deval_device_x + ibf + ipt*nbf;
-    double * dy_eval = deval_device_y + ibf + ipt*nbf;
-    double * dz_eval = deval_device_z + ibf + ipt*nbf;
-
-    gaueval_$(ang_name)_angular_deriv1( shell.l, tmp, tmp_x, tmp_y, tmp_z, xc, yc, zc, bf_eval, dx_eval, dy_eval, dz_eval );
-
-  }
-
-
-}
-
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/deprecated/generate_bfeval.py b/third_party/gauxc/attic/src/integrator/cuda/collocation/deprecated/generate_bfeval.py
deleted file mode 100644
index 178a979..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/deprecated/generate_bfeval.py
+++ /dev/null
@@ -1,440 +0,0 @@
-import cmath
-import math
-import os
-import re
-import sys
-from math import factorial as fact
-
-import sympy
-from scipy.special import binom as binomial
-from sympy import I as symb_I
-from sympy import exp as symb_exp
-from sympy import factorial as symb_fact
-from sympy import factorial2 as symb_fact2
-
-
-def generate_cartesian_ls(L):
-    l = []
-    for i in range(L + 1):
-        lx = L - i
-        for j in range(i + 1):
-            ly = i - j
-            lz = L - lx - ly
-
-            l.append([0, 0, 0])
-
-            for k in range(lx - 1):
-                l[-1][0] = l[-1][0] + 1
-            for k in range(ly - 1):
-                l[-1][1] = l[-1][1] + 1
-            for k in range(lz - 1):
-                l[-1][2] = l[-1][2] + 1
-
-            if lx > 0:
-                l[-1][0] = l[-1][0] + 1
-            if ly > 0:
-                l[-1][1] = l[-1][1] + 1
-            if lz > 0:
-                l[-1][2] = l[-1][2] + 1
-
-    return l
-
-
-def generate_spherical_coeff(l, m, lx, ly, lz):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return 0.0
-
-    prefactor = fact(2.0 * lx) * fact(2.0 * ly) * fact(2.0 * lz) * fact(l)
-    prefactor = prefactor * fact(l - abs(m))
-    prefactor = prefactor / (fact(2.0 * l) * fact(lx) * fact(ly) * fact(lz))
-    prefactor = prefactor / fact(l + abs(m))
-    prefactor = math.sqrt(prefactor)
-
-    term1 = 0.0
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + binomial(l, i) * binomial(i, j) * math.pow(-1, i) * fact(
-            2 * l - 2 * i
-        ) / fact(l - abs(m) - 2 * i)
-
-    term1 = term1 / math.pow(2, l) / fact(l)
-
-    m_fact = 1.0
-    if m < 0:
-        m_fact = -1.0
-
-    term2 = 0.0 + 0.0j
-    for k in range(j + 1):
-        z = cmath.exp(m_fact * math.pi / 2.0 * (abs(m) - lx + 2 * k) * 1.0j)
-        term2 = term2 + binomial(j, k) * binomial(abs(m), lx - 2 * k) * z
-
-    val = prefactor * term1 * term2
-
-    if abs(val.real) < 1e-10:
-        val = 0.0 + val.imag * 1j
-    if abs(val.imag) < 1e-10:
-        val = val.real
-
-    return val
-
-
-def generate_spherical_coeff_symb(l, m, lx, ly, lz, unnorm=False):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return sympy.Integer(0)
-
-    j_symb = sympy.Integer(j)
-    l_symb = sympy.Integer(l)
-    m_symb = sympy.Integer(abs(m))
-    lx_symb = sympy.Integer(lx)
-    ly_symb = sympy.Integer(ly)
-    lz_symb = sympy.Integer(lz)
-
-    prefactor = (
-        symb_fact(2 * lx_symb)
-        * symb_fact(2 * ly_symb)
-        * symb_fact(2 * lz_symb)
-        * symb_fact(l_symb)
-    )
-    prefactor = prefactor * symb_fact(l_symb - m_symb)
-    prefactor = prefactor / (
-        symb_fact(2 * l_symb)
-        * symb_fact(lx_symb)
-        * symb_fact(ly_symb)
-        * symb_fact(lz_symb)
-    )
-    prefactor = prefactor / symb_fact(l_symb + m_symb)
-
-    # Ed's stupid normalization convention...
-    if unnorm:
-        prefactor = (
-            prefactor
-            * symb_fact2(2 * l - 1)
-            / symb_fact2(2 * lx - 1)
-            / symb_fact2(2 * ly - 1)
-            / symb_fact2(2 * lz - 1)
-        )
-
-    prefactor = sympy.sqrt(prefactor)
-
-    term1 = sympy.Integer(0)
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + sympy.Integer(binomial(l, i)) * sympy.Integer(
-            binomial(i, j)
-        ) * sympy.Integer(math.pow(-1, i)) * symb_fact(
-            2 * l_symb - sympy.Integer(2 * i)
-        ) / symb_fact(l_symb - m_symb - sympy.Integer(2 * i))
-
-    term1 = term1 / (2**l_symb) / symb_fact(l)
-
-    m_fact_symb = sympy.Integer(1)
-    if m < 0:
-        m_fact_symb = -m_fact_symb
-
-    term2 = sympy.Integer(0)
-    for k in range(j + 1):
-        z = sympy.exp(
-            m_fact_symb
-            * sympy.pi
-            / 2
-            * (m_symb - lx_symb + sympy.Integer(2 * k))
-            * symb_I
-        )
-        term2 = (
-            term2
-            + sympy.Integer(binomial(j, k))
-            * sympy.Integer(binomial(abs(m), lx - 2 * k))
-            * z
-        )
-
-    return prefactor * term1 * term2
-
-
-def generate_cartesian_angular(ls):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-
-    ang = []
-
-    for l in ls:
-        ang.append(r)
-        for i in range(l[0]):
-            ang[-1] = ang[-1] * x
-        for i in range(l[1]):
-            ang[-1] = ang[-1] * y
-        for i in range(l[2]):
-            ang[-1] = ang[-1] * z
-
-        ang[-1] = ang[-1] / r
-
-    return ang
-
-
-def generate_spherical_angular(L, unnorm=False):
-    ls = generate_cartesian_ls(L)
-    angs = generate_cartesian_angular(ls)
-
-    # r = sympy.symbols( 'r' )
-    sph_angs = []
-    for m in range(L + 1):
-        tmp_p = 0
-        tmp_m = 0
-        for i in range(len(ls)):
-            l = ls[i]
-            ang = angs[i]
-
-            # c = generate_spherical_coeff( L, m, l[0],l[1],l[2] )
-            c = generate_spherical_coeff_symb(L, m, l[0], l[1], l[2], unnorm)
-
-            if m == 0:
-                tmp_p = tmp_p + c * ang
-
-            else:
-                c_p = (c + sympy.conjugate(c)) / sympy.sqrt(2)
-                c_m = (c - sympy.conjugate(c)) / sympy.sqrt(2) / symb_I
-
-                tmp_p = tmp_p + c_p * ang
-                tmp_m = tmp_m + c_m * ang
-
-        sph_angs.append((m, tmp_p))
-        if m > 0:
-            sph_angs.append((-m, tmp_m))
-
-    sph_angs = sorted(sph_angs, key=lambda x: x[0])
-
-    sph_angs_bare = []
-    for a in sph_angs:
-        sph_angs_bare.append(sympy.simplify(a[1]))
-
-    return sph_angs_bare
-
-
-def generate_eval_lines(L, ang):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_x, bf_y, bf_z] = sympy.symbols("bf bf_x bf_y bf_z", real=True)
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        bf_eval = sympy.simplify(a * bf)
-        bf_x_eval = sympy.simplify(a_x * bf + a * bf_x)
-        bf_y_eval = sympy.simplify(a_y * bf + a * bf_y)
-        bf_z_eval = sympy.simplify(a_z * bf + a * bf_z)
-
-        bf_eval_str = "eval[{}] = {};".format(j, bf_eval)
-        bf_x_eval_str = "eval_x[{}] = {};".format(j, bf_x_eval)
-        bf_y_eval_str = "eval_y[{}] = {};".format(j, bf_y_eval)
-        bf_z_eval_str = "eval_z[{}] = {};".format(j, bf_z_eval)
-
-        if L >= 2:
-            for k in range(2, L + 1):
-                for X in ("x", "y", "z"):
-                    pow_str = X + "**" + str(k)
-                    repl_str = ""
-                    for K in range(k - 1):
-                        repl_str = repl_str + X + "*"
-                    repl_str = repl_str + X
-
-                    bf_eval_str = bf_eval_str.replace(pow_str, repl_str)
-                    bf_x_eval_str = bf_x_eval_str.replace(pow_str, repl_str)
-                    bf_y_eval_str = bf_y_eval_str.replace(pow_str, repl_str)
-                    bf_z_eval_str = bf_z_eval_str.replace(pow_str, repl_str)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-    return (bf_eval_strs, bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs)
-
-
-cart_header_fname = "gaueval_angular_cartesian.hpp"
-sphr_header_fname = "gaueval_angular_spherical.hpp"
-cons_header_fname = "gaueval_device_constants.hpp"
-
-cart_header_file = open(cart_header_fname, "w")
-sphr_header_file = open(sphr_header_fname, "w")
-cons_header_file = open(cons_header_fname, "w")
-
-L_max = 4
-do_libint_norm = False
-# do_libint_norm = True
-
-preamble = """
-#pragma once
-#include "gaueval_device_constants.hpp"
-
-#define GPGAUEVAL_INLINE __inline__
-
-namespace GauXC {
-"""
-
-
-cart_header_file.write(preamble)
-sphr_header_file.write(preamble)
-
-cartesian_bf_template = """
-GPGAUEVAL_INLINE __device__ void generate_cartesian_angular{}(
-  const double bf,
-  const double x,
-  const double y,
-  const double z,
-  double*      eval
-) {{
-"""
-
-cartesian_bf_deriv1_template = """
-GPGAUEVAL_INLINE __device__ void generate_cartesian_angular{}_deriv1(
-  const double bf,
-  const double bf_x,
-  const double bf_y,
-  const double bf_z,
-  const double x,
-  const double y,
-  const double z,
-  double* eval_x,
-  double* eval_y,
-  double* eval_z
-) {{
-"""
-
-spherical_bf_template = cartesian_bf_template.replace("cartesian", "spherical")
-spherical_bf_deriv1_template = cartesian_bf_deriv1_template.replace(
-    "cartesian", "spherical"
-)
-
-
-constant_lines = []
-for L in range(L_max + 1):
-    sph_ang = generate_spherical_angular(L, do_libint_norm)
-    car_ang = generate_cartesian_angular(generate_cartesian_ls(L))
-
-    sph_bf_eval_strs, sph_bf_x_eval_strs, sph_bf_y_eval_strs, sph_bf_z_eval_strs = (
-        generate_eval_lines(L, sph_ang)
-    )
-    car_bf_eval_strs, car_bf_x_eval_strs, car_bf_y_eval_strs, car_bf_z_eval_strs = (
-        generate_eval_lines(L, car_ang)
-    )
-
-    cartesian_bf_prototype = cartesian_bf_template.format("_" + str(L))
-    spherical_bf_prototype = spherical_bf_template.format("_" + str(L))
-    cartesian_bf_deriv1_prototype = cartesian_bf_deriv1_template.format("_" + str(L))
-    spherical_bf_deriv1_prototype = spherical_bf_deriv1_template.format("_" + str(L))
-
-    spherical_bf_func = spherical_bf_prototype + "\n"
-    for s in sph_bf_eval_strs:
-        spherical_bf_func = spherical_bf_func + "  " + s + "\n"
-    spherical_bf_func = spherical_bf_func + "\n}\n"
-
-    spherical_bf_deriv1_func = spherical_bf_deriv1_prototype + "\n"
-    for s in sph_bf_x_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n"
-    for s in sph_bf_y_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n"
-    for s in sph_bf_z_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n}\n"
-
-    cartesian_bf_func = cartesian_bf_prototype + "\n"
-    for s in car_bf_eval_strs:
-        cartesian_bf_func = cartesian_bf_func + "  " + s + "\n"
-    cartesian_bf_func = cartesian_bf_func + "\n}\n"
-
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_prototype + "\n"
-    for s in car_bf_x_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n"
-    for s in car_bf_y_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n"
-    for s in car_bf_z_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n}\n"
-
-    sqrt_regex = "sqrt\([0-9]+\)"
-
-    sqrt_finds = re.findall(sqrt_regex, spherical_bf_func)
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, spherical_bf_deriv1_func))
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, cartesian_bf_func))
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, cartesian_bf_deriv1_func))
-
-    sqrt_finds = list(set(sqrt_finds))
-
-    for x in sqrt_finds:
-        arg = x.strip("sqrt(").strip(")")
-        new_str = "sqrt_" + arg
-        spherical_bf_func = spherical_bf_func.replace(x, new_str)
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func.replace(x, new_str)
-        cartesian_bf_func = cartesian_bf_func.replace(x, new_str)
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func.replace(x, new_str)
-
-        new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg))) + ";"
-        constant_lines.append(new_str)
-
-    cart_header_file.write(cartesian_bf_func)
-    cart_header_file.write(cartesian_bf_deriv1_func)
-    sphr_header_file.write(spherical_bf_func)
-    sphr_header_file.write(spherical_bf_deriv1_func)
-
-
-# Generate calling routines
-cartesian_bf_calling_func = cartesian_bf_template.format("")
-spherical_bf_calling_func = spherical_bf_template.format("")
-cartesian_bf_deriv1_calling_func = cartesian_bf_deriv1_template.format("")
-spherical_bf_deriv1_calling_func = spherical_bf_deriv1_template.format("")
-
-am_dispatch_template = "switch( shell.l ) {{\n"
-am_dispatch_template_deriv1 = "switch( shell.l ) {{\n"
-for L in range(L_max + 1):
-    bf_template = """
-  case {0}:
-    gaueval_{{0}}_angular_{0}(tmp, xc, yc, zc, bf_eval);
-    break;
-""".format(L)
-
-    deriv1_template = """
-  case {0}:
-    gaueval_{{0}}_angular_{0}(tmp, xc, yc, zc, bf_eval);
-    gaueval_{{0}}_angular_{0}_deriv1(tmp, tmp_x, tmp_y, tmp_z, xc, yc, zc, bf_eval, bf_x_eval, bf_y_eval, bf_z_eval);
-    break;
-""".format(L)
-
-    am_dispatch_template = am_dispatch_template + bf_template
-    am_dispatch_template_deriv1 = am_dispatch_template_deriv1 + deriv1_template
-
-
-am_dispatch_template = am_dispatch_template + "}}\n"
-am_dispatch_template_deriv1 = am_dispatch_template_deriv1 + "}}\n"
-
-print(am_dispatch_template_deriv1.format("cartesian"))
-print(am_dispatch_template_deriv1.format("spherical"))
-
-
-footer = "} // namespace GauXC"
-cart_header_file.write(footer)
-sphr_header_file.write(footer)
-
-constant_lines = list(set(constant_lines))
-preamble = """
-#pragma once
-
-namespace GauXC {
-"""
-
-cons_header_file.write(preamble)
-for s in constant_lines:
-    cons_header_file.write("  " + s + "\n")
-cons_header_file.write(footer)
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/__init__.py b/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/__init__.py
deleted file mode 100644
index e69de29..0000000
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/collocation_angular.py b/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/collocation_angular.py
deleted file mode 100644
index 0903a5d..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/collocation_angular.py
+++ /dev/null
@@ -1,259 +0,0 @@
-import cmath
-import math
-import os
-import re
-import sys
-from math import factorial as fact
-
-import sympy
-from scipy.special import binom as binomial
-from sympy import I as symb_I
-from sympy import exp as symb_exp
-from sympy import factorial as symb_fact
-from sympy import factorial2 as symb_fact2
-
-
-def generate_cartesian_ls(L):
-    l = []
-    for i in range(L + 1):
-        lx = L - i
-        for j in range(i + 1):
-            ly = i - j
-            lz = L - lx - ly
-
-            l.append([0, 0, 0])
-
-            for k in range(lx - 1):
-                l[-1][0] = l[-1][0] + 1
-            for k in range(ly - 1):
-                l[-1][1] = l[-1][1] + 1
-            for k in range(lz - 1):
-                l[-1][2] = l[-1][2] + 1
-
-            if lx > 0:
-                l[-1][0] = l[-1][0] + 1
-            if ly > 0:
-                l[-1][1] = l[-1][1] + 1
-            if lz > 0:
-                l[-1][2] = l[-1][2] + 1
-
-    return l
-
-
-def generate_spherical_coeff(l, m, lx, ly, lz):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return 0.0
-
-    prefactor = fact(2.0 * lx) * fact(2.0 * ly) * fact(2.0 * lz) * fact(l)
-    prefactor = prefactor * fact(l - abs(m))
-    prefactor = prefactor / (fact(2.0 * l) * fact(lx) * fact(ly) * fact(lz))
-    prefactor = prefactor / fact(l + abs(m))
-    prefactor = math.sqrt(prefactor)
-
-    term1 = 0.0
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + binomial(l, i) * binomial(i, j) * math.pow(-1, i) * fact(
-            2 * l - 2 * i
-        ) / fact(l - abs(m) - 2 * i)
-
-    term1 = term1 / math.pow(2, l) / fact(l)
-
-    m_fact = 1.0
-    if m < 0:
-        m_fact = -1.0
-
-    term2 = 0.0 + 0.0j
-    for k in range(j + 1):
-        z = cmath.exp(m_fact * math.pi / 2.0 * (abs(m) - lx + 2 * k) * 1.0j)
-        term2 = term2 + binomial(j, k) * binomial(abs(m), lx - 2 * k) * z
-
-    val = prefactor * term1 * term2
-
-    if abs(val.real) < 1e-10:
-        val = 0.0 + val.imag * 1j
-    if abs(val.imag) < 1e-10:
-        val = val.real
-
-    return val
-
-
-def generate_spherical_coeff_symb(l, m, lx, ly, lz, unnorm=False):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return sympy.Integer(0)
-
-    j_symb = sympy.Integer(j)
-    l_symb = sympy.Integer(l)
-    m_symb = sympy.Integer(abs(m))
-    lx_symb = sympy.Integer(lx)
-    ly_symb = sympy.Integer(ly)
-    lz_symb = sympy.Integer(lz)
-
-    prefactor = (
-        symb_fact(2 * lx_symb)
-        * symb_fact(2 * ly_symb)
-        * symb_fact(2 * lz_symb)
-        * symb_fact(l_symb)
-    )
-    prefactor = prefactor * symb_fact(l_symb - m_symb)
-    prefactor = prefactor / (
-        symb_fact(2 * l_symb)
-        * symb_fact(lx_symb)
-        * symb_fact(ly_symb)
-        * symb_fact(lz_symb)
-    )
-    prefactor = prefactor / symb_fact(l_symb + m_symb)
-
-    # Ed's stupid normalization convention...
-    if unnorm:
-        prefactor = (
-            prefactor
-            * symb_fact2(2 * l - 1)
-            / symb_fact2(2 * lx - 1)
-            / symb_fact2(2 * ly - 1)
-            / symb_fact2(2 * lz - 1)
-        )
-
-    prefactor = sympy.sqrt(prefactor)
-
-    term1 = sympy.Integer(0)
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + sympy.Integer(binomial(l, i)) * sympy.Integer(
-            binomial(i, j)
-        ) * sympy.Integer(math.pow(-1, i)) * symb_fact(
-            2 * l_symb - sympy.Integer(2 * i)
-        ) / symb_fact(l_symb - m_symb - sympy.Integer(2 * i))
-
-    term1 = term1 / (2**l_symb) / symb_fact(l)
-
-    m_fact_symb = sympy.Integer(1)
-    if m < 0:
-        m_fact_symb = -m_fact_symb
-
-    term2 = sympy.Integer(0)
-    for k in range(j + 1):
-        z = sympy.exp(
-            m_fact_symb
-            * sympy.pi
-            / 2
-            * (m_symb - lx_symb + sympy.Integer(2 * k))
-            * symb_I
-        )
-        term2 = (
-            term2
-            + sympy.Integer(binomial(j, k))
-            * sympy.Integer(binomial(abs(m), lx - 2 * k))
-            * z
-        )
-
-    return prefactor * term1 * term2
-
-
-def generate_cartesian_angular(ls):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-
-    ang = []
-
-    for l in ls:
-        ang.append(r)
-        for i in range(l[0]):
-            ang[-1] = ang[-1] * x
-        for i in range(l[1]):
-            ang[-1] = ang[-1] * y
-        for i in range(l[2]):
-            ang[-1] = ang[-1] * z
-
-        ang[-1] = ang[-1] / r
-
-    return ang
-
-
-def generate_spherical_angular(L, unnorm=False):
-    ls = generate_cartesian_ls(L)
-    angs = generate_cartesian_angular(ls)
-
-    # r = sympy.symbols( 'r' )
-    sph_angs = []
-    for m in range(L + 1):
-        tmp_p = 0
-        tmp_m = 0
-        for i in range(len(ls)):
-            l = ls[i]
-            ang = angs[i]
-
-            # c = generate_spherical_coeff( L, m, l[0],l[1],l[2] )
-            c = generate_spherical_coeff_symb(L, m, l[0], l[1], l[2], unnorm)
-
-            if m == 0:
-                tmp_p = tmp_p + c * ang
-
-            else:
-                c_p = (c + sympy.conjugate(c)) / sympy.sqrt(2)
-                c_m = (c - sympy.conjugate(c)) / sympy.sqrt(2) / symb_I
-
-                tmp_p = tmp_p + c_p * ang
-                tmp_m = tmp_m + c_m * ang
-
-        sph_angs.append((m, tmp_p))
-        if m > 0:
-            sph_angs.append((-m, tmp_m))
-
-    sph_angs = sorted(sph_angs, key=lambda x: x[0])
-
-    sph_angs_bare = []
-    for a in sph_angs:
-        sph_angs_bare.append(sympy.simplify(a[1]))
-
-    return sph_angs_bare
-
-
-def generate_eval_lines(L, ang):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_x, bf_y, bf_z] = sympy.symbols("bf bf_x bf_y bf_z", real=True)
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        bf_eval = sympy.simplify(a * bf)
-        bf_x_eval = sympy.simplify(a_x * bf + a * bf_x)
-        bf_y_eval = sympy.simplify(a_y * bf + a * bf_y)
-        bf_z_eval = sympy.simplify(a_z * bf + a * bf_z)
-
-        bf_eval_str = "eval[npts * {}] = {};".format(j, bf_eval)
-        bf_x_eval_str = "eval_x[npts * {}] = {};".format(j, bf_x_eval)
-        bf_y_eval_str = "eval_y[npts * {}] = {};".format(j, bf_y_eval)
-        bf_z_eval_str = "eval_z[npts * {}] = {};".format(j, bf_z_eval)
-
-        if L >= 2:
-            for k in range(2, L + 1):
-                for X in ("x", "y", "z"):
-                    pow_str = X + "**" + str(k)
-                    repl_str = ""
-                    for K in range(k - 1):
-                        repl_str = repl_str + X + "*"
-                    repl_str = repl_str + X
-
-                    bf_eval_str = bf_eval_str.replace(pow_str, repl_str)
-                    bf_x_eval_str = bf_x_eval_str.replace(pow_str, repl_str)
-                    bf_y_eval_str = bf_y_eval_str.replace(pow_str, repl_str)
-                    bf_z_eval_str = bf_z_eval_str.replace(pow_str, repl_str)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-    return (bf_eval_strs, bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs)
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/generate_collocation_angular_eval.py b/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/generate_collocation_angular_eval.py
deleted file mode 100644
index af14e58..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/scripts/generate_collocation_angular_eval.py
+++ /dev/null
@@ -1,163 +0,0 @@
-import math
-import os
-import re
-import sys
-from io import StringIO
-
-import pyexpander.lib as expander
-from collocation_angular import (
-    generate_cartesian_angular,
-    generate_cartesian_ls,
-    generate_eval_lines,
-    generate_spherical_angular,
-)
-
-L_max = 6
-if len(sys.argv) > 1:
-    L_max = int(sys.argv[1])
-
-# sphr_bf_body = []
-# sphr_bf_d1_body = []
-
-sphr_unnorm_bf_body = []
-sphr_unnorm_bf_d1_body = []
-
-cart_bf_body = []
-cart_bf_d1_body = []
-
-
-for L in range(L_max + 1):
-    print("Processing L = {} ...".format(L))
-    # sphr_ang        = generate_spherical_angular( L, False )
-    sphr_unnorm_ang = generate_spherical_angular(L, True)
-    cart_ang = generate_cartesian_angular(generate_cartesian_ls(L))
-
-    # sa, sa_x, sa_y, sa_z     = generate_eval_lines( L, sphr_ang )
-    sna, sna_x, sna_y, sna_z = generate_eval_lines(L, sphr_unnorm_ang)
-    ca, ca_x, ca_y, ca_z = generate_eval_lines(L, cart_ang)
-
-    # sphr_bf_body.append( "\n  ".join(sa) )
-    sphr_unnorm_bf_body.append("\n  ".join(sna))
-    cart_bf_body.append("\n  ".join(ca))
-
-    # s_d1  = "\n\n  ".join(["\n  ".join( sa_x ),  "\n  ".join(sa_y),  "\n  ".join(sa_z)])
-    sn_d1 = "\n\n  ".join(["\n  ".join(sna_x), "\n  ".join(sna_y), "\n  ".join(sna_z)])
-    c_d1 = "\n\n  ".join(["\n  ".join(ca_x), "\n  ".join(ca_y), "\n  ".join(ca_z)])
-
-    # sphr_bf_d1_body.append( s_d1 )
-    sphr_unnorm_bf_d1_body.append(sn_d1)
-    cart_bf_d1_body.append(c_d1)
-
-
-template_fname = "templates/collocation_angular_template.hpp"
-
-# sphr_var_dict = { 'L_max' : L_max, 'body' : sphr_bf_body, 'body_d1' : sphr_bf_d1_body, 'name' : 'spherical' }
-sphr_unnorm_var_dict = {
-    "L_max": L_max,
-    "body": sphr_unnorm_bf_body,
-    "body_d1": sphr_unnorm_bf_d1_body,
-    "name": "spherical_unnorm",
-}
-cart_var_dict = {
-    "L_max": L_max,
-    "body": cart_bf_body,
-    "body_d1": cart_bf_d1_body,
-    "name": "cartesian",
-}
-
-
-old_sys_out = sys.stdout
-
-sys.stdout = cart_expand = StringIO()
-expander.expandFile(
-    template_fname, external_definitions=cart_var_dict, auto_indent=True
-)
-# sys.stdout = sphr_expand = StringIO()
-# expander.expandFile( template_fname, external_definitions=sphr_var_dict, auto_indent=True )
-sys.stdout = sphr_unnorm_expand = StringIO()
-expander.expandFile(
-    template_fname, external_definitions=sphr_unnorm_var_dict, auto_indent=True
-)
-
-sys.stdout = old_sys_out
-
-cart_expand = cart_expand.getvalue()
-# sphr_expand = sphr_expand.getvalue()
-sphr_unnorm_expand = sphr_unnorm_expand.getvalue()
-
-
-# Handle Constants
-constant_lines = []
-
-# Sqrts
-sqrt_regex = "sqrt\([0-9]+\)"
-# sqrt_finds = re.findall( sqrt_regex, "\n".join([cart_expand,sphr_expand,sphr_unnorm_expand]) )
-sqrt_finds = re.findall(sqrt_regex, "\n".join([cart_expand, sphr_unnorm_expand]))
-
-sqrt_finds = list(set(sqrt_finds))
-
-for x in sqrt_finds:
-    arg = x.strip("sqrt(").strip(")")
-    new_str = "sqrt_" + arg
-
-    cart_expand = cart_expand.replace(x, new_str)
-    # sphr_expand = sphr_expand.replace( x, new_str )
-    sphr_unnorm_expand = sphr_unnorm_expand.replace(x, new_str)
-
-    new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg))) + ";"
-    constant_lines.append(new_str)
-
-old_sys_out = sys.stdout
-
-sys.stdout = constant_expand = StringIO()
-expander.expandFile(
-    "templates/collocation_device_constants_template.hpp",
-    external_definitions={"const_lines": constant_lines},
-)
-
-sys.stdout = old_sys_out
-
-constant_expand = constant_expand.getvalue()
-
-
-cart_header_fname = "collocation_angular_cartesian.hpp"
-# sphr_header_fname = "collocation_angular_spherical.hpp"
-sphr_unnorm_header_fname = "collocation_angular_spherical_unnorm.hpp"
-cons_header_fname = "collocation_device_constants.hpp"
-
-cart_header_file = open(cart_header_fname, "w")
-# sphr_header_file = open( sphr_header_fname, 'w' )
-sphr_unnorm_header_file = open(sphr_unnorm_header_fname, "w")
-cons_header_file = open(cons_header_fname, "w")
-
-cart_header_file.write(cart_expand)
-# sphr_header_file.write( sphr_expand )
-sphr_unnorm_header_file.write(sphr_unnorm_expand)
-cons_header_file.write(constant_expand)
-
-
-# Generate Kernel Driver
-
-# old_sys_out = sys.stdout
-
-# sys.stdout = collocation_cartesian_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'cartesian' } )
-#
-# sys.stdout = collocation_spherical_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'spherical' } )
-#
-# sys.stdout = collocation_spherical_unnorm_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'spherical_unnorm' } )
-#
-# sys.stdout = old_sys_out
-#
-# collocation_cartesian_kernel_expand = collocation_cartesian_kernel_expand.getvalue()
-# collocation_spherical_kernel_expand = collocation_spherical_kernel_expand.getvalue()
-# collocation_spherical_unnorm_kernel_expand = collocation_spherical_unnorm_kernel_expand.getvalue()
-#
-# with open( 'collocation_kernels_cartesian.cu', 'w' ) as f:
-#  f.write( collocation_cartesian_kernel_expand )
-# with open( 'collocation_kernels_spherical.cu', 'w' ) as f:
-#  f.write( collocation_spherical_kernel_expand )
-# with open( 'collocation_kernels_spherical_unnorm.cu', 'w' ) as f:
-#  f.write( collocation_spherical_unnorm_kernel_expand )
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/templates/collocation_angular_template.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation/templates/collocation_angular_template.hpp
deleted file mode 100644
index f07b758..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/templates/collocation_angular_template.hpp
+++ /dev/null
@@ -1,114 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-$for( L in range(L_max + 1) )\
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_$(L)(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  $(body[L])
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_$(L)_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  $(body_d1[L])
-
-}
-
-$endfor\
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-$for( L in range(L_max + 1) )\
-  $if( L == 0 )\
-    if( l == $(L) ) {
-  $else\
-    } else if( l == $(L) ) {
-  $endif
-        collocation_$(name)_angular_$(L)( npts, bf, x, y, z, eval );
-
-$endfor\
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_$(name)_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-$for( L in range(L_max + 1) )\
-  $if( L == 0 )\
-    if( l == $(L) ) {
-  $else\
-    } else if( l == $(L) ) {
-  $endif
-        collocation_$(name)_angular_$(L)( npts, bf, x, y, z, eval );
-        collocation_$(name)_angular_$(L)_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-$endfor\
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_$(name)_angular_deriv1
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation/templates/collocation_device_constants_template.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation/templates/collocation_device_constants_template.hpp
deleted file mode 100644
index 5245913..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation/templates/collocation_device_constants_template.hpp
+++ /dev/null
@@ -1,13 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-$for( x in const_lines )\
-  $(x)
-$endfor\
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation_device.cu b/third_party/gauxc/attic/src/integrator/cuda/collocation_device.cu
deleted file mode 100644
index 2aa5bc6..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation_device.cu
+++ /dev/null
@@ -1,382 +0,0 @@
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/util/cuda_util.hpp>
-#include <gauxc/exceptions/cuda_exception.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "cuda/collocation_petite_kernels.hpp"
-#include "cuda/collocation_masked_kernels.hpp"
-#include "cuda/collocation_petite_combined_kernels.hpp"
-#include "cuda/collocation_masked_combined_kernels.hpp"
-
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void eval_collocation_petite(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-) {
-
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_petite_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, offs_device,
-      pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_petite(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  cudaStream_t         stream
-);
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device,
-      offs_device, pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_masked(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  cudaStream_t         stream
-);
-
-
-
-
-template <typename T>
-void eval_collocation_petite_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_petite_combined_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, device_tasks );
-     
-}
-
-template
-void eval_collocation_petite_combined(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_petite_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-) {
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_petite_kernel_deriv1<T>
-  );
-
-  dim3 threads(warp_size, nmax_threads/warp_size, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_petite_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_petite_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  cudaStream_t         stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_masked_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  cudaStream_t         stream
-);
-
-
-
-
-template <typename T>
-void eval_collocation_petite_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_petite_combined_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, device_tasks );
-     
-}
-
-template
-void eval_collocation_petite_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel_deriv1<T>
-  );
-
-  dim3 threads(warp_size, nmax_threads/warp_size, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation_device.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation_device.hpp
deleted file mode 100644
index 9a8957b..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation_device.hpp
+++ /dev/null
@@ -1,109 +0,0 @@
-#pragma once
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void eval_collocation_petite(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_masked(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_petite_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_petite_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-
-
-template <typename T>
-void eval_collocation_petite_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation_masked_combined_kernels.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation_masked_combined_kernels.hpp
deleted file mode 100644
index 5393d39..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation_masked_combined_kernels.hpp
+++ /dev/null
@@ -1,183 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "cuda/collocation/collocation_angular_cartesian.hpp"
-#include "cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-#include "cuda/cuda_alg_variant_control.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel(
-  size_t                        ntasks,
-  Shell<T>*        __restrict__ shells_device,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.nshells;
-    const auto               nbf         = task.nbe;
-    const auto               npts        = task.npts;
-    const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const uint32_t ipt = tid_x;
-    const uint32_t ish = tid_y;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( uint32_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel_deriv1(
-  size_t                        ntasks,
-  Shell<T>*        __restrict__ shells_device,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  // DBWY: These are factored into the loop for this optimization
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.nshells;
-    const auto               nbf         = task.nbe;
-    const auto               npts        = task.npts;
-    const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-  if( tid_y < nshells and tid_x < npts ) {
-
-    const uint32_t ish = tid_y;
-    const uint32_t ipt = tid_x;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( uint32_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-  } // Batch idx check
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation_masked_kernels.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation_masked_kernels.hpp
deleted file mode 100644
index fcc26e6..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation_masked_kernels.hpp
+++ /dev/null
@@ -1,155 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "cuda/collocation/collocation_angular_cartesian.hpp"
-#include "cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation_petite_combined_kernels.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation_petite_combined_kernels.hpp
deleted file mode 100644
index 6741586..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation_petite_combined_kernels.hpp
+++ /dev/null
@@ -1,186 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "cuda/collocation/collocation_angular_cartesian.hpp"
-#include "cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__
-void collocation_device_petite_combined_kernel(
-  size_t                        ntasks,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-  
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-    auto& task = device_tasks[ batch_id ];
-  
-    const auto nshells                     = task.nshells;
-    const auto nbf                         = task.nbe;
-    const auto npts                        = task.npts;
-    const auto* __restrict__ shells_device = task.shells;
-    const auto* __restrict__ pts_device    = task.points;
-    const auto* __restrict__ offs_device   = task.shell_offs;
-
-    auto* eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_petite_combined_kernel_deriv1(
-  size_t                        ntasks,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-    auto& task = device_tasks[ batch_id ];
-  
-    const auto nshells                     = task.nshells;
-    const auto nbf                         = task.nbe;
-    const auto npts                        = task.npts;
-    const auto* __restrict__ shells_device = task.shells;
-    const auto* __restrict__ pts_device    = task.points;
-    const auto* __restrict__ offs_device   = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/collocation_petite_kernels.hpp b/third_party/gauxc/attic/src/integrator/cuda/collocation_petite_kernels.hpp
deleted file mode 100644
index 63a2c03..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/collocation_petite_kernels.hpp
+++ /dev/null
@@ -1,160 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "cuda/collocation/collocation_angular_cartesian.hpp"
-#include "cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-
-
-template <typename T>
-__global__
-void collocation_device_petite_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_petite_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cublas_extensions.cu b/third_party/gauxc/attic/src/integrator/cuda/cublas_extensions.cu
deleted file mode 100644
index 3858de2..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cublas_extensions.cu
+++ /dev/null
@@ -1,153 +0,0 @@
-#include "cuda/cublas_extensions.hpp"
-#include <gauxc/util/cublas_util.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/exceptions/cublas_exception.hpp>
-
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC {
-namespace cuda  {
-namespace blas  {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__ void increment_kernel( const T* X, T* Y ) {
-  const auto tid = blockIdx.x;
-  if( tid < 1 ) (*Y) += (*X);
-}
-
-template <typename T>
-void increment( const T* X, T* Y, cudaStream_t stream ) {
-  increment_kernel<<<1,1,0,stream>>>(X,Y);
-}
-
-template <>
-void dot( cublasHandle_t handle,
-          int            N,
-          const double*  X,
-          int            INCX,
-          const double*  Y,
-          int            INCY,
-          double*        RES ) {
-
-  auto stat = cublasDdot( handle, N, X, INCX, Y, INCY, RES );
-  GAUXC_CUBLAS_ERROR("CUBLAS DDOT FAILED", stat );
-
-}
-
-template <typename T>
-void gdot( cublasHandle_t handle,
-           int       N,
-           const T*  X,
-           int       INCX,
-           const T*  Y,
-           int       INCY,
-           T*        SCR,
-           T*        RES ) {
-
-  dot( handle, N, X, INCX, Y, INCY, SCR );
-  auto stream = util::get_stream(handle);
-  increment( SCR, RES, stream );
-
-}
-
-template 
-void gdot( cublasHandle_t handle,
-           int            N,
-           const double*  X,
-           int            INCX,
-           const double*  Y,
-           int            INCY,
-           double*        SCR,
-           double*        RES );
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void __global__ hadamard_product_kernel( int      M,
-                                         int      N,
-                                         const T* A,
-                                         int      LDA,
-                                         T*       B,
-                                         int      LDB ) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < M and tid_y < N ) {
-    B[ tid_x + tid_y*LDB ] *= A[ tid_x + tid_y*LDA ];
-  }
-
-}
-
-
-
-template <typename T>
-void hadamard_product( cublasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB ) {
-
-  auto stream = util::get_stream(handle);
-  dim3 threads(warp_size, max_warps_per_thread_block);
-  dim3 blocks( util::div_ceil( M, threads.x ),
-               util::div_ceil( N, threads.y ) );
-
-  hadamard_product_kernel<<< blocks, threads, 0, stream >>>( M, N, A, LDA, B, LDB );
-
-}
- 
-template 
-void hadamard_product( cublasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const double*  A,
-                       int            LDA,
-                       double*        B,
-                       int            LDB ); 
-
-
-
-
-template <>
-void gemm( cublasHandle_t handle, 
-           cublasOperation_t TA, cublasOperation_t TB,
-           int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB,
-           double BETA, double* C, int LDC ) {
-
-  auto stat = cublasDgemm( handle, TA, TB, M, N, K, &ALPHA, A, LDA,
-                           B, LDB, &BETA, C, LDC );
-  GAUXC_CUBLAS_ERROR("CUBLAS DGEMM FAILED", stat);
-
-}
-
-
-template <>
-void syr2k( cublasHandle_t handle, 
-            cublasFillMode_t UPLO, cublasOperation_t Trans,
-            int M, int K, double ALPHA, 
-            const double* A, int LDA, const double* B, int LDB,
-            double BETA, double* C, int LDC ) {
-
-  auto stat = cublasDsyr2k( handle, UPLO, Trans, M, K, &ALPHA, A, LDA, B, LDB,
-                           &BETA, C, LDC );
-  GAUXC_CUBLAS_ERROR("CUBLAS DSYR2K FAILED", stat);
-
-}
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cublas_extensions.hpp b/third_party/gauxc/attic/src/integrator/cuda/cublas_extensions.hpp
deleted file mode 100644
index 81af06d..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cublas_extensions.hpp
+++ /dev/null
@@ -1,53 +0,0 @@
-#pragma once
-#include <cublas_v2.h>
-
-namespace GauXC {
-namespace cuda  {
-namespace blas  {
-
-template <typename T>
-void dot( cublasHandle_t handle,
-          int            N,
-          const T*       X,
-          int            INCX,
-          const T*       Y,
-          int            INCY,
-          T*             RES );
-
-template <typename T>
-void gdot( cublasHandle_t handle,
-          int            N,
-           const T*       X,
-           int            INCX,
-           const T*       Y,
-           int            INCY,
-           T*             SCR,
-           T*             RES );
-
-
-template <typename T>
-void hadamard_product( cublasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB );
-                       
-
-template <typename T>
-void gemm( cublasHandle_t handle, 
-           cublasOperation_t TA, cublasOperation_t TB,
-           int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB,
-           T BETA, T* C, int LDC );
-
-template <typename T>
-void syr2k( cublasHandle_t handle, 
-            cublasFillMode_t UPLO, cublasOperation_t Trans,
-            int M, int K, T ALPHA, 
-            const T* A, int LDA, const T* B, int LDB,
-            T BETA, T* C, int LDC );
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_alg_variant_control.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_alg_variant_control.hpp
deleted file mode 100644
index e0d1f9b..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_alg_variant_control.hpp
+++ /dev/null
@@ -1,4 +0,0 @@
-#pragma once
-
-//#define GAUXC_CUDA_ENABLE_COLLOCATION_SHMEM_COPY
-//#define GAUXC_CUDA_ENABLE_COMPACT_COLLOCATION
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_device_properties.cxx b/third_party/gauxc/attic/src/integrator/cuda/cuda_device_properties.cxx
deleted file mode 100644
index 2172a15..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_device_properties.cxx
+++ /dev/null
@@ -1,33 +0,0 @@
-#include <cmath>
-#include <algorithm>
-
-#include "cuda_runtime.h"
-
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC {
-namespace cuda  {
-
-
-uint32_t get_submat_cut_block(int32_t LDA, int32_t device) {
-  int l2_cache_size;
-  cudaDeviceGetAttribute(&l2_cache_size, cudaDevAttrL2CacheSize, device);
-
-  int l2_block_size = (int) sqrt(0.75 * ((double) l2_cache_size / 8));
-  int min_block_size = LDA / max_submat_blocks;
-
-  int block_size = std::max(l2_block_size, min_block_size);
-  block_size = std::min(block_size, LDA);
-
-  return block_size;
-}
-
-uint32_t get_device_sm_count(int32_t device) {
-  int num_sm;
-  cudaDeviceGetAttribute(&num_sm, cudaDevAttrMultiProcessorCount, device);
-
-  return num_sm;
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_device_properties.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_device_properties.hpp
deleted file mode 100644
index 0b80a00..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_device_properties.hpp
+++ /dev/null
@@ -1,23 +0,0 @@
-#pragma once
-#include <cstdint>
-
-namespace GauXC {
-namespace cuda  {
-
-static constexpr uint32_t warp_size = 32;
-static constexpr uint32_t max_threads_per_thread_block = 1024;
-static constexpr uint32_t max_warps_per_thread_block = 
-  max_threads_per_thread_block / warp_size;
-
-static constexpr uint32_t max_submat_blocks = 10;
-
-// Properties for weight algorithm
-static constexpr uint32_t weight_unroll = 4;
-static_assert(weight_unroll == 4, "Weight unroll is only tested for value of 4");
-static constexpr uint32_t weight_thread_block = 640;
-static constexpr uint32_t weight_thread_block_per_sm = 2;
-
-uint32_t get_submat_cut_block(int32_t LDA, int32_t device);
-uint32_t get_device_sm_count(int32_t device);
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_driver_replicated_density_incore.cxx b/third_party/gauxc/attic/src/integrator/cuda/cuda_driver_replicated_density_incore.cxx
deleted file mode 100644
index 937f3fc..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_driver_replicated_density_incore.cxx
+++ /dev/null
@@ -1,460 +0,0 @@
-#include <gauxc/xc_integrator/xc_cuda_util.hpp>
-#include <gauxc/util/cuda_util.hpp>
-#include <gauxc/util/unused.hpp>
-
-#include "cuda/cuda_weights.hpp"
-#include "cuda/collocation_device.hpp"
-#include "cuda/cuda_pack_density.hpp"
-#include "cuda/cuda_inc_potential.hpp"
-#include "cuda/cuda_eval_denvars.hpp"
-#include "cuda/cuda_zmat.hpp"
-#include "integrator_common.hpp"
-  
-#include "cuda/cublas_extensions.hpp"
-
-namespace GauXC  {
-namespace integrator::cuda {
-
-using namespace GauXC::cuda::blas;
-
-
-template <typename F>
-using cuda_task_iterator = typename std::vector<XCTaskDevice<F>>::iterator;
-
-template <typename F, size_t n_deriv>
-void process_batches_cuda_replicated_density_incore(
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  XCCudaData<F>&         cuda_data,
-  cuda_task_iterator<F>  task_begin,
-  cuda_task_iterator<F>  task_end
-) {
-
-  const auto ntasks = std::distance( task_begin, task_end );
-  const auto nbf    = cuda_data.nbf;
-
-  // Get batch statistics for batches to process
-  auto nbe_comparator = 
-    []( const auto& a, const auto& b ){ return a.nbe < b.nbe; };
-  auto npts_comparator = 
-    []( const auto& a, const auto& b ){ return a.npts < b.npts; };
-  auto nshells_comparator = 
-    []( const auto& a, const auto& b ){ return a.nshells < b.nshells; };
-
-  auto [min_nbe_it, max_nbe_it] = 
-    std::minmax_element( task_begin, task_end, nbe_comparator );
-  auto [min_npts_it, max_npts_it] = 
-    std::minmax_element( task_begin, task_end, npts_comparator );
-  auto [min_nshells_it, max_nshells_it] = 
-    std::minmax_element( task_begin, task_end, nshells_comparator );
-
-  const auto min_nbe     = min_nbe_it->nbe;
-  const auto max_nbe     = max_nbe_it->nbe;
-  const auto min_npts    = min_npts_it->npts;
-  const auto max_npts    = max_npts_it->npts;
-  const auto min_nshells = min_nshells_it->nshells;
-  const auto max_nshells = max_nshells_it->nshells;
-
-  util::unused( min_nbe, min_npts, min_nshells );
-
-  const size_t total_npts = 
-    std::accumulate( task_begin, task_end, 0ul, 
-                     []( const auto& a, const auto& b ) { return a + b.npts; } );
-
-
-  // Aliases
-  cudaStream_t   master_stream = *cuda_data.master_stream;
-  cublasHandle_t master_handle = *cuda_data.master_handle;
-
-#ifdef GAUXC_ENABLE_MAGMA
-  magma_queue_t  master_queue  = *cuda_data.master_magma_queue;
-#endif
-
-  auto* dmat_device         = cuda_data.dmat_device;
-
-  auto* shells_device       = cuda_data.shells_device;
-  auto* tasks_device        = cuda_data.device_tasks;
-  auto* dmat_array_device   = cuda_data.dmat_array_device;
-  auto* zmat_array_device   = cuda_data.zmat_array_device;
-  auto* bf_array_device     = cuda_data.bf_array_device;
-  auto* weights_device      = cuda_data.weights_device_buffer;
-  auto* dist_scratch_device = cuda_data.dist_scratch_device;
-
-  auto* den_eval_device     = cuda_data.den_eval_device;
-  auto* dden_x_eval_device  = cuda_data.den_x_eval_device;
-  auto* dden_y_eval_device  = cuda_data.den_y_eval_device;
-  auto* dden_z_eval_device  = cuda_data.den_z_eval_device;
-
-  auto* eps_eval_device     = cuda_data.eps_eval_device;
-  auto* gamma_eval_device   = cuda_data.gamma_eval_device;
-  auto* vrho_eval_device    = cuda_data.vrho_eval_device;
-  auto* vgamma_eval_device  = cuda_data.vgamma_eval_device;
-
-
-  auto* exc_device     = cuda_data.exc_device;
-  auto* vxc_device     = cuda_data.vxc_device;
-  auto* nel_device     = cuda_data.nel_device;
-  auto* acc_scr_device = cuda_data.acc_scr_device;
-
-  auto* m_array_device      = cuda_data.m_array_device;
-  auto* n_array_device      = cuda_data.n_array_device;
-  auto* k_array_device      = cuda_data.k_array_device;
-  auto* lda_array_device    = cuda_data.lda_array_device;
-  auto* ldb_array_device    = cuda_data.ldb_array_device;
-  auto* ldc_array_device    = cuda_data.ldc_array_device;
-
-
-  const auto* rab_device          = cuda_data.rab_device;
-  const auto* coords_device       = cuda_data.coords_device;
-  const auto* points_device       = cuda_data.points_device_buffer;
-  const auto* iparent_device      = cuda_data.iparent_device_buffer;
-  const auto* dist_nearest_device = cuda_data.dist_nearest_buffer;
-
-
-
-
-  // Evaluate Partition Weights
-  partition_weights_cuda_SoA( weight_alg, total_npts, cuda_data.LDatoms, cuda_data.natoms, 
-                              points_device, iparent_device, dist_nearest_device,
-                              rab_device, coords_device, weights_device, 
-                              dist_scratch_device, master_stream );
-
-
-  // Evaluate Collocation
-  if constexpr ( n_deriv == 1 )
-    eval_collocation_masked_combined_deriv1( ntasks, max_npts, max_nshells,
-                                             shells_device, tasks_device,
-                                             master_stream );
-  else
-    eval_collocation_masked_combined( ntasks, max_npts, max_nshells, shells_device, 
-                                      tasks_device, master_stream );
-
-  // Pack Density Submatrices
-  task_pack_density_matrix( ntasks, tasks_device, dmat_device, nbf, master_stream );
-
-
-  // Form Z = P * X
-  if( cuda_data.batch_l3_blas ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-
-    magmablas_dgemm_vbatched( MagmaNoTrans, MagmaNoTrans,
-                              m_array_device, n_array_device, k_array_device,
-                              1., bf_array_device, ldb_array_device,
-                              dmat_array_device, lda_array_device,
-                              0., zmat_array_device, ldc_array_device,
-                              ntasks, master_queue );
-
-#else
-
-    throw std::runtime_error("BATCHED BLAS API NOT SUPPORTED");
-
-#endif
-
-  } else {
-
-    int nstream = cuda_data.blas_streams.size();
-
-    // Wait for collocation etc
-    util::cuda_event master_event;
-    master_event.record( master_stream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      cuda_data.blas_streams[iS].wait( master_event );
-
-    // Do GEMM in round-robin
-    for( auto iT = 0; iT < ntasks; ++iT ) {
-      auto& task = *(task_begin + iT);
-      gemm( cuda_data.blas_handles[iT % nstream], CUBLAS_OP_N, CUBLAS_OP_N,
-            task.npts, task.nbe, task.nbe, 1., task.bf, task.npts,
-            task.nbe_scr, task.nbe, 0., task.zmat, task.npts );
-    }
-
-    // Record completion of BLAS ops
-    std::vector< util::cuda_event > blas_events( nstream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      blas_events[iS].record( cuda_data.blas_streams[iS] );
-
-    // Wait on master stream for all BLAS ops to complete
-    for( int iS = 0; iS < nstream; ++iS )
-      cuda_data.master_stream->wait( blas_events[iS] );
-
-  }
-                
-
-  
-  // Zero UVars
-  util::cuda_set_zero_async( total_npts, den_eval_device, master_stream, "DenZero" );
-  if( func.is_gga() ) {
-    util::cuda_set_zero_async( total_npts, dden_x_eval_device, master_stream, 
-                               "DenXZero" );
-    util::cuda_set_zero_async( total_npts, dden_y_eval_device, master_stream, 
-                               "DenYZero" );
-    util::cuda_set_zero_async( total_npts, dden_z_eval_device, master_stream, 
-                               "DenZZero" );
-  }
-
-  // Evaluate UVars
-  if( func.is_gga() ) {
-    eval_uvars_gga_device( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-    eval_vvars_gga_device( total_npts, dden_x_eval_device, dden_y_eval_device,
-                           dden_z_eval_device, gamma_eval_device, master_stream );
-  } else {
-    eval_uvars_lda_device( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  }
-
-  // Evaluate XC Functional
-  if( func.is_gga() )
-    func.eval_exc_vxc_device( total_npts, den_eval_device, gamma_eval_device, 
-                              eps_eval_device, vrho_eval_device, 
-                              vgamma_eval_device, master_stream );
-  else
-    func.eval_exc_vxc_device( total_npts, den_eval_device, eps_eval_device, 
-                              vrho_eval_device, master_stream );
-
-
-  // Factor weights into XC output
-  hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                    eps_eval_device, 1 );
-  hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                    vrho_eval_device, 1 );
-  if( func.is_gga() ) 
-    hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                      vgamma_eval_device, 1 );
-
-  // Accumulate EXC / NEL
-  gdot( master_handle, total_npts, weights_device, 1,
-        den_eval_device, 1, acc_scr_device, nel_device );
-  gdot( master_handle, total_npts, eps_eval_device, 1,
-        den_eval_device, 1, acc_scr_device, exc_device );
-      
-  // Evaluate Z Matrix
-  if( func.is_gga() )
-    zmat_gga_cuda( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  else
-    zmat_lda_cuda( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  
-
-
-  // Accumulate packed VXC = X * Z**T + Z * X**T
-
-  
-  if( cuda_data.batch_l3_blas ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-
-    // XXX: Only updates LT
-    magmablas_dsyr2k_vbatched( MagmaLower, MagmaTrans, 
-                               n_array_device, m_array_device,
-                               1., bf_array_device, ldb_array_device,
-                               zmat_array_device, ldc_array_device,
-                               0., dmat_array_device, lda_array_device,
-                               ntasks, master_queue );
-
-#else
-
-    throw std::runtime_error("BATCHED BLAS API NOT SUPPORTED");
-
-#endif
-  } else {
-
-    int nstream = cuda_data.blas_streams.size();
-
-    // Wait for zmat, etc
-    util::cuda_event master_event;
-    master_event.record( master_stream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      cuda_data.blas_streams[iS].wait( master_event );
-
-    // Do SYR2K in round-robin
-    for( auto iT = 0; iT < ntasks; ++iT ) {
-      auto& task = *(task_begin + iT);
-      syr2k( cuda_data.blas_handles[iT % nstream], CUBLAS_FILL_MODE_LOWER, 
-             CUBLAS_OP_T, task.nbe, task.npts, 1., task.bf, task.npts,
-             task.zmat, task.npts, 0., task.nbe_scr, task.nbe );
-    }
-
-    // Record completion of BLAS ops
-    std::vector< util::cuda_event > blas_events( nstream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      blas_events[iS].record( cuda_data.blas_streams[iS] );
-
-    // Wait on master stream for all BLAS ops to complete
-    for( int iS = 0; iS < nstream; ++iS )
-      cuda_data.master_stream->wait( blas_events[iS] );
-  }
-
-  // Increment global VXC
-  task_inc_potential( ntasks, tasks_device, vxc_device, nbf, master_stream );
-
-
-  // Synchronize on master stream
-  // XXX: There's no lifetime issues in this driver, should look into
-  //      avoid this sync to allow for overlap with the host packing 
-  cudaStreamSynchronize( master_stream );
-
-}
-
-
-template <typename F, size_t n_deriv>
-void process_batches_cuda_replicated_density_incore_p(
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCCudaData<F>    &     cuda_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-) {
-
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.nbe) > (b.points.size() * b.nbe);
-  };
-  std::sort( local_work_begin, local_work_end, task_comparator );
-
-
-  const auto nbf     = basis.nbf();
-  const auto natoms  = meta.natoms();
-  const auto LDatoms = cuda_data.LDatoms;
-
-  // Send static data to the device
-
-  // Density
-  util::cuda_copy( nbf * nbf, cuda_data.dmat_device, P, "P H2D" );
-
-  // Shells: TODO avoid host copy?
-  std::vector<Shell<F>> shells( basis );
-  util::cuda_copy( shells.size(), cuda_data.shells_device, shells.data(),
-                   "Shells H2D" );
-
-  // RAB
-  util::cuda_copy_2d( cuda_data.rab_device, LDatoms * sizeof(F),
-                      meta.rab().data(), natoms * sizeof(F),
-                      natoms * sizeof(F), natoms, "RAB H2D");
-  // This could probably happen on the host
-  cuda_reciprocal(natoms * LDatoms, cuda_data.rab_device, 0);
-
-  // Atomic coordinates 
-  std::vector<double> coords( 3*natoms );
-  for( auto i = 0ul; i < natoms; ++i ) {
-    coords[ 3*i + 0 ] = mol[i].x;
-    coords[ 3*i + 1 ] = mol[i].y;
-    coords[ 3*i + 2 ] = mol[i].z;
-  }
-  util::cuda_copy( 3 * natoms, cuda_data.coords_device, coords.data(),
-                   "Coords H2D" );
-
-
-  // Zero out XC quantities
-  util::cuda_set_zero( nbf * nbf, cuda_data.vxc_device, "VXC Zero" ); 
-  util::cuda_set_zero( 1        , cuda_data.exc_device, "EXC Zero" ); 
-  util::cuda_set_zero( 1        , cuda_data.nel_device, "NEL Zero" ); 
-
-
-
-  // Processes batches in groups that saturadate available device memory
-  auto task_it = local_work_begin;
-  while( task_it != local_work_end ) {
-
-    // Determine next task batch, send relevant data to device
-    auto [it, tasks_device] = 
-      cuda_data.generate_buffers( basis, task_it, local_work_end );
-
-
-    // Process the batches
-    process_batches_cuda_replicated_density_incore<F,n_deriv>( 
-      weight_alg, func, cuda_data, tasks_device.begin(), tasks_device.end() 
-    );
-
-    task_it = it;
-
-  }
-
-  symmetrize_matrix<double>(nbf, nbf, cuda_data.vxc_device, *cuda_data.master_stream);
-  cudaStreamSynchronize( *cuda_data.master_stream );
-}
-
-#ifdef GAUXC_ENABLE_NCCL
-template <typename F>
-void device_allreduce(
-  ncclComm_t             nccl_comm,
-  XCCudaData<F>    &     cuda_data
-) {
-  cudaStream_t   master_stream = *cuda_data.master_stream;
-  const auto nbf = cuda_data.nbf;
-
-  ncclAllReduce((const void*)cuda_data.vxc_device,
-                (void*)      cuda_data.vxc_device,
-                nbf * nbf, ncclDouble, ncclSum, nccl_comm, master_stream);
-
-  ncclAllReduce((const void*)cuda_data.exc_device,
-                (void*)      cuda_data.exc_device,
-                1, ncclDouble, ncclSum, nccl_comm, master_stream);
-
-  ncclAllReduce((const void*)cuda_data.nel_device,
-                (void*)      cuda_data.nel_device,
-                1, ncclDouble, ncclSum, nccl_comm, master_stream);
-
-  cudaStreamSynchronize(master_stream);
-}
-#endif
-
-template <typename F>
-void device_transfer(
-  XCCudaData<F>    &     cuda_data,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-) {
-  const auto nbf = cuda_data.nbf;
-
-  // Receive XC terms from host
-  if( not cuda_data.vxcinc_host ) 
-    util::cuda_copy( nbf * nbf, VXC, cuda_data.vxc_device, "VXC D2H" );
-  util::cuda_copy( 1, EXC, cuda_data.exc_device, "EXC D2H" );
-  util::cuda_copy( 1, NEL, cuda_data.nel_device, "NEL D2H" );
-
-}
-
-
-#define CUDA_IMPL( F, ND ) \
-template \
-void process_batches_cuda_replicated_density_incore_p<F, ND>(\
-  XCWeightAlg            weight_alg,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCCudaData<F>    &     cuda_data,\
-  host_task_iterator     local_work_begin,\
-  host_task_iterator     local_work_end,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-CUDA_IMPL( double, 0 );
-CUDA_IMPL( double, 1 );
-
-#ifdef GAUXC_ENABLE_NCCL
-template void device_allreduce<double>(
-  ncclComm_t             nccl_comm,
-  XCCudaData<double>&    cuda_data
-);
-#endif
-
-template void device_transfer(
-  XCCudaData<double>&    cuda_data,
-  double*                VXC,
-  double*                EXC,
-  double*                NEL
-);
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_driver_replicated_density_shellbatched.cxx b/third_party/gauxc/attic/src/integrator/cuda/cuda_driver_replicated_density_shellbatched.cxx
deleted file mode 100644
index 6a56fa2..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_driver_replicated_density_shellbatched.cxx
+++ /dev/null
@@ -1,587 +0,0 @@
-#include <set>
-#include <queue>
-#include <future>
-
-#include <gauxc/xc_integrator/xc_cuda_util.hpp>
-#include <gauxc/util/cuda_util.hpp>
-#include <gauxc/util/unused.hpp>
-
-#include "cuda/cuda_weights.hpp"
-#include "cuda/collocation_device.hpp"
-#include "cuda/cuda_pack_density.hpp"
-#include "cuda/cuda_inc_potential.hpp"
-#include "cuda/cuda_eval_denvars.hpp"
-#include "cuda/cuda_zmat.hpp"
-#include "integrator_common.hpp"
-  
-#include "cuda/cublas_extensions.hpp"
-
-#include "host/util.hpp"
-
-namespace GauXC  {
-namespace integrator::cuda {
-
-using namespace GauXC::cuda::blas;
-
-auto ranges_from_list( const std::vector<int32_t>& shell_list ) {
-
-  std::vector< std::pair<int32_t,int32_t> > ranges;
-  ranges.emplace_back( shell_list.front(), shell_list.back() );
-
-  for( auto it = shell_list.begin(); it != shell_list.end()-1; ++it ) {
-    if( *(it+1) - *it != 1 ) {
-      ranges.back().second = *it;
-      ranges.emplace_back( *(it+1), shell_list.back() );
-    }
-  }
-
-  return ranges;
-
-}
-
-
-// Checks if B is a subset of A
-template <typename C1, typename C2>
-inline auto list_subset( const C1& A, const C2& B ) {
-  return std::includes( A.begin(), A.end(), B.begin(), B.end() );
-}
-
-template <typename Integral>
-inline auto integral_list_intersect( const std::vector<Integral>& A,
-                                     const std::vector<Integral>& B ) {
-
-
-  constexpr size_t sz_ratio = 100;
-  const size_t A_sz = A.size();
-  const size_t B_sz = B.size();
-
-  const auto A_begin = A.begin();
-  const auto A_end   = A.end();
-  const auto B_begin = B.begin();
-  const auto B_end   = B.end();
-
-  // Fall through if query list is much larger than max list
-  if( A_sz * sz_ratio < B_sz ) {
-    for( const auto& val : A ) {
-      if( std::binary_search( B_begin, B_end, val ) ) 
-        return true;
-    }
-    return false;
-  }
-
-  // Fall through if max list is much larger than query list
-  if( B_sz * sz_ratio < A_sz ) {
-    for( const auto& val : B ) {
-      if( std::binary_search( A_begin, A_end, val ) )
-        return true;
-    }
-    return false;
-  }
-
-  // Default if lists are about the same size
-  auto B_it = B_begin;
-  auto A_it = A_begin;
-
-  while( B_it != B_end and A_it != A_end ) {
-
-    if( *B_it < *A_it ) {
-      B_it = std::lower_bound( B_it, B_end, *A_it );
-      continue;
-    }
-
-    if( *A_it < *B_it ) {
-      A_it = std::lower_bound( A_it, A_end, *B_it );
-      continue;
-    }
-
-    return true;
-
-  }
-
-  return false;
-
-
-}
-
-
-
-
-
-
-template <typename Integral>
-inline auto integral_list_intersect( const std::vector<Integral>& A,
-                                     const std::vector<Integral>& B,
-                                     const uint32_t overlap_threshold_spec ) {
-
-  const uint32_t max_intersect_sz  = std::min(A.size(), B.size());
-  const uint32_t overlap_threshold = std::min( max_intersect_sz, 
-                                               overlap_threshold_spec );
-
-  constexpr size_t sz_ratio = 100;
-  const size_t A_sz = A.size();
-  const size_t B_sz = B.size();
-
-  const auto A_begin = A.begin();
-  const auto A_end   = A.end();
-  const auto B_begin = B.begin();
-  const auto B_end   = B.end();
-
-  uint32_t overlap_count = 0;
-
-  // Fall through if query list is much larger than max list
-  if( A_sz * sz_ratio < B_sz ) {
-
-    for( const auto& val : A ) {
-      overlap_count += !!std::binary_search( B_begin, B_end, val );
-      if( overlap_count == overlap_threshold ) return true;
-    }
-    return false;
-
-  }
-
-  // Fall through if max list is much larger than query list
-  if( B_sz * sz_ratio < A_sz ) {
-    for( const auto& val : B ) {
-      overlap_count += !!std::binary_search( A_begin, A_end, val );
-      if( overlap_count == overlap_threshold ) return true;
-    }
-    return false;
-  }
-
-  // Default if lists are about the same size
-  auto B_it = B_begin;
-  auto A_it = A_begin;
-
-  while( B_it != B_end and A_it != A_end ) {
-
-    if( *B_it < *A_it ) {
-      B_it = std::lower_bound( B_it, B_end, *A_it );
-      continue;
-    }
-
-    if( *A_it < *B_it ) {
-      A_it = std::lower_bound( A_it, A_end, *B_it );
-      continue;
-    }
-
-    // *A_it == *B_it if code reaches here
-    overlap_count++;
-    A_it++; B_it++; // Increment iterators
-    if( overlap_count == overlap_threshold) return true;
-
-  }
-
-  return false;
-
-
-}
-
-
-
-struct dev_ex_task {
-  host_task_iterator   task_begin;
-  host_task_iterator   task_end;
-  std::vector<int32_t> shell_list;
-};
-
-
-
-
-dev_ex_task generate_dev_batch( const uint32_t nbf_threshold,
-                                host_task_iterator task_begin,
-                                host_task_iterator local_work_end,
-                                const BasisSet<double>& basis,
-                                util::Timer&            timer ) {
-
-
-  auto nbe_comparator = []( const auto& task_a, const auto& task_b ) {
-    return task_a.nbe < task_b.nbe;
-  };
-
-  // Find task with largest NBE
-  auto max_task = timer.time_op_accumulate("XCIntegrator.MaxTask", [&]() {
-    return std::max_element( task_begin, local_work_end, nbe_comparator );
-  } );
-
-  const auto max_shell_list = max_task->shell_list; // copy for reset
-
-  // Init uniion shell list to max shell list outside of loop
-  std::set<int32_t> union_shell_set(max_shell_list.begin(), 
-                                    max_shell_list.end());
-
-
-
-  size_t n_overlap_pthresh     = 20;
-  double overlap_pthresh_delta = 1. / n_overlap_pthresh;
-  std::vector<double> overlap_pthresh;
-  for( int i = 1; i < n_overlap_pthresh; ++i )
-    overlap_pthresh.emplace_back( i*overlap_pthresh_delta );
-
-  std::vector<int> overlap_pthresh_idx( overlap_pthresh.size() );
-  std::iota( overlap_pthresh_idx.begin(), overlap_pthresh_idx.end(), 0 );
-
-  std::map<int, std::pair<host_task_iterator, decltype(union_shell_set)>> 
-    cached_task_ends;
-
-  int cur_partition_pthresh_idx = -1;
-
-  auto _it = std::partition_point( overlap_pthresh_idx.rbegin(), 
-                                   overlap_pthresh_idx.rend(), 
-  [&](int idx) {
-
-    uint32_t overlap_threshold = 
-      std::max(1., max_shell_list.size() * overlap_pthresh[idx] );
-
-
-    host_task_iterator search_st = task_begin;
-    host_task_iterator search_en = local_work_end;
-
-    // Make a local copy of union list
-    std::set<int32_t> local_union_shell_set;
-
-    // Attempt to limit task search based on current partition
-    if( cur_partition_pthresh_idx >= 0 ) {
-
-      const auto& last_pthresh = 
-        cached_task_ends.at(cur_partition_pthresh_idx);
-
-      if( cur_partition_pthresh_idx > idx ) {
-        search_st = last_pthresh.first;    
-        local_union_shell_set = last_pthresh.second;
-      } else {
-        search_en = last_pthresh.first;    
-        local_union_shell_set = union_shell_set;
-      }
-
-    } else {
-      local_union_shell_set = union_shell_set;
-    }
-
-
-    // Partition tasks into those which overlap max_task up to
-    // specified threshold
-    auto task_end = 
-    timer.time_op_accumulate("XCIntegrator.TaskIntersection", [&]() {
-      return std::partition( search_st, search_en, [&](const auto& t) {
-        return integral_list_intersect( max_shell_list, t.shell_list,
-                                        overlap_threshold );
-      } );
-    } );
-
-
-
-    // Take union of shell list for all overlapping tasks
-    timer.time_op_accumulate("XCIntegrator.ShellListUnion",[&]() {
-      for( auto task_it = search_st; task_it != task_end; ++task_it ) {
-        local_union_shell_set.insert( task_it->shell_list.begin(), 
-                                      task_it->shell_list.end() );
-      }
-    } );
-
-    auto cur_nbe = basis.nbf_subset( local_union_shell_set.begin(), 
-                                     local_union_shell_set.end() );
-
-    //std::cout << "  Threshold %       = " << std::setw(5)  << overlap_pthresh[idx] << ", ";
-    //std::cout << "  Overlap Threshold = " << std::setw(8)  << overlap_threshold    << ", ";
-    //std::cout << "  Current NBE       = " << std::setw(8)  << cur_nbe              << std::endl;
-
-    // Cache the data
-    cached_task_ends[idx] = std::make_pair( task_end, local_union_shell_set );
-
-    // Update partitioned threshold
-    cur_partition_pthresh_idx = idx;
-
-    return cur_nbe < nbf_threshold;
-
-  } );
-
-  host_task_iterator task_end;
-  auto _idx_partition = (_it == overlap_pthresh_idx.rend()) ? 0 : *_it;
-  std::tie( task_end, union_shell_set ) = cached_task_ends.at(_idx_partition);
-
-
-
-
-
-  //std::cout << "FOUND " << std::distance( task_begin, task_end ) 
-  //                      << " OVERLAPPING TASKS" << std::endl;
-
-
-  std::vector<int32_t> union_shell_list( union_shell_set.begin(),
-                                         union_shell_set.end() );
-
-  // Try to add additional tasks given current union list
-  task_end = timer.time_op_accumulate("XCIntegrator.SubtaskGeneration", [&]() {
-    return std::partition( task_end, local_work_end, [&]( const auto& t ) {
-      return list_subset( union_shell_list, t.shell_list );
-    } );
-  } );
-
-  //std::cout << "FOUND " << std::distance( task_begin, task_end ) 
-  //                      << " SUBTASKS" << std::endl;
-
-
-  dev_ex_task ex_task;
-  ex_task.task_begin = task_begin;
-  ex_task.task_end   = task_end;
-  ex_task.shell_list = std::move( union_shell_list );
-
-  return ex_task;
-
-}
-
-template <typename F, size_t n_deriv>
-void device_execute_shellbatched(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCCudaData<F>    &     cuda_data,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL,
-  const dev_ex_task&     ex_task_obj
-) {
-
-  // Alias information
-  auto task_begin  = ex_task_obj.task_begin;
-  auto task_end    = ex_task_obj.task_end;
-  auto& union_shell_list = ex_task_obj.shell_list;
-
-  const auto natoms = mol.natoms();
-
-  // Extract subbasis
-  BasisSet<F> basis_subset; basis_subset.reserve(union_shell_list.size());
-  timer.time_op_accumulate("XCIntegrator.CopySubBasis",[&]() {
-    for( auto i : union_shell_list ) {
-      basis_subset.emplace_back( basis.at(i) );
-    }
-    basis_subset.generate_shell_to_ao();
-  });
-
-  const size_t nshells = basis_subset.size();
-  const size_t nbe     = basis_subset.nbf();
-  std::cout << "TASK_UNION HAS:"   << std::endl
-            << "  NSHELLS    = " <<  nshells << std::endl
-            << "  NBE        = " <<  nbe     << std::endl;
-
-  // Recalculate shell_list based on subbasis
-  timer.time_op_accumulate("XCIntegrator.RecalcShellList",[&]() {
-    for( auto _it = task_begin; _it != task_end; ++_it ) {
-      auto union_list_idx = 0;
-      auto& cur_shell_list = _it->shell_list;
-      for( auto j = 0; j < cur_shell_list.size(); ++j ) {
-        while( union_shell_list[union_list_idx] != cur_shell_list[j] )
-          union_list_idx++;
-        cur_shell_list[j] = union_list_idx;
-      }
-    }
-  } );
-  
-
-
-  // Allocate host temporaries
-  std::vector<F> P_submat_host(nbe*nbe), VXC_submat_host(nbe*nbe);
-  F EXC_tmp, NEL_tmp;
-  F* P_submat   = P_submat_host.data();
-  F* VXC_submat = VXC_submat_host.data();
-
-  // Extract subdensity
-  auto [union_submat_cut, foo] = 
-    integrator::gen_compressed_submat_map( basis, union_shell_list, 
-      basis.nbf(), basis.nbf() );
-
-  timer.time_op_accumulate("XCIntegrator.ExtractSubDensity",[&]() {
-    detail::submat_set( basis.nbf(), basis.nbf(), nbe, nbe, P, basis.nbf(), 
-                        P_submat, nbe, union_submat_cut );
-  } );
- 
-
-  // Allocate static quantities on device stack
-  cuda_data.allocate_static_data( natoms, n_deriv, nbe, nshells );
-
-
-  // Process batches on device with subobjects
-  process_batches_cuda_replicated_density_incore_p<F,n_deriv>(
-    weight_alg, func, basis_subset, mol, meta, cuda_data, 
-    task_begin, task_end, P_submat, VXC_submat, &EXC_tmp, &NEL_tmp
-  );
-
-  // Update full quantities
-  *EXC += EXC_tmp;
-  *NEL += NEL_tmp;
-  timer.time_op_accumulate("XCIntegrator.IncrementSubPotential",[&]() {
-    detail::inc_by_submat( basis.nbf(), basis.nbf(), nbe, nbe, VXC, basis.nbf(), 
-                           VXC_submat, nbe, union_submat_cut );
-  });
-
-
-  // Reset shell_list to be wrt full basis
-  timer.time_op_accumulate("XCIntegrator.ResetShellList",[&]() {
-    for( auto _it = task_begin; _it != task_end; ++_it ) 
-    for( auto j = 0; j < _it->shell_list.size();  ++j  ) {
-      _it->shell_list[j] = union_shell_list[_it->shell_list[j]];
-    }
-  });
-
-}
-
-
-
-
-
-template <typename F, size_t n_deriv>
-void process_batches_cuda_replicated_density_shellbatched_p(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCCudaData<F>    &     cuda_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-) {
-
-  const uint32_t nbf_threshold = 8000;
-  std::cout << "IN SHELL BATCHED\n" << std::flush;
-  std::cout << "TOTAL NTASKS = " << std::distance( local_work_begin, local_work_end ) << std:: endl;
-  std::cout << "TOTAL NBF    = " << basis.nbf() << std::endl;
-  std::cout << "NBF THRESH   = " << nbf_threshold << std::endl;
-
-
-  // Zero out final results
-  timer.time_op( "XCIntegrator.ZeroHost", [&]() {
-    *EXC = 0.;
-    *NEL = 0.;
-    std::memset( VXC, 0, basis.nbf()*basis.nbf()*sizeof(F) );
-  });
-
-#if 0
-  size_t nbf     = basis.nbf();
-  size_t nshells = basis.nshells();
-  size_t natoms  = mol.size();
-
-  // Allocate static quantities on device stack
-  cuda_data.allocate_static_data( natoms, n_deriv, nbf, nshells );
-
-  process_batches_cuda_replicated_density_incore_p<F,n_deriv>(
-    weight_alg, func, basis, mol, meta, cuda_data, 
-    local_work_begin, local_work_end, P, VXC, EXC, NEL
-  );
-#else
-
-  auto nbe_comparator = []( const auto& task_a, const auto& task_b ) {
-    return task_a.nbe < task_b.nbe;
-  };
-
-
-  size_t batch_iter = 0;
-  auto task_begin = local_work_begin;
-
-  const size_t natoms  = mol.size();
-
-  //std::future<void> device_ex;
-
-  std::cout << "MASTER THREAD ID = " << std::this_thread::get_id() << std::endl;
-  std::queue< dev_ex_task > dev_tasks;
-
-  auto execute_device_task = [&] () {
-
-    if( dev_tasks.empty() ) return;
-
-    std::cout << "Executing device tasks on thread " << std::this_thread::get_id() << std::endl;
-
-    dev_ex_task batch_task = std::move( dev_tasks.front() ); // Move task to local scope
-    dev_tasks.pop(); // Remove from queue
-    
-    // Execute task
-    timer.time_op_accumulate( "XCIntegrator.DeviceWork", [&]() {
-      device_execute_shellbatched<F,n_deriv>( timer, weight_alg, func, basis, mol,
-                                              meta, cuda_data, P, VXC, EXC, NEL,
-                                              batch_task );
-    });
-
-
-  };
-
-  std::future<void> dev_future;
-  while( task_begin != local_work_end ) {
-
-    // Generate task
-    dev_tasks.emplace( generate_dev_batch( nbf_threshold, task_begin, 
-                                           local_work_end, basis, timer ) );
-
-    if( not dev_future.valid() ) {
-      dev_future = std::async( std::launch::async, execute_device_task );
-    } else {
-      auto status = dev_future.wait_for( std::chrono::milliseconds(5) );
-      if( status == std::future_status::ready ) {
-        dev_future.get();
-        dev_future = std::async( std::launch::async, execute_device_task );
-      }
-    }
-
-    // Update task iterator for next set of batches
-    task_begin = dev_tasks.back().task_end;
-
-  }
-
-
-  if( dev_future.valid() ) dev_future.wait();
-
-  // TODO: Try to merge tasks if possible
-  //for( auto _task_it = dev_tasks.begin(); _task_it != dev_tasks.end()-1; ++_task_it ) {
-  //  const auto& shell_list = _task_it->union_shell_list;
-  //  auto task_nbe = basis.nbf_subset( shell_list.begin(), shell_list.end() );
-  //  auto _merge_it = _task_it + 1;
-  //  while( task_nbe <= nbf_threshold and _merge_it != dev_tasks.end() ) {
-  //    _merge_it = std::find_if( _merge_it, dev_tasks.end(), [&]( const auto& t ) {
-  //      const auto& local_shell_list
-  //    } );
-  //  }
-  //}
-
-  while( not dev_tasks.empty() ) {
-    // Execute remaining tasks
-    execute_device_task();
-  }
-
-
-
-#endif
-
-}
-
-
-#define CUDA_IMPL( F, ND ) \
-template \
-void process_batches_cuda_replicated_density_shellbatched_p<F, ND>(\
-  util::Timer&           timer,\
-  XCWeightAlg            weight_alg,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCCudaData<F>    &     cuda_data,\
-  host_task_iterator     local_work_begin,\
-  host_task_iterator     local_work_end,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-CUDA_IMPL( double, 0 );
-CUDA_IMPL( double, 1 );
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_eval_denvars.cu b/third_party/gauxc/attic/src/integrator/cuda/cuda_eval_denvars.cu
deleted file mode 100644
index 0f1cd2f..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_eval_denvars.cu
+++ /dev/null
@@ -1,254 +0,0 @@
-#include "cuda/cuda_eval_denvars.hpp"
-#include "cuda/cuda_extensions.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__ void eval_uvars_lda_kernel( size_t           ntasks,
-                                       XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-
-  auto* den_eval_device   = task.den;
-
-  const auto* basis_eval_device = task.bf;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  register double den_reg = 0.;
-
-  if( tid_x < nbf and tid_y < npts ) {
-
-    const double* bf_col   = basis_eval_device     + tid_x*npts;
-    const double* db_col   = den_basis_prod_device + tid_x*npts;
-
-    den_reg = bf_col[ tid_y ]   * db_col[ tid_y ];
-
-  }
-
-  // Warp blocks are stored col major
-  den_reg = 2 * warpReduceSum( den_reg );
-
-
-  if( threadIdx.x == 0 and tid_y < npts ) {
-    atomicAdd( den_eval_device   + tid_y, den_reg );
-  }
-  
-
-}
-
-
-
-#define GGA_KERNEL_SM_BLOCK_Y 32
-
-template <typename T>
-__global__ void eval_uvars_gga_kernel( size_t           ntasks,
-                                       XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-
-  auto* den_eval_device   = task.den;
-  auto* den_x_eval_device = task.ddenx;
-  auto* den_y_eval_device = task.ddeny;
-  auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  __shared__ double den_shared[4][warp_size][GGA_KERNEL_SM_BLOCK_Y+1];
-
-  for ( int bid_x = blockIdx.x * blockDim.x; 
-        bid_x < nbf;
-        bid_x += blockDim.x * gridDim.x ) {
-    
-    for ( int bid_y = blockIdx.y * GGA_KERNEL_SM_BLOCK_Y; 
-          bid_y < npts;
-          bid_y += GGA_KERNEL_SM_BLOCK_Y * gridDim.y ) {
-        
-      for (int sm_y = threadIdx.y; sm_y < GGA_KERNEL_SM_BLOCK_Y; sm_y += blockDim.y) {
-        den_shared[0][threadIdx.x][sm_y] = 0.;
-        den_shared[1][threadIdx.x][sm_y] = 0.;
-        den_shared[2][threadIdx.x][sm_y] = 0.;
-        den_shared[3][threadIdx.x][sm_y] = 0.;
-
-        if (bid_y + threadIdx.x < npts and bid_x + sm_y < nbf) { 
-          const double* db_col   = den_basis_prod_device + (bid_x + sm_y)*npts;
-          const double* bf_col   = basis_eval_device     + (bid_x + sm_y)*npts;
-          const double* bf_x_col = dbasis_x_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_y_col = dbasis_y_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_z_col = dbasis_z_eval_device  + (bid_x + sm_y)*npts;
-
-          den_shared[0][threadIdx.x][sm_y] = bf_col  [ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[1][threadIdx.x][sm_y] = bf_x_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[2][threadIdx.x][sm_y] = bf_y_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[3][threadIdx.x][sm_y] = bf_z_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-        }
-      }
-      __syncthreads();
-
-
-      for (int sm_y = threadIdx.y; sm_y < GGA_KERNEL_SM_BLOCK_Y; sm_y += blockDim.y) {
-        const int tid_y = bid_y + sm_y;
-        register double den_reg = den_shared[0][sm_y][threadIdx.x];
-        register double dx_reg  = den_shared[1][sm_y][threadIdx.x];
-        register double dy_reg  = den_shared[2][sm_y][threadIdx.x];
-        register double dz_reg  = den_shared[3][sm_y][threadIdx.x];
-
-        // Warp blocks are stored col major
-        den_reg = 2 * warpReduceSum( den_reg );
-        dx_reg  = 4 * warpReduceSum( dx_reg );
-        dy_reg  = 4 * warpReduceSum( dy_reg );
-        dz_reg  = 4 * warpReduceSum( dz_reg );
-
-
-        if( threadIdx.x == 0 and tid_y < npts ) {
-          atomicAdd( den_eval_device   + tid_y, den_reg );
-          atomicAdd( den_x_eval_device + tid_y, dx_reg  );
-          atomicAdd( den_y_eval_device + tid_y, dy_reg  );
-          atomicAdd( den_z_eval_device + tid_y, dz_reg  );
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-
-template <typename T>
-__global__ void eval_vvars_gga_kernel( 
-  size_t   npts,
-  const T* den_x_eval_device,
-  const T* den_y_eval_device,
-  const T* den_z_eval_device,
-        T* gamma_eval_device
-) {
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-  if( tid < npts ) {
-
-    const double dx = den_x_eval_device[ tid ];
-    const double dy = den_y_eval_device[ tid ];
-    const double dz = den_z_eval_device[ tid ];
-
-    gamma_eval_device[tid] = dx*dx + dy*dy + dz*dz;
-
-  }
-
-}
-
-
-template <typename T>
-void eval_uvars_lda_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream ) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( max_nbf , threads.x ),
-               util::div_ceil( max_npts , threads.y ),
-               ntasks );
-
-  eval_uvars_lda_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
-
-template <typename T>
-void eval_uvars_gga_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream ) {
-
-  dim3 threads( warp_size, max_warps_per_thread_block / 2, 1 );
-  dim3 blocks( std::min(int64_t(4), util::div_ceil( max_nbf, 4 )),
-               std::min(int64_t(16), util::div_ceil( max_nbf, 16 )),
-               ntasks );
-
-  eval_uvars_gga_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
- 
-
-template <typename T>
-void eval_vvars_gga_device( size_t       npts,
-                            const T*     den_x_device,
-                            const T*     den_y_device,
-                            const T*     den_z_device,
-                                  T*     gamma_device,
-                            cudaStream_t stream ) {
-
-  dim3 threads( max_threads_per_thread_block );
-  dim3 blocks( util::div_ceil( npts, threads.x ) );
-
-  eval_vvars_gga_kernel<<< blocks, threads, 0, stream >>>(
-    npts, den_x_device, den_y_device, den_z_device, gamma_device
-  );
-
-}
-                          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template
-void eval_uvars_lda_device( size_t                ntasks,
-                            size_t                max_nbf,
-                            size_t                max_npts,
-                            XCTaskDevice<double>* tasks_device,
-                            cudaStream_t          stream );
-
-template
-void eval_uvars_gga_device( size_t                ntasks,
-                            size_t                max_nbf,
-                            size_t                max_npts,
-                            XCTaskDevice<double>* tasks_device,
-                            cudaStream_t          stream );
-
-template
-void eval_vvars_gga_device( size_t            npts,
-                            const double*     den_x_device,
-                            const double*     den_y_device,
-                            const double*     den_z_device,
-                                  double*     gamma_device,
-                            cudaStream_t      stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_eval_denvars.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_eval_denvars.hpp
deleted file mode 100644
index e08874f..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_eval_denvars.hpp
+++ /dev/null
@@ -1,36 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void eval_uvars_lda_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream );
-
-template <typename T>
-void eval_uvars_gga_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream );
- 
-
-template <typename T>
-void eval_vvars_gga_device( size_t       npts,
-                            const T*     den_x_device,
-                            const T*     den_y_device,
-                            const T*     den_z_device,
-                                  T*     gamma_device,
-                            cudaStream_t stream );
-                          
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_extensions.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_extensions.hpp
deleted file mode 100644
index 987c620..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_extensions.hpp
+++ /dev/null
@@ -1,109 +0,0 @@
-#pragma once
-#include <cuda.h>
-#include <cub/cub.cuh>
-#include "cuda/cuda_device_properties.hpp"
-
-#define GAUXC_ENABLE_WARP_REDUCTIONS
-
-namespace GauXC {
-namespace cuda  {
-
-__inline__ __device__
-double warpReduceSum(double val) {
- 
-#ifdef GAUXC_ENABLE_WARP_REDUCTIONS
-
-  for(int i=(warp_size/2); i>=1; i/=2)
-    val += __shfl_xor_sync(0xffffffff, val, i, warp_size);
-
-#else
-
-  using warp_reducer = cub::WarpReduce<double>;
-  static __shared__ typename warp_reducer::TempStorage temp_storage[max_warps_per_thread_block];
-  int tid = threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;
-  int warp_lane = tid / warp_size;
-  val = warp_reducer( temp_storage[warp_lane] ).Sum( val );
-
-#endif
-
-  return val;
-}
-
-__inline__ __device__
-double warpReduceProd(double val) {
-  for(int i=(warp_size/2); i>=1; i/=2)
-    val *= __shfl_xor_sync(0xffffffff, val, i, warp_size);
-  return val;
-}
-
-#if 0
-__inline__ __device__
-double blockReduceSum( double val ) {
-
-  static __shared__ double shared[32];
-  int lane = threadIdx.x % 32;
-  int wid  = threadIdx.x / 32;
-
-  val = warpReduceSum( val );
-
-  if( lane == 0 ) shared[wid] = val;
-
-  __syncthreads();
-
-  val = (threadIdx.x < blockDim.x / 32) ? shared[lane] : 0;
-  if( wid == 0 ) val = warpReduceSum( val );
-
-  return val;
-
-}
-
-template <typename T, int warp_size = 32>
-__inline__ __device__ T warp_prod_reduce( T val ) { 
-
-  for( int i = warp_size / 2; i >= 1; i /= 2 )
-    val *= __shfl_xor_sync( 0xffffffff, val, i, warp_size );
-
-  return val;
-
-}
-
-template <typename T, int warp_size = 32 >
-__inline__ __device__ T block_prod_reduce( T val ) {
-
-  static __shared__ T shared[32];
-  const int lane = threadIdx.x % 32;
-  const int wid  = threadIdx.x / 32;
-
-  val = warp_prod_reduce( val );
-
-  if( lane == 0 ) shared[ wid ] = val;
-  __syncthreads();
-
-  val = ( threadIdx.x < blockDim.x / 32 ) ? shared[ lane ] : 0;
-  if( wid == 0 ) val = warp_prod_reduce( val );
-
-  return val;
-
-}
-
-__inline__ __device__ double atomicMul(double* address, double val)
-{
-    unsigned long long int* address_as_ull =
-                              (unsigned long long int*)address;
-    unsigned long long int old = *address_as_ull, assumed;
-
-    do {
-        assumed = old;
-        old = atomicCAS(address_as_ull, assumed,
-                        __double_as_longlong(val *
-                               __longlong_as_double(assumed)));
-
-    // Note: uses integer comparison to avoid hang in case of NaN (since NaN != NaN)
-    } while (assumed != old);
-
-    return __longlong_as_double(old);
-}
-#endif
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_inc_potential.cu b/third_party/gauxc/attic/src/integrator/cuda/cuda_inc_potential.cu
deleted file mode 100644
index b6b1d7c..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_inc_potential.cu
+++ /dev/null
@@ -1,167 +0,0 @@
-#include "cuda/cuda_inc_potential.hpp"
-#include "cuda/cuda_device_properties.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-
-template <typename T>
-__global__ __launch_bounds__(1024, 1)
-void inc_by_submat_combined_kernel( size_t           ntasks,
-                                    XCTaskDevice<T>* device_tasks,
-                                    T*               A,
-                                    size_t           LDA, 
-				    const int block_y,
-				    const int block_x ) {
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.submat_cut;
-  const auto* submat_block_device = task.submat_block;
-  const auto  LDAS              = task.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ASmall_begin[I + (J+k*WARP_Y)*LDAS];
-          address[k] = ABig_begin + I + (J+k*WARP_Y)*LDA;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          atomicAdd(address[k], val[k] );
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        atomicAdd(ABig_begin + I + J*LDA, ASmall_begin[I + J*LDAS] );
-      }
-    }
-
-  }
-  }
-}
-
-
-template <typename T>
-void task_inc_potential( size_t           ntasks,
-                         XCTaskDevice<T>* device_tasks,
-                         T*               V_device,
-                         size_t           LDV,
-                         cudaStream_t     stream ) {
-  dim3 threads(warp_size / 2, max_warps_per_thread_block * 2, 1), blocks(1,1,ntasks);
-
-  const int submat_block_size = get_submat_cut_block(LDV, 0);
-  for (int i = 0; i < util::div_ceil(LDV, submat_block_size); i++) {
-    for (int j = 0; j < util::div_ceil(LDV, submat_block_size); j++) {
-      inc_by_submat_combined_kernel<<< blocks, threads, 0, stream >>>(
-        ntasks, device_tasks, V_device, LDV, i, j
-      );
-    }
-  }
-}
-
-template 
-void task_inc_potential( size_t                ntasks,
-                         XCTaskDevice<double>* device_tasks,
-                         double*               V_device,
-                         size_t                LDV,
-                         cudaStream_t          stream );
-
-template <typename T>
-__global__ void symmetrize_matrix_device( size_t nbf, size_t LDA, T* A ) {
-  const size_t block_size = warp_size;
-
-  __shared__ T buffer[block_size][block_size+1];  // Pad shared memory to resolve shared memory
-
-  const size_t num_blocks = ((nbf + block_size - 1) / block_size);
-
-  for (int i = blockIdx.x; i < num_blocks; i += gridDim.x) {
-    // TODO This could be load balanced if need be
-    const int i_coord = i * block_size;
-    for (int j = i; j < num_blocks; j++) {
-      const int j_coord = j * block_size;
-
-      // Read in block to buffer
-      // TODO These could be vector reads/writes if this becomes significant
-      if (i_coord + threadIdx.y < nbf && j_coord + threadIdx.x < nbf) {
-        buffer[threadIdx.y][threadIdx.x] = A[(i_coord + threadIdx.y) * LDA + j_coord + threadIdx.x];
-      }
-      __syncthreads();
-
-      // Write buffer
-      if (j_coord + threadIdx.y < nbf && i_coord + threadIdx.x < nbf) {
-        if ((j_coord != i_coord || threadIdx.x < threadIdx.y)) { // handles the diagonal block
-          A[(j_coord + threadIdx.y) * LDA + i_coord + threadIdx.x] = buffer[threadIdx.x][threadIdx.y];
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-template <typename T>
-void symmetrize_matrix( size_t nbf, size_t LDV, T* V_device, cudaStream_t stream) {
-  const size_t num_blocks = ((LDV + warp_size - 1) / warp_size);
-  // Warp size must equal max_warps_per_thread_block must equal 32
-  dim3 threads(warp_size, max_warps_per_thread_block), blocks(num_blocks);
-  symmetrize_matrix_device<<<blocks, threads, 0, stream>>>(nbf, LDV, V_device);
-}
-
-template
-void symmetrize_matrix( size_t nbf, size_t LDV, double* V_device, cudaStream_t stream );
-
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_inc_potential.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_inc_potential.hpp
deleted file mode 100644
index 16070cb..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_inc_potential.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void task_inc_potential( size_t           ntasks,
-                         XCTaskDevice<T>* device_tasks,
-                         T*               V_device,
-                         size_t           LDV,
-                         cudaStream_t     stream );
-
-template <typename T>
-void symmetrize_matrix( size_t       nbf,
-                        size_t       LDV,
-                        T*           V_device,
-                        cudaStream_t stream);
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_pack_density.cu b/third_party/gauxc/attic/src/integrator/cuda/cuda_pack_density.cu
deleted file mode 100644
index 941a04a..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_pack_density.cu
+++ /dev/null
@@ -1,127 +0,0 @@
-#include "cuda/cuda_pack_density.hpp"
-#include "cuda/cuda_device_properties.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-template <typename T>
-__global__ __launch_bounds__(1024, 1)
-void submat_set_combined_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* device_tasks,
-                                 T*               A,
-                                 size_t           LDA,
-				 const int block_y,
-				 const int block_x) {
-
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.submat_cut;
-  const auto* submat_block_device = task.submat_block;
-  const auto  LDAS              = task.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ABig_begin[I + (J + k*WARP_Y)*LDA];
-          address[k] = ASmall_begin + I + (J + k*WARP_Y) * LDAS;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-	  // Suggest that the result be evicted first.
-#if (CUDART_VERSION >= 11000)
-	  __stcs(address[k], val[k]);
-#else
-          asm ("st.global.cs.f64 [%0], %1;" :: "l"(address[k]), "d"(val[k]));
-#endif
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        ASmall_begin[I + J*LDAS] = ABig_begin[I + J*LDA];
-      }
-    }
-  }
-  }
-}
-
-
-template <typename T>
-void task_pack_density_matrix( size_t           ntasks,
-                               XCTaskDevice<T>* device_tasks,
-                               T*               P_device,
-                               size_t           LDP,
-                               cudaStream_t     stream ) {
-
-  dim3 threads(warp_size / 2, max_warps_per_thread_block * 2, 1), blocks(1,1,ntasks);
-
-  const int submat_block_size = get_submat_cut_block(LDP, 0);
-  for (int i = 0; i < util::div_ceil(LDP, submat_block_size); i++) {
-    for (int j = 0; j < util::div_ceil(LDP, submat_block_size); j++) {
-      submat_set_combined_kernel<<< blocks, threads, 0, stream >>>(
-        ntasks, device_tasks, P_device, LDP, i, j
-      );
-    }
-  }
-}
-
-template 
-void task_pack_density_matrix( size_t                ntasks,
-                               XCTaskDevice<double>* device_tasks,
-                               double*               P_device,
-                               size_t                LDP,
-                               cudaStream_t          stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_pack_density.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_pack_density.hpp
deleted file mode 100644
index ae90ef3..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_pack_density.hpp
+++ /dev/null
@@ -1,19 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void task_pack_density_matrix( size_t           ntasks,
-                               XCTaskDevice<T>* device_tasks,
-                               T*               P_device,
-                               size_t           LDP,
-                               cudaStream_t     stream );
-                               
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_weights.cu b/third_party/gauxc/attic/src/integrator/cuda/cuda_weights.cu
deleted file mode 100644
index 3013324..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_weights.cu
+++ /dev/null
@@ -1,641 +0,0 @@
-#include <gauxc/util/div_ceil.hpp>
-
-#include "cuda/cuda_weights.hpp"
-#include "integrator_constants.hpp"
-#include "cuda/cuda_extensions.hpp"
-#include "cuda/cuda_device_properties.hpp"
-
-constexpr double eps_d = std::numeric_limits<double>::epsilon();
-
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-__global__ void reciprocal_kernel(size_t length, double* vec) {
-   for (int i = threadIdx.x + blockIdx.x * blockDim.x; i < length; i += blockDim.x * gridDim.x) {
-     vec[i] = 1. / vec[i];
-   }
-}
-
-__global__ void compute_point_center_dist(
-        size_t      npts,
-        size_t      LDatoms,
-        size_t      natoms,
-  const double*     coords,
-  const double*     points,
-        double*     dist
-) {
-
-  __shared__ double3 point_buffer[warp_size];
-  register double3 coord_reg;
-
-  const int natoms_block = (natoms + warp_size-1) / warp_size;
-  const int coords_block = (npts + warp_size-1) / warp_size;
-
-  const double3* coords_vec = (double3*) coords;
-  const double3* points_vec = (double3*) points;
-
-  for (int j = blockIdx.x; j < natoms_block; j += gridDim.x) {
-    const int iAtom = j * warp_size + threadIdx.x;
-    // Load blocks into registers/shared memory
-    if (iAtom < natoms) {
-      coord_reg = coords_vec[iAtom];
-    }
-    for (int i = blockIdx.y; i < coords_block; i += gridDim.y) {
-      const int iPt_load = i * warp_size + threadIdx.x;
-      if (iPt_load < npts) {
-        point_buffer[threadIdx.x] = points_vec[iPt_load];
-      }
-      __syncthreads();
-
-      // do the computation
-      #pragma unroll 2
-      for (int k = threadIdx.y; k < warp_size; k += blockDim.y) {
-        const int iPt_sm = k;
-        const int iPt = i * warp_size + iPt_sm;
-        const double rx = point_buffer[iPt_sm].x - coord_reg.x;
-        const double ry = point_buffer[iPt_sm].y - coord_reg.y;
-        const double rz = point_buffer[iPt_sm].z - coord_reg.z;
-
-        if (iAtom < natoms and iPt < npts) {
-          dist[ iAtom + iPt * LDatoms ] = std::sqrt( rx*rx + ry*ry + rz*rz );
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-#if 0
-__global__ void modify_weights_becke_kernel(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-        double*                           weights_device
-) {
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-
-
-  __shared__ double shared[2048]; 
-  for( int ipt = blockIdx.x; ipt < npts; ipt += gridDim.x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    for( int iCenter = threadIdx.y; iCenter < natoms; iCenter += blockDim.y ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natoms; jCenter += blockDim.x ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        const double s  = 0.5 * ( 1. - gBecke( mu ) );
-
-        ps *= (iCenter == jCenter) ? 1. : s ;
-
-      }
-
-      ps = warp_prod_reduce( ps ); // XXX: Assumes blockDim.x == 32
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-
-    // XXX: Assumes blockDim.x == blockDim.y == 32
-    if( threadIdx.x == 0 ) {
-      shared[ threadIdx.y ]        = sum;
-      shared[ threadIdx.y + 1024]  = parent_weight;
-    }
-
-    __syncthreads();
-    sum = shared[ threadIdx.x ];
-    sum = warpReduceSum( sum );
-
-    __syncthreads();
-    parent_weight = shared[ threadIdx.x + 1024];
-    parent_weight = __shfl_sync(0xffffffff, parent_weight, iParent % 32, 32 );
-
-    if( threadIdx.x == 0 and threadIdx.y == 0 )
-      weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-
-
-
-__global__ void modify_weights_ssf_kernel(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-  auto sFrisch = [&] (double x) {
-    const double g = 0.5 * (1. - gFrisch(x));
-    return (x >= magic_ssf_factor<>) ? 0. : (x <= -magic_ssf_factor<>) ? 1. : g;
-  };
-
-  constexpr double weight_tol = 1e-10;
-
-  __shared__ double shared[2048]; 
-  for( int ipt = blockIdx.x; ipt < npts; ipt += gridDim.x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    for( int iCenter = threadIdx.y; iCenter < natoms; iCenter += blockDim.y ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natoms; jCenter += blockDim.x ) 
-      if( fabs(ps) > weight_tol ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        const double s  = sFrisch( mu );
-        ps *= (iCenter == jCenter) ? 1. : s ;
-
-      }
-
-      ps = warp_prod_reduce( ps ); // XXX: Assumes blockDim.x == 32
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-
-    // XXX: Assumes blockDim.x == blockDim.y == 32
-    if( threadIdx.x == 0 ) {
-      shared[ threadIdx.y ]        = sum;
-      shared[ threadIdx.y + 1024]  = parent_weight;
-    }
-
-    __syncthreads();
-    sum = shared[ threadIdx.x ];
-    sum = warpReduceSum( sum );
-
-    __syncthreads();
-    parent_weight = shared[ threadIdx.x + 1024];
-    parent_weight = __shfl_sync(0xffffffff, parent_weight, iParent % 32, 32 );
-
-    if( threadIdx.x == 0 and threadIdx.y == 0 )
-      weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-#endif
-
-// SIMT over points: 1D kernel
-__global__ void modify_weights_ssf_kernel_1d(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-#if 0
-  auto sFrisch = [&] (double x) {
-    const double g = 0.5 * (1. - gFrisch(x));
-    return (x >= magic_ssf_factor<>) ? 0. : (x <= -magic_ssf_factor<>) ? 1. : g;
-  };
-#else
-  auto sFrisch = [&] (double x) {
-    if( fabs(x) < magic_ssf_factor<> ) return 0.5 * (1. - gFrisch(x));
-    else if( x >= magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-  };
-#endif
-
-  constexpr double weight_tol = 1e-10;
-
-  const int tid_x = threadIdx.x + blockIdx.x * blockDim.x;
-  const int nt_x  = blockDim.x  * gridDim.x;
-
-  //__shared__ double shared[2048]; 
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-#if 0
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( fabs(ps) > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-#else
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * natoms;
-
-      parent_weight = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( parent_weight > weight_tol ) {
-      if( iParent != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        parent_weight *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += parent_weight;
-
-    }
-
-    if( parent_weight < eps_d ) {
-      weights_device[ipt] = 0.;
-      continue;
-    }
-
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) 
-    if( iParent != iCenter ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( ps > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += ps;
-
-    }
-
-#endif
-
-    weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-
-__device__ __inline__ double gFrisch(double x) {
-  // Frisch partition functions
-//  const double s_x  = x / magic_ssf_factor<>;
-  const double s_x  = x * 1.5625;
-  const double s_x2 = s_x  * s_x;
-  const double s_x3 = s_x  * s_x2;
-  const double s_x5 = s_x3 * s_x2;
-  const double s_x7 = s_x5 * s_x2;
-
-  return ((35.) *(s_x - s_x3) + (21.) *s_x5 - (5.) *s_x7);
-}
-
-
-__device__ __inline__ double sFrisch(double x) {
-    //double frisch_val = (0.5 - (0.5/ 16.0) * gFrisch(x));
-
-    if( fabs(x) < magic_ssf_factor<> ) return (0.5 - (0.5/ 16.0) * gFrisch(x));
-    else if( x >= magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-}
-
-__global__ __launch_bounds__(weight_thread_block, weight_thread_block_per_sm)
-void modify_weights_ssf_kernel_2d(
-        size_t                            npts,
-        size_t                            LDatoms,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-  constexpr double weight_tol = 1e-10;
-  int natom_block = ((natoms + blockDim.x - 1) / blockDim.x) * blockDim.x;
-
-  const int tid_x = threadIdx.y + blockIdx.y * blockDim.y;
-  const int nt_x  = blockDim.y  * gridDim.y;
-
-  __shared__ int jCounter_sm[max_warps_per_thread_block];
-  int* jCounter = reinterpret_cast<int *>(jCounter_sm) + threadIdx.y;
-
-  // Each warp will work together on a point
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * LDatoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * LDatoms;
-
-      parent_weight = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natom_block; jCenter+=blockDim.x ) {
-        double contribution = 1.0;
-        if (jCenter < natoms && iParent != jCenter) {
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-          contribution = sFrisch( mu );
-        }
-        contribution = warpReduceProd(contribution);
-        parent_weight *= contribution;
-
-        if (parent_weight < weight_tol) break;
-      }
-    }
-
-    if( parent_weight < eps_d ) {
-      if (threadIdx.x == 0)
-        weights_device[ipt] = 0.;
-      __syncwarp();
-      continue;
-    }
-
-    // Initialize each counter to 0
-    if (threadIdx.x == 0) {
-      jCounter[0] = 0;
-    }
-    __syncwarp();
-
-    // Each thread will process an iCenter. Atomic operations are used to assign
-    // an iCenter value to each thread.
-    int iCenter = atomicAdd(jCounter, 1);
-    if (iCenter >= iParent) iCenter++; // iCenter == iParent is skipped
-
-    // The entire warp processes the same jCenter value at the same time
-    int jCenter = 0;
-
-    const double* local_rab = RAB + iCenter * LDatoms;
-    double ri = local_dist_scratch[ iCenter ];
-    double ps = 1.;
-    int iCount = 0; 
-    int cont = (iCenter < natoms);
-
-    // We will continue iterating until all of the threads have cont set to 0
-    while (__any_sync(0xffffffff, cont)) {
-      if (cont) {
-        double2 rj[weight_unroll/2];
-        double2 rab_val[weight_unroll/2];
-        double mu[weight_unroll];
-        iCount += weight_unroll;
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          rj[k]      = *((double2*)(local_dist_scratch + jCenter) + k);
-          rab_val[k] = *((double2*)(local_rab          + jCenter) + k); 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          mu[2*k+0] = (ri - rj[k].x) * rab_val[k].x; // XXX: RAB is symmetric
-          mu[2*k+1] = (ri - rj[k].y) * rab_val[k].y; 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll; k++) {
-          if((iCenter != jCenter + k) && (jCenter + k < natoms)) {
-            mu[k] = sFrisch( mu[k] );
-            ps *= mu[k];
-          }
-        }
-
-        // A thread is done with a iCenter based on 2 conditions. Weight tolerance
-        // Or if it has seen all of the jCenters
-        if( !(ps > weight_tol && iCount < LDatoms )) {
-          // In the case were the thread is done, it begins processing another iCenter
-          sum += ps;
-          iCenter = atomicAdd(jCounter, 1);
-          if (iCenter >= iParent) iCenter++;
-
-          // If there are no more iCenters left to process, it signals it is ready to exit
-          cont = (iCenter < natoms);
-          ri = local_dist_scratch[ iCenter ];
-          local_rab = RAB + iCenter * LDatoms;
-          ps = 1.;
-          iCount = 0;
-        }
-      }
-      // Wraps jCenter around. This was faster than modulo
-      jCenter += weight_unroll;
-      jCenter = (jCenter < LDatoms) ? jCenter : 0;
-    }
-
-    // All of the threads then sum their contributions. Only thread 0 needs to add the parent
-    // contribution.
-    __syncwarp();
-    sum = warpReduceSum(sum);
-    if (threadIdx.x == 0) {
-      sum += parent_weight;
-      weights_device[ipt] *= parent_weight / sum;
-    }
-
-    __syncwarp();
-
-  }
-}
-
-
-void cuda_reciprocal(size_t length, double* vec, cudaStream_t stream) {
-  dim3 threads(max_threads_per_thread_block);
-  dim3 blocks( get_device_sm_count(0) ); 
-  reciprocal_kernel<<<threads, blocks, 0, stream>>>(length, vec);
-}
-
-
-template <typename F>
-void partition_weights_cuda_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const F*       points_device,
-                                 const int32_t* iparent_device,
-                                 const F*       dist_nearest_device,
-                                 const F*       rab_device,
-                                 const F*       atomic_coords_device,
-                                       F*       weights_device,
-                                       F*       dist_scratch_device,
-                                 cudaStream_t   stream ) {
-
-
-
-  // Evaluate point-to-atom collocation
-  {
-    const int distance_thread_y = max_warps_per_thread_block / 2;
-    dim3 threads(  warp_size, distance_thread_y );
-    dim3 blocks( util::div_ceil( natoms,   threads.x), 
-                 util::div_ceil( npts,     4) );
-
-    compute_point_center_dist<<< blocks, threads, 0, stream>>>(
-      npts, LDatoms, natoms, atomic_coords_device, points_device, dist_scratch_device
-    );
-
-  }
-  const bool partition_weights_1d_kernel = true;
-
-  if( partition_weights_1d_kernel ) {
-
-    dim3 threads( warp_size, weight_thread_block / warp_size );
-    dim3 blocks(  1, get_device_sm_count(0) * weight_thread_block_per_sm); 
-    modify_weights_ssf_kernel_2d<<< blocks, threads, 0, stream >>>(
-      npts, LDatoms, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-      iparent_device, dist_nearest_device, weights_device
-    );
-
-  } else {
-
-#if 0
-    dim3 threads( 32, 32 );
-    dim3 blocks ( npts, 1 );
-
-    if( weight_alg == XCWeightAlg::SSF ) 
-      modify_weights_ssf_kernel<<< blocks, threads, 0, stream >>>(
-        npts, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-        iparent_device, dist_nearest_device, weights_device
-      );
-    else
-      modify_weights_becke_kernel<<< blocks, threads, 0, stream >>>(
-        npts, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-        iparent_device, weights_device
-      );
-#endif
-
-  }
-
-
-}
-
-template
-void partition_weights_cuda_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const double*  points_device,
-                                 const int32_t* iparent_device,
-                                 const double*  dist_nearest_device,
-                                 const double*  rab_device,
-                                 const double*  atomic_coords_device,
-                                       double*  weights_device,
-                                       double*  dist_scratch_device,
-                                 cudaStream_t   stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_weights.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_weights.hpp
deleted file mode 100644
index 2418cfc..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_weights.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/shell.hpp>
-#include <gauxc/enums.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-
-void cuda_reciprocal(size_t length, double* vec, cudaStream_t stream); 
-
-template <typename F>
-void partition_weights_cuda_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const F*       points_device,
-                                 const int32_t* iparent_device,
-                                 const F*       dist_nearest_device,
-                                 const F*       rab_device,
-                                 const F*       atomic_coords_device,
-                                       F*       weights_device,
-                                       F*       dist_scratch_device,
-                                 cudaStream_t   stream );
-                                 
-                  
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_zmat.cu b/third_party/gauxc/attic/src/integrator/cuda/cuda_zmat.cu
deleted file mode 100644
index 18a8b41..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_zmat.cu
+++ /dev/null
@@ -1,140 +0,0 @@
-#include "cuda/cuda_zmat.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-
-template <typename T>
-__global__ void zmat_lda_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-  const auto* vrho_device    = task.vrho;
-
-  const auto* basis_eval_device = task.bf;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact = 0.5 * vrho_device[tid_x];
-
-    z_matrix_device[ ibfoff ] = fact * basis_eval_device[ ibfoff ];
-
-  }
-
-}
-
-
-
-
-template <typename T>
-void zmat_lda_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream ) {
-
-
-  dim3 threads(warp_size,max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  zmat_lda_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
-
-template
-void zmat_lda_cuda( size_t                ntasks,
-                    int32_t               max_nbf,
-                    int32_t               max_npts,
-                    XCTaskDevice<double>* tasks_device,
-                    cudaStream_t          stream ); 
-
-
-
-
-template <typename T>
-__global__ void zmat_gga_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-  const auto* vrho_device    = task.vrho;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* den_x_eval_device = task.ddenx;
-  const auto* den_y_eval_device = task.ddeny;
-  const auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.5 * vrho_device[tid_x]  ;
-    const double fact_2 = 2.0 * vgamma_device[tid_x];
-
-    const double dx = den_x_eval_device[ tid_x ] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = den_y_eval_device[ tid_x ] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = den_z_eval_device[ tid_x ] * dbasis_z_eval_device[ ibfoff ];
-
-    z_matrix_device[ ibfoff ] = 
-      fact_1 * basis_eval_device[ ibfoff ] + fact_2 * ( dx + dy + dz ); 
-
-  }
-}
-
-template <typename T>
-void zmat_gga_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream ) {
-
-
-  dim3 threads(warp_size,max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  zmat_gga_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
-template
-void zmat_gga_cuda( size_t                ntasks,
-                    int32_t               max_nbf,
-                    int32_t               max_npts,
-                    XCTaskDevice<double>* tasks_device,
-                    cudaStream_t          stream ); 
-              
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/cuda/cuda_zmat.hpp b/third_party/gauxc/attic/src/integrator/cuda/cuda_zmat.hpp
deleted file mode 100644
index 58769d8..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/cuda_zmat.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void zmat_lda_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream );
-
-template <typename T>
-void zmat_gga_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream );
-              
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/cuda/gauxc-cuda_integrator.cmake b/third_party/gauxc/attic/src/integrator/cuda/gauxc-cuda_integrator.cmake
deleted file mode 100644
index 864739b..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/gauxc-cuda_integrator.cmake
+++ /dev/null
@@ -1,75 +0,0 @@
-# Check if CMAKE_CUDA_ARCHITECTURES is set
-if( NOT DEFINED CMAKE_CUDA_ARCHITECTURES )
-  message( FATAL_ERROR "CMAKE_CUDA_ARCHITECTURES Must Be Set" )
-endif()
-
-# Check that only CUDA CC 6.0+ is enabled
-foreach( cuda_arch ${CMAKE_CUDA_ARCHITECTURES} )
-  if( cuda_arch LESS 60 )
-    message(FATAL_ERROR "GauXC Requires CUDA CC 6.0+ For FP64 Atomics")
-  endif()
-endforeach()
-
-
-
-if( NOT TARGET CUDA::cublas )
-  find_package( CUDAToolkit REQUIRED )
-endif()
-include( gauxc-cub )
-
-
-
-target_sources( gauxc PRIVATE cuda/collocation_device.cu
-                              cuda/xc_cuda_data.cxx
-                              cuda/cuda_driver_replicated_density_incore.cxx
-                              cuda/cuda_driver_replicated_density_shellbatched.cxx
-                              cuda/cuda_weights.cu
-                              cuda/cuda_pack_density.cu
-                              cuda/cuda_eval_denvars.cu
-                              cuda/cublas_extensions.cu
-                              cuda/cuda_zmat.cu
-                              cuda/cuda_inc_potential.cu
-			      cuda/cuda_device_properties.cxx
-)
-
-target_compile_features( gauxc PRIVATE cuda_std_14 )
-#target_include_directories( gauxc
-#  PRIVATE
-#    $<BUILD_INTERFACE:${PROJECT_SOURCE_DIR}/src/integrator/cuda>
-#    $<BUILD_INTERFACE:${PROJECT_SOURCE_DIR}/src/integrator/cuda/collocation>
-#)
-
-target_compile_options( gauxc
-  PRIVATE
-    $<$<COMPILE_LANGUAGE:CUDA>: -Xcudafe --diag_suppress=partial_override -Xptxas -v > 
-)
-
-if( GAUXC_ENABLE_NCCL )
-
-  message( STATUS "NCCL Has Been Enabled" )
-  find_package( NCCL REQUIRED )
-  target_link_libraries( gauxc PUBLIC NCCL::nccl )
-
-endif()
-
-if( GAUXC_ENABLE_MAGMA )
-
-  message( STATUS "MAGMA Has Been Enabled" )
-  find_package( MAGMA REQUIRED )
-  target_link_libraries( gauxc PUBLIC MAGMA::magma )
-
-else()
-
-  message( STATUS "MAGMA Has Been Explicitly Disabled" )
-
-endif()
-
-if(NOT GAUXC_LINK_CUDA_STATIC)
-  target_link_libraries( gauxc PUBLIC CUDA::cublas )
-else()
-  target_link_libraries( gauxc PUBLIC CUDA::cublas_static )
-endif()
-
-if( TARGET gauxc_cub ) # Handle the case when CUB is implicit
-  target_link_libraries( gauxc PRIVATE $<BUILD_INTERFACE:gauxc_cub> )
-endif()
diff --git a/third_party/gauxc/attic/src/integrator/cuda/xc_cuda_data.cxx b/third_party/gauxc/attic/src/integrator/cuda/xc_cuda_data.cxx
deleted file mode 100644
index 59827a1..0000000
--- a/third_party/gauxc/attic/src/integrator/cuda/xc_cuda_data.cxx
+++ /dev/null
@@ -1,535 +0,0 @@
-#include <gauxc/xc_integrator/xc_cuda_data.hpp>
-#include <gauxc/util/div_ceil.hpp>
-
-#include "cuda/buffer_adaptor.hpp"
-#include "integrator_common.hpp"
-#include "cuda/cuda_device_properties.hpp"
-
-namespace GauXC {
-
-template <typename F>
-XCCudaData<F>::XCCudaData( bool _batch_l3_blas ):
-#ifdef GAUXC_ENABLE_MAGMA
-  batch_l3_blas(_batch_l3_blas)  
-#else
-  batch_l3_blas(false)  
-#endif
-{
-
-
-  // TODO: Expose this
-  double fill_fraction = 0.9;
-
-  cudaError_t stat;
-
-  // Get Total Available Memory
-  size_t cuda_avail, cuda_total;
-  stat = cudaMemGetInfo( &cuda_avail, &cuda_total );
-  GAUXC_CUDA_ERROR( "MemInfo Failed", stat );
-
-  // Allocate up to fill_fraction
-  devmem_sz = fill_fraction * cuda_avail;
-  stat = cudaMalloc( &device_ptr, devmem_sz );
-  GAUXC_CUDA_ERROR( "CUDA Malloc Failed", stat );
-
-  // Create CUDA Stream and CUBLAS Handles and make them talk to eachother
-  master_stream = std::make_unique< util::cuda_stream >();
-  master_handle = std::make_unique< util::cublas_handle >();
-
-  cublasSetStream( *master_handle, *master_stream );
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Create MAGMA Queue from CUDA Stream and CUBLAS Handle
-  master_magma_queue = 
-    std::make_unique< util::magma_queue >( 0, *master_stream, *master_handle );
-#endif
-
-  if( not batch_l3_blas ) {
-
-    // Create BLAS streams
-    blas_streams.resize(4);
-    blas_handles.resize(4);
-    for( auto i = 0; i < 4; ++i )
-      cublasSetStream( blas_handles[i], blas_streams[i] );
-
-  }
-
-}
-
-
-
-template <typename F>
-XCCudaData<F>::~XCCudaData() noexcept {
-  if( device_ptr ) util::cuda_free( device_ptr );
-} 
-
-
-
-
-
-
-
-template <typename F>
-void XCCudaData<F>::allocate_static_data( size_t _natoms,
-                                          size_t _n_deriv, 
-                                          size_t _nbf,
-                                          size_t _nshells ) {
-
-
-  // Save state
-  nshells = _nshells;
-  nbf     = _nbf; 
-  n_deriv = _n_deriv; 
-  natoms  = _natoms;
-
-  LDatoms = util::div_ceil( natoms, cuda::weight_unroll ) * cuda::weight_unroll;
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( device_ptr, devmem_sz );
-
-  shells_device     = mem.aligned_alloc<Shell<F>>( nshells );
-  exc_device        = mem.aligned_alloc<F>( 1 );
-  nel_device        = mem.aligned_alloc<F>( 1 );
-  acc_scr_device    = mem.aligned_alloc<F>( 1 );
-  rab_device        = mem.aligned_alloc<F>( LDatoms * natoms, sizeof(double2));
-  coords_device     = mem.aligned_alloc<F>( 3 * natoms );
-
-  vxc_device  = mem.aligned_alloc<F>( nbf * nbf );
-  dmat_device = mem.aligned_alloc<F>( nbf * nbf );
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-}
-
-
-
-
-using task_iterator = std::vector< XCTask >::iterator;
-template <typename F>
-using device_task_container = std::vector< cuda::XCTaskDevice<F> >;
-
-template <typename F>
-std::tuple< typename XCCudaData<F>::task_iterator, 
-	    typename XCCudaData<F>::device_task_container >
-  XCCudaData<F>::generate_buffers( const BasisSet<F>& basis,
-                                   task_iterator      task_begin,
-                                   task_iterator      task_end    ) {
-
-  // Host data packing arrays
-  std::vector< std::array<double,3> > points_pack;
-  std::vector< double > weights_pack;
-  std::vector< size_t > shell_list_pack;
-  std::vector< size_t > shell_offs_pack;
-  std::vector< std::array<int32_t, 3> > submat_cut_pack;
-  std::vector< int32_t > submat_block_pack;
-  std::vector< int32_t > iparent_pack;
-  std::vector< double >  dist_nearest_pack;
-
-  // Host copies for batched GEMM/SYRK arrays
-  std::vector< double* > dmat_array, bf_array, zmat_array;
-  std::vector< int > m_array, n_array, k_array, lda_array, ldb_array, ldc_array;
-
-  device_task_container tasks_device;
-
-
-  auto concat_iterable = []( auto& a, const auto& b ) {
-    a.insert( a.end(), b.begin(), b.end() );
-  };
-
-
-  size_t ntask          = 0;
-  size_t total_npts     = 0;
-  size_t total_nbe_nbe  = 0;
-  size_t total_nbe_npts = 0;
-  size_t total_nshells  = 0;
-  size_t total_ncut     = 0;
-  size_t total_nblock   = 0;
-  size_t memleft = dynmem_sz;
-
-  uint32_t submat_chunk_size = cuda::get_submat_cut_block(nbf, 0);
-
-  // Offset memory by the static requirement of an extra pointer element 
-  // for each of the size batch arrays in MAGMA
-  memleft -= 6 * sizeof(int); //M,N,K,LDA,LDB,LDC
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    auto iAtom      = task_it->iParent;
-    auto points     = task_it->points    ;
-    auto weights    = task_it->weights   ;
-    auto shell_list = task_it->shell_list;
-    auto nbe        = task_it->nbe;
-    auto dist_nearest = task_it->dist_nearest;
-
-    // Generate map from compressed to non-compressed matrices
-    auto [submat_cut, submat_block] = integrator::gen_compressed_submat_map( basis, shell_list, nbf, submat_chunk_size );
-    size_t ncut     = submat_cut.size();
-    size_t nblock   = submat_block.size();
-    size_t nshells  = shell_list.size();
-    size_t npts     = points.size();
-
-
-    size_t mem_points  = 3 * npts; 
-    size_t mem_weights = npts;     
-
-    size_t mem_shells     = nshells;
-    size_t mem_shell_list = nshells;
-    size_t mem_shell_offs = nshells;
-    size_t mem_submat_cut = 3 * ncut;
-    size_t mem_submat_block = nblock;
-
-    size_t mem_nbe_scr    = nbe * nbe;
-    size_t mem_zmat       = nbe * npts;
-
-    size_t mem_bf         = nbe * npts;
-    size_t mem_dbfx       = mem_bf;
-    size_t mem_dbfy       = mem_bf;
-    size_t mem_dbfz       = mem_bf;
-
-    size_t mem_den        = npts;
-    size_t mem_denx       = npts;
-    size_t mem_deny       = npts;
-    size_t mem_denz       = npts;
-
-    size_t mem_eps        = npts;
-    size_t mem_gamma      = npts;
-    size_t mem_vrho       = npts;
-    size_t mem_vgamma     = npts;
-
-    //size_t mem_partition_scr = natoms * npts;
-    size_t mem_dist_scr      = LDatoms * npts;
-    size_t mem_iparent       = npts;
-    size_t mem_dist_nearest  = npts;
-
-    size_t mem_batch_mat_arr = 3; // dmat/zmat/bf
-    size_t mem_batch_sz_arr  = 6; // M/N/K/LDA/LDB/LDC
-    size_t mem_task      = 1;
-
-
-    size_t mem_req_batch = 
-      mem_points            * sizeof(double) + 
-      mem_weights           * sizeof(double) +    
-      mem_shells            * sizeof(Shell<F>) +             
-      mem_shell_list        * sizeof(size_t) +
-      mem_shell_offs        * sizeof(size_t) + 
-      mem_submat_cut        * sizeof(int32_t) +
-      mem_submat_block      * sizeof(int32_t) +
-      mem_nbe_scr           * sizeof(double) +
-      mem_zmat              * sizeof(double) +
-      mem_bf                * sizeof(double) +
-      mem_dbfx              * sizeof(double) +
-      mem_dbfy              * sizeof(double) +
-      mem_dbfz              * sizeof(double) +
-      mem_den               * sizeof(double) +
-      mem_denx              * sizeof(double) +
-      mem_deny              * sizeof(double) +
-      mem_denz              * sizeof(double) +
-      mem_eps               * sizeof(double) +
-      mem_gamma             * sizeof(double) +
-      mem_vrho              * sizeof(double) +
-      mem_vgamma            * sizeof(double) +
-      //mem_partition_scr     * sizeof(double) +
-      mem_dist_scr          * sizeof(double) +
-      mem_iparent           * sizeof(int32_t) +
-      mem_dist_nearest      * sizeof(double) +
-      mem_batch_mat_arr     * sizeof(double*) +
-      mem_batch_sz_arr      * sizeof(int32_t) +
-      mem_task              * sizeof(cuda::XCTaskDevice<F>);
-
-    //std::cout << "Memory requirement for task " << ntask+1 << " " << mem_req_batch << " memleft " << memleft << std::endl;
-
-    if( mem_req_batch > memleft ) break;
-    
-    // Update memory and increment task iterator
-    memleft -= mem_req_batch;
-    ntask++;
-    task_it++;
-
-    // Update counters
-    total_npts     += npts;
-    total_nbe_nbe  += nbe*nbe;
-    total_nbe_npts += nbe*npts;
-    total_nshells  += nshells;
-    total_ncut     += ncut;
-    total_nblock   += nblock;
-
-    // Compute offsets
-    std::vector< size_t > shell_offs( nshells );
-    shell_offs.at(0) = 0;
-    for( auto i = 1ul; i < nshells; ++i )
-      shell_offs.at(i) = shell_offs.at(i-1) + 
-                           basis.at( shell_list.at(i-1) ).size();
-
-
-    // Pack the data on host
-    concat_iterable( points_pack,  points  );
-    concat_iterable( weights_pack, weights );
-    concat_iterable( shell_list_pack, shell_list );
-    concat_iterable( shell_offs_pack, shell_offs );
-    concat_iterable( submat_cut_pack, submat_cut );
-    concat_iterable( submat_block_pack, submat_block );
-
-    m_array.emplace_back( npts  );
-    n_array.emplace_back( nbe );
-    k_array.emplace_back( nbe  );
-
-    lda_array.emplace_back( nbe  );
-    ldb_array.emplace_back( npts );
-    ldc_array.emplace_back( npts );
-
-    iparent_pack.insert( iparent_pack.end(), npts, iAtom );
-    dist_nearest_pack.insert( dist_nearest_pack.end(), npts, dist_nearest );
-
-    // Add task
-    tasks_device.emplace_back();
-
-    tasks_device.back().nbe          = nbe;
-    tasks_device.back().npts         = npts;
-    tasks_device.back().ncut         = ncut;
-    tasks_device.back().nblock       = nblock;
-    tasks_device.back().nshells      = nshells;
-    tasks_device.back().iParent      = iAtom;
-    tasks_device.back().dist_nearest = dist_nearest;
-  }
-
-
-  std::cout << "XCDeviceData will stack allocate for " << tasks_device.size() << " tasks"; 
-  std::cout << " Using chunk size of " << submat_chunk_size << std::endl;
-
-  // Allocate out of dynamic memory
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  // (possibly) Large types
-  important_shells_device = mem.aligned_alloc<Shell<F>>( total_nshells );
-  device_tasks            = mem.aligned_alloc<cuda::XCTaskDevice<F>>( ntask );
-
-  // 64-bit types
-  nbe_scr_device     = mem.aligned_alloc<double>( total_nbe_nbe  );
-  zmat_device        = mem.aligned_alloc<double>( total_nbe_npts );
-  bf_eval_device     = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_x_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_y_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_z_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-
-  den_eval_device   = mem.aligned_alloc<double>( total_npts );
-  eps_eval_device   = mem.aligned_alloc<double>( total_npts );
-  vrho_eval_device  = mem.aligned_alloc<double>( total_npts );
-
-  den_x_eval_device  = mem.aligned_alloc<double>( total_npts );
-  den_y_eval_device  = mem.aligned_alloc<double>( total_npts );
-  den_z_eval_device  = mem.aligned_alloc<double>( total_npts );
-  gamma_eval_device  = mem.aligned_alloc<double>( total_npts );
-  vgamma_eval_device = mem.aligned_alloc<double>( total_npts );
-
-  points_device_buffer     = mem.aligned_alloc<double>( 3 * total_npts );
-  weights_device_buffer    = mem.aligned_alloc<double>( total_npts );
-  shell_list_device_buffer = mem.aligned_alloc<size_t>( total_nshells );
-  shell_offs_device_buffer = mem.aligned_alloc<size_t>( total_nshells );
-  submat_cut_device_buffer = mem.aligned_alloc<int32_t>( 3 * total_ncut );
-  submat_block_device_buffer = mem.aligned_alloc<int32_t>( total_nblock );
-
-  dist_scratch_device = mem.aligned_alloc<double>( LDatoms * total_npts, 2 * sizeof(double) );
-  dist_nearest_buffer = mem.aligned_alloc<double>( total_npts );
-
-  dmat_array_device = mem.aligned_alloc<double*>( ntask );
-  zmat_array_device = mem.aligned_alloc<double*>( ntask );
-  bf_array_device   = mem.aligned_alloc<double*>( ntask );
-
-  // 32-bit types
-  m_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  n_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  k_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  lda_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-  ldb_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-  ldc_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-
-  iparent_device_buffer = mem.aligned_alloc<int32_t>( total_npts );
-
-
-  // Update tasks with allocated pointers
-  {
-  double* points_ptr  = points_device_buffer;
-  double* weights_ptr = weights_device_buffer;
-
-  size_t* shell_list_ptr  = shell_list_device_buffer;
-  size_t* shell_offs_ptr  = shell_offs_device_buffer;
-  int32_t* submat_cut_ptr = submat_cut_device_buffer;
-  int32_t* submat_block_ptr = submat_block_device_buffer;
-  Shell<F>   * shells_ptr = important_shells_device;
-  double*      nbe_ptr    = nbe_scr_device;
-  double*      zmat_ptr   = zmat_device;
-
-  double*      bf_ptr     = bf_eval_device;
-  double*      dbfx_ptr   = dbf_x_eval_device;
-  double*      dbfy_ptr   = dbf_y_eval_device;
-  double*      dbfz_ptr   = dbf_z_eval_device;
-  
-  double*      den_ptr    = den_eval_device;
-  double*      ddenx_ptr  = den_x_eval_device;
-  double*      ddeny_ptr  = den_y_eval_device;
-  double*      ddenz_ptr  = den_z_eval_device;
-
-  double*      eps_ptr     = eps_eval_device;
-  double*      gamma_ptr   = gamma_eval_device;
-  double*      vrho_ptr    = vrho_eval_device;
-  double*      vgamma_ptr  = vgamma_eval_device;
-
-
-  double* dist_scratch_ptr      = dist_scratch_device;
-
-  for( auto& task : tasks_device ) {
-
-    task.points     = points_ptr;
-    task.weights    = weights_ptr;
-    task.shell_list = shell_list_ptr;
-    task.shell_offs = shell_offs_ptr;
-    task.submat_cut = submat_cut_ptr;
-    task.submat_block = submat_block_ptr;
-    
-    task.shells  = shells_ptr;
-    task.nbe_scr = nbe_ptr;
-    task.zmat    = zmat_ptr;
-    task.bf      = bf_ptr;
-    task.dbfx    = dbfx_ptr;
-    task.dbfy    = dbfy_ptr;
-    task.dbfz    = dbfz_ptr;
-    task.den     = den_ptr;
-    task.ddenx   = ddenx_ptr;
-    task.ddeny   = ddeny_ptr;
-    task.ddenz   = ddenz_ptr;
-
-    task.eps    = eps_ptr;
-    task.gamma  = gamma_ptr;
-    task.vrho   = vrho_ptr;
-    task.vgamma = vgamma_ptr;
-
-    task.dist_scratch      = dist_scratch_ptr;
-
-    auto npts    = task.npts;
-    auto nbe     = task.nbe;
-    auto nshells = task.nshells;
-    auto ncut    = task.ncut;
-    auto nblock  = task.nblock;
-
-    points_ptr     += 3 * npts;
-    weights_ptr    += npts;
-    shell_list_ptr += nshells;
-    shell_offs_ptr += nshells;
-    submat_cut_ptr += 3 * ncut;
-    submat_block_ptr += nblock;
-    
-    shells_ptr += nshells;
-    nbe_ptr    += nbe * nbe;
-    zmat_ptr   += nbe * npts;
-
-    bf_ptr     += nbe * npts;
-    dbfx_ptr   += nbe * npts;
-    dbfy_ptr   += nbe * npts;
-    dbfz_ptr   += nbe * npts;
-
-    den_ptr    += npts;
-    ddenx_ptr  += npts;
-    ddeny_ptr  += npts;
-    ddenz_ptr  += npts;
-
-    eps_ptr    += npts;
-    gamma_ptr  += npts;
-    vrho_ptr   += npts;
-    vgamma_ptr += npts;
-
-    dist_scratch_ptr += LDatoms * npts;
-
-
-
-    // Batched LA
-    dmat_array.emplace_back( task.nbe_scr );
-    bf_array.emplace_back(   task.bf      );
-    zmat_array.emplace_back( task.zmat    );
-  }
-
-  } // End task setup
-
-
-
-
-  auto copy_rev = [&]( size_t n, const auto* src, auto* dest, cudaStream_t stream,
-                       std::string m ) {
-    util::cuda_copy_async( n, dest, src, stream, m );
-  };
-
-
-
-  try {
-
-  // Send the data to the device
-  copy_rev( 3*points_pack.size(), points_pack.data()->data(), 
-                         points_device_buffer, *master_stream, 
-                         "send points buffer" ); 
-  copy_rev( weights_pack.size(), weights_pack.data(), 
-                         weights_device_buffer, *master_stream, 
-                         "send weights buffer" ); 
-
-  copy_rev( shell_list_pack.size(), shell_list_pack.data(), 
-                          shell_list_device_buffer, *master_stream, 
-                          "send_shell_list_buffer" );
-  copy_rev( shell_offs_pack.size(), shell_offs_pack.data(), 
-                         shell_offs_device_buffer, *master_stream, 
-                         "send_shell_offs_buffer" );
-//  std::cout << "Element size " << sizeof(std::get<0>(submat_cut_pack[0]) << std::endl;
-  copy_rev( 3 * submat_cut_pack.size(), submat_cut_pack.data()->data(), 
-                         submat_cut_device_buffer, *master_stream, 
-                         "send_submat_cut_buffer"  ); 
-  copy_rev( submat_block_pack.size(), submat_block_pack.data(), 
-                         submat_block_device_buffer, *master_stream, 
-                         "send_submat_block_buffer"  ); 
-
-  copy_rev( tasks_device.size(), tasks_device.data(), device_tasks, 
-                          *master_stream, "send_tasks_device" );
-
-
-  copy_rev( dmat_array.size(), dmat_array.data(), dmat_array_device, 
-                         *master_stream, "send dmat_array" );
-  copy_rev( zmat_array.size(), zmat_array.data(), zmat_array_device, 
-                         *master_stream, "send zmat_array" );
-  copy_rev( bf_array.size(), bf_array.data(), bf_array_device, 
-                         *master_stream, "send bf_array" );
-
-  copy_rev( m_array.size(), m_array.data(), m_array_device, 
-                         *master_stream, "send m_array" );
-  copy_rev( n_array.size(), n_array.data(), n_array_device, 
-                         *master_stream, "send n_array" );
-  copy_rev( k_array.size(), k_array.data(), k_array_device, 
-                         *master_stream, "send k_array" );
-
-  copy_rev( lda_array.size(), lda_array.data(), lda_array_device, 
-                         *master_stream, "send lda_array" );
-  copy_rev( ldb_array.size(), ldb_array.data(), ldb_array_device, 
-                         *master_stream, "send ldb_array" );
-  copy_rev( ldc_array.size(), ldc_array.data(), ldc_array_device, 
-                         *master_stream, "send ldc_array" );
-
-  copy_rev( iparent_pack.size(), iparent_pack.data(), 
-                         iparent_device_buffer, *master_stream, "send iparent"  );
-  copy_rev( dist_nearest_pack.size(), dist_nearest_pack.data(), 
-                         dist_nearest_buffer, *master_stream, "send dist_nearest" );
-
-  } catch(...) {
-    //teardown_();  throw;
-    throw;
-  }
-
-
-  // To avoid packed vectors going out of scope
-  cudaStreamSynchronize( *master_stream );
-
-  return std::make_tuple(task_it, tasks_device);
-}
-
-
-// Explicit Instantiations
-template struct XCCudaData<double>;
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/blas.cxx b/third_party/gauxc/attic/src/integrator/host/blas.cxx
deleted file mode 100644
index b7126e4..0000000
--- a/third_party/gauxc/attic/src/integrator/host/blas.cxx
+++ /dev/null
@@ -1,214 +0,0 @@
-#include "host/blas.hpp"
-#include <type_traits>
-#include <stdexcept>
-
-extern "C" {
-
-//void dlacpy_( const char* UPLO, const int* M, const int* N, const double* A, 
-//              const int* LDA, double* B, const int* LDB );
-//void slacpy_( const char* UPLO, const int* M, const int* N, const float* A, 
-//              const int* LDA, float* B, const int* LDB );
-
-void dgemm_( const char* TA, const char* TB, const int* M, const int* N, 
-             const int* K, const double* ALPHA, const double* A, 
-             const int* LDA, const double* B, const int* LDB, 
-             const double* BETA, double* C, const int* LDC );
-void sgemm_( const char* TA, const char* TB, const int* M, const int* N, 
-             const int* K, const float* ALPHA, const float* A, 
-             const int* LDA, const float* B, const int* LDB, 
-             const float* BETA, float* C, const int* LDC );
-
-void dsyr2k_( const char* UPLO, const char* TRANS, const int* N, const int* K, 
-              const double* ALPHA, const double* A, const int* LDA, const double* B, 
-              const int* LDB, const double* BETA, double* C, const int* LDC ); 
-void ssyr2k_( const char* UPLO, const char* TRANS, const int* N, const int* K, 
-              const float* ALPHA, const float* A, const int* LDA, const float* B, 
-              const int* LDB, const float* BETA, float* C, const int* LDC ); 
-
-double ddot_( const int* N, const double* X, const int* INCX, const double* Y, 
-              const int* INCY );
-float sdot_( const int* N, const float* X, const int* INCX, const float* Y, 
-              const int* INCY );
-
-
-void daxpy_( const int* N, const double* ALPHA, const double* A, const int* INCX, 
-             double* Y, const int* INCY );
-void saxpy_( const int* N, const float* ALPHA, const float* A, const int* INCX, 
-             float* Y, const int* INCY );
-
-void dscal_( const int* N, const double* ALPHA, const double* X, const int* INCX );
-void sscal_( const int* N, const float* ALPHA, const float* X, const int* INCX ); 
-}
-
-namespace GauXC::blas {
-
-template <typename T>
-void lacpy( char UPLO, int M, int N, const T* A, int LDA, T* B,
-            int LDB ) {
-
-/*
-  if constexpr ( std::is_same_v<T,float> )
-    slacpy_( &UPLO, &M, &N, A, &LDA, B, &LDB );
-  else if constexpr ( std::is_same_v<T,double> )
-    dlacpy_( &UPLO, &M, &N, A, &LDA, B, &LDB );
-  else throw std::runtime_error("LACPY NYI");
-*/
-
-  if( UPLO == 'L' ) {
-
-    for( int j = 0; j < N; ++j )
-    for( int i = j; i < M; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  } else if( UPLO == 'U' ) {
-
-    for( int j = 0; j <  N; ++j )
-    for( int i = 0; i <= j; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  } else {
-
-    for( int j = 0; j < N; ++j )
-    for( int i = 0; i < M; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  }
-
-}
-
-template void lacpy( char UPLO, int M, int N, const float* A, int LDA, 
-                     float* B, int LDB );
-template void lacpy( char UPLO, int M, int N, const double* A, int LDA, 
-                     double* B, int LDB );
-
-
-
-
-
-
-
-
-
-template <typename T>
-void gemm( char TA, char TB, int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB, T BETA,
-           T* C, int LDC ) {
-
-
-  if constexpr ( std::is_same_v<T,float> )
-    sgemm_( &TA, &TB, &M, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else if constexpr ( std::is_same_v<T,double> )
-    dgemm_( &TA, &TB, &M, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else throw std::runtime_error("GEMM NYI");
-
-
-}
-template
-void gemm( char floatA, char floatB, int M, int N, int K, float ALPHA, 
-           const float* A, int LDA, const float* B, int LDB, float BETA,
-           float* C, int LDC );
-template
-void gemm( char doubleA, char doubleB, int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB, double BETA,
-           double* C, int LDC );
-
-
-
-
-
-
-
-template <typename T>
-void syr2k( char UPLO, char TRANS, int N, int K, T ALPHA,
-            const T* A, int LDA, const T* B, int LDB, T BETA, 
-            T* C, int LDC ) {
-
-
-  if constexpr ( std::is_same_v<T,float> )
-    ssyr2k_( &UPLO, &TRANS, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else if constexpr ( std::is_same_v<T,double> )
-    dsyr2k_( &UPLO, &TRANS, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else throw std::runtime_error("SYR2K NYI");
-
-
-}
-
-template
-void syr2k( char UPLO, char floatRANS, int N, int K, float ALPHA,
-            const float* A, int LDA, const float* B, int LDB, float BETA, 
-            float* C, int LDC );
-template
-void syr2k( char UPLO, char doubleRANS, int N, int K, double ALPHA,
-            const double* A, int LDA, const double* B, int LDB, double BETA, 
-            double* C, int LDC );
-            
-
-
-
-
-
-
-template <typename T>
-T dot( int N, const T* X, int INCX, const T* Y, int INCY ) {
-
-  if constexpr ( std::is_same_v<T,float> )
-    return sdot_(&N, X, &INCX, Y, &INCY);
-  else if constexpr ( std::is_same_v<T,double> )
-    return ddot_(&N, X, &INCX, Y, &INCY);
-  else throw std::runtime_error("DOT NYI");
-
-  return 0.;
-}
-
-template
-float dot( int N, const float* X, int INCX, const float* Y, int INCY );
-template
-double dot( int N, const double* X, int INCX, const double* Y, int INCY );
-
-
-
-
-
-
-template <typename T>
-void axpy( int N, T ALPHA, const T* X, int INCX, T* Y, int INCY ) {
-
-  if constexpr ( std::is_same_v<T,float> )
-    saxpy_(&N, &ALPHA, X, &INCX, Y, &INCY );
-  else if constexpr ( std::is_same_v<T,double> )
-    daxpy_(&N, &ALPHA, X, &INCX, Y, &INCY );
-  else throw std::runtime_error("AXPY NYI");
-
-}
-
-template
-void axpy( int N, float ALPHA, const float* A, int INCX, float* Y, 
-           int INCY );
-template
-void axpy( int N, double ALPHA, const double* A, int INCX, double* Y, 
-           int INCY );
-            
-
-
-
-
-
-template <typename T>
-void scal( int N, T ALPHA, T* X, int INCX ) {
-
-  if constexpr ( std::is_same_v<T,float> )
-    sscal_(&N, &ALPHA, X, &INCX );
-  else if constexpr ( std::is_same_v<T,double> )
-    dscal_(&N, &ALPHA, X, &INCX );
-  else throw std::runtime_error("SCAL NYI");
-
-}
-
-template
-void scal( int N, float ALPHA, float* X, int INCX ); 
-template
-void scal( int N, double ALPHA, double* X, int INCX );
-
-}
-
-
diff --git a/third_party/gauxc/attic/src/integrator/host/blas.hpp b/third_party/gauxc/attic/src/integrator/host/blas.hpp
deleted file mode 100644
index add036a..0000000
--- a/third_party/gauxc/attic/src/integrator/host/blas.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-#pragma once
-#include <cstdint>
-
-namespace GauXC::blas {
-
-template <typename T>
-void lacpy( char UPLO, int M, int N, const T* A, int LDA, T* B,
-            int LDB );
-
-template <typename T>
-void gemm( char TA, char TB, int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB, T BETA,
-           T* C, int LDC );
-
-template <typename T>
-void syr2k( char UPLO, char TRANS, int N, int K, T ALPHA,
-            const T* A, int LDA, const T* B, int LDB, T BETA, 
-            T* C, int LDC ); 
-            
-
-template <typename T>
-T dot( int N, const T* X, int INCX, const T* Y, int INCY );
-
-template <typename T>
-void axpy( int N, T ALPHA, const T* X, int INCX, T* Y, int INCY );
-            
-template <typename T>
-void scal( int N, T ALPHA,  T* X, int INCX );
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/gauxc-host_integrator.cmake b/third_party/gauxc/attic/src/integrator/host/gauxc-host_integrator.cmake
deleted file mode 100644
index 85600fd..0000000
--- a/third_party/gauxc/attic/src/integrator/host/gauxc-host_integrator.cmake
+++ /dev/null
@@ -1,15 +0,0 @@
-find_package( LAPACK  REQUIRED )
-include( gauxc-gau2grid     )
-target_sources( gauxc PRIVATE host/xc_host_util.cxx
-                              host/host_weights.cxx
-                              host/host_collocation.cxx
-                              host/host_zmat.cxx
-                              host/blas.cxx
-)
-
-target_link_libraries( gauxc PUBLIC LAPACK::LAPACK )
-
-if( GAUXC_ENABLE_GAU2GRID )
-  target_link_libraries( gauxc PUBLIC gau2grid::gg )
-endif()
-
diff --git a/third_party/gauxc/attic/src/integrator/host/host_collocation.cxx b/third_party/gauxc/attic/src/integrator/host/host_collocation.cxx
deleted file mode 100644
index 8edf654..0000000
--- a/third_party/gauxc/attic/src/integrator/host/host_collocation.cxx
+++ /dev/null
@@ -1,137 +0,0 @@
-#include "host/host_collocation.hpp"
-
-
-#ifdef GAUXC_ENABLE_GAU2GRID
-  #include "gau2grid/gau2grid.h"
-#else
-  #include "collocation/collocation_angular_cartesian.hpp"
-  #include "collocation/collocation_angular_spherical_unnorm.hpp"
-  #include "collocation/collocation_radial.hpp"
-#endif
-
-namespace GauXC::integrator::host {
-
-void eval_collocation( size_t                  npts, 
-                       size_t                  nshells,
-                       size_t                  nbe,
-                       const double*           points, 
-                       const BasisSet<double>& basis,
-                       const int32_t*          shell_mask,
-                       double*                 basis_eval ) {
-
-#ifdef GAUXC_ENABLE_GAU2GRID
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( npts * nbe );
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-    gg_collocation( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ncomp*npts );
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv, basis_eval );
-  a.deallocate( rv, npts*nbe );
-
-#else
-  
-  for( size_t ipt = 0; ipt < npts;  ++ipt )
-  for( size_t i = 0;   i < nshells; ++i   ) {
-    
-    const auto ish = shell_mask[i];
-    const auto& sh = basis.at(ish);
-    auto* eval = basis_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-
-    double x,y,z, bf;
-    integrator::cuda::collocation_device_radial_eval( sh, points + 3*ipt, 
-                                                      &x, &y, &z, &bf );
-
-    if( sh.pure() )
-      integrator::cuda::collocation_spherical_unnorm_angular( sh.l(), bf, x, y, z,
-                                                              eval );
-    else
-      integrator::cuda::collocation_cartesian_angular( sh.l(), bf, x, y, z, eval );
-                                                              
-                                                              
-  }
-
-#endif
-
-}
-
-void eval_collocation_deriv1( size_t                  npts, 
-                              size_t                  nshells,
-                              size_t                  nbe,
-                              const double*           points, 
-                              const BasisSet<double>& basis,
-                              const int32_t*          shell_mask,
-                              double*                 basis_eval, 
-                              double*                 dbasis_x_eval, 
-                              double*                 dbasis_y_eval,
-                              double*                 dbasis_z_eval ) {
-
-#ifdef GAUXC_ENABLE_GAU2GRID
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( 4 * npts * nbe );
-  auto* rv_x = rv   + npts * nbe;
-  auto* rv_y = rv_x + npts * nbe;
-  auto* rv_z = rv_y + npts * nbe;
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-    gg_collocation_deriv1( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ncomp*npts, 
-      rv_x + ncomp*npts, rv_y + ncomp*npts, rv_z + ncomp*npts );
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv,   basis_eval );
-  gg_fast_transpose( ncomp, npts, rv_x, dbasis_x_eval );
-  gg_fast_transpose( ncomp, npts, rv_y, dbasis_y_eval );
-  gg_fast_transpose( ncomp, npts, rv_z, dbasis_z_eval );
-
-  a.deallocate( rv, 4*npts*nbe );
-
-#else 
-
-  for( size_t ipt = 0; ipt < npts;  ++ipt )
-  for( size_t i = 0;   i < nshells; ++i   ) {
-    
-    const auto ish = shell_mask[i];
-    const auto& sh = basis.at(ish);
-    auto* eval = basis_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_x = dbasis_x_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_y = dbasis_y_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_z = dbasis_z_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-
-    double x,y,z, bf, dbf_x, dbf_y, dbf_z;
-    integrator::cuda::collocation_device_radial_eval_deriv1( sh, points + 3*ipt, 
-                                                      &x, &y, &z, &bf, &dbf_x,
-                                                      &dbf_y, &dbf_z);
-
-    if( sh.pure() )
-      integrator::cuda::collocation_spherical_unnorm_angular_deriv1( 
-        sh.l(), bf, dbf_x, dbf_y, dbf_z, x, y, z, eval, deval_x, deval_y, deval_z );
-    else
-      integrator::cuda::collocation_cartesian_angular_deriv1( 
-        sh.l(), bf, dbf_x, dbf_y, dbf_z, x, y, z, eval, deval_x, deval_y, deval_z );
-                                                              
-  }
-
-#endif
-}
-
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/host_collocation.hpp b/third_party/gauxc/attic/src/integrator/host/host_collocation.hpp
deleted file mode 100644
index 536ba26..0000000
--- a/third_party/gauxc/attic/src/integrator/host/host_collocation.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-#pragma once
-
-#include <gauxc/basisset.hpp>
-
-namespace GauXC::integrator::host {
-
-void eval_collocation( size_t                  npts, 
-                       size_t                  nshells,
-                       size_t                  nbe,
-                       const double*           points, 
-                       const BasisSet<double>& basis,
-                       const int32_t*          shell_mask,
-                       double*                 basis_eval );
-
-void eval_collocation_deriv1( size_t                  npts, 
-                              size_t                  nshells,
-                              size_t                  nbe,
-                              const double*           points, 
-                              const BasisSet<double>& basis,
-                              const int32_t*          shell_mask,
-                              double*                 basis_eval, 
-                              double*                 dbasis_x_eval, 
-                              double*                 dbasis_y_eval,
-                              double*                 dbasis_z_eval );
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/host_weights.cxx b/third_party/gauxc/attic/src/integrator/host/host_weights.cxx
deleted file mode 100644
index 51c24f7..0000000
--- a/third_party/gauxc/attic/src/integrator/host/host_weights.cxx
+++ /dev/null
@@ -1,205 +0,0 @@
-#include "host/host_weights.hpp"
-#include <integrator_constants.hpp>
-
-namespace GauXC::integrator::host {
-
-void ssf_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-);
-
-void becke_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-);
-
-void partition_weights_host(
-  XCWeightAlg            weight_alg,
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-) {
-
-  switch( weight_alg ) {
-    case XCWeightAlg::Becke:
-      becke_weights_host( mol, meta, tasks );
-      break;
-    case XCWeightAlg::SSF:
-      ssf_weights_host( mol, meta, tasks );
-      break;
-    default:
-      throw std::runtime_error("Weight Alg Not Supported");
-  }
-
-}
- 
-void becke_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-) {
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-
-  const size_t ntasks = tasks.size();
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  #pragma omp for
-  for( size_t iT = 0; iT < ntasks;                  ++iT )
-  for( size_t i  = 0; i  < tasks[iT].points.size(); ++i  ) {
-
-    auto&       task   = tasks[iT];
-    auto&       weight = task.weights[i];
-    const auto& point  = task.points[i];
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ ){
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-      const double g = gBecke(mu);
-
-      partitionScratch[iA] *= 0.5 * (1. - g);
-      partitionScratch[jA] *= 0.5 * (1. + g);
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[task.iParent] / sum;
-
-  } // Collapsed loop over tasks and points
-
-  } // OMP context
-
-
-}
-
-void ssf_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-) {
-
-  auto gFrisch = [&](double x) {
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-
-  const size_t ntasks = tasks.size();
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  #pragma omp for
-  for( size_t iT = 0; iT < ntasks;                  ++iT )
-  for( size_t i  = 0; i  < tasks[iT].points.size(); ++i  ) {
-
-    auto&       task   = tasks[iT];
-    auto&       weight = task.weights[i];
-    const auto& point  = task.points[i];
-
-    const auto dist_cutoff = 0.5 * (1-magic_ssf_factor<>) * task.dist_nearest;
-
-    // Compute dist to parent atom
-    {
-      const double da_x = point[0] - mol[task.iParent].x;
-      const double da_y = point[1] - mol[task.iParent].y;
-      const double da_z = point[2] - mol[task.iParent].z;
-
-      atomDist[task.iParent] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-    }
-
-    if( atomDist[task.iParent] < dist_cutoff ) continue; // Partition weight = 1
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      if( iA == (size_t)task.iParent ) continue;
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ )
-    if( partitionScratch[iA] > ssf_weight_tol or 
-        partitionScratch[jA] > ssf_weight_tol ) {
-
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-
-      if( mu <= -magic_ssf_factor<> ) {
-
-        partitionScratch[jA] = 0.;
-
-      } else if (mu >= magic_ssf_factor<>) {
-
-        partitionScratch[iA] = 0.;
-
-      } else {
-
-        double g = 0.5 * ( 1. - gFrisch(mu) );
-        partitionScratch[iA] *= g;
-        partitionScratch[jA] *= 1. - g;
-
-      }
-
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[task.iParent] / sum;
-
-  } // Collapsed loop over tasks and points
-
-  } // OMP context
-
-
-}
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/host_weights.hpp b/third_party/gauxc/attic/src/integrator/host/host_weights.hpp
deleted file mode 100644
index 11736de..0000000
--- a/third_party/gauxc/attic/src/integrator/host/host_weights.hpp
+++ /dev/null
@@ -1,15 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator.hpp>
-
-namespace GauXC::integrator::host {
-
-void partition_weights_host(
-  XCWeightAlg            weight_alg,
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-);
-
-
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/host_zmat.cxx b/third_party/gauxc/attic/src/integrator/host/host_zmat.cxx
deleted file mode 100644
index 52cd426..0000000
--- a/third_party/gauxc/attic/src/integrator/host/host_zmat.cxx
+++ /dev/null
@@ -1,115 +0,0 @@
-#include "host/host_zmat.hpp"
-#include "host/blas.hpp"
-
-namespace GauXC  {
-namespace integrator::host {
-
-template <typename F>
-void zmat_lda_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  basis,
-                    F*        z_matrix ) {
-
-  GauXC::blas::lacpy( 'A', nbf, npts, basis, nbf, 
-                      z_matrix, nbf );
-
-  for( int32_t i = 0; i < npts; ++i ) {
-
-    auto* z_col = z_matrix + i*nbf;
-
-    const F fact = 0.5 * vrho[i];
-    GauXC::blas::scal( nbf, fact, z_col, 1 );
-
-  }
-
-} 
-
-template
-void zmat_lda_host( int32_t    npts,
-                    int32_t    nbf,
-                    const float*  vrho,
-                    const float*  basis,
-                    float*        z_matrix ); 
-template
-void zmat_lda_host( int32_t    npts,
-                    int32_t    nbf,
-                    const double*  vrho,
-                    const double*  basis,
-                    double*        z_matrix ); 
-
-
-
-template <typename F>
-void zmat_gga_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  vgamma,
-                    const F*  basis,
-                    const F*  dbasis_x,
-                    const F*  dbasis_y,
-                    const F*  dbasis_z,
-                    const F*  dden_x,
-                    const F*  dden_y,
-                    const F*  dden_z,
-                    F*        z_matrix ) {
-
-  GauXC::blas::lacpy( 'A', nbf, npts, basis, nbf, 
-                      z_matrix, nbf );
-
-  for( int32_t i = 0; i < npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* z_col    = z_matrix + ioff;
-    auto* bf_x_col = dbasis_x + ioff; 
-    auto* bf_y_col = dbasis_y + ioff; 
-    auto* bf_z_col = dbasis_z + ioff; 
-
-    const F lda_fact = 0.5 * vrho[i];
-    GauXC::blas::scal( nbf, lda_fact, z_col, 1 );
-
-    const F gga_fact = 2. * vgamma[i]; 
-    const auto x_fact = gga_fact * dden_x[i];
-    const auto y_fact = gga_fact * dden_y[i];
-    const auto z_fact = gga_fact * dden_z[i];
-
-    GauXC::blas::axpy( nbf, x_fact, bf_x_col, 1, z_col, 1 );
-    GauXC::blas::axpy( nbf, y_fact, bf_y_col, 1, z_col, 1 );
-    GauXC::blas::axpy( nbf, z_fact, bf_z_col, 1, z_col, 1 );
-
-  }
-
-} 
-
-template 
-void zmat_gga_host( int32_t    npts,
-                    int32_t    nbf,
-                    const float*  vrho,
-                    const float*  vgamma,
-                    const float*  basis,
-                    const float*  dbasis_x,
-                    const float*  dbasis_y,
-                    const float*  dbasis_z,
-                    const float*  dden_x,
-                    const float*  dden_y,
-                    const float*  dden_z,
-                    float*        z_matrix );
-
-template 
-void zmat_gga_host( int32_t    npts,
-                    int32_t    nbf,
-                    const double*  vrho,
-                    const double*  vgamma,
-                    const double*  basis,
-                    const double*  dbasis_x,
-                    const double*  dbasis_y,
-                    const double*  dbasis_z,
-                    const double*  dden_x,
-                    const double*  dden_y,
-                    const double*  dden_z,
-                    double*        z_matrix );
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/integrator/host/host_zmat.hpp b/third_party/gauxc/attic/src/integrator/host/host_zmat.hpp
deleted file mode 100644
index ba33541..0000000
--- a/third_party/gauxc/attic/src/integrator/host/host_zmat.hpp
+++ /dev/null
@@ -1,29 +0,0 @@
-#pragma once
-#include <cstdint>
-
-namespace GauXC  {
-namespace integrator::host {
-
-template <typename F>
-void zmat_lda_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  basis,
-                    F*        z_matrix ); 
-
-template <typename F>
-void zmat_gga_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  vgamma,
-                    const F*  basis,
-                    const F*  dbasis_x,
-                    const F*  dbasis_y,
-                    const F*  dbasis_z,
-                    const F*  dden_x,
-                    const F*  dden_y,
-                    const F*  dden_z,
-                    F*        z_matrix ); 
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/util.hpp b/third_party/gauxc/attic/src/integrator/host/util.hpp
deleted file mode 100644
index b23f66f..0000000
--- a/third_party/gauxc/attic/src/integrator/host/util.hpp
+++ /dev/null
@@ -1,80 +0,0 @@
-#pragma once
-#include "host/blas.hpp"
-#include <vector>
-#include <tuple>
-#include <cstdint>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename _F1, typename _F2>
-void submat_set(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  std::vector<std::array<int32_t,3>> &submat_map) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    GauXC::blas::lacpy( 'A', deltaI, deltaJ, ABig_use, LDAB, 
-                         ASmall_use, LDAS );
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-
-}
-
-template <typename _F1, typename _F2>
-void inc_by_submat(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  std::vector<std::array<int32_t,3>> &submat_map) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    for( int32_t jj = 0; jj < deltaJ; ++jj )
-    for( int32_t ii = 0; ii < deltaI; ++ii )
-      ABig_use[ ii + jj * LDAB ] += ASmall_use[ ii + jj * LDAS ];
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/host/xc_host_util.cxx b/third_party/gauxc/attic/src/integrator/host/xc_host_util.cxx
deleted file mode 100644
index 6f9f61d..0000000
--- a/third_party/gauxc/attic/src/integrator/host/xc_host_util.cxx
+++ /dev/null
@@ -1,211 +0,0 @@
-#include <gauxc/xc_integrator/xc_host_util.hpp>
-
-#include "host/host_weights.hpp"
-#include "host/host_collocation.hpp"
-#include "host/host_zmat.hpp"
-#include "integrator_common.hpp"
-#include "host/blas.hpp"
-#include "host/util.hpp"
-
-namespace GauXC  {
-namespace integrator::host {
-
-
-
-template <typename F, size_t n_deriv>
-void process_batches_host_replicated_p(
-  XCIntegratorState      integrator_state,
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCHostData<F>    &     host_data,
-  std::vector< XCTask >& tasks,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-) {
-
-  const int32_t nbf = basis.nbf();
-
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.nbe) > (b.points.size() * b.nbe);
-  };
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-
-  if( not integrator_state.modified_weights_are_stored )
-    partition_weights_host( weight_alg, mol, meta, tasks );
-
-
-  std::fill( VXC, VXC + size_t(nbf)*nbf, F(0.) );
-  *exc = 0.;
-
-  size_t ntasks = tasks.size();
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    auto& task = tasks[iT];
-
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.nbe;
-    const int32_t  nshells = task.shell_list.size();
-
-    const F* points      = task.points.data()->data();
-    const F* weights     = task.weights.data();
-    const int32_t* shell_list = task.shell_list.data();
-
-    F* basis_eval = host_data.basis_eval.data();
-    F* den_eval   = host_data.den_scr.data();
-    F* nbe_scr    = host_data.nbe_scr.data();
-    F* zmat       = host_data.zmat.data();
-
-    F* eps        = host_data.eps.data();
-    F* gamma      = host_data.gamma.data();
-    F* vrho       = host_data.vrho.data();
-    F* vgamma     = host_data.vgamma.data();
-
-    F* dbasis_x_eval = nullptr;
-    F* dbasis_y_eval = nullptr;
-    F* dbasis_z_eval = nullptr;
-    F* dden_x_eval = nullptr;
-    F* dden_y_eval = nullptr;
-    F* dden_z_eval = nullptr;
-
-    if( n_deriv > 0 ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      dden_x_eval   = den_eval    + npts;
-      dden_y_eval   = dden_x_eval + npts;
-      dden_z_eval   = dden_y_eval + npts;
-    }
-
-
-    // Get the submatrix map for batch
-    auto [submat_map, foo] = gen_compressed_submat_map( basis, task.shell_list, nbf, nbf);
-
-
-    // Evaluate Collocation Matrix 
-    if( n_deriv == 1 )
-      eval_collocation_deriv1( npts, nshells, nbe, points, basis, shell_list, 
-                               basis_eval, dbasis_x_eval, dbasis_y_eval, 
-                               dbasis_z_eval );
-    else
-      eval_collocation( npts, nshells, nbe, points, basis, shell_list, basis_eval );
-
-
-    // Extrat Submatrix
-    const F* den_ptr_use = P;
-    if( nbe != nbf ) {
-      detail::submat_set( nbf, nbf, nbe, nbe, P, nbf, nbe_scr, nbe, submat_map );
-      den_ptr_use = nbe_scr;
-    } 
-
-    // Z = P * BF
-    GauXC::blas::gemm( 'N', 'N', nbe, npts, nbe, 1., den_ptr_use, nbe,
-                       basis_eval, nbe, 0., zmat, nbe );
-    
-
-    // Evaluate the density 
-    for( int32_t i = 0; i < npts; ++i ) {
-
-      const size_t ioff = size_t(i) * nbe;
-      const F*     zmat_i = zmat + ioff;
-
-      den_eval[i] = 
-        2. * GauXC::blas::dot( nbe, basis_eval + ioff, 1, zmat_i, 1 );
-
-      if( n_deriv > 0 ) {
-        const F dx = 
-          4. * GauXC::blas::dot( nbe, dbasis_x_eval + ioff, 1, zmat_i, 1 );
-        const F dy = 
-          4. * GauXC::blas::dot( nbe, dbasis_y_eval + ioff, 1, zmat_i, 1 );
-        const F dz = 
-          4. * GauXC::blas::dot( nbe, dbasis_z_eval + ioff, 1, zmat_i, 1 );
-
-        dden_x_eval[i] = dx;
-        dden_y_eval[i] = dy;
-        dden_z_eval[i] = dz;
-
-        gamma[i] = dx*dx + dy*dy + dz*dz;
-      }
-
-    }
-
-
-    // Evaluate XC functional
-    if( func.is_gga() )
-      func.eval_exc_vxc( npts, den_eval, gamma, eps, vrho, vgamma );
-    else
-      func.eval_exc_vxc( npts, den_eval, eps, vrho );
-
-
-    // Factor weights into XC results
-    for( int32_t i = 0; i < npts; ++i ) {
-      eps[i]  *= weights[i];
-      vrho[i] *= weights[i];
-    }
-
-    if( func.is_gga() )
-      for( int32_t i = 0; i < npts; ++i ) vgamma[i] *= weights[i];
-    
-
-
-    // Scalar integrations
-    if( n_el )
-      for( int32_t i = 0; i < npts; ++i ) *n_el += weights[i] * den_eval[i];
-
-    for( int32_t i = 0; i < npts; ++i ) *exc += eps[i] * den_eval[i];
-    
-
-    // Assemble Z
-    if( func.is_gga() )
-      zmat_gga_host( npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-                     dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval,
-                     dden_z_eval, zmat ); 
-    else
-      zmat_lda_host( npts, nbe, vrho, basis_eval, zmat ); 
-
-
-
-    // Update VXC XXX: Only LT
-    GauXC::blas::syr2k( 'L', 'N', nbe, npts, F(1.), basis_eval,
-                        nbe, zmat, nbe, F(0.), nbe_scr, nbe );
-
-
-    detail::inc_by_submat( nbf, nbf, nbe, nbe, VXC, nbf, nbe_scr, nbe,
-                           submat_map );
-  }
-
-  // Symmetrize VXC
-  for( int32_t j = 0;   j < nbf; ++j )
-  for( int32_t i = j+1; i < nbf; ++i )
-    VXC[ j + i*nbf ] = VXC[ i + j*nbf ];
-
-}
-
-
-#define HOST_IMPL( F, ND ) \
-template \
-void process_batches_host_replicated_p<F, ND>(\
-  XCIntegratorState      integrator_state, \
-  XCWeightAlg            weight_alg,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCHostData<F>    &     host_data,\
-  std::vector< XCTask >& local_work,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-HOST_IMPL( double, 0 );
-HOST_IMPL( double, 1 );
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/integrator_common.cxx b/third_party/gauxc/attic/src/integrator/integrator_common.cxx
deleted file mode 100644
index 0314c32..0000000
--- a/third_party/gauxc/attic/src/integrator/integrator_common.cxx
+++ /dev/null
@@ -1,133 +0,0 @@
-#include "integrator_common.hpp"
-
-#include <tuple>
-#include <array>
-#include <vector>
-#include <cstdint>
-
-namespace GauXC      {
-namespace integrator {
-
-std::tuple< std::vector< std::array<int32_t, 3> > , std::vector< int32_t > >
-  gen_compressed_submat_map( const BasisSet<double>&       basis,
-                             const std::vector< int32_t >& shell_mask,
-                             const int32_t LDA, const int32_t block_size ) {
-
-
-  std::vector< std::pair<int32_t, int32_t> > submat_map;
-
-  // Init as if there is no screening
-  submat_map.emplace_back(
-    basis.shell_to_ao_range( shell_mask.front() ).first,
-    basis.shell_to_ao_range( shell_mask.back()  ).second
-  );
-
-
-  for( auto sh_it =  shell_mask.begin(); sh_it != shell_mask.end()-1; ++sh_it ) {
-
-    if( *(sh_it+1) - *(sh_it) != 1 ) {
-
-      submat_map.back().second = basis.shell_to_ao_range(*sh_it).second;
-        
-      submat_map.emplace_back(
-        basis.shell_to_ao_range( *(sh_it+1) ).first,
-        basis.shell_to_ao_range( shell_mask.back()  ).second
-      );
-
-    }
-
-
-
-  }
-
-
-  if( shell_mask.size() == 1 )
-    submat_map.back().second = 
-      basis.shell_to_ao_range(shell_mask[0]).second;
-
-
-  /*
-   * This code block does post-processing for the submatrix optimizations
-   *
-   * It first adds the index within the small matrix as another pair in the vector.
-   * This allows the kernel to process multiple cuts concurrently within the same
-   * task. Additionally, it adds artificial breaks in the cut at the given interval
-   * This is to reduce the amount of bookkeeping that the kernel is required to do.
-   *
-   * While the small matrix start indices are stored in the additional pair, the second 
-   * value is blank as the delta can be reused from the big matrix start and stop points.
-   *
-   * It also creates an additional vector which stores the mapping from big matrix block 
-   * to cut index. As a kernel only processes a single block of the big matrix, it can
-   * look up the starting and ending cut indices and ignore all other cuts.
-   *
-   */
-  std::vector< std::array<int32_t, 3> > submat_map_expand;
-  std::vector< int32_t > submat_block_idx;
-  submat_block_idx.push_back(0);
-  const int end_point = LDA; 
-
-  int cut_index = 0;
-  int cut_expand_index = 0;
-  int small_index = 0;
-  int delta;
-  for (int block_start = 0; block_start < end_point; block_start += block_size) {
-    const int block_end = block_start + block_size;
-    
-    int cut_start = submat_map[cut_index].first;
-    int cut_end   = submat_map[cut_index].second;
-    while (cut_index < submat_map.size() && cut_start < block_end) {
-      if (cut_start < block_start && cut_end < block_start) {
-        // In this case the cut starts and stops before the block starts.
-	// This should never happen as the cut should already have been processed.
-	// But I included this case as a sanity check.
-	std::cout << "Something is wrong constructing the extended cut map " << std::endl;
-      } else if (cut_start < block_start && cut_end > block_end) {
-        // In this case, the cut spans the entire block. The cut index is not
-	// incremented because we need to process the rest of it.
-	delta = block_end - block_start;
-	submat_map_expand.push_back({block_start, delta, small_index});
-        small_index += delta;
-
-	cut_expand_index++;
-	break;
-      } else if (cut_start < block_start) {
-	// In this case the cut begins before the block, but ends within
-	// this block
-	delta = cut_end - block_start;
-	submat_map_expand.push_back({block_start, delta, small_index});
-        small_index += delta;
-
-	cut_index++;
-	cut_expand_index++;
-      } else if (cut_end > block_end) {
-	// In this case, the cut starts within the block, but extends
-	// into the next block. Again, the cut index is not incremented
-	delta = block_end - cut_start;
-	submat_map_expand.push_back({cut_start, delta, small_index});
-        small_index += delta;
-
-	cut_expand_index++;
-	break;
-      } else {
-	// In this case, the cut starts and ends within the block
-	delta = cut_end - cut_start;
-	submat_map_expand.push_back({cut_start, delta, small_index});
-        small_index += delta;
-
-	cut_index++;
-	cut_expand_index++;
-      }
-
-      cut_start = submat_map[cut_index].first;
-      cut_end   = submat_map[cut_index].second;
-    }
-    submat_block_idx.push_back(cut_expand_index);
-  }
-  return {submat_map_expand, submat_block_idx};
-}
-
-
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/integrator_common.hpp b/third_party/gauxc/attic/src/integrator/integrator_common.hpp
deleted file mode 100644
index a674003..0000000
--- a/third_party/gauxc/attic/src/integrator/integrator_common.hpp
+++ /dev/null
@@ -1,16 +0,0 @@
-#pragma once
-
-#include "integrator_constants.hpp"
-#include <gauxc/basisset.hpp>
-
-namespace GauXC      {
-namespace integrator {
-
-std::tuple< std::vector< std::array<int32_t, 3> > , std::vector< int32_t > >
-  gen_compressed_submat_map( const BasisSet<double>&       basis_set,
-                             const std::vector< int32_t >& shell_mask,
-		             const int32_t LDA, const int32_t block_size ); 
-
-
-}
-}
diff --git a/third_party/gauxc/attic/src/integrator/integrator_constants.hpp b/third_party/gauxc/attic/src/integrator/integrator_constants.hpp
deleted file mode 100644
index f7ee152..0000000
--- a/third_party/gauxc/attic/src/integrator/integrator_constants.hpp
+++ /dev/null
@@ -1,12 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-
-template <typename F = double>
-constexpr F magic_ssf_factor = 0.64;
-
-constexpr double ssf_weight_tol = 1e-10;
-
-}
-}
diff --git a/third_party/gauxc/attic/src/load_balancer_defaults.hpp b/third_party/gauxc/attic/src/load_balancer_defaults.hpp
deleted file mode 100644
index 0327437..0000000
--- a/third_party/gauxc/attic/src/load_balancer_defaults.hpp
+++ /dev/null
@@ -1,17 +0,0 @@
-#include "load_balancer/host/replicated_load_balancer.hpp"
-#include "load_balancer/cuda/replicated_load_balancer.hpp"
-
-namespace GauXC {
-namespace detail {
-
-template <typename... Args>
-std::unique_ptr<LoadBalancerImpl> make_default_load_balancer(Args&&... args) {
-//#ifdef GAUXC_ENABLE_CUDA
-//  return std::make_unique<DeviceReplicatedLoadBalancer>( std::forward<Args>(args)... );
-//#else 
-  return std::make_unique<HostReplicatedLoadBalancer>( std::forward<Args>(args)... );
-//#endif
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/CMakeLists.txt b/third_party/gauxc/attic/src/new_integrator/CMakeLists.txt
deleted file mode 100644
index 6f8ecdf..0000000
--- a/third_party/gauxc/attic/src/new_integrator/CMakeLists.txt
+++ /dev/null
@@ -1,20 +0,0 @@
-# Implementations of generic interfaces
-target_sources( gauxc PRIVATE replicated_xc_integrator_impl.cxx )
-
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${PROJECT_SOURCE_DIR}/src/new_integrator>
-)
-
-# Common Utilities
-include( common/gauxc-common.cmake )
-
-# Host Integrator Utilities
-if( GAUXC_ENABLE_HOST )
-  include( host/gauxc-host.cmake )
-endif()
-
-# Device Integrator Utilities
-if( GAUXC_ENABLE_DEVICE )
-  include( device/gauxc-device.cmake )
-endif()
diff --git a/third_party/gauxc/attic/src/new_integrator/common/gauxc-common.cmake b/third_party/gauxc/attic/src/new_integrator/common/gauxc-common.cmake
deleted file mode 100644
index 5ec2bdc..0000000
--- a/third_party/gauxc/attic/src/new_integrator/common/gauxc-common.cmake
+++ /dev/null
@@ -1,3 +0,0 @@
-# Common Integrator Utilities
-target_sources( gauxc PRIVATE common/integrator_common.cxx )
-
diff --git a/third_party/gauxc/attic/src/new_integrator/common/integrator_common.cxx b/third_party/gauxc/attic/src/new_integrator/common/integrator_common.cxx
deleted file mode 100644
index b76b600..0000000
--- a/third_party/gauxc/attic/src/new_integrator/common/integrator_common.cxx
+++ /dev/null
@@ -1,133 +0,0 @@
-#include "integrator_common.hpp"
-
-#include <tuple>
-#include <array>
-#include <vector>
-#include <cstdint>
-
-namespace GauXC      {
-namespace integrator {
-
-std::tuple< std::vector< std::array<int32_t, 3> > , std::vector< int32_t > >
-  gen_compressed_submat_map( const BasisSetMap&       basis_map,
-                             const std::vector< int32_t >& shell_mask,
-                             const int32_t LDA, const int32_t block_size ) {
-
-
-  std::vector< std::pair<int32_t, int32_t> > submat_map;
-
-  // Init as if there is no screening
-  submat_map.emplace_back(
-    basis_map.shell_to_ao_range( shell_mask.front() ).first,
-    basis_map.shell_to_ao_range( shell_mask.back()  ).second
-  );
-
-
-  for( auto sh_it =  shell_mask.begin(); sh_it != shell_mask.end()-1; ++sh_it ) {
-
-    if( *(sh_it+1) - *(sh_it) != 1 ) {
-
-      submat_map.back().second = basis_map.shell_to_ao_range(*sh_it).second;
-        
-      submat_map.emplace_back(
-        basis_map.shell_to_ao_range( *(sh_it+1) ).first,
-        basis_map.shell_to_ao_range( shell_mask.back()  ).second
-      );
-
-    }
-
-
-
-  }
-
-
-  if( shell_mask.size() == 1 )
-    submat_map.back().second = 
-      basis_map.shell_to_ao_range(shell_mask[0]).second;
-
-
-  /*
-   * This code block does post-processing for the submatrix optimizations
-   *
-   * It first adds the index within the small matrix as another pair in the vector.
-   * This allows the kernel to process multiple cuts concurrently within the same
-   * task. Additionally, it adds artificial breaks in the cut at the given interval
-   * This is to reduce the amount of bookkeeping that the kernel is required to do.
-   *
-   * While the small matrix start indices are stored in the additional pair, the second 
-   * value is blank as the delta can be reused from the big matrix start and stop points.
-   *
-   * It also creates an additional vector which stores the mapping from big matrix block 
-   * to cut index. As a kernel only processes a single block of the big matrix, it can
-   * look up the starting and ending cut indices and ignore all other cuts.
-   *
-   */
-  std::vector< std::array<int32_t, 3> > submat_map_expand;
-  std::vector< int32_t > submat_block_idx;
-  submat_block_idx.push_back(0);
-  const int end_point = LDA; 
-
-  int cut_index = 0;
-  int cut_expand_index = 0;
-  int small_index = 0;
-  int delta;
-  for (int block_start = 0; block_start < end_point; block_start += block_size) {
-    const int block_end = block_start + block_size;
-    
-    int cut_start = submat_map[cut_index].first;
-    int cut_end   = submat_map[cut_index].second;
-    while (cut_index < submat_map.size() && cut_start < block_end) {
-      if (cut_start < block_start && cut_end < block_start) {
-        // In this case the cut starts and stops before the block starts.
-	// This should never happen as the cut should already have been processed.
-	// But I included this case as a sanity check.
-	std::cout << "Something is wrong constructing the extended cut map " << std::endl;
-      } else if (cut_start < block_start && cut_end > block_end) {
-        // In this case, the cut spans the entire block. The cut index is not
-	// incremented because we need to process the rest of it.
-	delta = block_end - block_start;
-	submat_map_expand.push_back({block_start, delta, small_index});
-        small_index += delta;
-
-	cut_expand_index++;
-	break;
-      } else if (cut_start < block_start) {
-	// In this case the cut begins before the block, but ends within
-	// this block
-	delta = cut_end - block_start;
-	submat_map_expand.push_back({block_start, delta, small_index});
-        small_index += delta;
-
-	cut_index++;
-	cut_expand_index++;
-      } else if (cut_end > block_end) {
-	// In this case, the cut starts within the block, but extends
-	// into the next block. Again, the cut index is not incremented
-	delta = block_end - cut_start;
-	submat_map_expand.push_back({cut_start, delta, small_index});
-        small_index += delta;
-
-	cut_expand_index++;
-	break;
-      } else {
-	// In this case, the cut starts and ends within the block
-	delta = cut_end - cut_start;
-	submat_map_expand.push_back({cut_start, delta, small_index});
-        small_index += delta;
-
-	cut_index++;
-	cut_expand_index++;
-      }
-
-      cut_start = submat_map[cut_index].first;
-      cut_end   = submat_map[cut_index].second;
-    }
-    submat_block_idx.push_back(cut_expand_index);
-  }
-  return {submat_map_expand, submat_block_idx};
-}
-
-
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/common/integrator_common.hpp b/third_party/gauxc/attic/src/new_integrator/common/integrator_common.hpp
deleted file mode 100644
index b9c3ed3..0000000
--- a/third_party/gauxc/attic/src/new_integrator/common/integrator_common.hpp
+++ /dev/null
@@ -1,16 +0,0 @@
-#pragma once
-
-#include "integrator_constants.hpp"
-#include <gauxc/basisset_map.hpp>
-
-namespace GauXC      {
-namespace integrator {
-
-std::tuple< std::vector< std::array<int32_t, 3> >, std::vector< int32_t > >
-  gen_compressed_submat_map( const BasisSetMap&       basis_set,
-                             const std::vector< int32_t >& shell_mask,
-		             const int32_t LDA, const int32_t block_size ); 
-
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/common/integrator_constants.hpp b/third_party/gauxc/attic/src/new_integrator/common/integrator_constants.hpp
deleted file mode 100644
index f7ee152..0000000
--- a/third_party/gauxc/attic/src/new_integrator/common/integrator_constants.hpp
+++ /dev/null
@@ -1,12 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-
-template <typename F = double>
-constexpr F magic_ssf_factor = 0.64;
-
-constexpr double ssf_weight_tol = 1e-10;
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/buffer_adaptor.hpp b/third_party/gauxc/attic/src/new_integrator/device/buffer_adaptor.hpp
deleted file mode 100644
index 130f1f1..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/buffer_adaptor.hpp
+++ /dev/null
@@ -1,50 +0,0 @@
-#pragma once
-
-namespace GauXC {
-
-class buffer_adaptor {
-
-  size_t nalloc_;
-  size_t nleft_;
-  void*  top_;
-  void*  stack_;
-
-public:
-
-  buffer_adaptor() = delete;
-
-  inline buffer_adaptor( void* ptr, size_t len ) :
-    nalloc_(len), 
-    nleft_(len), 
-    top_(ptr), 
-    stack_(ptr) { }
-
-  template <typename T>
-  T* aligned_alloc( size_t len, 
-                    size_t align = alignof(T) ) {
-
-    char* old_stack = (char*)stack_;
-    if( std::align( align, 
-                    len*sizeof(T), 
-                    stack_, 
-                    nleft_          ) ) {
-
-      T* result = reinterpret_cast<T*>(stack_);
-      stack_ = (char*)stack_ + len*sizeof(T);
-      nleft_ -= std::distance( old_stack, 
-                               (char*)stack_ );
-      return result;
-
-    }
-
-    throw std::bad_alloc();
-
-  }
-
-  inline void* stack() const {return stack_;}
-  inline size_t nleft() const { return nleft_; }
-
-};
-
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_angular_cartesian.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_angular_cartesian.hpp
deleted file mode 100644
index 32088f5..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_angular_cartesian.hpp
+++ /dev/null
@@ -1,308 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x;
-  eval[npts * 1] = bf*y;
-  eval[npts * 2] = bf*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf + bf_x*x;
-  eval_x[npts * 1] = bf_x*y;
-  eval_x[npts * 2] = bf_x*z;
-
-  eval_y[npts * 0] = bf_y*x;
-  eval_y[npts * 1] = bf + bf_y*y;
-  eval_y[npts * 2] = bf_y*z;
-
-  eval_z[npts * 0] = bf_z*x;
-  eval_z[npts * 1] = bf_z*y;
-  eval_z[npts * 2] = bf + bf_z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x;
-  eval[npts * 1] = bf*x*y;
-  eval[npts * 2] = bf*x*z;
-  eval[npts * 3] = bf*y*y;
-  eval[npts * 4] = bf*y*z;
-  eval[npts * 5] = bf*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*(2*bf + bf_x*x);
-  eval_x[npts * 1] = y*(bf + bf_x*x);
-  eval_x[npts * 2] = z*(bf + bf_x*x);
-  eval_x[npts * 3] = bf_x*y*y;
-  eval_x[npts * 4] = bf_x*y*z;
-  eval_x[npts * 5] = bf_x*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x;
-  eval_y[npts * 1] = x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*z;
-  eval_y[npts * 3] = y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x;
-  eval_z[npts * 1] = bf_z*x*y;
-  eval_z[npts * 2] = x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*y*y;
-  eval_z[npts * 4] = y*(bf + bf_z*z);
-  eval_z[npts * 5] = z*(2*bf + bf_z*z);
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x*x;
-  eval[npts * 1] = bf*x*x*y;
-  eval[npts * 2] = bf*x*x*z;
-  eval[npts * 3] = bf*x*y*y;
-  eval[npts * 4] = bf*x*y*z;
-  eval[npts * 5] = bf*x*z*z;
-  eval[npts * 6] = bf*y*y*y;
-  eval[npts * 7] = bf*y*y*z;
-  eval[npts * 8] = bf*y*z*z;
-  eval[npts * 9] = bf*z*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*x*(3*bf + bf_x*x);
-  eval_x[npts * 1] = x*y*(2*bf + bf_x*x);
-  eval_x[npts * 2] = x*z*(2*bf + bf_x*x);
-  eval_x[npts * 3] = y*y*(bf + bf_x*x);
-  eval_x[npts * 4] = y*z*(bf + bf_x*x);
-  eval_x[npts * 5] = z*z*(bf + bf_x*x);
-  eval_x[npts * 6] = bf_x*y*y*y;
-  eval_x[npts * 7] = bf_x*y*y*z;
-  eval_x[npts * 8] = bf_x*y*z*z;
-  eval_x[npts * 9] = bf_x*z*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x*x;
-  eval_y[npts * 1] = x*x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*x*z;
-  eval_y[npts * 3] = x*y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = x*z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*x*z*z;
-  eval_y[npts * 6] = y*y*(3*bf + bf_y*y);
-  eval_y[npts * 7] = y*z*(2*bf + bf_y*y);
-  eval_y[npts * 8] = z*z*(bf + bf_y*y);
-  eval_y[npts * 9] = bf_y*z*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x*x;
-  eval_z[npts * 1] = bf_z*x*x*y;
-  eval_z[npts * 2] = x*x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*x*y*y;
-  eval_z[npts * 4] = x*y*(bf + bf_z*z);
-  eval_z[npts * 5] = x*z*(2*bf + bf_z*z);
-  eval_z[npts * 6] = bf_z*y*y*y;
-  eval_z[npts * 7] = y*y*(bf + bf_z*z);
-  eval_z[npts * 8] = y*z*(2*bf + bf_z*z);
-  eval_z[npts * 9] = z*z*(3*bf + bf_z*z);
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular_deriv1
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_angular_spherical_unnorm.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_angular_spherical_unnorm.hpp
deleted file mode 100644
index 9de5f11..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_angular_spherical_unnorm.hpp
+++ /dev/null
@@ -1,292 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*y;
-  eval[npts * 1] = bf*z;
-  eval[npts * 2] = bf*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x*y;
-  eval_x[npts * 1] = bf_x*z;
-  eval_x[npts * 2] = bf + bf_x*x;
-
-  eval_y[npts * 0] = bf + bf_y*y;
-  eval_y[npts * 1] = bf_y*z;
-  eval_y[npts * 2] = bf_y*x;
-
-  eval_z[npts * 0] = bf_z*y;
-  eval_z[npts * 1] = bf + bf_z*z;
-  eval_z[npts * 2] = bf_z*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_3*bf*x*y;
-  eval[npts * 1] = sqrt_3*bf*y*z;
-  eval[npts * 2] = bf*(-x*x - y*y + 2*z*z)/2;
-  eval[npts * 3] = sqrt_3*bf*x*z;
-  eval[npts * 4] = sqrt_3*bf*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_3*y*(bf + bf_x*x);
-  eval_x[npts * 1] = sqrt_3*bf_x*y*z;
-  eval_x[npts * 2] = -bf*x - bf_x*(x*x + y*y - 2*z*z)/2;
-  eval_x[npts * 3] = sqrt_3*z*(bf + bf_x*x);
-  eval_x[npts * 4] = sqrt_3*(bf*x + bf_x*(x*x - y*y)/2);
-
-  eval_y[npts * 0] = sqrt_3*x*(bf + bf_y*y);
-  eval_y[npts * 1] = sqrt_3*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -bf*y - bf_y*(x*x + y*y - 2*z*z)/2;
-  eval_y[npts * 3] = sqrt_3*bf_y*x*z;
-  eval_y[npts * 4] = sqrt_3*(-bf*y + bf_y*(x*x - y*y)/2);
-
-  eval_z[npts * 0] = sqrt_3*bf_z*x*y;
-  eval_z[npts * 1] = sqrt_3*y*(bf + bf_z*z);
-  eval_z[npts * 2] = 2*bf*z - bf_z*(x*x + y*y - 2*z*z)/2;
-  eval_z[npts * 3] = sqrt_3*x*(bf + bf_z*z);
-  eval_z[npts * 4] = sqrt_3*bf_z*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_10*bf*y*(3*x*x - y*y)/4;
-  eval[npts * 1] = sqrt_15*bf*x*y*z;
-  eval[npts * 2] = sqrt_6*bf*y*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 3] = bf*z*(-3*x*x - 3*y*y + 2*z*z)/2;
-  eval[npts * 4] = sqrt_6*bf*x*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 5] = sqrt_15*bf*z*(x*x - y*y)/2;
-  eval[npts * 6] = sqrt_10*bf*x*(x*x - 3*y*y)/4;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_10*y*(6*bf*x + bf_x*(3*x*x - y*y))/4;
-  eval_x[npts * 1] = sqrt_15*y*z*(bf + bf_x*x);
-  eval_x[npts * 2] = -sqrt_6*y*(2*bf*x + bf_x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 3] = -z*(6*bf*x + bf_x*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_x[npts * 4] = -sqrt_6*(bf*(3*x*x + y*y - 4*z*z) + bf_x*x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 5] = sqrt_15*z*(2*bf*x + bf_x*(x*x - y*y))/2;
-  eval_x[npts * 6] = sqrt_10*(3*bf*(x*x - y*y) + bf_x*x*(x*x - 3*y*y))/4;
-
-  eval_y[npts * 0] = sqrt_10*(-3*bf*(-x*x + y*y) + bf_y*y*(3*x*x - y*y))/4;
-  eval_y[npts * 1] = sqrt_15*x*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -sqrt_6*(bf*(x*x + 3*y*y - 4*z*z) + bf_y*y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 3] = -z*(6*bf*y + bf_y*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_y[npts * 4] = -sqrt_6*x*(2*bf*y + bf_y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 5] = sqrt_15*z*(-2*bf*y + bf_y*(x*x - y*y))/2;
-  eval_y[npts * 6] = sqrt_10*x*(-6*bf*y + bf_y*(x*x - 3*y*y))/4;
-
-  eval_z[npts * 0] = sqrt_10*bf_z*y*(3*x*x - y*y)/4;
-  eval_z[npts * 1] = sqrt_15*x*y*(bf + bf_z*z);
-  eval_z[npts * 2] = sqrt_6*y*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 3] = -3*bf*(x*x + y*y - 2*z*z)/2 - bf_z*z*(3*x*x + 3*y*y - 2*z*z)/2;
-  eval_z[npts * 4] = sqrt_6*x*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 5] = sqrt_15*(bf + bf_z*z)*(x*x - y*y)/2;
-  eval_z[npts * 6] = sqrt_10*bf_z*x*(x*x - 3*y*y)/4;
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular_deriv1
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_device_constants.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_device_constants.hpp
deleted file mode 100644
index ef3fb6b..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_device_constants.hpp
+++ /dev/null
@@ -1,14 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-  constexpr double sqrt_15 = 3.872983346207417;
-  constexpr double sqrt_3 = 1.7320508075688772;
-  constexpr double sqrt_6 = 2.449489742783178;
-  constexpr double sqrt_10 = 3.1622776601683795;
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_radial.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_radial.hpp
deleted file mode 100644
index 03d8efb..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/collocation_radial.hpp
+++ /dev/null
@@ -1,97 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-__inline__ __device__ void collocation_device_radial_eval(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  for( uint32_t i = 0; i < nprim; ++i )
-    tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-  *eval_device = tmp;
-
-}
-
-
-
-__inline__ __device__ void collocation_device_radial_eval_deriv1(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device,
-  double*        deval_device_x,
-  double*        deval_device_y,
-  double*        deval_device_z
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-  for( uint32_t i = 0; i < nprim; ++i ) {
-
-    const double a = alpha[i];
-    const double e = coeff[i] * std::exp( - a * rsq );
-
-    const double ae = 2. * a * e;
-
-    tmp   += e;
-    tmp_x -= ae * xc;
-    tmp_y -= ae * yc;
-    tmp_z -= ae * zc;
-
-  }
-
-  *eval_device    = tmp;
-  *deval_device_x = tmp_x;
-  *deval_device_y = tmp_y;
-  *deval_device_z = tmp_z;
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/deprecated/gaueval_kernels_template.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/deprecated/gaueval_kernels_template.cu
deleted file mode 100644
index c9d0a8c..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/deprecated/gaueval_kernels_template.cu
+++ /dev/null
@@ -1,129 +0,0 @@
-//#include <GauXC/device_util.hpp>
-#include <iostream>
-#include <cassert>
-
-#include "gaueval_kernels.hpp"
-#include "gaueval_angular_cartesian.hpp"
-#include "gaueval_angular_spherical.hpp"
-#include "gaueval_angular_spherical_unnorm.hpp"
-
-namespace GauXC {
-
-__global__
-void gaueval_device_$(ang_name)_kernel(
-  size_t             nshells,
-  size_t             nbf,
-  size_t             npts,
-  const StaticShell* shells_device,
-  const size_t*      offs_device,
-  const double*      pts_device,
-  double*            eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* O     = device::array_data( shell.O     );
-    const auto* alpha = device::array_data( shell.alpha );
-    const auto* coeff = device::array_data( shell.coeff );
-
-    const double xc = pt[0] - O[0];
-    const double yc = pt[1] - O[1];
-    const double zc = pt[2] - O[2];
-  
-    const double rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim; 
-    double tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    double * bf_eval = eval_device + ibf + ipt*nbf;
-    gaueval_$(ang_name)_angular( shell.l, tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-__global__
-void gaueval_device_$(ang_name)_kernel_deriv1(
-  size_t             nshells,
-  size_t             nbf,
-  size_t             npts,
-  const StaticShell* shells_device,
-  const size_t*      offs_device,
-  const double*      pts_device,
-  double*            eval_device,
-  double*            deval_device_x,
-  double*            deval_device_y,
-  double*            deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* O     = device::array_data( shell.O     );
-    const auto* alpha = device::array_data( shell.alpha );
-    const auto* coeff = device::array_data( shell.coeff );
-
-    const double xc = pt[0] - O[0];
-    const double yc = pt[1] - O[1];
-    const double zc = pt[2] - O[2];
-  
-    const double rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim; 
-    double tmp = 0.;
-    double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const double a = alpha[i];
-      const double e = coeff[i] * std::exp( - a * rsq );
-
-      const double ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    double * bf_eval = eval_device    + ibf + ipt*nbf;
-    double * dx_eval = deval_device_x + ibf + ipt*nbf;
-    double * dy_eval = deval_device_y + ibf + ipt*nbf;
-    double * dz_eval = deval_device_z + ibf + ipt*nbf;
-
-    gaueval_$(ang_name)_angular_deriv1( shell.l, tmp, tmp_x, tmp_y, tmp_z, xc, yc, zc, bf_eval, dx_eval, dy_eval, dz_eval );
-
-  }
-
-
-}
-
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/deprecated/generate_bfeval.py b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/deprecated/generate_bfeval.py
deleted file mode 100644
index 178a979..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/deprecated/generate_bfeval.py
+++ /dev/null
@@ -1,440 +0,0 @@
-import cmath
-import math
-import os
-import re
-import sys
-from math import factorial as fact
-
-import sympy
-from scipy.special import binom as binomial
-from sympy import I as symb_I
-from sympy import exp as symb_exp
-from sympy import factorial as symb_fact
-from sympy import factorial2 as symb_fact2
-
-
-def generate_cartesian_ls(L):
-    l = []
-    for i in range(L + 1):
-        lx = L - i
-        for j in range(i + 1):
-            ly = i - j
-            lz = L - lx - ly
-
-            l.append([0, 0, 0])
-
-            for k in range(lx - 1):
-                l[-1][0] = l[-1][0] + 1
-            for k in range(ly - 1):
-                l[-1][1] = l[-1][1] + 1
-            for k in range(lz - 1):
-                l[-1][2] = l[-1][2] + 1
-
-            if lx > 0:
-                l[-1][0] = l[-1][0] + 1
-            if ly > 0:
-                l[-1][1] = l[-1][1] + 1
-            if lz > 0:
-                l[-1][2] = l[-1][2] + 1
-
-    return l
-
-
-def generate_spherical_coeff(l, m, lx, ly, lz):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return 0.0
-
-    prefactor = fact(2.0 * lx) * fact(2.0 * ly) * fact(2.0 * lz) * fact(l)
-    prefactor = prefactor * fact(l - abs(m))
-    prefactor = prefactor / (fact(2.0 * l) * fact(lx) * fact(ly) * fact(lz))
-    prefactor = prefactor / fact(l + abs(m))
-    prefactor = math.sqrt(prefactor)
-
-    term1 = 0.0
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + binomial(l, i) * binomial(i, j) * math.pow(-1, i) * fact(
-            2 * l - 2 * i
-        ) / fact(l - abs(m) - 2 * i)
-
-    term1 = term1 / math.pow(2, l) / fact(l)
-
-    m_fact = 1.0
-    if m < 0:
-        m_fact = -1.0
-
-    term2 = 0.0 + 0.0j
-    for k in range(j + 1):
-        z = cmath.exp(m_fact * math.pi / 2.0 * (abs(m) - lx + 2 * k) * 1.0j)
-        term2 = term2 + binomial(j, k) * binomial(abs(m), lx - 2 * k) * z
-
-    val = prefactor * term1 * term2
-
-    if abs(val.real) < 1e-10:
-        val = 0.0 + val.imag * 1j
-    if abs(val.imag) < 1e-10:
-        val = val.real
-
-    return val
-
-
-def generate_spherical_coeff_symb(l, m, lx, ly, lz, unnorm=False):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return sympy.Integer(0)
-
-    j_symb = sympy.Integer(j)
-    l_symb = sympy.Integer(l)
-    m_symb = sympy.Integer(abs(m))
-    lx_symb = sympy.Integer(lx)
-    ly_symb = sympy.Integer(ly)
-    lz_symb = sympy.Integer(lz)
-
-    prefactor = (
-        symb_fact(2 * lx_symb)
-        * symb_fact(2 * ly_symb)
-        * symb_fact(2 * lz_symb)
-        * symb_fact(l_symb)
-    )
-    prefactor = prefactor * symb_fact(l_symb - m_symb)
-    prefactor = prefactor / (
-        symb_fact(2 * l_symb)
-        * symb_fact(lx_symb)
-        * symb_fact(ly_symb)
-        * symb_fact(lz_symb)
-    )
-    prefactor = prefactor / symb_fact(l_symb + m_symb)
-
-    # Ed's stupid normalization convention...
-    if unnorm:
-        prefactor = (
-            prefactor
-            * symb_fact2(2 * l - 1)
-            / symb_fact2(2 * lx - 1)
-            / symb_fact2(2 * ly - 1)
-            / symb_fact2(2 * lz - 1)
-        )
-
-    prefactor = sympy.sqrt(prefactor)
-
-    term1 = sympy.Integer(0)
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + sympy.Integer(binomial(l, i)) * sympy.Integer(
-            binomial(i, j)
-        ) * sympy.Integer(math.pow(-1, i)) * symb_fact(
-            2 * l_symb - sympy.Integer(2 * i)
-        ) / symb_fact(l_symb - m_symb - sympy.Integer(2 * i))
-
-    term1 = term1 / (2**l_symb) / symb_fact(l)
-
-    m_fact_symb = sympy.Integer(1)
-    if m < 0:
-        m_fact_symb = -m_fact_symb
-
-    term2 = sympy.Integer(0)
-    for k in range(j + 1):
-        z = sympy.exp(
-            m_fact_symb
-            * sympy.pi
-            / 2
-            * (m_symb - lx_symb + sympy.Integer(2 * k))
-            * symb_I
-        )
-        term2 = (
-            term2
-            + sympy.Integer(binomial(j, k))
-            * sympy.Integer(binomial(abs(m), lx - 2 * k))
-            * z
-        )
-
-    return prefactor * term1 * term2
-
-
-def generate_cartesian_angular(ls):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-
-    ang = []
-
-    for l in ls:
-        ang.append(r)
-        for i in range(l[0]):
-            ang[-1] = ang[-1] * x
-        for i in range(l[1]):
-            ang[-1] = ang[-1] * y
-        for i in range(l[2]):
-            ang[-1] = ang[-1] * z
-
-        ang[-1] = ang[-1] / r
-
-    return ang
-
-
-def generate_spherical_angular(L, unnorm=False):
-    ls = generate_cartesian_ls(L)
-    angs = generate_cartesian_angular(ls)
-
-    # r = sympy.symbols( 'r' )
-    sph_angs = []
-    for m in range(L + 1):
-        tmp_p = 0
-        tmp_m = 0
-        for i in range(len(ls)):
-            l = ls[i]
-            ang = angs[i]
-
-            # c = generate_spherical_coeff( L, m, l[0],l[1],l[2] )
-            c = generate_spherical_coeff_symb(L, m, l[0], l[1], l[2], unnorm)
-
-            if m == 0:
-                tmp_p = tmp_p + c * ang
-
-            else:
-                c_p = (c + sympy.conjugate(c)) / sympy.sqrt(2)
-                c_m = (c - sympy.conjugate(c)) / sympy.sqrt(2) / symb_I
-
-                tmp_p = tmp_p + c_p * ang
-                tmp_m = tmp_m + c_m * ang
-
-        sph_angs.append((m, tmp_p))
-        if m > 0:
-            sph_angs.append((-m, tmp_m))
-
-    sph_angs = sorted(sph_angs, key=lambda x: x[0])
-
-    sph_angs_bare = []
-    for a in sph_angs:
-        sph_angs_bare.append(sympy.simplify(a[1]))
-
-    return sph_angs_bare
-
-
-def generate_eval_lines(L, ang):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_x, bf_y, bf_z] = sympy.symbols("bf bf_x bf_y bf_z", real=True)
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        bf_eval = sympy.simplify(a * bf)
-        bf_x_eval = sympy.simplify(a_x * bf + a * bf_x)
-        bf_y_eval = sympy.simplify(a_y * bf + a * bf_y)
-        bf_z_eval = sympy.simplify(a_z * bf + a * bf_z)
-
-        bf_eval_str = "eval[{}] = {};".format(j, bf_eval)
-        bf_x_eval_str = "eval_x[{}] = {};".format(j, bf_x_eval)
-        bf_y_eval_str = "eval_y[{}] = {};".format(j, bf_y_eval)
-        bf_z_eval_str = "eval_z[{}] = {};".format(j, bf_z_eval)
-
-        if L >= 2:
-            for k in range(2, L + 1):
-                for X in ("x", "y", "z"):
-                    pow_str = X + "**" + str(k)
-                    repl_str = ""
-                    for K in range(k - 1):
-                        repl_str = repl_str + X + "*"
-                    repl_str = repl_str + X
-
-                    bf_eval_str = bf_eval_str.replace(pow_str, repl_str)
-                    bf_x_eval_str = bf_x_eval_str.replace(pow_str, repl_str)
-                    bf_y_eval_str = bf_y_eval_str.replace(pow_str, repl_str)
-                    bf_z_eval_str = bf_z_eval_str.replace(pow_str, repl_str)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-    return (bf_eval_strs, bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs)
-
-
-cart_header_fname = "gaueval_angular_cartesian.hpp"
-sphr_header_fname = "gaueval_angular_spherical.hpp"
-cons_header_fname = "gaueval_device_constants.hpp"
-
-cart_header_file = open(cart_header_fname, "w")
-sphr_header_file = open(sphr_header_fname, "w")
-cons_header_file = open(cons_header_fname, "w")
-
-L_max = 4
-do_libint_norm = False
-# do_libint_norm = True
-
-preamble = """
-#pragma once
-#include "gaueval_device_constants.hpp"
-
-#define GPGAUEVAL_INLINE __inline__
-
-namespace GauXC {
-"""
-
-
-cart_header_file.write(preamble)
-sphr_header_file.write(preamble)
-
-cartesian_bf_template = """
-GPGAUEVAL_INLINE __device__ void generate_cartesian_angular{}(
-  const double bf,
-  const double x,
-  const double y,
-  const double z,
-  double*      eval
-) {{
-"""
-
-cartesian_bf_deriv1_template = """
-GPGAUEVAL_INLINE __device__ void generate_cartesian_angular{}_deriv1(
-  const double bf,
-  const double bf_x,
-  const double bf_y,
-  const double bf_z,
-  const double x,
-  const double y,
-  const double z,
-  double* eval_x,
-  double* eval_y,
-  double* eval_z
-) {{
-"""
-
-spherical_bf_template = cartesian_bf_template.replace("cartesian", "spherical")
-spherical_bf_deriv1_template = cartesian_bf_deriv1_template.replace(
-    "cartesian", "spherical"
-)
-
-
-constant_lines = []
-for L in range(L_max + 1):
-    sph_ang = generate_spherical_angular(L, do_libint_norm)
-    car_ang = generate_cartesian_angular(generate_cartesian_ls(L))
-
-    sph_bf_eval_strs, sph_bf_x_eval_strs, sph_bf_y_eval_strs, sph_bf_z_eval_strs = (
-        generate_eval_lines(L, sph_ang)
-    )
-    car_bf_eval_strs, car_bf_x_eval_strs, car_bf_y_eval_strs, car_bf_z_eval_strs = (
-        generate_eval_lines(L, car_ang)
-    )
-
-    cartesian_bf_prototype = cartesian_bf_template.format("_" + str(L))
-    spherical_bf_prototype = spherical_bf_template.format("_" + str(L))
-    cartesian_bf_deriv1_prototype = cartesian_bf_deriv1_template.format("_" + str(L))
-    spherical_bf_deriv1_prototype = spherical_bf_deriv1_template.format("_" + str(L))
-
-    spherical_bf_func = spherical_bf_prototype + "\n"
-    for s in sph_bf_eval_strs:
-        spherical_bf_func = spherical_bf_func + "  " + s + "\n"
-    spherical_bf_func = spherical_bf_func + "\n}\n"
-
-    spherical_bf_deriv1_func = spherical_bf_deriv1_prototype + "\n"
-    for s in sph_bf_x_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n"
-    for s in sph_bf_y_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n"
-    for s in sph_bf_z_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n}\n"
-
-    cartesian_bf_func = cartesian_bf_prototype + "\n"
-    for s in car_bf_eval_strs:
-        cartesian_bf_func = cartesian_bf_func + "  " + s + "\n"
-    cartesian_bf_func = cartesian_bf_func + "\n}\n"
-
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_prototype + "\n"
-    for s in car_bf_x_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n"
-    for s in car_bf_y_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n"
-    for s in car_bf_z_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n}\n"
-
-    sqrt_regex = "sqrt\([0-9]+\)"
-
-    sqrt_finds = re.findall(sqrt_regex, spherical_bf_func)
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, spherical_bf_deriv1_func))
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, cartesian_bf_func))
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, cartesian_bf_deriv1_func))
-
-    sqrt_finds = list(set(sqrt_finds))
-
-    for x in sqrt_finds:
-        arg = x.strip("sqrt(").strip(")")
-        new_str = "sqrt_" + arg
-        spherical_bf_func = spherical_bf_func.replace(x, new_str)
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func.replace(x, new_str)
-        cartesian_bf_func = cartesian_bf_func.replace(x, new_str)
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func.replace(x, new_str)
-
-        new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg))) + ";"
-        constant_lines.append(new_str)
-
-    cart_header_file.write(cartesian_bf_func)
-    cart_header_file.write(cartesian_bf_deriv1_func)
-    sphr_header_file.write(spherical_bf_func)
-    sphr_header_file.write(spherical_bf_deriv1_func)
-
-
-# Generate calling routines
-cartesian_bf_calling_func = cartesian_bf_template.format("")
-spherical_bf_calling_func = spherical_bf_template.format("")
-cartesian_bf_deriv1_calling_func = cartesian_bf_deriv1_template.format("")
-spherical_bf_deriv1_calling_func = spherical_bf_deriv1_template.format("")
-
-am_dispatch_template = "switch( shell.l ) {{\n"
-am_dispatch_template_deriv1 = "switch( shell.l ) {{\n"
-for L in range(L_max + 1):
-    bf_template = """
-  case {0}:
-    gaueval_{{0}}_angular_{0}(tmp, xc, yc, zc, bf_eval);
-    break;
-""".format(L)
-
-    deriv1_template = """
-  case {0}:
-    gaueval_{{0}}_angular_{0}(tmp, xc, yc, zc, bf_eval);
-    gaueval_{{0}}_angular_{0}_deriv1(tmp, tmp_x, tmp_y, tmp_z, xc, yc, zc, bf_eval, bf_x_eval, bf_y_eval, bf_z_eval);
-    break;
-""".format(L)
-
-    am_dispatch_template = am_dispatch_template + bf_template
-    am_dispatch_template_deriv1 = am_dispatch_template_deriv1 + deriv1_template
-
-
-am_dispatch_template = am_dispatch_template + "}}\n"
-am_dispatch_template_deriv1 = am_dispatch_template_deriv1 + "}}\n"
-
-print(am_dispatch_template_deriv1.format("cartesian"))
-print(am_dispatch_template_deriv1.format("spherical"))
-
-
-footer = "} // namespace GauXC"
-cart_header_file.write(footer)
-sphr_header_file.write(footer)
-
-constant_lines = list(set(constant_lines))
-preamble = """
-#pragma once
-
-namespace GauXC {
-"""
-
-cons_header_file.write(preamble)
-for s in constant_lines:
-    cons_header_file.write("  " + s + "\n")
-cons_header_file.write(footer)
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/__init__.py b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/__init__.py
deleted file mode 100644
index e69de29..0000000
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/collocation_angular.py b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/collocation_angular.py
deleted file mode 100644
index 0903a5d..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/collocation_angular.py
+++ /dev/null
@@ -1,259 +0,0 @@
-import cmath
-import math
-import os
-import re
-import sys
-from math import factorial as fact
-
-import sympy
-from scipy.special import binom as binomial
-from sympy import I as symb_I
-from sympy import exp as symb_exp
-from sympy import factorial as symb_fact
-from sympy import factorial2 as symb_fact2
-
-
-def generate_cartesian_ls(L):
-    l = []
-    for i in range(L + 1):
-        lx = L - i
-        for j in range(i + 1):
-            ly = i - j
-            lz = L - lx - ly
-
-            l.append([0, 0, 0])
-
-            for k in range(lx - 1):
-                l[-1][0] = l[-1][0] + 1
-            for k in range(ly - 1):
-                l[-1][1] = l[-1][1] + 1
-            for k in range(lz - 1):
-                l[-1][2] = l[-1][2] + 1
-
-            if lx > 0:
-                l[-1][0] = l[-1][0] + 1
-            if ly > 0:
-                l[-1][1] = l[-1][1] + 1
-            if lz > 0:
-                l[-1][2] = l[-1][2] + 1
-
-    return l
-
-
-def generate_spherical_coeff(l, m, lx, ly, lz):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return 0.0
-
-    prefactor = fact(2.0 * lx) * fact(2.0 * ly) * fact(2.0 * lz) * fact(l)
-    prefactor = prefactor * fact(l - abs(m))
-    prefactor = prefactor / (fact(2.0 * l) * fact(lx) * fact(ly) * fact(lz))
-    prefactor = prefactor / fact(l + abs(m))
-    prefactor = math.sqrt(prefactor)
-
-    term1 = 0.0
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + binomial(l, i) * binomial(i, j) * math.pow(-1, i) * fact(
-            2 * l - 2 * i
-        ) / fact(l - abs(m) - 2 * i)
-
-    term1 = term1 / math.pow(2, l) / fact(l)
-
-    m_fact = 1.0
-    if m < 0:
-        m_fact = -1.0
-
-    term2 = 0.0 + 0.0j
-    for k in range(j + 1):
-        z = cmath.exp(m_fact * math.pi / 2.0 * (abs(m) - lx + 2 * k) * 1.0j)
-        term2 = term2 + binomial(j, k) * binomial(abs(m), lx - 2 * k) * z
-
-    val = prefactor * term1 * term2
-
-    if abs(val.real) < 1e-10:
-        val = 0.0 + val.imag * 1j
-    if abs(val.imag) < 1e-10:
-        val = val.real
-
-    return val
-
-
-def generate_spherical_coeff_symb(l, m, lx, ly, lz, unnorm=False):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return sympy.Integer(0)
-
-    j_symb = sympy.Integer(j)
-    l_symb = sympy.Integer(l)
-    m_symb = sympy.Integer(abs(m))
-    lx_symb = sympy.Integer(lx)
-    ly_symb = sympy.Integer(ly)
-    lz_symb = sympy.Integer(lz)
-
-    prefactor = (
-        symb_fact(2 * lx_symb)
-        * symb_fact(2 * ly_symb)
-        * symb_fact(2 * lz_symb)
-        * symb_fact(l_symb)
-    )
-    prefactor = prefactor * symb_fact(l_symb - m_symb)
-    prefactor = prefactor / (
-        symb_fact(2 * l_symb)
-        * symb_fact(lx_symb)
-        * symb_fact(ly_symb)
-        * symb_fact(lz_symb)
-    )
-    prefactor = prefactor / symb_fact(l_symb + m_symb)
-
-    # Ed's stupid normalization convention...
-    if unnorm:
-        prefactor = (
-            prefactor
-            * symb_fact2(2 * l - 1)
-            / symb_fact2(2 * lx - 1)
-            / symb_fact2(2 * ly - 1)
-            / symb_fact2(2 * lz - 1)
-        )
-
-    prefactor = sympy.sqrt(prefactor)
-
-    term1 = sympy.Integer(0)
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + sympy.Integer(binomial(l, i)) * sympy.Integer(
-            binomial(i, j)
-        ) * sympy.Integer(math.pow(-1, i)) * symb_fact(
-            2 * l_symb - sympy.Integer(2 * i)
-        ) / symb_fact(l_symb - m_symb - sympy.Integer(2 * i))
-
-    term1 = term1 / (2**l_symb) / symb_fact(l)
-
-    m_fact_symb = sympy.Integer(1)
-    if m < 0:
-        m_fact_symb = -m_fact_symb
-
-    term2 = sympy.Integer(0)
-    for k in range(j + 1):
-        z = sympy.exp(
-            m_fact_symb
-            * sympy.pi
-            / 2
-            * (m_symb - lx_symb + sympy.Integer(2 * k))
-            * symb_I
-        )
-        term2 = (
-            term2
-            + sympy.Integer(binomial(j, k))
-            * sympy.Integer(binomial(abs(m), lx - 2 * k))
-            * z
-        )
-
-    return prefactor * term1 * term2
-
-
-def generate_cartesian_angular(ls):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-
-    ang = []
-
-    for l in ls:
-        ang.append(r)
-        for i in range(l[0]):
-            ang[-1] = ang[-1] * x
-        for i in range(l[1]):
-            ang[-1] = ang[-1] * y
-        for i in range(l[2]):
-            ang[-1] = ang[-1] * z
-
-        ang[-1] = ang[-1] / r
-
-    return ang
-
-
-def generate_spherical_angular(L, unnorm=False):
-    ls = generate_cartesian_ls(L)
-    angs = generate_cartesian_angular(ls)
-
-    # r = sympy.symbols( 'r' )
-    sph_angs = []
-    for m in range(L + 1):
-        tmp_p = 0
-        tmp_m = 0
-        for i in range(len(ls)):
-            l = ls[i]
-            ang = angs[i]
-
-            # c = generate_spherical_coeff( L, m, l[0],l[1],l[2] )
-            c = generate_spherical_coeff_symb(L, m, l[0], l[1], l[2], unnorm)
-
-            if m == 0:
-                tmp_p = tmp_p + c * ang
-
-            else:
-                c_p = (c + sympy.conjugate(c)) / sympy.sqrt(2)
-                c_m = (c - sympy.conjugate(c)) / sympy.sqrt(2) / symb_I
-
-                tmp_p = tmp_p + c_p * ang
-                tmp_m = tmp_m + c_m * ang
-
-        sph_angs.append((m, tmp_p))
-        if m > 0:
-            sph_angs.append((-m, tmp_m))
-
-    sph_angs = sorted(sph_angs, key=lambda x: x[0])
-
-    sph_angs_bare = []
-    for a in sph_angs:
-        sph_angs_bare.append(sympy.simplify(a[1]))
-
-    return sph_angs_bare
-
-
-def generate_eval_lines(L, ang):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_x, bf_y, bf_z] = sympy.symbols("bf bf_x bf_y bf_z", real=True)
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        bf_eval = sympy.simplify(a * bf)
-        bf_x_eval = sympy.simplify(a_x * bf + a * bf_x)
-        bf_y_eval = sympy.simplify(a_y * bf + a * bf_y)
-        bf_z_eval = sympy.simplify(a_z * bf + a * bf_z)
-
-        bf_eval_str = "eval[npts * {}] = {};".format(j, bf_eval)
-        bf_x_eval_str = "eval_x[npts * {}] = {};".format(j, bf_x_eval)
-        bf_y_eval_str = "eval_y[npts * {}] = {};".format(j, bf_y_eval)
-        bf_z_eval_str = "eval_z[npts * {}] = {};".format(j, bf_z_eval)
-
-        if L >= 2:
-            for k in range(2, L + 1):
-                for X in ("x", "y", "z"):
-                    pow_str = X + "**" + str(k)
-                    repl_str = ""
-                    for K in range(k - 1):
-                        repl_str = repl_str + X + "*"
-                    repl_str = repl_str + X
-
-                    bf_eval_str = bf_eval_str.replace(pow_str, repl_str)
-                    bf_x_eval_str = bf_x_eval_str.replace(pow_str, repl_str)
-                    bf_y_eval_str = bf_y_eval_str.replace(pow_str, repl_str)
-                    bf_z_eval_str = bf_z_eval_str.replace(pow_str, repl_str)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-    return (bf_eval_strs, bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs)
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/generate_collocation_angular_eval.py b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/generate_collocation_angular_eval.py
deleted file mode 100644
index af14e58..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/scripts/generate_collocation_angular_eval.py
+++ /dev/null
@@ -1,163 +0,0 @@
-import math
-import os
-import re
-import sys
-from io import StringIO
-
-import pyexpander.lib as expander
-from collocation_angular import (
-    generate_cartesian_angular,
-    generate_cartesian_ls,
-    generate_eval_lines,
-    generate_spherical_angular,
-)
-
-L_max = 6
-if len(sys.argv) > 1:
-    L_max = int(sys.argv[1])
-
-# sphr_bf_body = []
-# sphr_bf_d1_body = []
-
-sphr_unnorm_bf_body = []
-sphr_unnorm_bf_d1_body = []
-
-cart_bf_body = []
-cart_bf_d1_body = []
-
-
-for L in range(L_max + 1):
-    print("Processing L = {} ...".format(L))
-    # sphr_ang        = generate_spherical_angular( L, False )
-    sphr_unnorm_ang = generate_spherical_angular(L, True)
-    cart_ang = generate_cartesian_angular(generate_cartesian_ls(L))
-
-    # sa, sa_x, sa_y, sa_z     = generate_eval_lines( L, sphr_ang )
-    sna, sna_x, sna_y, sna_z = generate_eval_lines(L, sphr_unnorm_ang)
-    ca, ca_x, ca_y, ca_z = generate_eval_lines(L, cart_ang)
-
-    # sphr_bf_body.append( "\n  ".join(sa) )
-    sphr_unnorm_bf_body.append("\n  ".join(sna))
-    cart_bf_body.append("\n  ".join(ca))
-
-    # s_d1  = "\n\n  ".join(["\n  ".join( sa_x ),  "\n  ".join(sa_y),  "\n  ".join(sa_z)])
-    sn_d1 = "\n\n  ".join(["\n  ".join(sna_x), "\n  ".join(sna_y), "\n  ".join(sna_z)])
-    c_d1 = "\n\n  ".join(["\n  ".join(ca_x), "\n  ".join(ca_y), "\n  ".join(ca_z)])
-
-    # sphr_bf_d1_body.append( s_d1 )
-    sphr_unnorm_bf_d1_body.append(sn_d1)
-    cart_bf_d1_body.append(c_d1)
-
-
-template_fname = "templates/collocation_angular_template.hpp"
-
-# sphr_var_dict = { 'L_max' : L_max, 'body' : sphr_bf_body, 'body_d1' : sphr_bf_d1_body, 'name' : 'spherical' }
-sphr_unnorm_var_dict = {
-    "L_max": L_max,
-    "body": sphr_unnorm_bf_body,
-    "body_d1": sphr_unnorm_bf_d1_body,
-    "name": "spherical_unnorm",
-}
-cart_var_dict = {
-    "L_max": L_max,
-    "body": cart_bf_body,
-    "body_d1": cart_bf_d1_body,
-    "name": "cartesian",
-}
-
-
-old_sys_out = sys.stdout
-
-sys.stdout = cart_expand = StringIO()
-expander.expandFile(
-    template_fname, external_definitions=cart_var_dict, auto_indent=True
-)
-# sys.stdout = sphr_expand = StringIO()
-# expander.expandFile( template_fname, external_definitions=sphr_var_dict, auto_indent=True )
-sys.stdout = sphr_unnorm_expand = StringIO()
-expander.expandFile(
-    template_fname, external_definitions=sphr_unnorm_var_dict, auto_indent=True
-)
-
-sys.stdout = old_sys_out
-
-cart_expand = cart_expand.getvalue()
-# sphr_expand = sphr_expand.getvalue()
-sphr_unnorm_expand = sphr_unnorm_expand.getvalue()
-
-
-# Handle Constants
-constant_lines = []
-
-# Sqrts
-sqrt_regex = "sqrt\([0-9]+\)"
-# sqrt_finds = re.findall( sqrt_regex, "\n".join([cart_expand,sphr_expand,sphr_unnorm_expand]) )
-sqrt_finds = re.findall(sqrt_regex, "\n".join([cart_expand, sphr_unnorm_expand]))
-
-sqrt_finds = list(set(sqrt_finds))
-
-for x in sqrt_finds:
-    arg = x.strip("sqrt(").strip(")")
-    new_str = "sqrt_" + arg
-
-    cart_expand = cart_expand.replace(x, new_str)
-    # sphr_expand = sphr_expand.replace( x, new_str )
-    sphr_unnorm_expand = sphr_unnorm_expand.replace(x, new_str)
-
-    new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg))) + ";"
-    constant_lines.append(new_str)
-
-old_sys_out = sys.stdout
-
-sys.stdout = constant_expand = StringIO()
-expander.expandFile(
-    "templates/collocation_device_constants_template.hpp",
-    external_definitions={"const_lines": constant_lines},
-)
-
-sys.stdout = old_sys_out
-
-constant_expand = constant_expand.getvalue()
-
-
-cart_header_fname = "collocation_angular_cartesian.hpp"
-# sphr_header_fname = "collocation_angular_spherical.hpp"
-sphr_unnorm_header_fname = "collocation_angular_spherical_unnorm.hpp"
-cons_header_fname = "collocation_device_constants.hpp"
-
-cart_header_file = open(cart_header_fname, "w")
-# sphr_header_file = open( sphr_header_fname, 'w' )
-sphr_unnorm_header_file = open(sphr_unnorm_header_fname, "w")
-cons_header_file = open(cons_header_fname, "w")
-
-cart_header_file.write(cart_expand)
-# sphr_header_file.write( sphr_expand )
-sphr_unnorm_header_file.write(sphr_unnorm_expand)
-cons_header_file.write(constant_expand)
-
-
-# Generate Kernel Driver
-
-# old_sys_out = sys.stdout
-
-# sys.stdout = collocation_cartesian_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'cartesian' } )
-#
-# sys.stdout = collocation_spherical_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'spherical' } )
-#
-# sys.stdout = collocation_spherical_unnorm_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'spherical_unnorm' } )
-#
-# sys.stdout = old_sys_out
-#
-# collocation_cartesian_kernel_expand = collocation_cartesian_kernel_expand.getvalue()
-# collocation_spherical_kernel_expand = collocation_spherical_kernel_expand.getvalue()
-# collocation_spherical_unnorm_kernel_expand = collocation_spherical_unnorm_kernel_expand.getvalue()
-#
-# with open( 'collocation_kernels_cartesian.cu', 'w' ) as f:
-#  f.write( collocation_cartesian_kernel_expand )
-# with open( 'collocation_kernels_spherical.cu', 'w' ) as f:
-#  f.write( collocation_spherical_kernel_expand )
-# with open( 'collocation_kernels_spherical_unnorm.cu', 'w' ) as f:
-#  f.write( collocation_spherical_unnorm_kernel_expand )
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/templates/collocation_angular_template.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/templates/collocation_angular_template.hpp
deleted file mode 100644
index f07b758..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/templates/collocation_angular_template.hpp
+++ /dev/null
@@ -1,114 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-$for( L in range(L_max + 1) )\
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_$(L)(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  $(body[L])
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_$(L)_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  $(body_d1[L])
-
-}
-
-$endfor\
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-$for( L in range(L_max + 1) )\
-  $if( L == 0 )\
-    if( l == $(L) ) {
-  $else\
-    } else if( l == $(L) ) {
-  $endif
-        collocation_$(name)_angular_$(L)( npts, bf, x, y, z, eval );
-
-$endfor\
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_$(name)_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-$for( L in range(L_max + 1) )\
-  $if( L == 0 )\
-    if( l == $(L) ) {
-  $else\
-    } else if( l == $(L) ) {
-  $endif
-        collocation_$(name)_angular_$(L)( npts, bf, x, y, z, eval );
-        collocation_$(name)_angular_$(L)_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-$endfor\
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_$(name)_angular_deriv1
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/templates/collocation_device_constants_template.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/templates/collocation_device_constants_template.hpp
deleted file mode 100644
index 5245913..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation/templates/collocation_device_constants_template.hpp
+++ /dev/null
@@ -1,13 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-$for( x in const_lines )\
-  $(x)
-$endfor\
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_device.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_device.cu
deleted file mode 100644
index 27fee96..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_device.cu
+++ /dev/null
@@ -1,382 +0,0 @@
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/util/cuda_util.hpp>
-#include "exceptions/cuda_exception.hpp"
-#include <gauxc/xc_task.hpp>
-
-#include "device/cuda/collocation_petite_kernels.hpp"
-#include "device/cuda/collocation_masked_kernels.hpp"
-#include "device/cuda/collocation_petite_combined_kernels.hpp"
-#include "device/cuda/collocation_masked_combined_kernels.hpp"
-
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void eval_collocation_petite(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-) {
-
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_petite_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, offs_device,
-      pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_petite(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  cudaStream_t         stream
-);
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device,
-      offs_device, pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_masked(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  cudaStream_t         stream
-);
-
-
-
-
-template <typename T>
-void eval_collocation_petite_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_petite_combined_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, device_tasks );
-     
-}
-
-template
-void eval_collocation_petite_combined(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_petite_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-) {
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_petite_kernel_deriv1<T>
-  );
-
-  dim3 threads(warp_size, nmax_threads/warp_size, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_petite_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_petite_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  cudaStream_t         stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_masked_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  cudaStream_t         stream
-);
-
-
-
-
-template <typename T>
-void eval_collocation_petite_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_petite_combined_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, device_tasks );
-     
-}
-
-template
-void eval_collocation_petite_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-) {
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel_deriv1<T>
-  );
-
-  dim3 threads(warp_size, nmax_threads/warp_size, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCTaskDevice<double>* device_tasks,
-  cudaStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_device.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_device.hpp
deleted file mode 100644
index 9a8957b..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_device.hpp
+++ /dev/null
@@ -1,109 +0,0 @@
-#pragma once
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void eval_collocation_petite(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_masked(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_petite_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  cudaStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_petite_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-
-
-template <typename T>
-void eval_collocation_petite_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  cudaStream_t     stream
-);
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_masked_combined_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_masked_combined_kernels.hpp
deleted file mode 100644
index f7cdebd..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_masked_combined_kernels.hpp
+++ /dev/null
@@ -1,183 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "device/cuda/collocation/collocation_angular_cartesian.hpp"
-#include "device/cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-#include "device/cuda/cuda_alg_variant_control.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel(
-  size_t                        ntasks,
-  Shell<T>*        __restrict__ shells_device,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.nshells;
-    const auto               nbf         = task.nbe;
-    const auto               npts        = task.npts;
-    const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const uint32_t ipt = tid_x;
-    const uint32_t ish = tid_y;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( uint32_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel_deriv1(
-  size_t                        ntasks,
-  Shell<T>*        __restrict__ shells_device,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  // DBWY: These are factored into the loop for this optimization
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.nshells;
-    const auto               nbf         = task.nbe;
-    const auto               npts        = task.npts;
-    const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-  if( tid_y < nshells and tid_x < npts ) {
-
-    const uint32_t ish = tid_y;
-    const uint32_t ipt = tid_x;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( uint32_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-  } // Batch idx check
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_masked_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_masked_kernels.hpp
deleted file mode 100644
index 8db2bfe..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_masked_kernels.hpp
+++ /dev/null
@@ -1,155 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/cuda/collocation/collocation_angular_cartesian.hpp"
-#include "device/cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_petite_combined_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_petite_combined_kernels.hpp
deleted file mode 100644
index a120613..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_petite_combined_kernels.hpp
+++ /dev/null
@@ -1,186 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "device/cuda/collocation/collocation_angular_cartesian.hpp"
-#include "device/cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__
-void collocation_device_petite_combined_kernel(
-  size_t                        ntasks,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-  
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-    auto& task = device_tasks[ batch_id ];
-  
-    const auto nshells                     = task.nshells;
-    const auto nbf                         = task.nbe;
-    const auto npts                        = task.npts;
-    const auto* __restrict__ shells_device = task.shells;
-    const auto* __restrict__ pts_device    = task.points;
-    const auto* __restrict__ offs_device   = task.shell_offs;
-
-    auto* eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_petite_combined_kernel_deriv1(
-  size_t                        ntasks,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-    auto& task = device_tasks[ batch_id ];
-  
-    const auto nshells                     = task.nshells;
-    const auto nbf                         = task.nbe;
-    const auto npts                        = task.npts;
-    const auto* __restrict__ shells_device = task.shells;
-    const auto* __restrict__ pts_device    = task.points;
-    const auto* __restrict__ offs_device   = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_petite_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_petite_kernels.hpp
deleted file mode 100644
index 475a9df..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/collocation_petite_kernels.hpp
+++ /dev/null
@@ -1,160 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/cuda/collocation/collocation_angular_cartesian.hpp"
-#include "device/cuda/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-
-
-template <typename T>
-__global__
-void collocation_device_petite_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_petite_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace cuda
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cublas_extensions.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/cublas_extensions.cu
deleted file mode 100644
index 17c9cdb..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cublas_extensions.cu
+++ /dev/null
@@ -1,153 +0,0 @@
-#include "device/cuda/cublas_extensions.hpp"
-#include <gauxc/util/cublas_util.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include "exceptions/cublas_exception.hpp"
-
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC {
-namespace cuda  {
-namespace blas  {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__ void increment_kernel( const T* X, T* Y ) {
-  const auto tid = blockIdx.x;
-  if( tid < 1 ) (*Y) += (*X);
-}
-
-template <typename T>
-void increment( const T* X, T* Y, cudaStream_t stream ) {
-  increment_kernel<<<1,1,0,stream>>>(X,Y);
-}
-
-template <>
-void dot( cublasHandle_t handle,
-          int            N,
-          const double*  X,
-          int            INCX,
-          const double*  Y,
-          int            INCY,
-          double*        RES ) {
-
-  auto stat = cublasDdot( handle, N, X, INCX, Y, INCY, RES );
-  GAUXC_CUBLAS_ERROR("CUBLAS DDOT FAILED", stat );
-
-}
-
-template <typename T>
-void gdot( cublasHandle_t handle,
-           int       N,
-           const T*  X,
-           int       INCX,
-           const T*  Y,
-           int       INCY,
-           T*        SCR,
-           T*        RES ) {
-
-  dot( handle, N, X, INCX, Y, INCY, SCR );
-  auto stream = util::get_stream(handle);
-  increment( SCR, RES, stream );
-
-}
-
-template 
-void gdot( cublasHandle_t handle,
-           int            N,
-           const double*  X,
-           int            INCX,
-           const double*  Y,
-           int            INCY,
-           double*        SCR,
-           double*        RES );
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void __global__ hadamard_product_kernel( int      M,
-                                         int      N,
-                                         const T* A,
-                                         int      LDA,
-                                         T*       B,
-                                         int      LDB ) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < M and tid_y < N ) {
-    B[ tid_x + tid_y*LDB ] *= A[ tid_x + tid_y*LDA ];
-  }
-
-}
-
-
-
-template <typename T>
-void hadamard_product( cublasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB ) {
-
-  auto stream = util::get_stream(handle);
-  dim3 threads(warp_size, max_warps_per_thread_block);
-  dim3 blocks( util::div_ceil( M, threads.x ),
-               util::div_ceil( N, threads.y ) );
-
-  hadamard_product_kernel<<< blocks, threads, 0, stream >>>( M, N, A, LDA, B, LDB );
-
-}
- 
-template 
-void hadamard_product( cublasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const double*  A,
-                       int            LDA,
-                       double*        B,
-                       int            LDB ); 
-
-
-
-
-template <>
-void gemm( cublasHandle_t handle, 
-           cublasOperation_t TA, cublasOperation_t TB,
-           int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB,
-           double BETA, double* C, int LDC ) {
-
-  auto stat = cublasDgemm( handle, TA, TB, M, N, K, &ALPHA, A, LDA,
-                           B, LDB, &BETA, C, LDC );
-  GAUXC_CUBLAS_ERROR("CUBLAS DGEMM FAILED", stat);
-
-}
-
-
-template <>
-void syr2k( cublasHandle_t handle, 
-            cublasFillMode_t UPLO, cublasOperation_t Trans,
-            int M, int K, double ALPHA, 
-            const double* A, int LDA, const double* B, int LDB,
-            double BETA, double* C, int LDC ) {
-
-  auto stat = cublasDsyr2k( handle, UPLO, Trans, M, K, &ALPHA, A, LDA, B, LDB,
-                           &BETA, C, LDC );
-  GAUXC_CUBLAS_ERROR("CUBLAS DSYR2K FAILED", stat);
-
-}
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cublas_extensions.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cublas_extensions.hpp
deleted file mode 100644
index 81af06d..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cublas_extensions.hpp
+++ /dev/null
@@ -1,53 +0,0 @@
-#pragma once
-#include <cublas_v2.h>
-
-namespace GauXC {
-namespace cuda  {
-namespace blas  {
-
-template <typename T>
-void dot( cublasHandle_t handle,
-          int            N,
-          const T*       X,
-          int            INCX,
-          const T*       Y,
-          int            INCY,
-          T*             RES );
-
-template <typename T>
-void gdot( cublasHandle_t handle,
-          int            N,
-           const T*       X,
-           int            INCX,
-           const T*       Y,
-           int            INCY,
-           T*             SCR,
-           T*             RES );
-
-
-template <typename T>
-void hadamard_product( cublasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB );
-                       
-
-template <typename T>
-void gemm( cublasHandle_t handle, 
-           cublasOperation_t TA, cublasOperation_t TB,
-           int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB,
-           T BETA, T* C, int LDC );
-
-template <typename T>
-void syr2k( cublasHandle_t handle, 
-            cublasFillMode_t UPLO, cublasOperation_t Trans,
-            int M, int K, T ALPHA, 
-            const T* A, int LDA, const T* B, int LDB,
-            T BETA, T* C, int LDC );
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_alg_variant_control.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_alg_variant_control.hpp
deleted file mode 100644
index e0d1f9b..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_alg_variant_control.hpp
+++ /dev/null
@@ -1,4 +0,0 @@
-#pragma once
-
-//#define GAUXC_CUDA_ENABLE_COLLOCATION_SHMEM_COPY
-//#define GAUXC_CUDA_ENABLE_COMPACT_COLLOCATION
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_device_properties.cxx b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_device_properties.cxx
deleted file mode 100644
index af50a87..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_device_properties.cxx
+++ /dev/null
@@ -1,33 +0,0 @@
-#include <cmath>
-#include <algorithm>
-
-#include "cuda_runtime.h"
-
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC {
-namespace cuda  {
-
-
-uint32_t get_submat_cut_block(int32_t LDA, int32_t device) {
-  int l2_cache_size;
-  cudaDeviceGetAttribute(&l2_cache_size, cudaDevAttrL2CacheSize, device);
-
-  int l2_block_size = (int) sqrt(0.75 * ((double) l2_cache_size / 8));
-  int min_block_size = LDA / max_submat_blocks;
-
-  int block_size = std::max(l2_block_size, min_block_size);
-  block_size = std::min(block_size, LDA);
-
-  return block_size;
-}
-
-uint32_t get_device_sm_count(int32_t device) {
-  int num_sm;
-  cudaDeviceGetAttribute(&num_sm, cudaDevAttrMultiProcessorCount, device);
-
-  return num_sm;
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_device_properties.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_device_properties.hpp
deleted file mode 100644
index 0b80a00..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_device_properties.hpp
+++ /dev/null
@@ -1,23 +0,0 @@
-#pragma once
-#include <cstdint>
-
-namespace GauXC {
-namespace cuda  {
-
-static constexpr uint32_t warp_size = 32;
-static constexpr uint32_t max_threads_per_thread_block = 1024;
-static constexpr uint32_t max_warps_per_thread_block = 
-  max_threads_per_thread_block / warp_size;
-
-static constexpr uint32_t max_submat_blocks = 10;
-
-// Properties for weight algorithm
-static constexpr uint32_t weight_unroll = 4;
-static_assert(weight_unroll == 4, "Weight unroll is only tested for value of 4");
-static constexpr uint32_t weight_thread_block = 640;
-static constexpr uint32_t weight_thread_block_per_sm = 2;
-
-uint32_t get_submat_cut_block(int32_t LDA, int32_t device);
-uint32_t get_device_sm_count(int32_t device);
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_eval_denvars.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_eval_denvars.cu
deleted file mode 100644
index 8136343..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_eval_denvars.cu
+++ /dev/null
@@ -1,254 +0,0 @@
-#include "device/cuda/cuda_eval_denvars.hpp"
-#include "device/cuda/cuda_extensions.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-__global__ void eval_uvars_lda_kernel( size_t           ntasks,
-                                       XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-
-  auto* den_eval_device   = task.den;
-
-  const auto* basis_eval_device = task.bf;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  register double den_reg = 0.;
-
-  if( tid_x < nbf and tid_y < npts ) {
-
-    const double* bf_col   = basis_eval_device     + tid_x*npts;
-    const double* db_col   = den_basis_prod_device + tid_x*npts;
-
-    den_reg = bf_col[ tid_y ]   * db_col[ tid_y ];
-
-  }
-
-  // Warp blocks are stored col major
-  den_reg = 2 * warpReduceSum( den_reg );
-
-
-  if( threadIdx.x == 0 and tid_y < npts ) {
-    atomicAdd( den_eval_device   + tid_y, den_reg );
-  }
-  
-
-}
-
-
-
-#define GGA_KERNEL_SM_BLOCK_Y 32
-
-template <typename T>
-__global__ void eval_uvars_gga_kernel( size_t           ntasks,
-                                       XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-
-  auto* den_eval_device   = task.den;
-  auto* den_x_eval_device = task.ddenx;
-  auto* den_y_eval_device = task.ddeny;
-  auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  __shared__ double den_shared[4][warp_size][GGA_KERNEL_SM_BLOCK_Y+1];
-
-  for ( int bid_x = blockIdx.x * blockDim.x; 
-        bid_x < nbf;
-        bid_x += blockDim.x * gridDim.x ) {
-    
-    for ( int bid_y = blockIdx.y * GGA_KERNEL_SM_BLOCK_Y; 
-          bid_y < npts;
-          bid_y += GGA_KERNEL_SM_BLOCK_Y * gridDim.y ) {
-        
-      for (int sm_y = threadIdx.y; sm_y < GGA_KERNEL_SM_BLOCK_Y; sm_y += blockDim.y) {
-        den_shared[0][threadIdx.x][sm_y] = 0.;
-        den_shared[1][threadIdx.x][sm_y] = 0.;
-        den_shared[2][threadIdx.x][sm_y] = 0.;
-        den_shared[3][threadIdx.x][sm_y] = 0.;
-
-        if (bid_y + threadIdx.x < npts and bid_x + sm_y < nbf) { 
-          const double* db_col   = den_basis_prod_device + (bid_x + sm_y)*npts;
-          const double* bf_col   = basis_eval_device     + (bid_x + sm_y)*npts;
-          const double* bf_x_col = dbasis_x_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_y_col = dbasis_y_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_z_col = dbasis_z_eval_device  + (bid_x + sm_y)*npts;
-
-          den_shared[0][threadIdx.x][sm_y] = bf_col  [ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[1][threadIdx.x][sm_y] = bf_x_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[2][threadIdx.x][sm_y] = bf_y_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[3][threadIdx.x][sm_y] = bf_z_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-        }
-      }
-      __syncthreads();
-
-
-      for (int sm_y = threadIdx.y; sm_y < GGA_KERNEL_SM_BLOCK_Y; sm_y += blockDim.y) {
-        const int tid_y = bid_y + sm_y;
-        register double den_reg = den_shared[0][sm_y][threadIdx.x];
-        register double dx_reg  = den_shared[1][sm_y][threadIdx.x];
-        register double dy_reg  = den_shared[2][sm_y][threadIdx.x];
-        register double dz_reg  = den_shared[3][sm_y][threadIdx.x];
-
-        // Warp blocks are stored col major
-        den_reg = 2 * warpReduceSum( den_reg );
-        dx_reg  = 4 * warpReduceSum( dx_reg );
-        dy_reg  = 4 * warpReduceSum( dy_reg );
-        dz_reg  = 4 * warpReduceSum( dz_reg );
-
-
-        if( threadIdx.x == 0 and tid_y < npts ) {
-          atomicAdd( den_eval_device   + tid_y, den_reg );
-          atomicAdd( den_x_eval_device + tid_y, dx_reg  );
-          atomicAdd( den_y_eval_device + tid_y, dy_reg  );
-          atomicAdd( den_z_eval_device + tid_y, dz_reg  );
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-
-template <typename T>
-__global__ void eval_vvars_gga_kernel( 
-  size_t   npts,
-  const T* den_x_eval_device,
-  const T* den_y_eval_device,
-  const T* den_z_eval_device,
-        T* gamma_eval_device
-) {
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-  if( tid < npts ) {
-
-    const double dx = den_x_eval_device[ tid ];
-    const double dy = den_y_eval_device[ tid ];
-    const double dz = den_z_eval_device[ tid ];
-
-    gamma_eval_device[tid] = dx*dx + dy*dy + dz*dz;
-
-  }
-
-}
-
-
-template <typename T>
-void eval_uvars_lda_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream ) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( max_nbf , threads.x ),
-               util::div_ceil( max_npts , threads.y ),
-               ntasks );
-
-  eval_uvars_lda_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
-
-template <typename T>
-void eval_uvars_gga_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream ) {
-
-  dim3 threads( warp_size, max_warps_per_thread_block / 2, 1 );
-  dim3 blocks( std::min(int64_t(4), util::div_ceil( max_nbf, 4 )),
-               std::min(int64_t(16), util::div_ceil( max_nbf, 16 )),
-               ntasks );
-
-  eval_uvars_gga_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
- 
-
-template <typename T>
-void eval_vvars_gga_device( size_t       npts,
-                            const T*     den_x_device,
-                            const T*     den_y_device,
-                            const T*     den_z_device,
-                                  T*     gamma_device,
-                            cudaStream_t stream ) {
-
-  dim3 threads( max_threads_per_thread_block );
-  dim3 blocks( util::div_ceil( npts, threads.x ) );
-
-  eval_vvars_gga_kernel<<< blocks, threads, 0, stream >>>(
-    npts, den_x_device, den_y_device, den_z_device, gamma_device
-  );
-
-}
-                          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template
-void eval_uvars_lda_device( size_t                ntasks,
-                            size_t                max_nbf,
-                            size_t                max_npts,
-                            XCTaskDevice<double>* tasks_device,
-                            cudaStream_t          stream );
-
-template
-void eval_uvars_gga_device( size_t                ntasks,
-                            size_t                max_nbf,
-                            size_t                max_npts,
-                            XCTaskDevice<double>* tasks_device,
-                            cudaStream_t          stream );
-
-template
-void eval_vvars_gga_device( size_t            npts,
-                            const double*     den_x_device,
-                            const double*     den_y_device,
-                            const double*     den_z_device,
-                                  double*     gamma_device,
-                            cudaStream_t      stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_eval_denvars.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_eval_denvars.hpp
deleted file mode 100644
index e08874f..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_eval_denvars.hpp
+++ /dev/null
@@ -1,36 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void eval_uvars_lda_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream );
-
-template <typename T>
-void eval_uvars_gga_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            cudaStream_t     stream );
- 
-
-template <typename T>
-void eval_vvars_gga_device( size_t       npts,
-                            const T*     den_x_device,
-                            const T*     den_y_device,
-                            const T*     den_z_device,
-                                  T*     gamma_device,
-                            cudaStream_t stream );
-                          
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_extensions.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_extensions.hpp
deleted file mode 100644
index f3170f3..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_extensions.hpp
+++ /dev/null
@@ -1,109 +0,0 @@
-#pragma once
-#include <cuda.h>
-#include <cub/cub.cuh>
-#include "device/cuda/cuda_device_properties.hpp"
-
-#define GAUXC_ENABLE_WARP_REDUCTIONS
-
-namespace GauXC {
-namespace cuda  {
-
-__inline__ __device__
-double warpReduceSum(double val) {
- 
-#ifdef GAUXC_ENABLE_WARP_REDUCTIONS
-
-  for(int i=(warp_size/2); i>=1; i/=2)
-    val += __shfl_xor_sync(0xffffffff, val, i, warp_size);
-
-#else
-
-  using warp_reducer = cub::WarpReduce<double>;
-  static __shared__ typename warp_reducer::TempStorage temp_storage[max_warps_per_thread_block];
-  int tid = threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;
-  int warp_lane = tid / warp_size;
-  val = warp_reducer( temp_storage[warp_lane] ).Sum( val );
-
-#endif
-
-  return val;
-}
-
-__inline__ __device__
-double warpReduceProd(double val) {
-  for(int i=(warp_size/2); i>=1; i/=2)
-    val *= __shfl_xor_sync(0xffffffff, val, i, warp_size);
-  return val;
-}
-
-#if 0
-__inline__ __device__
-double blockReduceSum( double val ) {
-
-  static __shared__ double shared[32];
-  int lane = threadIdx.x % 32;
-  int wid  = threadIdx.x / 32;
-
-  val = warpReduceSum( val );
-
-  if( lane == 0 ) shared[wid] = val;
-
-  __syncthreads();
-
-  val = (threadIdx.x < blockDim.x / 32) ? shared[lane] : 0;
-  if( wid == 0 ) val = warpReduceSum( val );
-
-  return val;
-
-}
-
-template <typename T, int warp_size = 32>
-__inline__ __device__ T warp_prod_reduce( T val ) { 
-
-  for( int i = warp_size / 2; i >= 1; i /= 2 )
-    val *= __shfl_xor_sync( 0xffffffff, val, i, warp_size );
-
-  return val;
-
-}
-
-template <typename T, int warp_size = 32 >
-__inline__ __device__ T block_prod_reduce( T val ) {
-
-  static __shared__ T shared[32];
-  const int lane = threadIdx.x % 32;
-  const int wid  = threadIdx.x / 32;
-
-  val = warp_prod_reduce( val );
-
-  if( lane == 0 ) shared[ wid ] = val;
-  __syncthreads();
-
-  val = ( threadIdx.x < blockDim.x / 32 ) ? shared[ lane ] : 0;
-  if( wid == 0 ) val = warp_prod_reduce( val );
-
-  return val;
-
-}
-
-__inline__ __device__ double atomicMul(double* address, double val)
-{
-    unsigned long long int* address_as_ull =
-                              (unsigned long long int*)address;
-    unsigned long long int old = *address_as_ull, assumed;
-
-    do {
-        assumed = old;
-        old = atomicCAS(address_as_ull, assumed,
-                        __double_as_longlong(val *
-                               __longlong_as_double(assumed)));
-
-    // Note: uses integer comparison to avoid hang in case of NaN (since NaN != NaN)
-    } while (assumed != old);
-
-    return __longlong_as_double(old);
-}
-#endif
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_inc_potential.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_inc_potential.cu
deleted file mode 100644
index 2a50bdf..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_inc_potential.cu
+++ /dev/null
@@ -1,123 +0,0 @@
-#include "device/cuda/cuda_inc_potential.hpp"
-#include "device/cuda/cuda_device_properties.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-
-template <typename T>
-__global__ __launch_bounds__(1024, 1)
-void inc_by_submat_combined_kernel( size_t           ntasks,
-                                    XCTaskDevice<T>* device_tasks,
-                                    T*               A,
-                                    size_t           LDA, 
-				    const int block_y,
-				    const int block_x ) {
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.submat_cut;
-  const auto* submat_block_device = task.submat_block;
-  const auto  LDAS              = task.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ASmall_begin[I + (J+k*WARP_Y)*LDAS];
-          address[k] = ABig_begin + I + (J+k*WARP_Y)*LDA;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          atomicAdd(address[k], val[k] );
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        atomicAdd(ABig_begin + I + J*LDA, ASmall_begin[I + J*LDAS] );
-      }
-    }
-
-  }
-  }
-}
-
-
-template <typename T>
-void task_inc_potential( size_t           ntasks,
-                         XCTaskDevice<T>* device_tasks,
-                         T*               V_device,
-                         size_t           LDV,
-                         cudaStream_t     stream ) {
-  dim3 threads(warp_size / 2, max_warps_per_thread_block * 2, 1), blocks(1,1,ntasks);
-
-  const int submat_block_size = get_submat_cut_block(LDV, 0);
-  for (int i = 0; i < util::div_ceil(LDV, submat_block_size); i++) {
-    for (int j = 0; j < util::div_ceil(LDV, submat_block_size); j++) {
-      inc_by_submat_combined_kernel<<< blocks, threads, 0, stream >>>(
-        ntasks, device_tasks, V_device, LDV, i, j
-      );
-    }
-  }
-}
-
-template 
-void task_inc_potential( size_t                ntasks,
-                         XCTaskDevice<double>* device_tasks,
-                         double*               V_device,
-                         size_t                LDV,
-                         cudaStream_t          stream );
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_inc_potential.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_inc_potential.hpp
deleted file mode 100644
index 53d7b06..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_inc_potential.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void task_inc_potential( size_t           ntasks,
-                         XCTaskDevice<T>* device_tasks,
-                         T*               V_device,
-                         size_t           LDV,
-                         cudaStream_t     stream );
-                               
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_pack_density.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_pack_density.cu
deleted file mode 100644
index 24b246b..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_pack_density.cu
+++ /dev/null
@@ -1,127 +0,0 @@
-#include "device/cuda/cuda_pack_density.hpp"
-#include "device/cuda/cuda_device_properties.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-template <typename T>
-__global__ __launch_bounds__(1024, 1)
-void submat_set_combined_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* device_tasks,
-                                 T*               A,
-                                 size_t           LDA,
-				 const int block_y,
-				 const int block_x) {
-
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.submat_cut;
-  const auto* submat_block_device = task.submat_block;
-  const auto  LDAS              = task.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ABig_begin[I + (J + k*WARP_Y)*LDA];
-          address[k] = ASmall_begin + I + (J + k*WARP_Y) * LDAS;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-	  // Suggest that the result be evicted first.
-#if (CUDART_VERSION >= 11000)
-	  __stcs(address[k], val[k]);
-#else
-          asm ("st.global.cs.f64 [%0], %1;" :: "l"(address[k]), "d"(val[k]));
-#endif
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        ASmall_begin[I + J*LDAS] = ABig_begin[I + J*LDA];
-      }
-    }
-  }
-  }
-}
-
-
-template <typename T>
-void task_pack_density_matrix( size_t           ntasks,
-                               XCTaskDevice<T>* device_tasks,
-                               T*               P_device,
-                               size_t           LDP,
-                               cudaStream_t     stream ) {
-
-  dim3 threads(warp_size / 2, max_warps_per_thread_block * 2, 1), blocks(1,1,ntasks);
-
-  const int submat_block_size = get_submat_cut_block(LDP, 0);
-  for (int i = 0; i < util::div_ceil(LDP, submat_block_size); i++) {
-    for (int j = 0; j < util::div_ceil(LDP, submat_block_size); j++) {
-      submat_set_combined_kernel<<< blocks, threads, 0, stream >>>(
-        ntasks, device_tasks, P_device, LDP, i, j
-      );
-    }
-  }
-}
-
-template 
-void task_pack_density_matrix( size_t                ntasks,
-                               XCTaskDevice<double>* device_tasks,
-                               double*               P_device,
-                               size_t                LDP,
-                               cudaStream_t          stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_pack_density.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_pack_density.hpp
deleted file mode 100644
index ae90ef3..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_pack_density.hpp
+++ /dev/null
@@ -1,19 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void task_pack_density_matrix( size_t           ntasks,
-                               XCTaskDevice<T>* device_tasks,
-                               T*               P_device,
-                               size_t           LDP,
-                               cudaStream_t     stream );
-                               
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_weights.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_weights.cu
deleted file mode 100644
index f8da49b..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_weights.cu
+++ /dev/null
@@ -1,641 +0,0 @@
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/cuda/cuda_weights.hpp"
-#include "common/integrator_constants.hpp"
-#include "device/cuda/cuda_extensions.hpp"
-#include "device/cuda/cuda_device_properties.hpp"
-
-constexpr double eps_d = std::numeric_limits<double>::epsilon();
-
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-__global__ void reciprocal_kernel(size_t length, double* vec) {
-   for (int i = threadIdx.x + blockIdx.x * blockDim.x; i < length; i += blockDim.x * gridDim.x) {
-     vec[i] = 1. / vec[i];
-   }
-}
-
-__global__ void compute_point_center_dist(
-        size_t      npts,
-        size_t      LDatoms,
-        size_t      natoms,
-  const double*     coords,
-  const double*     points,
-        double*     dist
-) {
-
-  __shared__ double3 point_buffer[warp_size];
-  register double3 coord_reg;
-
-  const int natoms_block = (natoms + warp_size-1) / warp_size;
-  const int coords_block = (npts + warp_size-1) / warp_size;
-
-  const double3* coords_vec = (double3*) coords;
-  const double3* points_vec = (double3*) points;
-
-  for (int j = blockIdx.x; j < natoms_block; j += gridDim.x) {
-    const int iAtom = j * warp_size + threadIdx.x;
-    // Load blocks into registers/shared memory
-    if (iAtom < natoms) {
-      coord_reg = coords_vec[iAtom];
-    }
-    for (int i = blockIdx.y; i < coords_block; i += gridDim.y) {
-      const int iPt_load = i * warp_size + threadIdx.x;
-      if (iPt_load < npts) {
-        point_buffer[threadIdx.x] = points_vec[iPt_load];
-      }
-      __syncthreads();
-
-      // do the computation
-      #pragma unroll 2
-      for (int k = threadIdx.y; k < warp_size; k+=warp_size/2) {
-        const int iPt_sm = k;
-        const int iPt = i * warp_size + iPt_sm;
-        const double rx = point_buffer[iPt_sm].x - coord_reg.x;
-        const double ry = point_buffer[iPt_sm].y - coord_reg.y;
-        const double rz = point_buffer[iPt_sm].z - coord_reg.z;
-
-        if (iAtom < natoms and iPt < npts) {
-          dist[ iAtom + iPt * LDatoms ] = std::sqrt( rx*rx + ry*ry + rz*rz );
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-#if 0
-__global__ void modify_weights_becke_kernel(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-        double*                           weights_device
-) {
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-
-
-  __shared__ double shared[2048]; 
-  for( int ipt = blockIdx.x; ipt < npts; ipt += gridDim.x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    for( int iCenter = threadIdx.y; iCenter < natoms; iCenter += blockDim.y ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natoms; jCenter += blockDim.x ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        const double s  = 0.5 * ( 1. - gBecke( mu ) );
-
-        ps *= (iCenter == jCenter) ? 1. : s ;
-
-      }
-
-      ps = warp_prod_reduce( ps ); // XXX: Assumes blockDim.x == 32
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-
-    // XXX: Assumes blockDim.x == blockDim.y == 32
-    if( threadIdx.x == 0 ) {
-      shared[ threadIdx.y ]        = sum;
-      shared[ threadIdx.y + 1024]  = parent_weight;
-    }
-
-    __syncthreads();
-    sum = shared[ threadIdx.x ];
-    sum = warpReduceSum( sum );
-
-    __syncthreads();
-    parent_weight = shared[ threadIdx.x + 1024];
-    parent_weight = __shfl_sync(0xffffffff, parent_weight, iParent % 32, 32 );
-
-    if( threadIdx.x == 0 and threadIdx.y == 0 )
-      weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-
-
-
-__global__ void modify_weights_ssf_kernel(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-  auto sFrisch = [&] (double x) {
-    const double g = 0.5 * (1. - gFrisch(x));
-    return (x >= magic_ssf_factor<>) ? 0. : (x <= -magic_ssf_factor<>) ? 1. : g;
-  };
-
-  constexpr double weight_tol = 1e-10;
-
-  __shared__ double shared[2048]; 
-  for( int ipt = blockIdx.x; ipt < npts; ipt += gridDim.x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    for( int iCenter = threadIdx.y; iCenter < natoms; iCenter += blockDim.y ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natoms; jCenter += blockDim.x ) 
-      if( fabs(ps) > weight_tol ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        const double s  = sFrisch( mu );
-        ps *= (iCenter == jCenter) ? 1. : s ;
-
-      }
-
-      ps = warp_prod_reduce( ps ); // XXX: Assumes blockDim.x == 32
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-
-    // XXX: Assumes blockDim.x == blockDim.y == 32
-    if( threadIdx.x == 0 ) {
-      shared[ threadIdx.y ]        = sum;
-      shared[ threadIdx.y + 1024]  = parent_weight;
-    }
-
-    __syncthreads();
-    sum = shared[ threadIdx.x ];
-    sum = warpReduceSum( sum );
-
-    __syncthreads();
-    parent_weight = shared[ threadIdx.x + 1024];
-    parent_weight = __shfl_sync(0xffffffff, parent_weight, iParent % 32, 32 );
-
-    if( threadIdx.x == 0 and threadIdx.y == 0 )
-      weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-#endif
-
-// SIMT over points: 1D kernel
-__global__ void modify_weights_ssf_kernel_1d(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-#if 0
-  auto sFrisch = [&] (double x) {
-    const double g = 0.5 * (1. - gFrisch(x));
-    return (x >= magic_ssf_factor<>) ? 0. : (x <= -magic_ssf_factor<>) ? 1. : g;
-  };
-#else
-  auto sFrisch = [&] (double x) {
-    if( fabs(x) < magic_ssf_factor<> ) return 0.5 * (1. - gFrisch(x));
-    else if( x >= magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-  };
-#endif
-
-  constexpr double weight_tol = 1e-10;
-
-  const int tid_x = threadIdx.x + blockIdx.x * blockDim.x;
-  const int nt_x  = blockDim.x  * gridDim.x;
-
-  //__shared__ double shared[2048]; 
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-#if 0
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( fabs(ps) > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-#else
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * natoms;
-
-      parent_weight = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( parent_weight > weight_tol ) {
-      if( iParent != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        parent_weight *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += parent_weight;
-
-    }
-
-    if( parent_weight < eps_d ) {
-      weights_device[ipt] = 0.;
-      continue;
-    }
-
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) 
-    if( iParent != iCenter ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( ps > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += ps;
-
-    }
-
-#endif
-
-    weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-
-__device__ __inline__ double gFrisch(double x) {
-  // Frisch partition functions
-//  const double s_x  = x / magic_ssf_factor<>;
-  const double s_x  = x * 1.5625;
-  const double s_x2 = s_x  * s_x;
-  const double s_x3 = s_x  * s_x2;
-  const double s_x5 = s_x3 * s_x2;
-  const double s_x7 = s_x5 * s_x2;
-
-  return ((35.) *(s_x - s_x3) + (21.) *s_x5 - (5.) *s_x7);
-}
-
-
-__device__ __inline__ double sFrisch(double x) {
-    //double frisch_val = (0.5 - (0.5/ 16.0) * gFrisch(x));
-
-    if( fabs(x) < magic_ssf_factor<> ) return (0.5 - (0.5/ 16.0) * gFrisch(x));
-    else if( x >= magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-}
-
-__global__ __launch_bounds__(weight_thread_block, weight_thread_block_per_sm)
-void modify_weights_ssf_kernel_2d(
-        size_t                            npts,
-        size_t                            LDatoms,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-  constexpr double weight_tol = 1e-10;
-  int natom_block = ((natoms + blockDim.x - 1) / blockDim.x) * blockDim.x;
-
-  const int tid_x = threadIdx.y + blockIdx.y * blockDim.y;
-  const int nt_x  = blockDim.y  * gridDim.y;
-
-  __shared__ int jCounter_sm[max_warps_per_thread_block];
-  int* jCounter = reinterpret_cast<int *>(jCounter_sm) + threadIdx.y;
-
-  // Each warp will work together on a point
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * LDatoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * LDatoms;
-
-      parent_weight = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natom_block; jCenter+=blockDim.x ) {
-        double contribution = 1.0;
-        if (jCenter < natoms && iParent != jCenter) {
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-          contribution = sFrisch( mu );
-        }
-        contribution = warpReduceProd(contribution);
-        parent_weight *= contribution;
-
-        if (parent_weight < weight_tol) break;
-      }
-    }
-
-    if( parent_weight < eps_d ) {
-      if (threadIdx.x == 0)
-        weights_device[ipt] = 0.;
-      __syncwarp();
-      continue;
-    }
-
-    // Initialize each counter to 0
-    if (threadIdx.x == 0) {
-      jCounter[0] = 0;
-    }
-    __syncwarp();
-
-    // Each thread will process an iCenter. Atomic operations are used to assign
-    // an iCenter value to each thread.
-    int iCenter = atomicAdd(jCounter, 1);
-    if (iCenter >= iParent) iCenter++; // iCenter == iParent is skipped
-
-    // The entire warp processes the same jCenter value at the same time
-    int jCenter = 0;
-
-    const double* local_rab = RAB + iCenter * LDatoms;
-    double ri = local_dist_scratch[ iCenter ];
-    double ps = 1.;
-    int iCount = 0; 
-    int cont = (iCenter < natoms);
-
-    // We will continue iterating until all of the threads have cont set to 0
-    while (__any_sync(0xffffffff, cont)) {
-      if (cont) {
-        double2 rj[weight_unroll/2];
-        double2 rab_val[weight_unroll/2];
-        double mu[weight_unroll];
-        iCount += weight_unroll;
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          rj[k]      = *((double2*)(local_dist_scratch + jCenter) + k);
-          rab_val[k] = *((double2*)(local_rab          + jCenter) + k); 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          mu[2*k+0] = (ri - rj[k].x) * rab_val[k].x; // XXX: RAB is symmetric
-          mu[2*k+1] = (ri - rj[k].y) * rab_val[k].y; 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll; k++) {
-          if((iCenter != jCenter + k) && (jCenter + k < natoms)) {
-            mu[k] = sFrisch( mu[k] );
-            ps *= mu[k];
-          }
-        }
-
-        // A thread is done with a iCenter based on 2 conditions. Weight tolerance
-        // Or if it has seen all of the jCenters
-        if( !(ps > weight_tol && iCount < LDatoms )) {
-          // In the case were the thread is done, it begins processing another iCenter
-          sum += ps;
-          iCenter = atomicAdd(jCounter, 1);
-          if (iCenter >= iParent) iCenter++;
-
-          // If there are no more iCenters left to process, it signals it is ready to exit
-          cont = (iCenter < natoms);
-          ri = local_dist_scratch[ iCenter ];
-          local_rab = RAB + iCenter * LDatoms;
-          ps = 1.;
-          iCount = 0;
-        }
-      }
-      // Wraps jCenter around. This was faster than modulo
-      jCenter += weight_unroll;
-      jCenter = (jCenter < LDatoms) ? jCenter : 0;
-    }
-
-    // All of the threads then sum their contributions. Only thread 0 needs to add the parent
-    // contribution.
-    __syncwarp();
-    sum = warpReduceSum(sum);
-    if (threadIdx.x == 0) {
-      sum += parent_weight;
-      weights_device[ipt] *= parent_weight / sum;
-    }
-
-    __syncwarp();
-
-  }
-}
-
-
-void cuda_reciprocal(size_t length, double* vec, cudaStream_t stream) {
-  dim3 threads(max_threads_per_thread_block);
-  dim3 blocks( get_device_sm_count(0) ); 
-  reciprocal_kernel<<<threads, blocks, 0, stream>>>(length, vec);
-}
-
-
-template <typename F>
-void partition_weights_cuda_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const F*       points_device,
-                                 const int32_t* iparent_device,
-                                 const F*       dist_nearest_device,
-                                 const F*       rab_device,
-                                 const F*       atomic_coords_device,
-                                       F*       weights_device,
-                                       F*       dist_scratch_device,
-                                 cudaStream_t   stream ) {
-
-
-
-  // Evaluate point-to-atom collocation
-  {
-    const int distance_thread_y = max_warps_per_thread_block / 2;
-    dim3 threads(  warp_size, distance_thread_y );
-    dim3 blocks( util::div_ceil( natoms,   threads.x), 
-                 util::div_ceil( npts, threads.y * distance_thread_y) );
-
-    compute_point_center_dist<<< blocks, threads, 0, stream>>>(
-      npts, LDatoms, natoms, atomic_coords_device, points_device, dist_scratch_device
-    );
-
-  }
-  const bool partition_weights_1d_kernel = true;
-
-  if( partition_weights_1d_kernel ) {
-
-    dim3 threads( warp_size, weight_thread_block / warp_size );
-    dim3 blocks(  1, get_device_sm_count(0) * weight_thread_block_per_sm); 
-    modify_weights_ssf_kernel_2d<<< blocks, threads, 0, stream >>>(
-      npts, LDatoms, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-      iparent_device, dist_nearest_device, weights_device
-    );
-
-  } else {
-
-#if 0
-    dim3 threads( 32, 32 );
-    dim3 blocks ( npts, 1 );
-
-    if( weight_alg == XCWeightAlg::SSF ) 
-      modify_weights_ssf_kernel<<< blocks, threads, 0, stream >>>(
-        npts, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-        iparent_device, dist_nearest_device, weights_device
-      );
-    else
-      modify_weights_becke_kernel<<< blocks, threads, 0, stream >>>(
-        npts, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-        iparent_device, weights_device
-      );
-#endif
-
-  }
-
-
-}
-
-template
-void partition_weights_cuda_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const double*  points_device,
-                                 const int32_t* iparent_device,
-                                 const double*  dist_nearest_device,
-                                 const double*  rab_device,
-                                 const double*  atomic_coords_device,
-                                       double*  weights_device,
-                                       double*  dist_scratch_device,
-                                 cudaStream_t   stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_weights.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_weights.hpp
deleted file mode 100644
index 2418cfc..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_weights.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/shell.hpp>
-#include <gauxc/enums.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-
-void cuda_reciprocal(size_t length, double* vec, cudaStream_t stream); 
-
-template <typename F>
-void partition_weights_cuda_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const F*       points_device,
-                                 const int32_t* iparent_device,
-                                 const F*       dist_nearest_device,
-                                 const F*       rab_device,
-                                 const F*       atomic_coords_device,
-                                       F*       weights_device,
-                                       F*       dist_scratch_device,
-                                 cudaStream_t   stream );
-                                 
-                  
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_zmat.cu b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_zmat.cu
deleted file mode 100644
index df0cbe3..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_zmat.cu
+++ /dev/null
@@ -1,140 +0,0 @@
-#include "device/cuda/cuda_zmat.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-
-template <typename T>
-__global__ void zmat_lda_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-  const auto* vrho_device    = task.vrho;
-
-  const auto* basis_eval_device = task.bf;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact = 0.5 * vrho_device[tid_x];
-
-    z_matrix_device[ ibfoff ] = fact * basis_eval_device[ ibfoff ];
-
-  }
-
-}
-
-
-
-
-template <typename T>
-void zmat_lda_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream ) {
-
-
-  dim3 threads(warp_size,max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  zmat_lda_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
-
-template
-void zmat_lda_cuda( size_t                ntasks,
-                    int32_t               max_nbf,
-                    int32_t               max_npts,
-                    XCTaskDevice<double>* tasks_device,
-                    cudaStream_t          stream ); 
-
-
-
-
-template <typename T>
-__global__ void zmat_gga_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-  const auto* vrho_device    = task.vrho;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* den_x_eval_device = task.ddenx;
-  const auto* den_y_eval_device = task.ddeny;
-  const auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.5 * vrho_device[tid_x]  ;
-    const double fact_2 = 2.0 * vgamma_device[tid_x];
-
-    const double dx = den_x_eval_device[ tid_x ] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = den_y_eval_device[ tid_x ] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = den_z_eval_device[ tid_x ] * dbasis_z_eval_device[ ibfoff ];
-
-    z_matrix_device[ ibfoff ] = 
-      fact_1 * basis_eval_device[ ibfoff ] + fact_2 * ( dx + dy + dz ); 
-
-  }
-}
-
-template <typename T>
-void zmat_gga_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream ) {
-
-
-  dim3 threads(warp_size,max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  zmat_gga_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-
-}
-template
-void zmat_gga_cuda( size_t                ntasks,
-                    int32_t               max_nbf,
-                    int32_t               max_npts,
-                    XCTaskDevice<double>* tasks_device,
-                    cudaStream_t          stream ); 
-              
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_zmat.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_zmat.hpp
deleted file mode 100644
index 58769d8..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/cuda_zmat.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace cuda       {
-
-using namespace GauXC::cuda;
-
-template <typename T>
-void zmat_lda_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream );
-
-template <typename T>
-void zmat_gga_cuda( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    cudaStream_t     stream );
-              
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/gauxc-cuda.cmake b/third_party/gauxc/attic/src/new_integrator/device/cuda/gauxc-cuda.cmake
deleted file mode 100644
index e95000a..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/gauxc-cuda.cmake
+++ /dev/null
@@ -1,49 +0,0 @@
-if( NOT TARGET CUDA::cublas )
-  find_package( CUDAToolkit REQUIRED )
-endif()
-include( gauxc-cub )
-
-target_sources( gauxc PRIVATE 
-  # Common CUDA Utilities
-  device/cuda/collocation_device.cu
-  device/cuda/xc_cuda_data.cxx
-  device/cuda/cuda_weights.cu
-  device/cuda/cuda_pack_density.cu
-  device/cuda/cuda_eval_denvars.cu
-  device/cuda/cublas_extensions.cu
-  device/cuda/cuda_inc_potential.cu
-  device/cuda/cuda_device_properties.cxx
-
-  # XC Specific
-  device/cuda/cuda_zmat.cu
-
-  # Drivers
-  device/cuda/local_work_replicated_incore_exc_vxc.cxx
-
-)
-
-target_compile_features( gauxc PRIVATE cuda_std_14 )
-target_compile_options( gauxc
-  PRIVATE
-    $<$<COMPILE_LANGUAGE:CUDA>: -Xcudafe --diag_suppress=partial_override -Xptxas -v > 
-)
-
-
-if( GAUXC_ENABLE_MAGMA )
-
-  message( STATUS "MAGMA Has Been Enabled" )
-  find_package( MAGMA REQUIRED )
-  target_link_libraries( gauxc PUBLIC MAGMA::magma )
-
-else()
-
-  message( STATUS "MAGMA Has Been Explicitly Disabled" )
-
-endif()
-
-if(NOT GAUXC_LINK_CUDA_STATIC)
-  target_link_libraries( gauxc PUBLIC CUDA::cublas )
-else()
-  target_link_libraries( gauxc PUBLIC CUDA::cublas_static )
-endif()
-target_link_libraries( gauxc PRIVATE $<BUILD_INTERFACE:gauxc_cub> )
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/local_work_replicated_incore_exc_vxc.cxx b/third_party/gauxc/attic/src/new_integrator/device/cuda/local_work_replicated_incore_exc_vxc.cxx
deleted file mode 100644
index 4dc2826..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/local_work_replicated_incore_exc_vxc.cxx
+++ /dev/null
@@ -1,422 +0,0 @@
-#include <memory>
-#include <gauxc/util/cuda_util.hpp>
-#include <gauxc/util/unused.hpp>
-
-#include "device/cuda/cuda_weights.hpp"
-#include "device/cuda/collocation_device.hpp"
-#include "device/cuda/cuda_pack_density.hpp"
-#include "device/cuda/cuda_inc_potential.hpp"
-#include "device/cuda/cuda_eval_denvars.hpp"
-#include "device/cuda/cuda_zmat.hpp"
-#include "common/integrator_common.hpp"
-  
-#include "device/cuda/cublas_extensions.hpp"
-#include "device/cuda/local_work_replicated_incore_exc_vxc.hpp"
-
-#include "device/cuda/xc_cuda_data.hpp"
-
-namespace GauXC  {
-
-namespace integrator::cuda {
-
-using namespace GauXC::cuda::blas;
-
-
-template <typename F>
-using cuda_task_iterator = typename std::vector<XCTaskDevice<F>>::iterator;
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_density_incore_exc_vxc(
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  XCCudaData<F>&         cuda_data,
-  cuda_task_iterator<F>  task_begin,
-  cuda_task_iterator<F>  task_end
-) {
-
-  const auto ntasks = std::distance( task_begin, task_end );
-  const auto nbf    = cuda_data.nbf;
-
-  // Get batch statistics for batches to process
-  auto nbe_comparator = 
-    []( const auto& a, const auto& b ){ return a.nbe < b.nbe; };
-  auto npts_comparator = 
-    []( const auto& a, const auto& b ){ return a.npts < b.npts; };
-  auto nshells_comparator = 
-    []( const auto& a, const auto& b ){ return a.nshells < b.nshells; };
-
-  auto [min_nbe_it, max_nbe_it] = 
-    std::minmax_element( task_begin, task_end, nbe_comparator );
-  auto [min_npts_it, max_npts_it] = 
-    std::minmax_element( task_begin, task_end, npts_comparator );
-  auto [min_nshells_it, max_nshells_it] = 
-    std::minmax_element( task_begin, task_end, nshells_comparator );
-
-  const auto min_nbe     = min_nbe_it->nbe;
-  const auto max_nbe     = max_nbe_it->nbe;
-  const auto min_npts    = min_npts_it->npts;
-  const auto max_npts    = max_npts_it->npts;
-  const auto min_nshells = min_nshells_it->nshells;
-  const auto max_nshells = max_nshells_it->nshells;
-
-  util::unused( min_nbe, min_npts, min_nshells );
-
-  const size_t total_npts = 
-    std::accumulate( task_begin, task_end, 0ul, 
-                     []( const auto& a, const auto& b ) { return a + b.npts; } );
-
-
-  // Aliases
-  cudaStream_t   master_stream = *cuda_data.master_stream;
-  cublasHandle_t master_handle = *cuda_data.master_handle;
-
-#ifdef GAUXC_ENABLE_MAGMA
-  magma_queue_t  master_queue  = *cuda_data.master_magma_queue;
-#endif
-
-  auto* dmat_device         = cuda_data.dmat_device;
-
-  auto* shells_device       = cuda_data.shells_device;
-  auto* tasks_device        = cuda_data.device_tasks;
-  auto* dmat_array_device   = cuda_data.dmat_array_device;
-  auto* zmat_array_device   = cuda_data.zmat_array_device;
-  auto* bf_array_device     = cuda_data.bf_array_device;
-  auto* weights_device      = cuda_data.weights_device_buffer;
-  auto* dist_scratch_device = cuda_data.dist_scratch_device;
-
-  auto* den_eval_device     = cuda_data.den_eval_device;
-  auto* dden_x_eval_device  = cuda_data.den_x_eval_device;
-  auto* dden_y_eval_device  = cuda_data.den_y_eval_device;
-  auto* dden_z_eval_device  = cuda_data.den_z_eval_device;
-
-  auto* eps_eval_device     = cuda_data.eps_eval_device;
-  auto* gamma_eval_device   = cuda_data.gamma_eval_device;
-  auto* vrho_eval_device    = cuda_data.vrho_eval_device;
-  auto* vgamma_eval_device  = cuda_data.vgamma_eval_device;
-
-
-  auto* exc_device     = cuda_data.exc_device;
-  auto* vxc_device     = cuda_data.vxc_device;
-  auto* nel_device     = cuda_data.nel_device;
-  auto* acc_scr_device = cuda_data.acc_scr_device;
-
-  auto* m_array_device      = cuda_data.m_array_device;
-  auto* n_array_device      = cuda_data.n_array_device;
-  auto* k_array_device      = cuda_data.k_array_device;
-  auto* lda_array_device    = cuda_data.lda_array_device;
-  auto* ldb_array_device    = cuda_data.ldb_array_device;
-  auto* ldc_array_device    = cuda_data.ldc_array_device;
-
-
-  const auto* rab_device          = cuda_data.rab_device;
-  const auto* coords_device       = cuda_data.coords_device;
-  const auto* points_device       = cuda_data.points_device_buffer;
-  const auto* iparent_device      = cuda_data.iparent_device_buffer;
-  const auto* dist_nearest_device = cuda_data.dist_nearest_buffer;
-
-
-
-
-  // Evaluate Partition Weights
-  partition_weights_cuda_SoA( weight_alg, total_npts, cuda_data.LDatoms, cuda_data.natoms, 
-                              points_device, iparent_device, dist_nearest_device,
-                              rab_device, coords_device, weights_device, 
-                              dist_scratch_device, master_stream );
-
-
-  // Evaluate Collocation
-  if constexpr ( n_deriv == 1 )
-    eval_collocation_masked_combined_deriv1( ntasks, max_npts, max_nshells,
-                                             shells_device, tasks_device,
-                                             master_stream );
-  else
-    eval_collocation_masked_combined( ntasks, max_npts, max_nshells, shells_device, 
-                                      tasks_device, master_stream );
-
-  // Pack Density Submatrices
-  task_pack_density_matrix( ntasks, tasks_device, dmat_device, nbf, master_stream );
-
-
-  // Form Z = P * X
-  if( cuda_data.batch_l3_blas ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-
-    magmablas_dgemm_vbatched( MagmaNoTrans, MagmaNoTrans,
-                              m_array_device, n_array_device, k_array_device,
-                              1., bf_array_device, ldb_array_device,
-                              dmat_array_device, lda_array_device,
-                              0., zmat_array_device, ldc_array_device,
-                              ntasks, master_queue );
-
-#else
-
-    throw std::runtime_error("BATCHED BLAS API NOT SUPPORTED");
-
-#endif
-
-  } else {
-
-    int nstream = cuda_data.blas_streams.size();
-
-    // Wait for collocation etc
-    util::cuda_event master_event;
-    master_event.record( master_stream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      cuda_data.blas_streams[iS].wait( master_event );
-
-    // Do GEMM in round-robin
-    for( auto iT = 0; iT < ntasks; ++iT ) {
-      auto& task = *(task_begin + iT);
-      gemm( cuda_data.blas_handles[iT % nstream], CUBLAS_OP_N, CUBLAS_OP_N,
-            task.npts, task.nbe, task.nbe, 1., task.bf, task.npts,
-            task.nbe_scr, task.nbe, 0., task.zmat, task.npts );
-    }
-
-    // Record completion of BLAS ops
-    std::vector< util::cuda_event > blas_events( nstream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      blas_events[iS].record( cuda_data.blas_streams[iS] );
-
-    // Wait on master stream for all BLAS ops to complete
-    for( int iS = 0; iS < nstream; ++iS )
-      cuda_data.master_stream->wait( blas_events[iS] );
-
-  }
-                
-
-  
-  // Zero UVars
-  util::cuda_set_zero_async( total_npts, den_eval_device, master_stream, "DenZero" );
-  if( func.is_gga() ) {
-    util::cuda_set_zero_async( total_npts, dden_x_eval_device, master_stream, 
-                               "DenXZero" );
-    util::cuda_set_zero_async( total_npts, dden_y_eval_device, master_stream, 
-                               "DenYZero" );
-    util::cuda_set_zero_async( total_npts, dden_z_eval_device, master_stream, 
-                               "DenZZero" );
-  }
-
-  // Evaluate UVars
-  if( func.is_gga() ) {
-    eval_uvars_gga_device( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-    eval_vvars_gga_device( total_npts, dden_x_eval_device, dden_y_eval_device,
-                           dden_z_eval_device, gamma_eval_device, master_stream );
-  } else {
-    eval_uvars_lda_device( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  }
-
-  // Evaluate XC Functional
-  if( func.is_gga() )
-    func.eval_exc_vxc_device( total_npts, den_eval_device, gamma_eval_device, 
-                              eps_eval_device, vrho_eval_device, 
-                              vgamma_eval_device, master_stream );
-  else
-    func.eval_exc_vxc_device( total_npts, den_eval_device, eps_eval_device, 
-                              vrho_eval_device, master_stream );
-
-
-  // Factor weights into XC output
-  hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                    eps_eval_device, 1 );
-  hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                    vrho_eval_device, 1 );
-  if( func.is_gga() ) 
-    hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                      vgamma_eval_device, 1 );
-
-  // Accumulate EXC / NEL
-  gdot( master_handle, total_npts, weights_device, 1,
-        den_eval_device, 1, acc_scr_device, nel_device );
-  gdot( master_handle, total_npts, eps_eval_device, 1,
-        den_eval_device, 1, acc_scr_device, exc_device );
-      
-  // Evaluate Z Matrix
-  if( func.is_gga() )
-    zmat_gga_cuda( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  else
-    zmat_lda_cuda( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  
-
-
-  // Accumulate packed VXC = X * Z**T + Z * X**T
-
-  
-  if( cuda_data.batch_l3_blas ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-
-    // XXX: Only updates LT
-    magmablas_dsyr2k_vbatched( MagmaLower, MagmaTrans, 
-                               n_array_device, m_array_device,
-                               1., bf_array_device, ldb_array_device,
-                               zmat_array_device, ldc_array_device,
-                               0., dmat_array_device, lda_array_device,
-                               ntasks, master_queue );
-
-#else
-
-    throw std::runtime_error("BATCHED BLAS API NOT SUPPORTED");
-
-#endif
-  } else {
-
-    int nstream = cuda_data.blas_streams.size();
-
-    // Wait for zmat, etc
-    util::cuda_event master_event;
-    master_event.record( master_stream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      cuda_data.blas_streams[iS].wait( master_event );
-
-    // Do SYR2K in round-robin
-    for( auto iT = 0; iT < ntasks; ++iT ) {
-      auto& task = *(task_begin + iT);
-      syr2k( cuda_data.blas_handles[iT % nstream], CUBLAS_FILL_MODE_LOWER, 
-             CUBLAS_OP_T, task.nbe, task.npts, 1., task.bf, task.npts,
-             task.zmat, task.npts, 0., task.nbe_scr, task.nbe );
-    }
-
-    // Record completion of BLAS ops
-    std::vector< util::cuda_event > blas_events( nstream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      blas_events[iS].record( cuda_data.blas_streams[iS] );
-
-    // Wait on master stream for all BLAS ops to complete
-    for( int iS = 0; iS < nstream; ++iS )
-      cuda_data.master_stream->wait( blas_events[iS] );
-  }
-
-  // Increment global VXC
-  task_inc_potential( ntasks, tasks_device, vxc_device, nbf, master_stream );
-
-
-  // Synchronize on master stream
-  // XXX: There's no lifetime issues in this driver, should look into
-  //      avoid this sync to allow for overlap with the host packing 
-  cudaStreamSynchronize( master_stream );
-
-}
-
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_incore_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-) {
-
-  auto& cuda_data = dynamic_cast< XCCudaData<F>& >( device_data );
-
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.nbe) > (b.points.size() * b.nbe);
-  };
-  std::sort( local_work_begin, local_work_end, task_comparator );
-
-
-  const auto nbf     = basis.nbf();
-  const auto natoms  = meta.natoms();
-  const auto LDatoms = cuda_data.LDatoms;
-
-  // Send static data to the device
-
-  // Density
-  util::cuda_copy( nbf * nbf, cuda_data.dmat_device, P, "P H2D" );
-
-  // Shells: TODO avoid host copy?
-  std::vector<Shell<F>> shells( basis );
-  util::cuda_copy( shells.size(), cuda_data.shells_device, shells.data(),
-                   "Shells H2D" );
-
-  // RAB
-  util::cuda_copy_2d( cuda_data.rab_device, LDatoms * sizeof(F),
-                      meta.rab().data(), natoms * sizeof(F),
-                      natoms * sizeof(F), natoms, "RAB H2D");
-  // This could probably happen on the host
-  cuda_reciprocal(natoms * LDatoms, cuda_data.rab_device, 0);
-
-  // Atomic coordinates 
-  std::vector<double> coords( 3*natoms );
-  for( auto i = 0ul; i < natoms; ++i ) {
-    coords[ 3*i + 0 ] = mol[i].x;
-    coords[ 3*i + 1 ] = mol[i].y;
-    coords[ 3*i + 2 ] = mol[i].z;
-  }
-  util::cuda_copy( 3 * natoms, cuda_data.coords_device, coords.data(),
-                   "Coords H2D" );
-
-
-  // Zero out XC quantities
-  util::cuda_set_zero( nbf * nbf, cuda_data.vxc_device, "VXC Zero" ); 
-  util::cuda_set_zero( 1        , cuda_data.exc_device, "EXC Zero" ); 
-  util::cuda_set_zero( 1        , cuda_data.nel_device, "NEL Zero" ); 
-
-
-
-  // Processes batches in groups that saturadate available device memory
-  auto task_it = local_work_begin;
-  while( task_it != local_work_end ) {
-
-    // Determine next task batch, send relevant data to device
-    auto [it, tasks_device] = 
-      cuda_data.generate_buffers( basis, task_it, local_work_end );
-
-
-    // Process the batches
-    local_work_replicated_density_incore_exc_vxc<F,n_deriv>( 
-      weight_alg, func, cuda_data, tasks_device.begin(), tasks_device.end() 
-    );
-
-    task_it = it;
-
-  }
-
-  // Receive XC terms from host
-  util::cuda_copy( nbf * nbf, VXC, cuda_data.vxc_device, "VXC D2H" );
-
-  util::cuda_copy( 1, EXC, cuda_data.exc_device, "EXC D2H" );
-  util::cuda_copy( 1, NEL, cuda_data.nel_device, "NEL D2H" );
-
-  // Symmetrize VXC
-  for( int32_t j = 0;   j < nbf; ++j )
-  for( int32_t i = j+1; i < nbf; ++i )
-    VXC[ j + i*nbf ] = VXC[ i + j*nbf ];
-
-}
-
-
-#define CUDA_IMPL( F, ND ) \
-template \
-void local_work_replicated_incore_exc_vxc_impl<F,ND>(\
-  XCWeightAlg            weight_alg,\
-  XCIntegratorState      state,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCDeviceData<F>  &     device_data,\
-  host_task_iterator     local_work_begin,\
-  host_task_iterator     local_work_end,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-CUDA_IMPL( double, 0 );
-CUDA_IMPL( double, 1 );
-
-}
-}
-
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/local_work_replicated_incore_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/local_work_replicated_incore_exc_vxc.hpp
deleted file mode 100644
index dfc65a8..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/local_work_replicated_incore_exc_vxc.hpp
+++ /dev/null
@@ -1,51 +0,0 @@
-#pragma once
-
-#include <memory>
-
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-#include "device/xc_device_data.hpp"
-
-namespace GauXC {
-
-namespace integrator::cuda {
-
-using host_task_iterator = std::vector<XCTask>::iterator;
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_incore_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-
-template <typename F, typename... Args>
-inline void local_work_replicated_incore_exc_vxc( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    local_work_replicated_incore_exc_vxc_impl<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    local_work_replicated_incore_exc_vxc_impl<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/xc_cuda_data.cxx b/third_party/gauxc/attic/src/new_integrator/device/cuda/xc_cuda_data.cxx
deleted file mode 100644
index 5a6df34..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/xc_cuda_data.cxx
+++ /dev/null
@@ -1,552 +0,0 @@
-#include "device/cuda/xc_cuda_data.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/buffer_adaptor.hpp"
-#include "common/integrator_common.hpp"
-#include "device/cuda/cuda_device_properties.hpp"
-
-namespace GauXC {
-
-
-namespace integrator::device {
-
-template <typename T>
-std::shared_ptr< XCDeviceData<T> > make_device_data() {
-  return std::make_shared< XCCudaData<T> >();
-}
-
-template std::shared_ptr<XCDeviceData<double>> make_device_data();
-
-}
-
-
-
-
-
-
-
-
-template <typename F>
-XCCudaData<F>::XCCudaData( bool _batch_l3_blas ):
-#ifdef GAUXC_ENABLE_MAGMA
-  batch_l3_blas(_batch_l3_blas)  
-#else
-  batch_l3_blas(false)  
-#endif
-{
-
-  // TODO: Expose this
-  double fill_fraction = 0.9;
-
-  cudaError_t stat;
-
-  // Get Total Available Memory
-  size_t cuda_avail, cuda_total;
-  stat = cudaMemGetInfo( &cuda_avail, &cuda_total );
-  GAUXC_CUDA_ERROR( "MemInfo Failed", stat );
-
-  // Allocate up to fill_fraction
-  devmem_sz = fill_fraction * cuda_avail;
-  stat = cudaMalloc( &device_ptr, devmem_sz );
-  GAUXC_CUDA_ERROR( "CUDA Malloc Failed", stat );
-
-  // Create CUDA Stream and CUBLAS Handles and make them talk to eachother
-  master_stream = std::make_unique< util::cuda_stream >();
-  master_handle = std::make_unique< util::cublas_handle >();
-
-  cublasSetStream( *master_handle, *master_stream );
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Create MAGMA Queue from CUDA Stream and CUBLAS Handle
-  master_magma_queue = 
-    std::make_unique< util::magma_queue >( 0, *master_stream, *master_handle );
-#endif
-
-  if( not batch_l3_blas ) {
-
-    // Create BLAS streams
-    blas_streams.resize(4);
-    blas_handles.resize(4);
-    for( auto i = 0; i < 4; ++i )
-      cublasSetStream( blas_handles[i], blas_streams[i] );
-
-  }
-
-}
-
-
-
-template <typename F>
-XCCudaData<F>::~XCCudaData() noexcept {
-  if( device_ptr ) util::cuda_free( device_ptr );
-} 
-
-
-
-
-
-
-
-template <typename F>
-void XCCudaData<F>::allocate_static_data( size_t _natoms,
-                                          size_t _n_deriv, 
-                                          size_t _nbf,
-                                          size_t _nshells ) {
-
-
-  // Save state
-  nshells = _nshells;
-  nbf     = _nbf; 
-  n_deriv = _n_deriv; 
-  natoms  = _natoms;
-
-  LDatoms = util::div_ceil( natoms, cuda::weight_unroll ) * cuda::weight_unroll;
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( device_ptr, devmem_sz );
-
-  shells_device     = mem.aligned_alloc<Shell<F>>( nshells );
-  exc_device        = mem.aligned_alloc<F>( 1 );
-  nel_device        = mem.aligned_alloc<F>( 1 );
-  acc_scr_device    = mem.aligned_alloc<F>( 1 );
-  rab_device        = mem.aligned_alloc<F>( LDatoms * natoms, sizeof(double2));
-  coords_device     = mem.aligned_alloc<F>( 3 * natoms );
-
-  vxc_device  = mem.aligned_alloc<F>( nbf * nbf );
-  dmat_device = mem.aligned_alloc<F>( nbf * nbf );
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-}
-
-
-
-
-using task_iterator = std::vector< XCTask >::iterator;
-template <typename F>
-using device_task_container = std::vector< cuda::XCTaskDevice<F> >;
-
-template <typename F>
-std::tuple< task_iterator, device_task_container<F> >
-  XCCudaData<F>::generate_buffers( const BasisSet<F>& basis,
-                                   task_iterator      task_begin,
-                                   task_iterator      task_end    ) {
-
-  // Host data packing arrays
-  std::vector< std::array<double,3> > points_pack;
-  std::vector< double > weights_pack;
-  std::vector< size_t > shell_list_pack;
-  std::vector< size_t > shell_offs_pack;
-  std::vector< std::array<int32_t, 3> > submat_cut_pack;
-  std::vector< int32_t > submat_block_pack;
-  std::vector< int32_t > iparent_pack;
-  std::vector< double >  dist_nearest_pack;
-
-  // Host copies for batched GEMM/SYRK arrays
-  std::vector< double* > dmat_array, bf_array, zmat_array;
-  std::vector< int > m_array, n_array, k_array, lda_array, ldb_array, ldc_array;
-
-  device_task_container tasks_device;
-
-
-  auto concat_iterable = []( auto& a, const auto& b ) {
-    a.insert( a.end(), b.begin(), b.end() );
-  };
-
-
-  size_t ntask          = 0;
-  size_t total_npts     = 0;
-  size_t total_nbe_nbe  = 0;
-  size_t total_nbe_npts = 0;
-  size_t total_nshells  = 0;
-  size_t total_ncut     = 0;
-  size_t total_nblock   = 0;
-  size_t memleft = dynmem_sz;
-
-  uint32_t submat_chunk_size = cuda::get_submat_cut_block(nbf, 0);
-
-  // Offset memory by the static requirement of an extra pointer element 
-  // for each of the size batch arrays in MAGMA
-  memleft -= 6 * sizeof(int); //M,N,K,LDA,LDB,LDC
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    auto iAtom      = task_it->iParent;
-    auto points     = task_it->points    ;
-    auto weights    = task_it->weights   ;
-    auto shell_list = task_it->shell_list;
-    auto nbe        = task_it->nbe;
-    auto dist_nearest = task_it->dist_nearest;
-
-    // Generate map from compressed to non-compressed matrices
-    auto [submat_cut, submat_block] = integrator::gen_compressed_submat_map( basis, shell_list, nbf, submat_chunk_size );
-    size_t ncut     = submat_cut.size();
-    size_t nblock   = submat_block.size();
-    size_t nshells  = shell_list.size();
-    size_t npts     = points.size();
-
-
-    size_t mem_points  = 3 * npts; 
-    size_t mem_weights = npts;     
-
-    size_t mem_shells     = nshells;
-    size_t mem_shell_list = nshells;
-    size_t mem_shell_offs = nshells;
-    size_t mem_submat_cut = 3 * ncut;
-    size_t mem_submat_block = nblock;
-
-    size_t mem_nbe_scr    = nbe * nbe;
-    size_t mem_zmat       = nbe * npts;
-
-    size_t mem_bf         = nbe * npts;
-    size_t mem_dbfx       = mem_bf;
-    size_t mem_dbfy       = mem_bf;
-    size_t mem_dbfz       = mem_bf;
-
-    size_t mem_den        = npts;
-    size_t mem_denx       = npts;
-    size_t mem_deny       = npts;
-    size_t mem_denz       = npts;
-
-    size_t mem_eps        = npts;
-    size_t mem_gamma      = npts;
-    size_t mem_vrho       = npts;
-    size_t mem_vgamma     = npts;
-
-    //size_t mem_partition_scr = natoms * npts;
-    size_t mem_dist_scr      = LDatoms * npts;
-    size_t mem_iparent       = npts;
-    size_t mem_dist_nearest  = npts;
-
-    size_t mem_batch_mat_arr = 3; // dmat/zmat/bf
-    size_t mem_batch_sz_arr  = 6; // M/N/K/LDA/LDB/LDC
-    size_t mem_task      = 1;
-
-
-    size_t mem_req_batch = 
-      mem_points            * sizeof(double) + 
-      mem_weights           * sizeof(double) +    
-      mem_shells            * sizeof(Shell<F>) +             
-      mem_shell_list        * sizeof(size_t) +
-      mem_shell_offs        * sizeof(size_t) + 
-      mem_submat_cut        * sizeof(int32_t) +
-      mem_submat_block      * sizeof(int32_t) +
-      mem_nbe_scr           * sizeof(double) +
-      mem_zmat              * sizeof(double) +
-      mem_bf                * sizeof(double) +
-      mem_dbfx              * sizeof(double) +
-      mem_dbfy              * sizeof(double) +
-      mem_dbfz              * sizeof(double) +
-      mem_den               * sizeof(double) +
-      mem_denx              * sizeof(double) +
-      mem_deny              * sizeof(double) +
-      mem_denz              * sizeof(double) +
-      mem_eps               * sizeof(double) +
-      mem_gamma             * sizeof(double) +
-      mem_vrho              * sizeof(double) +
-      mem_vgamma            * sizeof(double) +
-      //mem_partition_scr     * sizeof(double) +
-      mem_dist_scr          * sizeof(double) +
-      mem_iparent           * sizeof(int32_t) +
-      mem_dist_nearest      * sizeof(double) +
-      mem_batch_mat_arr     * sizeof(double*) +
-      mem_batch_sz_arr      * sizeof(int32_t) +
-      mem_task              * sizeof(cuda::XCTaskDevice<F>);
-
-    //std::cout << "Memory requirement for task " << ntask+1 << " " << mem_req_batch << " memleft " << memleft << std::endl;
-
-    if( mem_req_batch > memleft ) break;
-    
-    // Update memory and increment task iterator
-    memleft -= mem_req_batch;
-    ntask++;
-    task_it++;
-
-    // Update counters
-    total_npts     += npts;
-    total_nbe_nbe  += nbe*nbe;
-    total_nbe_npts += nbe*npts;
-    total_nshells  += nshells;
-    total_ncut     += ncut;
-    total_nblock   += nblock;
-
-    // Compute offsets
-    std::vector< size_t > shell_offs( nshells );
-    shell_offs.at(0) = 0;
-    for( auto i = 1ul; i < nshells; ++i )
-      shell_offs.at(i) = shell_offs.at(i-1) + 
-                           basis.at( shell_list.at(i-1) ).size();
-
-
-    // Pack the data on host
-    concat_iterable( points_pack,  points  );
-    concat_iterable( weights_pack, weights );
-    concat_iterable( shell_list_pack, shell_list );
-    concat_iterable( shell_offs_pack, shell_offs );
-    concat_iterable( submat_cut_pack, submat_cut );
-    concat_iterable( submat_block_pack, submat_block );
-
-    m_array.emplace_back( npts  );
-    n_array.emplace_back( nbe );
-    k_array.emplace_back( nbe  );
-
-    lda_array.emplace_back( nbe  );
-    ldb_array.emplace_back( npts );
-    ldc_array.emplace_back( npts );
-
-    iparent_pack.insert( iparent_pack.end(), npts, iAtom );
-    dist_nearest_pack.insert( dist_nearest_pack.end(), npts, dist_nearest );
-
-    // Add task
-    tasks_device.emplace_back();
-
-    tasks_device.back().nbe          = nbe;
-    tasks_device.back().npts         = npts;
-    tasks_device.back().ncut         = ncut;
-    tasks_device.back().nblock       = nblock;
-    tasks_device.back().nshells      = nshells;
-    tasks_device.back().iParent      = iAtom;
-    tasks_device.back().dist_nearest = dist_nearest;
-  }
-
-
-  std::cout << "XCDeviceData will stack allocate for " << tasks_device.size() << " tasks"; 
-  std::cout << " Using chunk size of " << submat_chunk_size << std::endl;
-
-  // Allocate out of dynamic memory
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  // (possibly) Large types
-  important_shells_device = mem.aligned_alloc<Shell<F>>( total_nshells );
-  device_tasks            = mem.aligned_alloc<cuda::XCTaskDevice<F>>( ntask );
-
-  // 64-bit types
-  nbe_scr_device     = mem.aligned_alloc<double>( total_nbe_nbe  );
-  zmat_device        = mem.aligned_alloc<double>( total_nbe_npts );
-  bf_eval_device     = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_x_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_y_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_z_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-
-  den_eval_device   = mem.aligned_alloc<double>( total_npts );
-  eps_eval_device   = mem.aligned_alloc<double>( total_npts );
-  vrho_eval_device  = mem.aligned_alloc<double>( total_npts );
-
-  den_x_eval_device  = mem.aligned_alloc<double>( total_npts );
-  den_y_eval_device  = mem.aligned_alloc<double>( total_npts );
-  den_z_eval_device  = mem.aligned_alloc<double>( total_npts );
-  gamma_eval_device  = mem.aligned_alloc<double>( total_npts );
-  vgamma_eval_device = mem.aligned_alloc<double>( total_npts );
-
-  points_device_buffer     = mem.aligned_alloc<double>( 3 * total_npts );
-  weights_device_buffer    = mem.aligned_alloc<double>( total_npts );
-  shell_list_device_buffer = mem.aligned_alloc<size_t>( total_nshells );
-  shell_offs_device_buffer = mem.aligned_alloc<size_t>( total_nshells );
-  submat_cut_device_buffer = mem.aligned_alloc<int32_t>( 3 * total_ncut );
-  submat_block_device_buffer = mem.aligned_alloc<int32_t>( total_nblock );
-
-  dist_scratch_device = mem.aligned_alloc<double>( LDatoms * total_npts, 2 * sizeof(double) );
-  dist_nearest_buffer = mem.aligned_alloc<double>( total_npts );
-
-  dmat_array_device = mem.aligned_alloc<double*>( ntask );
-  zmat_array_device = mem.aligned_alloc<double*>( ntask );
-  bf_array_device   = mem.aligned_alloc<double*>( ntask );
-
-  // 32-bit types
-  m_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  n_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  k_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  lda_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-  ldb_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-  ldc_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-
-  iparent_device_buffer = mem.aligned_alloc<int32_t>( total_npts );
-
-
-  // Update tasks with allocated pointers
-  {
-  double* points_ptr  = points_device_buffer;
-  double* weights_ptr = weights_device_buffer;
-
-  size_t* shell_list_ptr  = shell_list_device_buffer;
-  size_t* shell_offs_ptr  = shell_offs_device_buffer;
-  int32_t* submat_cut_ptr = submat_cut_device_buffer;
-  int32_t* submat_block_ptr = submat_block_device_buffer;
-  Shell<F>   * shells_ptr = important_shells_device;
-  double*      nbe_ptr    = nbe_scr_device;
-  double*      zmat_ptr   = zmat_device;
-
-  double*      bf_ptr     = bf_eval_device;
-  double*      dbfx_ptr   = dbf_x_eval_device;
-  double*      dbfy_ptr   = dbf_y_eval_device;
-  double*      dbfz_ptr   = dbf_z_eval_device;
-  
-  double*      den_ptr    = den_eval_device;
-  double*      ddenx_ptr  = den_x_eval_device;
-  double*      ddeny_ptr  = den_y_eval_device;
-  double*      ddenz_ptr  = den_z_eval_device;
-
-  double*      eps_ptr     = eps_eval_device;
-  double*      gamma_ptr   = gamma_eval_device;
-  double*      vrho_ptr    = vrho_eval_device;
-  double*      vgamma_ptr  = vgamma_eval_device;
-
-
-  double* dist_scratch_ptr      = dist_scratch_device;
-
-  for( auto& task : tasks_device ) {
-
-    task.points     = points_ptr;
-    task.weights    = weights_ptr;
-    task.shell_list = shell_list_ptr;
-    task.shell_offs = shell_offs_ptr;
-    task.submat_cut = submat_cut_ptr;
-    task.submat_block = submat_block_ptr;
-    
-    task.shells  = shells_ptr;
-    task.nbe_scr = nbe_ptr;
-    task.zmat    = zmat_ptr;
-    task.bf      = bf_ptr;
-    task.dbfx    = dbfx_ptr;
-    task.dbfy    = dbfy_ptr;
-    task.dbfz    = dbfz_ptr;
-    task.den     = den_ptr;
-    task.ddenx   = ddenx_ptr;
-    task.ddeny   = ddeny_ptr;
-    task.ddenz   = ddenz_ptr;
-
-    task.eps    = eps_ptr;
-    task.gamma  = gamma_ptr;
-    task.vrho   = vrho_ptr;
-    task.vgamma = vgamma_ptr;
-
-    task.dist_scratch      = dist_scratch_ptr;
-
-    auto npts    = task.npts;
-    auto nbe     = task.nbe;
-    auto nshells = task.nshells;
-    auto ncut    = task.ncut;
-    auto nblock  = task.nblock;
-
-    points_ptr     += 3 * npts;
-    weights_ptr    += npts;
-    shell_list_ptr += nshells;
-    shell_offs_ptr += nshells;
-    submat_cut_ptr += 3 * ncut;
-    submat_block_ptr += nblock;
-    
-    shells_ptr += nshells;
-    nbe_ptr    += nbe * nbe;
-    zmat_ptr   += nbe * npts;
-
-    bf_ptr     += nbe * npts;
-    dbfx_ptr   += nbe * npts;
-    dbfy_ptr   += nbe * npts;
-    dbfz_ptr   += nbe * npts;
-
-    den_ptr    += npts;
-    ddenx_ptr  += npts;
-    ddeny_ptr  += npts;
-    ddenz_ptr  += npts;
-
-    eps_ptr    += npts;
-    gamma_ptr  += npts;
-    vrho_ptr   += npts;
-    vgamma_ptr += npts;
-
-    dist_scratch_ptr += LDatoms * npts;
-
-
-
-    // Batched LA
-    dmat_array.emplace_back( task.nbe_scr );
-    bf_array.emplace_back(   task.bf      );
-    zmat_array.emplace_back( task.zmat    );
-  }
-
-  } // End task setup
-
-
-
-
-  auto copy_rev = [&]( size_t n, const auto* src, auto* dest, cudaStream_t stream,
-                       std::string m ) {
-    util::cuda_copy_async( n, dest, src, stream, m );
-  };
-
-
-
-  try {
-
-  // Send the data to the device
-  copy_rev( 3*points_pack.size(), points_pack.data()->data(), 
-                         points_device_buffer, *master_stream, 
-                         "send points buffer" ); 
-  copy_rev( weights_pack.size(), weights_pack.data(), 
-                         weights_device_buffer, *master_stream, 
-                         "send weights buffer" ); 
-
-  copy_rev( shell_list_pack.size(), shell_list_pack.data(), 
-                          shell_list_device_buffer, *master_stream, 
-                          "send_shell_list_buffer" );
-  copy_rev( shell_offs_pack.size(), shell_offs_pack.data(), 
-                         shell_offs_device_buffer, *master_stream, 
-                         "send_shell_offs_buffer" );
-//  std::cout << "Element size " << sizeof(std::get<0>(submat_cut_pack[0]) << std::endl;
-  copy_rev( 3 * submat_cut_pack.size(), submat_cut_pack.data()->data(), 
-                         submat_cut_device_buffer, *master_stream, 
-                         "send_submat_cut_buffer"  ); 
-  copy_rev( submat_block_pack.size(), submat_block_pack.data(), 
-                         submat_block_device_buffer, *master_stream, 
-                         "send_submat_block_buffer"  ); 
-
-  copy_rev( tasks_device.size(), tasks_device.data(), device_tasks, 
-                          *master_stream, "send_tasks_device" );
-
-
-  copy_rev( dmat_array.size(), dmat_array.data(), dmat_array_device, 
-                         *master_stream, "send dmat_array" );
-  copy_rev( zmat_array.size(), zmat_array.data(), zmat_array_device, 
-                         *master_stream, "send zmat_array" );
-  copy_rev( bf_array.size(), bf_array.data(), bf_array_device, 
-                         *master_stream, "send bf_array" );
-
-  copy_rev( m_array.size(), m_array.data(), m_array_device, 
-                         *master_stream, "send m_array" );
-  copy_rev( n_array.size(), n_array.data(), n_array_device, 
-                         *master_stream, "send n_array" );
-  copy_rev( k_array.size(), k_array.data(), k_array_device, 
-                         *master_stream, "send k_array" );
-
-  copy_rev( lda_array.size(), lda_array.data(), lda_array_device, 
-                         *master_stream, "send lda_array" );
-  copy_rev( ldb_array.size(), ldb_array.data(), ldb_array_device, 
-                         *master_stream, "send ldb_array" );
-  copy_rev( ldc_array.size(), ldc_array.data(), ldc_array_device, 
-                         *master_stream, "send ldc_array" );
-
-  copy_rev( iparent_pack.size(), iparent_pack.data(), 
-                         iparent_device_buffer, *master_stream, "send iparent"  );
-  copy_rev( dist_nearest_pack.size(), dist_nearest_pack.data(), 
-                         dist_nearest_buffer, *master_stream, "send dist_nearest" );
-
-  } catch(...) {
-    //teardown_();  throw;
-    throw;
-  }
-
-
-  // To avoid packed vectors going out of scope
-  cudaStreamSynchronize( *master_stream );
-
-  return std::make_tuple(task_it, tasks_device);
-}
-
-
-// Explicit Instantiations
-template class XCCudaData<double>;
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/cuda/xc_cuda_data.hpp b/third_party/gauxc/attic/src/new_integrator/device/cuda/xc_cuda_data.hpp
deleted file mode 100644
index 8f717c5..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/cuda/xc_cuda_data.hpp
+++ /dev/null
@@ -1,129 +0,0 @@
-#pragma once
-#include <vector>
-#include <cstdint>
-#include <memory>
-#include <gauxc/basisset.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/util/cuda_util.hpp>
-#include <gauxc/util/cublas_util.hpp>
-#include <gauxc/util/magma_util.hpp>
-
-#include "device/xc_device_data.hpp"
-
-#ifdef GAUXC_ENABLE_CUDA
-
-namespace GauXC {
-
-template <typename F>
-class XCCudaData : public XCDeviceData<F> {
-public:
-
-  size_t nshells  = 0;
-  size_t nbf      = 0;
-  size_t n_deriv  = 0;
-  size_t natoms   = 0;
-  size_t LDatoms  = 0;
-
-  bool batch_l3_blas = true;
-  
-  void* device_ptr = nullptr;
-  void* dynmem_ptr = nullptr;
-  size_t devmem_sz = 0;
-  size_t dynmem_sz = 0;
-   
-  Shell<F>* shells_device             = nullptr;
-  Shell<F>* important_shells_device   = nullptr;
-
-  F*      vxc_device        = nullptr;
-  F*      nbe_scr_device    = nullptr;
-  F*      dmat_device       = nullptr;
-  F*      zmat_device       = nullptr;
-  F*      bf_eval_device    = nullptr;
-
-  F*      dbf_x_eval_device = nullptr;
-  F*      dbf_y_eval_device = nullptr;
-  F*      dbf_z_eval_device = nullptr;
-
-  F*      den_eval_device   = nullptr;
-  F*      den_x_eval_device = nullptr;
-  F*      den_y_eval_device = nullptr;
-  F*      den_z_eval_device = nullptr;
-  F*      eps_eval_device   = nullptr;
-  F*      gamma_eval_device = nullptr;
-
-  F*      vrho_eval_device    = nullptr;
-  F*      vgamma_eval_device  = nullptr;
-
-
-  F*     exc_device = nullptr;
-  F*     nel_device = nullptr;
-  F*     acc_scr_device = nullptr;
-
-  F*     rab_device    = nullptr;
-  F*     coords_device = nullptr;
-
-  F**    dmat_array_device = nullptr;
-  F**    zmat_array_device = nullptr;
-  F**    bf_array_device   = nullptr;
-
-  int*        m_array_device   = nullptr;
-  int*        n_array_device   = nullptr;
-  int*        k_array_device   = nullptr;
-  int*        lda_array_device = nullptr;
-  int*        ldb_array_device = nullptr;
-  int*        ldc_array_device = nullptr;
-
-  F*     dist_scratch_device = nullptr;
-
-  // Buffer Vars
-  F*           points_device_buffer     = nullptr;
-  F*           weights_device_buffer    = nullptr;
-  size_t*      shell_list_device_buffer = nullptr;
-  size_t*      shell_offs_device_buffer = nullptr;
-  int32_t*     submat_cut_device_buffer = nullptr;
-  int32_t*     submat_block_device_buffer = nullptr;
-  int32_t*     iparent_device_buffer    = nullptr;
-  F*           dist_nearest_buffer      = nullptr;
-
-  cuda::XCTaskDevice<F>* device_tasks  = nullptr;
-
-  // Execution management
-  std::unique_ptr<util::cuda_stream>   master_stream      = nullptr;
-  std::unique_ptr<util::cublas_handle> master_handle      = nullptr;
-
-#ifdef GAUXC_ENABLE_MAGMA
-  std::unique_ptr<util::magma_queue>   master_magma_queue = nullptr;
-#endif
-
-  std::vector<util::cuda_stream>       blas_streams;
-  std::vector<util::cublas_handle>     blas_handles;
-
-  XCCudaData( bool _batch_l3_blas = true );
-
-  ~XCCudaData() noexcept;
-  XCCudaData( const XCCudaData& )          = delete;
-  XCCudaData( XCCudaData&&      ) noexcept = delete;
-
-
-  using task_iterator = std::vector< XCTask >::iterator;
-  using device_task_container = std::vector< cuda::XCTaskDevice<F> >;
-
-
-  void allocate_static_data( size_t _natoms,
-                             size_t _n_deriv, 
-                             size_t _nbf,
-                             size_t _nshells ) override;
-
-
-  std::tuple< task_iterator, device_task_container >
-    generate_buffers( const BasisSet<F>& basis,
-                      task_iterator      task_begin,
-                      task_iterator      task_end    );
- 
-};
-
-}
-
-#endif
diff --git a/third_party/gauxc/attic/src/new_integrator/device/gauxc-device.cmake b/third_party/gauxc/attic/src/new_integrator/device/gauxc-device.cmake
deleted file mode 100644
index fd0219e..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/gauxc-device.cmake
+++ /dev/null
@@ -1,17 +0,0 @@
-target_sources( gauxc PRIVATE 
-  # Drivers
-  device/local_work_replicated_shellbatched_exc_vxc.cxx
-
-  # Interfaces
-  device/incore_xc_device_integrator.cxx
-  device/shellbatched_xc_device_integrator.cxx
-)
-
-if( GAUXC_ENABLE_CUDA )
-  include( device/cuda/gauxc-cuda.cmake )
-endif()
-
-
-if( GAUXC_ENABLE_HIP )
-  include( device/hip/gauxc-hip.cmake )
-endif()
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_angular_cartesian.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_angular_cartesian.hpp
deleted file mode 100644
index 5411d7b..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_angular_cartesian.hpp
+++ /dev/null
@@ -1,308 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x;
-  eval[npts * 1] = bf*y;
-  eval[npts * 2] = bf*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf + bf_x*x;
-  eval_x[npts * 1] = bf_x*y;
-  eval_x[npts * 2] = bf_x*z;
-
-  eval_y[npts * 0] = bf_y*x;
-  eval_y[npts * 1] = bf + bf_y*y;
-  eval_y[npts * 2] = bf_y*z;
-
-  eval_z[npts * 0] = bf_z*x;
-  eval_z[npts * 1] = bf_z*y;
-  eval_z[npts * 2] = bf + bf_z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x;
-  eval[npts * 1] = bf*x*y;
-  eval[npts * 2] = bf*x*z;
-  eval[npts * 3] = bf*y*y;
-  eval[npts * 4] = bf*y*z;
-  eval[npts * 5] = bf*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*(2*bf + bf_x*x);
-  eval_x[npts * 1] = y*(bf + bf_x*x);
-  eval_x[npts * 2] = z*(bf + bf_x*x);
-  eval_x[npts * 3] = bf_x*y*y;
-  eval_x[npts * 4] = bf_x*y*z;
-  eval_x[npts * 5] = bf_x*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x;
-  eval_y[npts * 1] = x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*z;
-  eval_y[npts * 3] = y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x;
-  eval_z[npts * 1] = bf_z*x*y;
-  eval_z[npts * 2] = x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*y*y;
-  eval_z[npts * 4] = y*(bf + bf_z*z);
-  eval_z[npts * 5] = z*(2*bf + bf_z*z);
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x*x;
-  eval[npts * 1] = bf*x*x*y;
-  eval[npts * 2] = bf*x*x*z;
-  eval[npts * 3] = bf*x*y*y;
-  eval[npts * 4] = bf*x*y*z;
-  eval[npts * 5] = bf*x*z*z;
-  eval[npts * 6] = bf*y*y*y;
-  eval[npts * 7] = bf*y*y*z;
-  eval[npts * 8] = bf*y*z*z;
-  eval[npts * 9] = bf*z*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*x*(3*bf + bf_x*x);
-  eval_x[npts * 1] = x*y*(2*bf + bf_x*x);
-  eval_x[npts * 2] = x*z*(2*bf + bf_x*x);
-  eval_x[npts * 3] = y*y*(bf + bf_x*x);
-  eval_x[npts * 4] = y*z*(bf + bf_x*x);
-  eval_x[npts * 5] = z*z*(bf + bf_x*x);
-  eval_x[npts * 6] = bf_x*y*y*y;
-  eval_x[npts * 7] = bf_x*y*y*z;
-  eval_x[npts * 8] = bf_x*y*z*z;
-  eval_x[npts * 9] = bf_x*z*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x*x;
-  eval_y[npts * 1] = x*x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*x*z;
-  eval_y[npts * 3] = x*y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = x*z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*x*z*z;
-  eval_y[npts * 6] = y*y*(3*bf + bf_y*y);
-  eval_y[npts * 7] = y*z*(2*bf + bf_y*y);
-  eval_y[npts * 8] = z*z*(bf + bf_y*y);
-  eval_y[npts * 9] = bf_y*z*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x*x;
-  eval_z[npts * 1] = bf_z*x*x*y;
-  eval_z[npts * 2] = x*x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*x*y*y;
-  eval_z[npts * 4] = x*y*(bf + bf_z*z);
-  eval_z[npts * 5] = x*z*(2*bf + bf_z*z);
-  eval_z[npts * 6] = bf_z*y*y*y;
-  eval_z[npts * 7] = y*y*(bf + bf_z*z);
-  eval_z[npts * 8] = y*z*(2*bf + bf_z*z);
-  eval_z[npts * 9] = z*z*(3*bf + bf_z*z);
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular_deriv1
-
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_angular_spherical_unnorm.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_angular_spherical_unnorm.hpp
deleted file mode 100644
index 0c0c286..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_angular_spherical_unnorm.hpp
+++ /dev/null
@@ -1,292 +0,0 @@
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*y;
-  eval[npts * 1] = bf*z;
-  eval[npts * 2] = bf*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x*y;
-  eval_x[npts * 1] = bf_x*z;
-  eval_x[npts * 2] = bf + bf_x*x;
-
-  eval_y[npts * 0] = bf + bf_y*y;
-  eval_y[npts * 1] = bf_y*z;
-  eval_y[npts * 2] = bf_y*x;
-
-  eval_z[npts * 0] = bf_z*y;
-  eval_z[npts * 1] = bf + bf_z*z;
-  eval_z[npts * 2] = bf_z*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_3*bf*x*y;
-  eval[npts * 1] = sqrt_3*bf*y*z;
-  eval[npts * 2] = bf*(-x*x - y*y + 2*z*z)/2;
-  eval[npts * 3] = sqrt_3*bf*x*z;
-  eval[npts * 4] = sqrt_3*bf*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_3*y*(bf + bf_x*x);
-  eval_x[npts * 1] = sqrt_3*bf_x*y*z;
-  eval_x[npts * 2] = -bf*x - bf_x*(x*x + y*y - 2*z*z)/2;
-  eval_x[npts * 3] = sqrt_3*z*(bf + bf_x*x);
-  eval_x[npts * 4] = sqrt_3*(bf*x + bf_x*(x*x - y*y)/2);
-
-  eval_y[npts * 0] = sqrt_3*x*(bf + bf_y*y);
-  eval_y[npts * 1] = sqrt_3*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -bf*y - bf_y*(x*x + y*y - 2*z*z)/2;
-  eval_y[npts * 3] = sqrt_3*bf_y*x*z;
-  eval_y[npts * 4] = sqrt_3*(-bf*y + bf_y*(x*x - y*y)/2);
-
-  eval_z[npts * 0] = sqrt_3*bf_z*x*y;
-  eval_z[npts * 1] = sqrt_3*y*(bf + bf_z*z);
-  eval_z[npts * 2] = 2*bf*z - bf_z*(x*x + y*y - 2*z*z)/2;
-  eval_z[npts * 3] = sqrt_3*x*(bf + bf_z*z);
-  eval_z[npts * 4] = sqrt_3*bf_z*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_10*bf*y*(3*x*x - y*y)/4;
-  eval[npts * 1] = sqrt_15*bf*x*y*z;
-  eval[npts * 2] = sqrt_6*bf*y*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 3] = bf*z*(-3*x*x - 3*y*y + 2*z*z)/2;
-  eval[npts * 4] = sqrt_6*bf*x*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 5] = sqrt_15*bf*z*(x*x - y*y)/2;
-  eval[npts * 6] = sqrt_10*bf*x*(x*x - 3*y*y)/4;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_10*y*(6*bf*x + bf_x*(3*x*x - y*y))/4;
-  eval_x[npts * 1] = sqrt_15*y*z*(bf + bf_x*x);
-  eval_x[npts * 2] = -sqrt_6*y*(2*bf*x + bf_x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 3] = -z*(6*bf*x + bf_x*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_x[npts * 4] = -sqrt_6*(bf*(3*x*x + y*y - 4*z*z) + bf_x*x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 5] = sqrt_15*z*(2*bf*x + bf_x*(x*x - y*y))/2;
-  eval_x[npts * 6] = sqrt_10*(3*bf*(x*x - y*y) + bf_x*x*(x*x - 3*y*y))/4;
-
-  eval_y[npts * 0] = sqrt_10*(-3*bf*(-x*x + y*y) + bf_y*y*(3*x*x - y*y))/4;
-  eval_y[npts * 1] = sqrt_15*x*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -sqrt_6*(bf*(x*x + 3*y*y - 4*z*z) + bf_y*y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 3] = -z*(6*bf*y + bf_y*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_y[npts * 4] = -sqrt_6*x*(2*bf*y + bf_y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 5] = sqrt_15*z*(-2*bf*y + bf_y*(x*x - y*y))/2;
-  eval_y[npts * 6] = sqrt_10*x*(-6*bf*y + bf_y*(x*x - 3*y*y))/4;
-
-  eval_z[npts * 0] = sqrt_10*bf_z*y*(3*x*x - y*y)/4;
-  eval_z[npts * 1] = sqrt_15*x*y*(bf + bf_z*z);
-  eval_z[npts * 2] = sqrt_6*y*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 3] = -3*bf*(x*x + y*y - 2*z*z)/2 - bf_z*z*(3*x*x + 3*y*y - 2*z*z)/2;
-  eval_z[npts * 4] = sqrt_6*x*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 5] = sqrt_15*(bf + bf_z*z)*(x*x - y*y)/2;
-  eval_z[npts * 6] = sqrt_10*bf_z*x*(x*x - 3*y*y)/4;
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular_deriv1
-
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_device_constants.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_device_constants.hpp
deleted file mode 100644
index a8e43f9..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_device_constants.hpp
+++ /dev/null
@@ -1,14 +0,0 @@
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-  constexpr double sqrt_15 = 3.872983346207417;
-  constexpr double sqrt_3 = 1.7320508075688772;
-  constexpr double sqrt_6 = 2.449489742783178;
-  constexpr double sqrt_10 = 3.1622776601683795;
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_radial.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_radial.hpp
deleted file mode 100644
index 4ed152c..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation/collocation_radial.hpp
+++ /dev/null
@@ -1,97 +0,0 @@
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-__inline__ __device__ void collocation_device_radial_eval(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  for( uint32_t i = 0; i < nprim; ++i )
-    tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-  *eval_device = tmp;
-
-}
-
-
-
-__inline__ __device__ void collocation_device_radial_eval_deriv1(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device,
-  double*        deval_device_x,
-  double*        deval_device_y,
-  double*        deval_device_z
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-  for( uint32_t i = 0; i < nprim; ++i ) {
-
-    const double a = alpha[i];
-    const double e = coeff[i] * std::exp( - a * rsq );
-
-    const double ae = 2. * a * e;
-
-    tmp   += e;
-    tmp_x -= ae * xc;
-    tmp_y -= ae * yc;
-    tmp_z -= ae * zc;
-
-  }
-
-  *eval_device    = tmp;
-  *deval_device_x = tmp_x;
-  *deval_device_y = tmp_y;
-  *deval_device_z = tmp_z;
-
-}
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
-
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_device.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_device.hip
deleted file mode 100644
index 43d210a..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_device.hip
+++ /dev/null
@@ -1,367 +0,0 @@
-#include "hip/hip_runtime.h"
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/util/hip_util.hpp>
-#include "exceptions/hip_exception.hpp"
-#include <gauxc/xc_task.hpp>
-
-#include "collocation_petite_kernels.hpp"
-#include "collocation_masked_kernels.hpp"
-#include "collocation_petite_combined_kernels.hpp"
-#include "collocation_masked_combined_kernels.hpp"
-
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-void eval_collocation_petite(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  hipStream_t    stream
-) {
-
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_petite_kernel<T>), dim3(blocks), dim3(threads), 0, stream,  nshells, nbf, npts, shells_device, offs_device,
-      pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_petite(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  hipStream_t         stream
-);
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  hipStream_t    stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_kernel<T>), dim3(blocks), dim3(threads), 0, stream,  nshells, nbf, npts, shells_device, mask_device,
-      offs_device, pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_masked(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  hipStream_t         stream
-);
-
-
-
-
-template <typename T>
-void eval_collocation_petite_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_petite_combined_kernel<T>), dim3(blocks), dim3(threads), 0, stream,  ntasks, device_tasks );
-     
-}
-
-template
-void eval_collocation_petite_combined(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  XCTaskDevice<double>* device_tasks,
-  hipStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_combined_kernel<T>), dim3(blocks), dim3(threads), 0, stream,  ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCTaskDevice<double>* device_tasks,
-  hipStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_petite_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  hipStream_t    stream
-) {
-
-  auto nmax_threads = util::hip_kernel_max_threads_per_block( 
-    collocation_device_petite_kernel_deriv1<T>
-  );
-
-  dim3 threads(warp_size, nmax_threads/warp_size, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_petite_kernel_deriv1<T>), dim3(blocks), dim3(threads), 0, stream,  nshells, nbf, npts, shells_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_petite_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  hipStream_t         stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  hipStream_t    stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_kernel_deriv1<T>), dim3(blocks), dim3(threads), 0, stream,  nshells, nbf, npts, shells_device, mask_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_masked_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  hipStream_t         stream
-);
-
-
-
-
-template <typename T>
-void eval_collocation_petite_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_petite_combined_kernel_deriv1<T>), dim3(blocks), dim3(threads), 0, stream,  ntasks, device_tasks );
-     
-}
-
-template
-void eval_collocation_petite_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  XCTaskDevice<double>* device_tasks,
-  hipStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-) {
-
-  auto nmax_threads = util::hip_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel_deriv1<T>
-  );
-
-  dim3 threads(warp_size, 4, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_combined_kernel_deriv1<T>), dim3(blocks), dim3(threads), 0, stream,  ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCTaskDevice<double>* device_tasks,
-  hipStream_t          stream
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_device.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_device.hpp
deleted file mode 100644
index f599c5d..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_device.hpp
+++ /dev/null
@@ -1,109 +0,0 @@
-#pragma once
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-void eval_collocation_petite(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  hipStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_masked(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  hipStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_petite_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  hipStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  hipStream_t    stream
-);
-
-template <typename T>
-void eval_collocation_petite_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-);
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-);
-
-
-
-template <typename T>
-void eval_collocation_petite_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-);
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t           ntasks,
-  size_t           npts_max,
-  size_t           nshells_max,
-  Shell<T>*        shells_device,
-  XCTaskDevice<T>* device_tasks,
-  hipStream_t     stream
-);
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_masked_combined_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_masked_combined_kernels.hpp
deleted file mode 100644
index ff0e3a0..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_masked_combined_kernels.hpp
+++ /dev/null
@@ -1,186 +0,0 @@
-#include "hip/hip_runtime.h"
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "device/hip/collocation/collocation_angular_cartesian.hpp"
-#include "device/hip/collocation/collocation_angular_spherical_unnorm.hpp"
-#include "device/hip/hip_alg_variant_control.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_masked_combined_kernel(
-  size_t                        ntasks,
-  Shell<T>*        __restrict__ shells_device,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.nshells;
-    const auto               nbf         = task.nbe;
-    const auto               npts        = task.npts;
-    const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const uint32_t ipt = tid_x;
-    const uint32_t ish = tid_y;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( uint32_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_masked_combined_kernel_deriv1(
-  size_t                        ntasks,
-  Shell<T>*        __restrict__ shells_device,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  // DBWY: These are factored into the loop for this optimization
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.nshells;
-    const auto               nbf         = task.nbe;
-    const auto               npts        = task.npts;
-    const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-  if( tid_y < nshells and tid_x < npts ) {
-
-    const uint32_t ish = tid_y;
-    const uint32_t ipt = tid_x;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( uint32_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-  } // Batch idx check
-
-
-}
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_masked_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_masked_kernels.hpp
deleted file mode 100644
index 0105571..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_masked_kernels.hpp
+++ /dev/null
@@ -1,158 +0,0 @@
-#include "hip/hip_runtime.h"
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/hip/collocation/collocation_angular_cartesian.hpp"
-#include "device/hip/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_masked_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_masked_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_petite_combined_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_petite_combined_kernels.hpp
deleted file mode 100644
index bcf2d25..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_petite_combined_kernels.hpp
+++ /dev/null
@@ -1,189 +0,0 @@
-#include "hip/hip_runtime.h"
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "device/hip/collocation/collocation_angular_cartesian.hpp"
-#include "device/hip/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_petite_combined_kernel(
-  size_t                        ntasks,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-  
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-    auto& task = device_tasks[ batch_id ];
-  
-    const auto nshells                     = task.nshells;
-    const auto nbf                         = task.nbe;
-    const auto npts                        = task.npts;
-    const auto* __restrict__ shells_device = task.shells;
-    const auto* __restrict__ pts_device    = task.points;
-    const auto* __restrict__ offs_device   = task.shell_offs;
-
-    auto* eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_petite_combined_kernel_deriv1(
-  size_t                        ntasks,
-  XCTaskDevice<T>* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-    auto& task = device_tasks[ batch_id ];
-  
-    const auto nshells                     = task.nshells;
-    const auto nbf                         = task.nbe;
-    const auto npts                        = task.npts;
-    const auto* __restrict__ shells_device = task.shells;
-    const auto* __restrict__ pts_device    = task.points;
-    const auto* __restrict__ offs_device   = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-
-}
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_petite_kernels.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_petite_kernels.hpp
deleted file mode 100644
index bd3bb80..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/collocation_petite_kernels.hpp
+++ /dev/null
@@ -1,163 +0,0 @@
-#include "hip/hip_runtime.h"
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/hip/collocation/collocation_angular_cartesian.hpp"
-#include "device/hip/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_petite_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-__launch_bounds__(1024,1)
-void collocation_device_petite_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace hip
-} // namespace integrator
-} // namespace GauXC
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/gauxc-hip.cmake b/third_party/gauxc/attic/src/new_integrator/device/hip/gauxc-hip.cmake
deleted file mode 100644
index 04ed400..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/gauxc-hip.cmake
+++ /dev/null
@@ -1,43 +0,0 @@
-find_package( hipblas REQUIRED )
-#include( gauxc-cub )
-
-target_sources( gauxc PRIVATE 
-  # Common HIP Utilities
-  device/hip/collocation_device.hip
-  device/hip/xc_hip_data.cxx
-  device/hip/hip_weights.hip
-  device/hip/hip_pack_density.hip
-  device/hip/hip_eval_denvars.hip
-  device/hip/hipblas_extensions.hip
-  device/hip/hip_inc_potential.hip
-  device/hip/hip_device_properties.cxx
-
-  # XC Specific
-  device/hip/hip_zmat.hip
-
-  # Drivers
-  device/hip/local_work_replicated_incore_exc_vxc.cxx
-
-)
-
-#target_compile_features( gauxc PRIVATE hip_std_14 )
-#target_compile_options( gauxc
-#  PRIVATE
-#    $<$<COMPILE_LANGUAGE:HIP>: -Xhipfe --diag_suppress=partial_override -Xptxas -v > 
-#)
-
-
-if( GAUXC_ENABLE_MAGMA )
-
-  message( STATUS "MAGMA Has Been Enabled" )
-  find_package( MAGMA REQUIRED )
-  target_link_libraries( gauxc PUBLIC MAGMA::magma )
-
-else()
-
-  message( STATUS "MAGMA Has Been Explicitly Disabled" )
-
-endif()
-
-target_link_libraries( gauxc PUBLIC roc::hipblas )
-#target_link_libraries( gauxc PRIVATE $<BUILD_INTERFACE:gauxc_cub> )
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_alg_variant_control.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_alg_variant_control.hpp
deleted file mode 100644
index 6b97465..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_alg_variant_control.hpp
+++ /dev/null
@@ -1,4 +0,0 @@
-#pragma once
-
-//#define GAUXC_HIP_ENABLE_COLLOCATION_SHMEM_COPY
-//#define GAUXC_HIP_ENABLE_COMPACT_COLLOCATION
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_device_properties.cxx b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_device_properties.cxx
deleted file mode 100644
index 9789e70..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_device_properties.cxx
+++ /dev/null
@@ -1,33 +0,0 @@
-#include <cmath>
-#include <algorithm>
-
-#include "hip_runtime.h"
-
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC {
-namespace hip  {
-
-
-uint32_t get_submat_cut_block(int32_t LDA, int32_t device) {
-  int l2_cache_size;
-  hipDeviceGetAttribute(&l2_cache_size, hipDevAttrL2CacheSize, device);
-
-  int l2_block_size = (int) sqrt(0.75 * ((double) l2_cache_size / 8));
-  int min_block_size = LDA / max_submat_blocks;
-
-  int block_size = std::max(l2_block_size, min_block_size);
-  block_size = std::min(block_size, LDA);
-
-  return block_size;
-}
-
-uint32_t get_device_sm_count(int32_t device) {
-  int num_sm;
-  hipDeviceGetAttribute(&num_sm, hipDevAttrMultiProcessorCount, device);
-
-  return num_sm;
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_device_properties.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_device_properties.hip
deleted file mode 100644
index 3cb9caf..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_device_properties.hip
+++ /dev/null
@@ -1,33 +0,0 @@
-#include <cmath>
-#include <algorithm>
-
-#include "hip/hip_runtime.h"
-
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC {
-namespace hip  {
-
-
-uint32_t get_submat_cut_block(int32_t LDA, int32_t device) {
-  int l2_cache_size;
-  hipDeviceGetAttribute(&l2_cache_size, hipDeviceAttributeL2CacheSize, device);
-
-  int l2_block_size = (int) sqrt(0.75 * ((double) l2_cache_size / 8));
-  int min_block_size = LDA / max_submat_blocks;
-
-  int block_size = std::max(l2_block_size, min_block_size);
-  block_size = std::min(block_size, LDA);
-
-  return block_size;
-}
-
-uint32_t get_device_sm_count(int32_t device) {
-  int num_sm;
-  hipDeviceGetAttribute(&num_sm, hipDeviceAttributeMultiprocessorCount, device);
-
-  return num_sm;
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_eval_denvars.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_eval_denvars.hip
deleted file mode 100644
index 968e922..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_eval_denvars.hip
+++ /dev/null
@@ -1,283 +0,0 @@
-#include "hip/hip_runtime.h"
-#include "hip_eval_denvars.hpp"
-#include "hip_extensions.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "hip_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-using namespace GauXC::hip;
-
-template <typename T>
-__global__ void eval_uvars_lda_kernel( size_t           ntasks,
-                                       XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-
-  auto* den_eval_device   = task.den;
-
-  const auto* basis_eval_device = task.bf;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  double den_reg = 0.;
-
-  if( tid_x < nbf and tid_y < npts ) {
-
-    const double* bf_col   = basis_eval_device     + tid_x*npts;
-    const double* db_col   = den_basis_prod_device + tid_x*npts;
-
-    den_reg = bf_col[ tid_y ]   * db_col[ tid_y ];
-
-  }
-
-  // Warp blocks are stored col major
-  den_reg = 2 * warpReduceSum( den_reg );
-
-
-  if( threadIdx.x == 0 and tid_y < npts ) {
-    atomicAdd( den_eval_device   + tid_y, den_reg );
-  }
-  
-
-}
-
-template <typename T>
-__global__ void eval_uvars_gga_kernel( size_t           ntasks,
-                                       XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-
-  auto* den_eval_device   = task.den;
-  auto* den_x_eval_device = task.ddenx;
-  auto* den_y_eval_device = task.ddeny;
-  auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-
-  for( int  ipt = blockIdx.y * blockDim.y + threadIdx.y;
-            ipt < npts;
-	    ipt += blockDim.y * gridDim.y ) {
-
-    double den = 0.;
-    double dx  = 0.;
-    double dy  = 0.;
-    double dz  = 0.;
-    
-    for( int ibf_st = 0; ibf_st < nbf; ibf_st += warp_size ) {
-
-      double den_reg = 0.;
-      double dx_reg  = 0.;
-      double dy_reg  = 0.;
-      double dz_reg  = 0.;
-
-      int ibf = ibf_st + threadIdx.x;
-      if( ibf < nbf ) {
-        const double* bf_col   = basis_eval_device     + ibf*npts;
-        const double* bf_x_col = dbasis_x_eval_device  + ibf*npts;
-        const double* bf_y_col = dbasis_y_eval_device  + ibf*npts;
-        const double* bf_z_col = dbasis_z_eval_device  + ibf*npts;
-        const double* db_col   = den_basis_prod_device + ibf*npts;
-
-        den_reg = bf_col[ ipt ]   * db_col[ ipt ];
-        dx_reg  = bf_x_col[ ipt ] * db_col[ ipt ];
-        dy_reg  = bf_y_col[ ipt ] * db_col[ ipt ];
-        dz_reg  = bf_z_col[ ipt ] * db_col[ ipt ];
-      }
-
-      den += 2 * warpReduceSum( den_reg );
-      dx  += 4 * warpReduceSum( dx_reg );
-      dy  += 4 * warpReduceSum( dy_reg );
-      dz  += 4 * warpReduceSum( dz_reg );
-      
-    }
-
-    if( threadIdx.x == 0 ) {
-      den_eval_device   [ipt] = den;
-      den_x_eval_device [ipt] = dx ;
-      den_y_eval_device [ipt] = dy ;
-      den_z_eval_device [ipt] = dz ;
-    }
-    //__sync_warp();
-
-  }
-
-
-/*
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  double den_reg = 0.;
-  double dx_reg  = 0.;
-  double dy_reg  = 0.;
-  double dz_reg  = 0.;
-
-  if( tid_x < nbf and tid_y < npts ) {
-
-    const double* bf_col   = basis_eval_device     + tid_x*npts;
-    const double* bf_x_col = dbasis_x_eval_device  + tid_x*npts;
-    const double* bf_y_col = dbasis_y_eval_device  + tid_x*npts;
-    const double* bf_z_col = dbasis_z_eval_device  + tid_x*npts;
-    const double* db_col   = den_basis_prod_device + tid_x*npts;
-
-    den_reg = bf_col[ tid_y ]   * db_col[ tid_y ];
-    dx_reg  = bf_x_col[ tid_y ] * db_col[ tid_y ];
-    dy_reg  = bf_y_col[ tid_y ] * db_col[ tid_y ];
-    dz_reg  = bf_z_col[ tid_y ] * db_col[ tid_y ];
-
-  }
-
-  // Warp blocks are stored col major
-  den_reg = 2 * warpReduceSum( den_reg );
-  dx_reg  = 4 * warpReduceSum( dx_reg );
-  dy_reg  = 4 * warpReduceSum( dy_reg );
-  dz_reg  = 4 * warpReduceSum( dz_reg );
-
-
-  if( threadIdx.x == 0 and tid_y < npts ) {
-    atomicAdd( den_eval_device   + tid_y, den_reg );
-    atomicAdd( den_x_eval_device + tid_y, dx_reg  );
-    atomicAdd( den_y_eval_device + tid_y, dy_reg  );
-    atomicAdd( den_z_eval_device + tid_y, dz_reg  );
-  }
-*/
-  
-
-}
-
-
-template <typename T>
-__global__ void eval_vvars_gga_kernel( 
-  size_t   npts,
-  const T* den_x_eval_device,
-  const T* den_y_eval_device,
-  const T* den_z_eval_device,
-        T* gamma_eval_device
-) {
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-  if( tid < npts ) {
-
-    const double dx = den_x_eval_device[ tid ];
-    const double dy = den_y_eval_device[ tid ];
-    const double dz = den_z_eval_device[ tid ];
-
-    gamma_eval_device[tid] = dx*dx + dy*dy + dz*dz;
-
-  }
-
-}
-
-
-
-
-template <typename T>
-void eval_uvars_lda_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            hipStream_t     stream ) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( max_nbf , threads.x ),
-               util::div_ceil( max_npts , threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(eval_uvars_lda_kernel, dim3(blocks), dim3(threads), 0, stream ,  ntasks, tasks_device );
-
-}
-
-template <typename T>
-void eval_uvars_gga_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            hipStream_t     stream ) {
-
-  dim3 threads(warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( 1, 8, ntasks );
-
-  hipLaunchKernelGGL(eval_uvars_gga_kernel, dim3(blocks), dim3(threads), 0, stream ,  ntasks, tasks_device );
-
-}
- 
-
-template <typename T>
-void eval_vvars_gga_device( size_t       npts,
-                            const T*     den_x_device,
-                            const T*     den_y_device,
-                            const T*     den_z_device,
-                                  T*     gamma_device,
-                            hipStream_t stream ) {
-
-  dim3 threads( max_threads_per_thread_block );
-  dim3 blocks( util::div_ceil( npts, threads.x ) );
-
-  hipLaunchKernelGGL(eval_vvars_gga_kernel, dim3(blocks), dim3(threads), 0, stream , 
-    npts, den_x_device, den_y_device, den_z_device, gamma_device
-  );
-
-}
-                          
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template
-void eval_uvars_lda_device( size_t                ntasks,
-                            size_t                max_nbf,
-                            size_t                max_npts,
-                            XCTaskDevice<double>* tasks_device,
-                            hipStream_t          stream );
-
-template
-void eval_uvars_gga_device( size_t                ntasks,
-                            size_t                max_nbf,
-                            size_t                max_npts,
-                            XCTaskDevice<double>* tasks_device,
-                            hipStream_t          stream );
-
-template
-void eval_vvars_gga_device( size_t            npts,
-                            const double*     den_x_device,
-                            const double*     den_y_device,
-                            const double*     den_z_device,
-                                  double*     gamma_device,
-                            hipStream_t      stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_eval_denvars.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_eval_denvars.hpp
deleted file mode 100644
index f5e6634..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_eval_denvars.hpp
+++ /dev/null
@@ -1,36 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-void eval_uvars_lda_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            hipStream_t     stream );
-
-template <typename T>
-void eval_uvars_gga_device( size_t           ntasks,
-                            size_t           max_nbf,
-                            size_t           max_npts,
-                            XCTaskDevice<T>* tasks_device,
-                            hipStream_t     stream );
- 
-
-template <typename T>
-void eval_vvars_gga_device( size_t       npts,
-                            const T*     den_x_device,
-                            const T*     den_y_device,
-                            const T*     den_z_device,
-                                  T*     gamma_device,
-                            hipStream_t stream );
-                          
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_extensions.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_extensions.hpp
deleted file mode 100644
index d45ce94..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_extensions.hpp
+++ /dev/null
@@ -1,110 +0,0 @@
-#include "hip/hip_runtime.h"
-#pragma once
-#include <hip/hip_runtime.h>
-#include <hipcub/hipcub.hpp>
-#include "device/hip/hip_device_properties.hpp"
-
-#define GAUXC_ENABLE_WARP_REDUCTIONS
-
-namespace GauXC {
-namespace hip  {
-
-__inline__ __device__
-double warpReduceSum(double val) {
- 
-#ifdef GAUXC_ENABLE_WARP_REDUCTIONS
-
-  for(int i=(warp_size/2); i>=1; i/=2)
-    val += __shfl_xor_sync(0xffffffff, val, i, warp_size);
-
-#else
-
-  using warp_reducer = hipcub::WarpReduce<double>;
-  static __shared__ typename warp_reducer::TempStorage temp_storage[max_warps_per_thread_block];
-  int tid = threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;
-  int warp_lane = tid / warp_size;
-  val = warp_reducer( temp_storage[warp_lane] ).Sum( val );
-
-#endif
-
-  return val;
-}
-
-__inline__ __device__
-double warpReduceProd(double val) {
-  for(int i=(warp_size/2); i>=1; i/=2)
-    val *= __shfl_xor_sync(0xffffffff, val, i, warp_size);
-  return val;
-}
-
-#if 0
-__inline__ __device__
-double blockReduceSum( double val ) {
-
-  static __shared__ double shared[32];
-  int lane = threadIdx.x % 32;
-  int wid  = threadIdx.x / 32;
-
-  val = warpReduceSum( val );
-
-  if( lane == 0 ) shared[wid] = val;
-
-  __syncthreads();
-
-  val = (threadIdx.x < blockDim.x / 32) ? shared[lane] : 0;
-  if( wid == 0 ) val = warpReduceSum( val );
-
-  return val;
-
-}
-
-template <typename T, int warp_size = 32>
-__inline__ __device__ T warp_prod_reduce( T val ) { 
-
-  for( int i = warp_size / 2; i >= 1; i /= 2 )
-    val *= __shfl_xor_sync( 0xffffffff, val, i, warp_size );
-
-  return val;
-
-}
-
-template <typename T, int warp_size = 32 >
-__inline__ __device__ T block_prod_reduce( T val ) {
-
-  static __shared__ T shared[32];
-  const int lane = threadIdx.x % 32;
-  const int wid  = threadIdx.x / 32;
-
-  val = warp_prod_reduce( val );
-
-  if( lane == 0 ) shared[ wid ] = val;
-  __syncthreads();
-
-  val = ( threadIdx.x < blockDim.x / 32 ) ? shared[ lane ] : 0;
-  if( wid == 0 ) val = warp_prod_reduce( val );
-
-  return val;
-
-}
-
-__inline__ __device__ double atomicMul(double* address, double val)
-{
-    unsigned long long int* address_as_ull =
-                              (unsigned long long int*)address;
-    unsigned long long int old = *address_as_ull, assumed;
-
-    do {
-        assumed = old;
-        old = atomicCAS(address_as_ull, assumed,
-                        __double_as_longlong(val *
-                               __longlong_as_double(assumed)));
-
-    // Note: uses integer comparison to avoid hang in case of NaN (since NaN != NaN)
-    } while (assumed != old);
-
-    return __longlong_as_double(old);
-}
-#endif
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_inc_potential.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_inc_potential.hip
deleted file mode 100644
index 51e5ca7..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_inc_potential.hip
+++ /dev/null
@@ -1,124 +0,0 @@
-#include "hip/hip_runtime.h"
-#include "device/hip/hip_inc_potential.hpp"
-#include "device/hip/hip_device_properties.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-
-template <typename T>
-__global__ __launch_bounds__(1024, 1)
-void inc_by_submat_combined_kernel( size_t           ntasks,
-                                    XCTaskDevice<T>* device_tasks,
-                                    T*               A,
-                                    size_t           LDA, 
-				    const int block_y,
-				    const int block_x ) {
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.submat_cut;
-  const auto* submat_block_device = task.submat_block;
-  const auto  LDAS              = task.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ASmall_begin[I + (J+k*WARP_Y)*LDAS];
-          address[k] = ABig_begin + I + (J+k*WARP_Y)*LDA;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          atomicAdd(address[k], val[k] );
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        atomicAdd(ABig_begin + I + J*LDA, ASmall_begin[I + J*LDAS] );
-      }
-    }
-
-  }
-  }
-}
-
-
-template <typename T>
-void task_inc_potential( size_t           ntasks,
-                         XCTaskDevice<T>* device_tasks,
-                         T*               V_device,
-                         size_t           LDV,
-                         hipStream_t     stream ) {
-  dim3 threads(warp_size / 2, max_warps_per_thread_block * 2, 1), blocks(1,1,ntasks);
-
-  const int submat_block_size = get_submat_cut_block(LDV, 0);
-  for (int i = 0; i < util::div_ceil(LDV, submat_block_size); i++) {
-    for (int j = 0; j < util::div_ceil(LDV, submat_block_size); j++) {
-      hipLaunchKernelGGL(inc_by_submat_combined_kernel, dim3(blocks), dim3(threads), 0, stream , 
-        ntasks, device_tasks, V_device, LDV, i, j
-      );
-    }
-  }
-}
-
-template 
-void task_inc_potential( size_t                ntasks,
-                         XCTaskDevice<double>* device_tasks,
-                         double*               V_device,
-                         size_t                LDV,
-                         hipStream_t          stream );
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_inc_potential.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_inc_potential.hpp
deleted file mode 100644
index 508d727..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_inc_potential.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-void task_inc_potential( size_t           ntasks,
-                         XCTaskDevice<T>* device_tasks,
-                         T*               V_device,
-                         size_t           LDV,
-                         hipStream_t     stream );
-                               
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_pack_density.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_pack_density.hip
deleted file mode 100644
index 70fbf05..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_pack_density.hip
+++ /dev/null
@@ -1,128 +0,0 @@
-#include "hip/hip_runtime.h"
-#include "device/hip/hip_pack_density.hpp"
-#include "device/hip/hip_device_properties.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-template <typename T>
-__global__ __launch_bounds__(1024, 1)
-void submat_set_combined_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* device_tasks,
-                                 T*               A,
-                                 size_t           LDA,
-				 const int block_y,
-				 const int block_x) {
-
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.submat_cut;
-  const auto* submat_block_device = task.submat_block;
-  const auto  LDAS              = task.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ABig_begin[I + (J + k*WARP_Y)*LDA];
-          address[k] = ASmall_begin + I + (J + k*WARP_Y) * LDAS;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-	  // Suggest that the result be evicted first.
-#if (HIPRT_VERSION >= 11000)
-	  __stcs(address[k], val[k]);
-#else
-          asm ("st.global.cs.f64 [%0], %1;" :: "l"(address[k]), "d"(val[k]));
-#endif
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        ASmall_begin[I + J*LDAS] = ABig_begin[I + J*LDA];
-      }
-    }
-  }
-  }
-}
-
-
-template <typename T>
-void task_pack_density_matrix( size_t           ntasks,
-                               XCTaskDevice<T>* device_tasks,
-                               T*               P_device,
-                               size_t           LDP,
-                               hipStream_t     stream ) {
-
-  dim3 threads(warp_size / 2, max_warps_per_thread_block * 2, 1), blocks(1,1,ntasks);
-
-  const int submat_block_size = get_submat_cut_block(LDP, 0);
-  for (int i = 0; i < util::div_ceil(LDP, submat_block_size); i++) {
-    for (int j = 0; j < util::div_ceil(LDP, submat_block_size); j++) {
-      hipLaunchKernelGGL(submat_set_combined_kernel, dim3(blocks), dim3(threads), 0, stream , 
-        ntasks, device_tasks, P_device, LDP, i, j
-      );
-    }
-  }
-}
-
-template 
-void task_pack_density_matrix( size_t                ntasks,
-                               XCTaskDevice<double>* device_tasks,
-                               double*               P_device,
-                               size_t                LDP,
-                               hipStream_t          stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_pack_density.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_pack_density.hpp
deleted file mode 100644
index a3466a8..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_pack_density.hpp
+++ /dev/null
@@ -1,19 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-void task_pack_density_matrix( size_t           ntasks,
-                               XCTaskDevice<T>* device_tasks,
-                               T*               P_device,
-                               size_t           LDP,
-                               hipStream_t     stream );
-                               
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_weights.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_weights.hip
deleted file mode 100644
index 9a47d69..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_weights.hip
+++ /dev/null
@@ -1,642 +0,0 @@
-#include "hip/hip_runtime.h"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/hip/hip_weights.hpp"
-#include "common/integrator_constants.hpp"
-#include "device/hip/hip_extensions.hpp"
-#include "device/hip/hip_device_properties.hpp"
-
-constexpr double eps_d = std::numeric_limits<double>::epsilon();
-
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-__global__ void reciprocal_kernel(size_t length, double* vec) {
-   for (int i = threadIdx.x + blockIdx.x * blockDim.x; i < length; i += blockDim.x * gridDim.x) {
-     vec[i] = 1. / vec[i];
-   }
-}
-
-__global__ void compute_point_center_dist(
-        size_t      npts,
-        size_t      LDatoms,
-        size_t      natoms,
-  const double*     coords,
-  const double*     points,
-        double*     dist
-) {
-
-  __shared__ double3 point_buffer[warp_size];
-  double3 coord_reg;
-
-  const int natoms_block = (natoms + warp_size-1) / warp_size;
-  const int coords_block = (npts + warp_size-1) / warp_size;
-
-  const double3* coords_vec = (double3*) coords;
-  const double3* points_vec = (double3*) points;
-
-  for (int j = blockIdx.x; j < natoms_block; j += gridDim.x) {
-    const int iAtom = j * warp_size + threadIdx.x;
-    // Load blocks into registers/shared memory
-    if (iAtom < natoms) {
-      coord_reg = coords_vec[iAtom];
-    }
-    for (int i = blockIdx.y; i < coords_block; i += gridDim.y) {
-      const int iPt_load = i * warp_size + threadIdx.x;
-      if (iPt_load < npts) {
-        point_buffer[threadIdx.x] = points_vec[iPt_load];
-      }
-      __syncthreads();
-
-      // do the computation
-      #pragma unroll 2
-      for (int k = threadIdx.y; k < warp_size; k+=warp_size/2) {
-        const int iPt_sm = k;
-        const int iPt = i * warp_size + iPt_sm;
-        const double rx = point_buffer[iPt_sm].x - coord_reg.x;
-        const double ry = point_buffer[iPt_sm].y - coord_reg.y;
-        const double rz = point_buffer[iPt_sm].z - coord_reg.z;
-
-        if (iAtom < natoms and iPt < npts) {
-          dist[ iAtom + iPt * LDatoms ] = std::sqrt( rx*rx + ry*ry + rz*rz );
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-#if 0
-__global__ void modify_weights_becke_kernel(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-        double*                           weights_device
-) {
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-
-
-  __shared__ double shared[2048]; 
-  for( int ipt = blockIdx.x; ipt < npts; ipt += gridDim.x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    for( int iCenter = threadIdx.y; iCenter < natoms; iCenter += blockDim.y ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natoms; jCenter += blockDim.x ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        const double s  = 0.5 * ( 1. - gBecke( mu ) );
-
-        ps *= (iCenter == jCenter) ? 1. : s ;
-
-      }
-
-      ps = warp_prod_reduce( ps ); // XXX: Assumes blockDim.x == 32
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-
-    // XXX: Assumes blockDim.x == blockDim.y == 32
-    if( threadIdx.x == 0 ) {
-      shared[ threadIdx.y ]        = sum;
-      shared[ threadIdx.y + 1024]  = parent_weight;
-    }
-
-    __syncthreads();
-    sum = shared[ threadIdx.x ];
-    sum = warpReduceSum( sum );
-
-    __syncthreads();
-    parent_weight = shared[ threadIdx.x + 1024];
-    parent_weight = __shfl_sync(0xffffffff, parent_weight, iParent % 32, 32 );
-
-    if( threadIdx.x == 0 and threadIdx.y == 0 )
-      weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-
-
-
-__global__ void modify_weights_ssf_kernel(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-  auto sFrisch = [&] (double x) {
-    const double g = 0.5 * (1. - gFrisch(x));
-    return (x >= magic_ssf_factor<>) ? 0. : (x <= -magic_ssf_factor<>) ? 1. : g;
-  };
-
-  constexpr double weight_tol = 1e-10;
-
-  __shared__ double shared[2048]; 
-  for( int ipt = blockIdx.x; ipt < npts; ipt += gridDim.x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    for( int iCenter = threadIdx.y; iCenter < natoms; iCenter += blockDim.y ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natoms; jCenter += blockDim.x ) 
-      if( fabs(ps) > weight_tol ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        const double s  = sFrisch( mu );
-        ps *= (iCenter == jCenter) ? 1. : s ;
-
-      }
-
-      ps = warp_prod_reduce( ps ); // XXX: Assumes blockDim.x == 32
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-
-    // XXX: Assumes blockDim.x == blockDim.y == 32
-    if( threadIdx.x == 0 ) {
-      shared[ threadIdx.y ]        = sum;
-      shared[ threadIdx.y + 1024]  = parent_weight;
-    }
-
-    __syncthreads();
-    sum = shared[ threadIdx.x ];
-    sum = warpReduceSum( sum );
-
-    __syncthreads();
-    parent_weight = shared[ threadIdx.x + 1024];
-    parent_weight = __shfl_sync(0xffffffff, parent_weight, iParent % 32, 32 );
-
-    if( threadIdx.x == 0 and threadIdx.y == 0 )
-      weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-#endif
-
-// SIMT over points: 1D kernel
-__global__ void modify_weights_ssf_kernel_1d(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-#if 0
-  auto sFrisch = [&] (double x) {
-    const double g = 0.5 * (1. - gFrisch(x));
-    return (x >= magic_ssf_factor<>) ? 0. : (x <= -magic_ssf_factor<>) ? 1. : g;
-  };
-#else
-  auto sFrisch = [&] (double x) {
-    if( fabs(x) < magic_ssf_factor<> ) return 0.5 * (1. - gFrisch(x));
-    else if( x >= magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-  };
-#endif
-
-  constexpr double weight_tol = 1e-10;
-
-  const int tid_x = threadIdx.x + blockIdx.x * blockDim.x;
-  const int nt_x  = blockDim.x  * gridDim.x;
-
-  //__shared__ double shared[2048]; 
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * natoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-#if 0
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( fabs(ps) > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-
-      if( iCenter == iParent ) parent_weight = ps;
-
-      sum += ps;
-
-    }
-#else
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * natoms;
-
-      parent_weight = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( parent_weight > weight_tol ) {
-      if( iParent != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        parent_weight *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += parent_weight;
-
-    }
-
-    if( parent_weight < eps_d ) {
-      weights_device[ipt] = 0.;
-      continue;
-    }
-
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) 
-    if( iParent != iCenter ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( ps > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) / local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += ps;
-
-    }
-
-#endif
-
-    weights_device[ipt] *= parent_weight / sum;
-    
-
-  }
-
-
-}
-
-__device__ __inline__ double gFrisch(double x) {
-  // Frisch partition functions
-//  const double s_x  = x / magic_ssf_factor<>;
-  const double s_x  = x * 1.5625;
-  const double s_x2 = s_x  * s_x;
-  const double s_x3 = s_x  * s_x2;
-  const double s_x5 = s_x3 * s_x2;
-  const double s_x7 = s_x5 * s_x2;
-
-  return ((35.) *(s_x - s_x3) + (21.) *s_x5 - (5.) *s_x7);
-}
-
-
-__device__ __inline__ double sFrisch(double x) {
-    //double frisch_val = (0.5 - (0.5/ 16.0) * gFrisch(x));
-
-    if( fabs(x) < magic_ssf_factor<> ) return (0.5 - (0.5/ 16.0) * gFrisch(x));
-    else if( x >= magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-}
-
-__global__ __launch_bounds__(weight_thread_block, weight_thread_block_per_sm)
-void modify_weights_ssf_kernel_2d(
-        size_t                            npts,
-        size_t                            LDatoms,
-        size_t                            natoms,
-  const double*                           RAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-  constexpr double weight_tol = 1e-10;
-  int natom_block = ((natoms + blockDim.x - 1) / blockDim.x) * blockDim.x;
-
-  const int tid_x = threadIdx.y + blockIdx.y * blockDim.y;
-  const int nt_x  = blockDim.y  * gridDim.y;
-
-  __shared__ int jCounter_sm[max_warps_per_thread_block];
-  int* jCounter = reinterpret_cast<int *>(jCounter_sm) + threadIdx.y;
-
-  // Each warp will work together on a point
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * LDatoms;
-    const double dist_cutoff = 0.5 * (1 - magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * LDatoms;
-
-      parent_weight = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natom_block; jCenter+=blockDim.x ) {
-        double contribution = 1.0;
-        if (jCenter < natoms && iParent != jCenter) {
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-          contribution = sFrisch( mu );
-        }
-        contribution = warpReduceProd(contribution);
-        parent_weight *= contribution;
-
-        if (parent_weight < weight_tol) break;
-      }
-    }
-
-    if( parent_weight < eps_d ) {
-      if (threadIdx.x == 0)
-        weights_device[ipt] = 0.;
-      __syncwarp();
-      continue;
-    }
-
-    // Initialize each counter to 0
-    if (threadIdx.x == 0) {
-      jCounter[0] = 0;
-    }
-    __syncwarp();
-
-    // Each thread will process an iCenter. Atomic operations are used to assign
-    // an iCenter value to each thread.
-    int iCenter = atomicAdd(jCounter, 1);
-    if (iCenter >= iParent) iCenter++; // iCenter == iParent is skipped
-
-    // The entire warp processes the same jCenter value at the same time
-    int jCenter = 0;
-
-    const double* local_rab = RAB + iCenter * LDatoms;
-    double ri = local_dist_scratch[ iCenter ];
-    double ps = 1.;
-    int iCount = 0; 
-    int cont = (iCenter < natoms);
-
-    // We will continue iterating until all of the threads have cont set to 0
-    while (__any_sync(0xffffffff, cont)) {
-      if (cont) {
-        double2 rj[weight_unroll/2];
-        double2 rab_val[weight_unroll/2];
-        double mu[weight_unroll];
-        iCount += weight_unroll;
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          rj[k]      = *((double2*)(local_dist_scratch + jCenter) + k);
-          rab_val[k] = *((double2*)(local_rab          + jCenter) + k); 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          mu[2*k+0] = (ri - rj[k].x) * rab_val[k].x; // XXX: RAB is symmetric
-          mu[2*k+1] = (ri - rj[k].y) * rab_val[k].y; 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll; k++) {
-          if((iCenter != jCenter + k) && (jCenter + k < natoms)) {
-            mu[k] = sFrisch( mu[k] );
-            ps *= mu[k];
-          }
-        }
-
-        // A thread is done with a iCenter based on 2 conditions. Weight tolerance
-        // Or if it has seen all of the jCenters
-        if( !(ps > weight_tol && iCount < LDatoms )) {
-          // In the case were the thread is done, it begins processing another iCenter
-          sum += ps;
-          iCenter = atomicAdd(jCounter, 1);
-          if (iCenter >= iParent) iCenter++;
-
-          // If there are no more iCenters left to process, it signals it is ready to exit
-          cont = (iCenter < natoms);
-          ri = local_dist_scratch[ iCenter ];
-          local_rab = RAB + iCenter * LDatoms;
-          ps = 1.;
-          iCount = 0;
-        }
-      }
-      // Wraps jCenter around. This was faster than modulo
-      jCenter += weight_unroll;
-      jCenter = (jCenter < LDatoms) ? jCenter : 0;
-    }
-
-    // All of the threads then sum their contributions. Only thread 0 needs to add the parent
-    // contribution.
-    __syncwarp();
-    sum = warpReduceSum(sum);
-    if (threadIdx.x == 0) {
-      sum += parent_weight;
-      weights_device[ipt] *= parent_weight / sum;
-    }
-
-    __syncwarp();
-
-  }
-}
-
-
-void hip_reciprocal(size_t length, double* vec, hipStream_t stream) {
-  dim3 threads(max_threads_per_thread_block);
-  dim3 blocks( get_device_sm_count(0) ); 
-  hipLaunchKernelGGL(reciprocal_kernel, dim3(threads), dim3(blocks), 0, stream, length, vec);
-}
-
-
-template <typename F>
-void partition_weights_hip_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const F*       points_device,
-                                 const int32_t* iparent_device,
-                                 const F*       dist_nearest_device,
-                                 const F*       rab_device,
-                                 const F*       atomic_coords_device,
-                                       F*       weights_device,
-                                       F*       dist_scratch_device,
-                                 hipStream_t   stream ) {
-
-
-
-  // Evaluate point-to-atom collocation
-  {
-    const int distance_thread_y = max_warps_per_thread_block / 2;
-    dim3 threads(  warp_size, distance_thread_y );
-    dim3 blocks( util::div_ceil( natoms,   threads.x), 
-                 util::div_ceil( npts, threads.y * distance_thread_y) );
-
-    hipLaunchKernelGGL(compute_point_center_dist, dim3(blocks), dim3(threads), 0, stream, 
-      npts, LDatoms, natoms, atomic_coords_device, points_device, dist_scratch_device
-    );
-
-  }
-  const bool partition_weights_1d_kernel = true;
-
-  if( partition_weights_1d_kernel ) {
-
-    dim3 threads( warp_size, weight_thread_block / warp_size );
-    dim3 blocks(  1, get_device_sm_count(0) * weight_thread_block_per_sm); 
-    hipLaunchKernelGGL(modify_weights_ssf_kernel_2d, dim3(blocks), dim3(threads), 0, stream , 
-      npts, LDatoms, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-      iparent_device, dist_nearest_device, weights_device
-    );
-
-  } else {
-
-#if 0
-    dim3 threads( 32, 32 );
-    dim3 blocks ( npts, 1 );
-
-    if( weight_alg == XCWeightAlg::SSF ) 
-      hipLaunchKernelGGL(modify_weights_ssf_kernel, dim3(blocks), dim3(threads), 0, stream , 
-        npts, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-        iparent_device, dist_nearest_device, weights_device
-      );
-    else
-      hipLaunchKernelGGL(modify_weights_becke_kernel, dim3(blocks), dim3(threads), 0, stream , 
-        npts, natoms, rab_device, atomic_coords_device, dist_scratch_device, 
-        iparent_device, weights_device
-      );
-#endif
-
-  }
-
-
-}
-
-template
-void partition_weights_hip_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const double*  points_device,
-                                 const int32_t* iparent_device,
-                                 const double*  dist_nearest_device,
-                                 const double*  rab_device,
-                                 const double*  atomic_coords_device,
-                                       double*  weights_device,
-                                       double*  dist_scratch_device,
-                                 hipStream_t   stream );
-
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_weights.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_weights.hpp
deleted file mode 100644
index 33fd9f4..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_weights.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/shell.hpp>
-#include <gauxc/enums.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-
-void hip_reciprocal(size_t length, double* vec, hipStream_t stream); 
-
-template <typename F>
-void partition_weights_hip_SoA( XCWeightAlg    weight_alg,
-                                 size_t         npts,
-                                 size_t         LDatoms,
-                                 size_t         natoms,
-                                 const F*       points_device,
-                                 const int32_t* iparent_device,
-                                 const F*       dist_nearest_device,
-                                 const F*       rab_device,
-                                 const F*       atomic_coords_device,
-                                       F*       weights_device,
-                                       F*       dist_scratch_device,
-                                 hipStream_t   stream );
-                                 
-                  
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_zmat.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_zmat.hip
deleted file mode 100644
index cd279f3..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_zmat.hip
+++ /dev/null
@@ -1,141 +0,0 @@
-#include "hip/hip_runtime.h"
-#include "device/hip/hip_zmat.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-
-template <typename T>
-__global__ void zmat_lda_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-  const auto* vrho_device    = task.vrho;
-
-  const auto* basis_eval_device = task.bf;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact = 0.5 * vrho_device[tid_x];
-
-    z_matrix_device[ ibfoff ] = fact * basis_eval_device[ ibfoff ];
-
-  }
-
-}
-
-
-
-
-template <typename T>
-void zmat_lda_hip( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    hipStream_t     stream ) {
-
-
-  dim3 threads(warp_size,max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(zmat_lda_kernel, dim3(blocks), dim3(threads), 0, stream ,  ntasks, tasks_device );
-
-}
-
-template
-void zmat_lda_hip( size_t                ntasks,
-                    int32_t               max_nbf,
-                    int32_t               max_npts,
-                    XCTaskDevice<double>* tasks_device,
-                    hipStream_t          stream ); 
-
-
-
-
-template <typename T>
-__global__ void zmat_gga_kernel( size_t           ntasks,
-                                 XCTaskDevice<T>* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.nbe;
-  const auto* vrho_device    = task.vrho;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* den_x_eval_device = task.ddenx;
-  const auto* den_y_eval_device = task.ddeny;
-  const auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.5 * vrho_device[tid_x]  ;
-    const double fact_2 = 2.0 * vgamma_device[tid_x];
-
-    const double dx = den_x_eval_device[ tid_x ] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = den_y_eval_device[ tid_x ] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = den_z_eval_device[ tid_x ] * dbasis_z_eval_device[ ibfoff ];
-
-    z_matrix_device[ ibfoff ] = 
-      fact_1 * basis_eval_device[ ibfoff ] + fact_2 * ( dx + dy + dz ); 
-
-  }
-}
-
-template <typename T>
-void zmat_gga_hip( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    hipStream_t     stream ) {
-
-
-  dim3 threads(warp_size,max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(zmat_gga_kernel, dim3(blocks), dim3(threads), 0, stream ,  ntasks, tasks_device );
-
-}
-template
-void zmat_gga_hip( size_t                ntasks,
-                    int32_t               max_nbf,
-                    int32_t               max_npts,
-                    XCTaskDevice<double>* tasks_device,
-                    hipStream_t          stream ); 
-              
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_zmat.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hip_zmat.hpp
deleted file mode 100644
index 1e6b3f5..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hip_zmat.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-#pragma once
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC      {
-namespace integrator {
-namespace hip       {
-
-using namespace GauXC::hip;
-
-template <typename T>
-void zmat_lda_hip( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    hipStream_t     stream );
-
-template <typename T>
-void zmat_gga_hip( size_t           ntasks,
-                    int32_t          max_nbf,
-                    int32_t          max_npts,
-                    XCTaskDevice<T>* tasks_device,
-                    hipStream_t     stream );
-              
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hipblas_extensions.hip b/third_party/gauxc/attic/src/new_integrator/device/hip/hipblas_extensions.hip
deleted file mode 100644
index 5a31680..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hipblas_extensions.hip
+++ /dev/null
@@ -1,154 +0,0 @@
-#include "hip/hip_runtime.h"
-#include "device/hip/hipblas_extensions.hpp"
-#include <gauxc/util/hipblas_util.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include "exceptions/hipblas_exception.hpp"
-
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC {
-namespace hip  {
-namespace blas  {
-
-using namespace GauXC::hip;
-
-template <typename T>
-__global__ void increment_kernel( const T* X, T* Y ) {
-  const auto tid = blockIdx.x;
-  if( tid < 1 ) (*Y) += (*X);
-}
-
-template <typename T>
-void increment( const T* X, T* Y, hipStream_t stream ) {
-  hipLaunchKernelGGL(increment_kernel, dim3(1), dim3(1), 0, stream, X,Y);
-}
-
-template <>
-void dot( hipblasHandle_t handle,
-          int            N,
-          const double*  X,
-          int            INCX,
-          const double*  Y,
-          int            INCY,
-          double*        RES ) {
-
-  auto stat = hipblasDdot( handle, N, X, INCX, Y, INCY, RES );
-  GAUXC_HIPBLAS_ERROR("HIPBLAS DDOT FAILED", stat );
-
-}
-
-template <typename T>
-void gdot( hipblasHandle_t handle,
-           int       N,
-           const T*  X,
-           int       INCX,
-           const T*  Y,
-           int       INCY,
-           T*        SCR,
-           T*        RES ) {
-
-  dot( handle, N, X, INCX, Y, INCY, SCR );
-  auto stream = util::get_stream(handle);
-  increment( SCR, RES, stream );
-
-}
-
-template 
-void gdot( hipblasHandle_t handle,
-           int            N,
-           const double*  X,
-           int            INCX,
-           const double*  Y,
-           int            INCY,
-           double*        SCR,
-           double*        RES );
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void __global__ hadamard_product_kernel( int      M,
-                                         int      N,
-                                         const T* A,
-                                         int      LDA,
-                                         T*       B,
-                                         int      LDB ) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < M and tid_y < N ) {
-    B[ tid_x + tid_y*LDB ] *= A[ tid_x + tid_y*LDA ];
-  }
-
-}
-
-
-
-template <typename T>
-void hadamard_product( hipblasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB ) {
-
-  auto stream = util::get_stream(handle);
-  dim3 threads(warp_size, max_warps_per_thread_block);
-  dim3 blocks( util::div_ceil( M, threads.x ),
-               util::div_ceil( N, threads.y ) );
-
-  hipLaunchKernelGGL(hadamard_product_kernel, dim3(blocks), dim3(threads), 0, stream ,  M, N, A, LDA, B, LDB );
-
-}
- 
-template 
-void hadamard_product( hipblasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const double*  A,
-                       int            LDA,
-                       double*        B,
-                       int            LDB ); 
-
-
-
-
-template <>
-void gemm( hipblasHandle_t handle, 
-           hipblasOperation_t TA, hipblasOperation_t TB,
-           int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB,
-           double BETA, double* C, int LDC ) {
-
-  auto stat = hipblasDgemm( handle, TA, TB, M, N, K, &ALPHA, A, LDA,
-                           B, LDB, &BETA, C, LDC );
-  GAUXC_HIPBLAS_ERROR("HIPBLAS DGEMM FAILED", stat);
-
-}
-
-
-template <>
-void syr2k( hipblasHandle_t handle, 
-            hipblasFillMode_t UPLO, hipblasOperation_t Trans,
-            int M, int K, double ALPHA, 
-            const double* A, int LDA, const double* B, int LDB,
-            double BETA, double* C, int LDC ) {
-
-  auto stat = hipblasDsyr2k( handle, UPLO, Trans, M, K, &ALPHA, A, LDA, B, LDB,
-                           &BETA, C, LDC );
-  GAUXC_HIPBLAS_ERROR("HIPBLAS DSYR2K FAILED", stat);
-
-}
-
-}
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hipblas_extensions.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/hipblas_extensions.hpp
deleted file mode 100644
index 77ca77f..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hipblas_extensions.hpp
+++ /dev/null
@@ -1,53 +0,0 @@
-#pragma once
-#include <hipblas.h>
-
-namespace GauXC {
-namespace hip  {
-namespace blas  {
-
-template <typename T>
-void dot( hipblasHandle_t handle,
-          int            N,
-          const T*       X,
-          int            INCX,
-          const T*       Y,
-          int            INCY,
-          T*             RES );
-
-template <typename T>
-void gdot( hipblasHandle_t handle,
-          int            N,
-           const T*       X,
-           int            INCX,
-           const T*       Y,
-           int            INCY,
-           T*             SCR,
-           T*             RES );
-
-
-template <typename T>
-void hadamard_product( hipblasHandle_t handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB );
-                       
-
-template <typename T>
-void gemm( hipblasHandle_t handle, 
-           hipblasOperation_t TA, hipblasOperation_t TB,
-           int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB,
-           T BETA, T* C, int LDC );
-
-template <typename T>
-void syr2k( hipblasHandle_t handle, 
-            hipblasFillMode_t UPLO, hipblasOperation_t Trans,
-            int M, int K, T ALPHA, 
-            const T* A, int LDA, const T* B, int LDB,
-            T BETA, T* C, int LDC );
-}
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/hipify-integrator.sh b/third_party/gauxc/attic/src/new_integrator/device/hip/hipify-integrator.sh
deleted file mode 100644
index d7a95b0..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/hipify-integrator.sh
+++ /dev/null
@@ -1,43 +0,0 @@
-#!/bin/sh
-hipify-perl ../cuda/collocation/collocation_angular_cartesian.hpp        > collocation/collocation_angular_cartesian.hpp
-hipify-perl ../cuda/collocation/collocation_angular_spherical_unnorm.hpp > collocation/collocation_angular_spherical_unnorm.hpp
-hipify-perl ../cuda/collocation/collocation_device_constants.hpp         > collocation/collocation_device_constants.hpp
-hipify-perl ../cuda/collocation/collocation_radial.hpp                   > collocation/collocation_radial.hpp
-
-#hipify-perl ../cuda/collocation_device.cu                    > collocation_device.hip
-hipify-perl ../cuda/collocation_device.hpp                   > collocation_device.hpp
-hipify-perl ../cuda/collocation_masked_combined_kernels.hpp  > collocation_masked_combined_kernels.hpp
-hipify-perl ../cuda/collocation_masked_kernels.hpp           > collocation_masked_kernels.hpp
-hipify-perl ../cuda/collocation_petite_combined_kernels.hpp  > collocation_petite_combined_kernels.hpp
-hipify-perl ../cuda/collocation_petite_kernels.hpp           > collocation_petite_kernels.hpp
-hipify-perl ../cuda/cublas_extensions.cu                     > hipblas_extensions.hip
-hipify-perl ../cuda/cublas_extensions.hpp                    > hipblas_extensions.hpp
-#hipify-perl ../cuda/cuda_eval_denvars.cu                     > hip_eval_denvars.hip
-hipify-perl ../cuda/cuda_eval_denvars.hpp                    > hip_eval_denvars.hpp
-hipify-perl ../cuda/cuda_extensions.hpp                      > hip_extensions.hpp
-hipify-perl ../cuda/cuda_alg_variant_control.hpp             > hip_alg_variant_control.hpp
-hipify-perl ../cuda/cuda_inc_potential.cu                    > hip_inc_potential.hip
-hipify-perl ../cuda/cuda_inc_potential.hpp                   > hip_inc_potential.hpp
-hipify-perl ../cuda/cuda_pack_density.cu                     > hip_pack_density.hip
-hipify-perl ../cuda/cuda_pack_density.hpp                    > hip_pack_density.hpp
-hipify-perl ../cuda/cuda_weights.cu                          > hip_weights.hip
-hipify-perl ../cuda/cuda_weights.hpp                         > hip_weights.hpp
-hipify-perl ../cuda/cuda_zmat.cu                             > hip_zmat.hip
-hipify-perl ../cuda/cuda_zmat.hpp                            > hip_zmat.hpp
-
-
-hipify-perl ../cuda/cuda_device_properties.cxx               > hip_device_properties.hip
-hipify-perl ../cuda/local_work_replicated_incore_exc_vxc.cxx > local_work_replicated_incore_exc_vxc.cxx
-hipify-perl ../cuda/xc_cuda_data.cxx                         > xc_hip_data.cxx
-
-sed -i -e "s/cuda/hip/g" *.cxx *.hip *.hpp collocation/*.hpp
-sed -i -e "s/CUDA/HIP/g" *.cxx *.hip *.hpp collocation/*.hpp
-sed -i -e "s/Cuda/Hip/g" *.cxx *.hip *.hpp collocation/*.hpp
-sed -i -e "s/cublas/hipblas/g" *.cxx *.hip *.hpp collocation/*.hpp
-sed -i -e "s/CUBLAS/HIPBLAS/g" *.cxx *.hip *.hpp collocation/*.hpp
-
-sed -i -e "s/__global__/__global__\n__launch_bounds__(1024,1)/g" \
-	collocation_masked_combined_kernels.hpp collocation_masked_kernels.hpp collocation_petite_combined_kernels.hpp collocation_petite_kernels.hpp
-
-sed -i -e "s/register //g" *.hip *.hpp
-sed -i -e "s/#define GAUXC_ENABLE_WARP_REDUCTIONS/\/\/#define GAUXC_ENABLE_WARP_REDUCTIONS/g" hip_alg_variant_control.hpp
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/local_work_replicated_incore_exc_vxc.cxx b/third_party/gauxc/attic/src/new_integrator/device/hip/local_work_replicated_incore_exc_vxc.cxx
deleted file mode 100644
index 2d941f2..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/local_work_replicated_incore_exc_vxc.cxx
+++ /dev/null
@@ -1,422 +0,0 @@
-#include <memory>
-#include <gauxc/util/hip_util.hpp>
-#include <gauxc/util/unused.hpp>
-
-#include "device/hip/hip_weights.hpp"
-#include "device/hip/collocation_device.hpp"
-#include "device/hip/hip_pack_density.hpp"
-#include "device/hip/hip_inc_potential.hpp"
-#include "device/hip/hip_eval_denvars.hpp"
-#include "device/hip/hip_zmat.hpp"
-#include "common/integrator_common.hpp"
-  
-#include "device/hip/hipblas_extensions.hpp"
-#include "device/hip/local_work_replicated_incore_exc_vxc.hpp"
-
-#include "device/hip/xc_hip_data.hpp"
-
-namespace GauXC  {
-
-namespace integrator::hip {
-
-using namespace GauXC::hip::blas;
-
-
-template <typename F>
-using hip_task_iterator = typename std::vector<XCTaskDevice<F>>::iterator;
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_density_incore_exc_vxc(
-  XCWeightAlg            weight_alg,
-  const functional_type& func,
-  XCHipData<F>&         hip_data,
-  hip_task_iterator<F>  task_begin,
-  hip_task_iterator<F>  task_end
-) {
-
-  const auto ntasks = std::distance( task_begin, task_end );
-  const auto nbf    = hip_data.nbf;
-
-  // Get batch statistics for batches to process
-  auto nbe_comparator = 
-    []( const auto& a, const auto& b ){ return a.nbe < b.nbe; };
-  auto npts_comparator = 
-    []( const auto& a, const auto& b ){ return a.npts < b.npts; };
-  auto nshells_comparator = 
-    []( const auto& a, const auto& b ){ return a.nshells < b.nshells; };
-
-  auto [min_nbe_it, max_nbe_it] = 
-    std::minmax_element( task_begin, task_end, nbe_comparator );
-  auto [min_npts_it, max_npts_it] = 
-    std::minmax_element( task_begin, task_end, npts_comparator );
-  auto [min_nshells_it, max_nshells_it] = 
-    std::minmax_element( task_begin, task_end, nshells_comparator );
-
-  const auto min_nbe     = min_nbe_it->nbe;
-  const auto max_nbe     = max_nbe_it->nbe;
-  const auto min_npts    = min_npts_it->npts;
-  const auto max_npts    = max_npts_it->npts;
-  const auto min_nshells = min_nshells_it->nshells;
-  const auto max_nshells = max_nshells_it->nshells;
-
-  util::unused( min_nbe, min_npts, min_nshells );
-
-  const size_t total_npts = 
-    std::accumulate( task_begin, task_end, 0ul, 
-                     []( const auto& a, const auto& b ) { return a + b.npts; } );
-
-
-  // Aliases
-  hipStream_t   master_stream = *hip_data.master_stream;
-  hipblasHandle_t master_handle = *hip_data.master_handle;
-
-#ifdef GAUXC_ENABLE_MAGMA
-  magma_queue_t  master_queue  = *hip_data.master_magma_queue;
-#endif
-
-  auto* dmat_device         = hip_data.dmat_device;
-
-  auto* shells_device       = hip_data.shells_device;
-  auto* tasks_device        = hip_data.device_tasks;
-  auto* dmat_array_device   = hip_data.dmat_array_device;
-  auto* zmat_array_device   = hip_data.zmat_array_device;
-  auto* bf_array_device     = hip_data.bf_array_device;
-  auto* weights_device      = hip_data.weights_device_buffer;
-  auto* dist_scratch_device = hip_data.dist_scratch_device;
-
-  auto* den_eval_device     = hip_data.den_eval_device;
-  auto* dden_x_eval_device  = hip_data.den_x_eval_device;
-  auto* dden_y_eval_device  = hip_data.den_y_eval_device;
-  auto* dden_z_eval_device  = hip_data.den_z_eval_device;
-
-  auto* eps_eval_device     = hip_data.eps_eval_device;
-  auto* gamma_eval_device   = hip_data.gamma_eval_device;
-  auto* vrho_eval_device    = hip_data.vrho_eval_device;
-  auto* vgamma_eval_device  = hip_data.vgamma_eval_device;
-
-
-  auto* exc_device     = hip_data.exc_device;
-  auto* vxc_device     = hip_data.vxc_device;
-  auto* nel_device     = hip_data.nel_device;
-  auto* acc_scr_device = hip_data.acc_scr_device;
-
-  auto* m_array_device      = hip_data.m_array_device;
-  auto* n_array_device      = hip_data.n_array_device;
-  auto* k_array_device      = hip_data.k_array_device;
-  auto* lda_array_device    = hip_data.lda_array_device;
-  auto* ldb_array_device    = hip_data.ldb_array_device;
-  auto* ldc_array_device    = hip_data.ldc_array_device;
-
-
-  const auto* rab_device          = hip_data.rab_device;
-  const auto* coords_device       = hip_data.coords_device;
-  const auto* points_device       = hip_data.points_device_buffer;
-  const auto* iparent_device      = hip_data.iparent_device_buffer;
-  const auto* dist_nearest_device = hip_data.dist_nearest_buffer;
-
-
-
-
-  // Evaluate Partition Weights
-  partition_weights_hip_SoA( weight_alg, total_npts, hip_data.LDatoms, hip_data.natoms, 
-                              points_device, iparent_device, dist_nearest_device,
-                              rab_device, coords_device, weights_device, 
-                              dist_scratch_device, master_stream );
-
-
-  // Evaluate Collocation
-  if constexpr ( n_deriv == 1 )
-    eval_collocation_masked_combined_deriv1( ntasks, max_npts, max_nshells,
-                                             shells_device, tasks_device,
-                                             master_stream );
-  else
-    eval_collocation_masked_combined( ntasks, max_npts, max_nshells, shells_device, 
-                                      tasks_device, master_stream );
-
-  // Pack Density Submatrices
-  task_pack_density_matrix( ntasks, tasks_device, dmat_device, nbf, master_stream );
-
-
-  // Form Z = P * X
-  if( hip_data.batch_l3_blas ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-
-    magmablas_dgemm_vbatched( MagmaNoTrans, MagmaNoTrans,
-                              m_array_device, n_array_device, k_array_device,
-                              1., bf_array_device, ldb_array_device,
-                              dmat_array_device, lda_array_device,
-                              0., zmat_array_device, ldc_array_device,
-                              ntasks, master_queue );
-
-#else
-
-    throw std::runtime_error("BATCHED BLAS API NOT SUPPORTED");
-
-#endif
-
-  } else {
-
-    int nstream = hip_data.blas_streams.size();
-
-    // Wait for collocation etc
-    util::hip_event master_event;
-    master_event.record( master_stream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      hip_data.blas_streams[iS].wait( master_event );
-
-    // Do GEMM in round-robin
-    for( auto iT = 0; iT < ntasks; ++iT ) {
-      auto& task = *(task_begin + iT);
-      gemm( hip_data.blas_handles[iT % nstream], HIPBLAS_OP_N, HIPBLAS_OP_N,
-            task.npts, task.nbe, task.nbe, 1., task.bf, task.npts,
-            task.nbe_scr, task.nbe, 0., task.zmat, task.npts );
-    }
-
-    // Record completion of BLAS ops
-    std::vector< util::hip_event > blas_events( nstream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      blas_events[iS].record( hip_data.blas_streams[iS] );
-
-    // Wait on master stream for all BLAS ops to complete
-    for( int iS = 0; iS < nstream; ++iS )
-      hip_data.master_stream->wait( blas_events[iS] );
-
-  }
-                
-
-  
-  // Zero UVars
-  util::hip_set_zero_async( total_npts, den_eval_device, master_stream, "DenZero" );
-  if( func.is_gga() ) {
-    util::hip_set_zero_async( total_npts, dden_x_eval_device, master_stream, 
-                               "DenXZero" );
-    util::hip_set_zero_async( total_npts, dden_y_eval_device, master_stream, 
-                               "DenYZero" );
-    util::hip_set_zero_async( total_npts, dden_z_eval_device, master_stream, 
-                               "DenZZero" );
-  }
-
-  // Evaluate UVars
-  if( func.is_gga() ) {
-    eval_uvars_gga_device( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-    eval_vvars_gga_device( total_npts, dden_x_eval_device, dden_y_eval_device,
-                           dden_z_eval_device, gamma_eval_device, master_stream );
-  } else {
-    eval_uvars_lda_device( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  }
-
-  // Evaluate XC Functional
-  if( func.is_gga() )
-    func.eval_exc_vxc_device( total_npts, den_eval_device, gamma_eval_device, 
-                              eps_eval_device, vrho_eval_device, 
-                              vgamma_eval_device, master_stream );
-  else
-    func.eval_exc_vxc_device( total_npts, den_eval_device, eps_eval_device, 
-                              vrho_eval_device, master_stream );
-
-
-  // Factor weights into XC output
-  hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                    eps_eval_device, 1 );
-  hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                    vrho_eval_device, 1 );
-  if( func.is_gga() ) 
-    hadamard_product( master_handle, total_npts, 1, weights_device, 1,
-                      vgamma_eval_device, 1 );
-
-  // Accumulate EXC / NEL
-  gdot( master_handle, total_npts, weights_device, 1,
-        den_eval_device, 1, acc_scr_device, nel_device );
-  gdot( master_handle, total_npts, eps_eval_device, 1,
-        den_eval_device, 1, acc_scr_device, exc_device );
-      
-  // Evaluate Z Matrix
-  if( func.is_gga() )
-    zmat_gga_hip( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  else
-    zmat_lda_hip( ntasks, max_nbe, max_npts, tasks_device, master_stream );
-  
-
-
-  // Accumulate packed VXC = X * Z**T + Z * X**T
-
-  
-  if( hip_data.batch_l3_blas ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-
-    // XXX: Only updates LT
-    magmablas_dsyr2k_vbatched( MagmaLower, MagmaTrans, 
-                               n_array_device, m_array_device,
-                               1., bf_array_device, ldb_array_device,
-                               zmat_array_device, ldc_array_device,
-                               0., dmat_array_device, lda_array_device,
-                               ntasks, master_queue );
-
-#else
-
-    throw std::runtime_error("BATCHED BLAS API NOT SUPPORTED");
-
-#endif
-  } else {
-
-    int nstream = hip_data.blas_streams.size();
-
-    // Wait for zmat, etc
-    util::hip_event master_event;
-    master_event.record( master_stream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      hip_data.blas_streams[iS].wait( master_event );
-
-    // Do SYR2K in round-robin
-    for( auto iT = 0; iT < ntasks; ++iT ) {
-      auto& task = *(task_begin + iT);
-      syr2k( hip_data.blas_handles[iT % nstream], HIPBLAS_FILL_MODE_LOWER, 
-             HIPBLAS_OP_T, task.nbe, task.npts, 1., task.bf, task.npts,
-             task.zmat, task.npts, 0., task.nbe_scr, task.nbe );
-    }
-
-    // Record completion of BLAS ops
-    std::vector< util::hip_event > blas_events( nstream );
-    for( int iS = 0; iS < nstream; ++iS ) 
-      blas_events[iS].record( hip_data.blas_streams[iS] );
-
-    // Wait on master stream for all BLAS ops to complete
-    for( int iS = 0; iS < nstream; ++iS )
-      hip_data.master_stream->wait( blas_events[iS] );
-  }
-
-  // Increment global VXC
-  task_inc_potential( ntasks, tasks_device, vxc_device, nbf, master_stream );
-
-
-  // Synchronize on master stream
-  // XXX: There's no lifetime issues in this driver, should look into
-  //      avoid this sync to allow for overlap with the host packing 
-  hipStreamSynchronize( master_stream );
-
-}
-
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_incore_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-) {
-
-  auto& hip_data = dynamic_cast< XCHipData<F>& >( device_data );
-
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.nbe) > (b.points.size() * b.nbe);
-  };
-  std::sort( local_work_begin, local_work_end, task_comparator );
-
-
-  const auto nbf     = basis.nbf();
-  const auto natoms  = meta.natoms();
-  const auto LDatoms = hip_data.LDatoms;
-
-  // Send static data to the device
-
-  // Density
-  util::hip_copy( nbf * nbf, hip_data.dmat_device, P, "P H2D" );
-
-  // Shells: TODO avoid host copy?
-  std::vector<Shell<F>> shells( basis );
-  util::hip_copy( shells.size(), hip_data.shells_device, shells.data(),
-                   "Shells H2D" );
-
-  // RAB
-  util::hip_copy_2d( hip_data.rab_device, LDatoms * sizeof(F),
-                      meta.rab().data(), natoms * sizeof(F),
-                      natoms * sizeof(F), natoms, "RAB H2D");
-  // This could probably happen on the host
-  hip_reciprocal(natoms * LDatoms, hip_data.rab_device, 0);
-
-  // Atomic coordinates 
-  std::vector<double> coords( 3*natoms );
-  for( auto i = 0ul; i < natoms; ++i ) {
-    coords[ 3*i + 0 ] = mol[i].x;
-    coords[ 3*i + 1 ] = mol[i].y;
-    coords[ 3*i + 2 ] = mol[i].z;
-  }
-  util::hip_copy( 3 * natoms, hip_data.coords_device, coords.data(),
-                   "Coords H2D" );
-
-
-  // Zero out XC quantities
-  util::hip_set_zero( nbf * nbf, hip_data.vxc_device, "VXC Zero" ); 
-  util::hip_set_zero( 1        , hip_data.exc_device, "EXC Zero" ); 
-  util::hip_set_zero( 1        , hip_data.nel_device, "NEL Zero" ); 
-
-
-
-  // Processes batches in groups that saturadate available device memory
-  auto task_it = local_work_begin;
-  while( task_it != local_work_end ) {
-
-    // Determine next task batch, send relevant data to device
-    auto [it, tasks_device] = 
-      hip_data.generate_buffers( basis, task_it, local_work_end );
-
-
-    // Process the batches
-    local_work_replicated_density_incore_exc_vxc<F,n_deriv>( 
-      weight_alg, func, hip_data, tasks_device.begin(), tasks_device.end() 
-    );
-
-    task_it = it;
-
-  }
-
-  // Receive XC terms from host
-  util::hip_copy( nbf * nbf, VXC, hip_data.vxc_device, "VXC D2H" );
-
-  util::hip_copy( 1, EXC, hip_data.exc_device, "EXC D2H" );
-  util::hip_copy( 1, NEL, hip_data.nel_device, "NEL D2H" );
-
-  // Symmetrize VXC
-  for( int32_t j = 0;   j < nbf; ++j )
-  for( int32_t i = j+1; i < nbf; ++i )
-    VXC[ j + i*nbf ] = VXC[ i + j*nbf ];
-
-}
-
-
-#define HIP_IMPL( F, ND ) \
-template \
-void local_work_replicated_incore_exc_vxc_impl<F,ND>(\
-  XCWeightAlg            weight_alg,\
-  XCIntegratorState      state,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCDeviceData<F>  &     device_data,\
-  host_task_iterator     local_work_begin,\
-  host_task_iterator     local_work_end,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-HIP_IMPL( double, 0 );
-HIP_IMPL( double, 1 );
-
-}
-}
-
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/local_work_replicated_incore_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/device/hip/local_work_replicated_incore_exc_vxc.hpp
deleted file mode 100644
index 5636d34..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/local_work_replicated_incore_exc_vxc.hpp
+++ /dev/null
@@ -1,51 +0,0 @@
-#pragma once
-
-#include <memory>
-
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-#include "device/xc_device_data.hpp"
-
-namespace GauXC {
-
-namespace integrator::hip {
-
-using host_task_iterator = std::vector<XCTask>::iterator;
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_incore_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-
-template <typename F, typename... Args>
-inline void local_work_replicated_incore_exc_vxc( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    local_work_replicated_incore_exc_vxc_impl<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    local_work_replicated_incore_exc_vxc_impl<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/hip/xc_hip_data.cxx b/third_party/gauxc/attic/src/new_integrator/device/hip/xc_hip_data.cxx
deleted file mode 100644
index d5d1839..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/hip/xc_hip_data.cxx
+++ /dev/null
@@ -1,552 +0,0 @@
-#include "device/hip/xc_hip_data.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "device/buffer_adaptor.hpp"
-#include "common/integrator_common.hpp"
-#include "device/hip/hip_device_properties.hpp"
-
-namespace GauXC {
-
-
-namespace integrator::device {
-
-template <typename T>
-std::shared_ptr< XCDeviceData<T> > make_device_data() {
-  return std::make_shared< XCHipData<T> >();
-}
-
-template std::shared_ptr<XCDeviceData<double>> make_device_data();
-
-}
-
-
-
-
-
-
-
-
-template <typename F>
-XCHipData<F>::XCHipData( bool _batch_l3_blas ):
-#ifdef GAUXC_ENABLE_MAGMA
-  batch_l3_blas(_batch_l3_blas)  
-#else
-  batch_l3_blas(false)  
-#endif
-{
-
-  // TODO: Expose this
-  double fill_fraction = 0.9;
-
-  hipError_t stat;
-
-  // Get Total Available Memory
-  size_t hip_avail, hip_total;
-  stat = hipMemGetInfo( &hip_avail, &hip_total );
-  GAUXC_HIP_ERROR( "MemInfo Failed", stat );
-
-  // Allocate up to fill_fraction
-  devmem_sz = fill_fraction * hip_avail;
-  stat = hipMalloc( &device_ptr, devmem_sz );
-  GAUXC_HIP_ERROR( "HIP Malloc Failed", stat );
-
-  // Create HIP Stream and HIPBLAS Handles and make them talk to eachother
-  master_stream = std::make_unique< util::hip_stream >();
-  master_handle = std::make_unique< util::hipblas_handle >();
-
-  hipblasSetStream( *master_handle, *master_stream );
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Create MAGMA Queue from HIP Stream and HIPBLAS Handle
-  master_magma_queue = 
-    std::make_unique< util::magma_queue >( 0, *master_stream, *master_handle );
-#endif
-
-  if( not batch_l3_blas ) {
-
-    // Create BLAS streams
-    blas_streams.resize(4);
-    blas_handles.resize(4);
-    for( auto i = 0; i < 4; ++i )
-      hipblasSetStream( blas_handles[i], blas_streams[i] );
-
-  }
-
-}
-
-
-
-template <typename F>
-XCHipData<F>::~XCHipData() noexcept {
-  if( device_ptr ) util::hip_free( device_ptr );
-} 
-
-
-
-
-
-
-
-template <typename F>
-void XCHipData<F>::allocate_static_data( size_t _natoms,
-                                          size_t _n_deriv, 
-                                          size_t _nbf,
-                                          size_t _nshells ) {
-
-
-  // Save state
-  nshells = _nshells;
-  nbf     = _nbf; 
-  n_deriv = _n_deriv; 
-  natoms  = _natoms;
-
-  LDatoms = util::div_ceil( natoms, hip::weight_unroll ) * hip::weight_unroll;
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( device_ptr, devmem_sz );
-
-  shells_device     = mem.aligned_alloc<Shell<F>>( nshells );
-  exc_device        = mem.aligned_alloc<F>( 1 );
-  nel_device        = mem.aligned_alloc<F>( 1 );
-  acc_scr_device    = mem.aligned_alloc<F>( 1 );
-  rab_device        = mem.aligned_alloc<F>( LDatoms * natoms, sizeof(double2));
-  coords_device     = mem.aligned_alloc<F>( 3 * natoms );
-
-  vxc_device  = mem.aligned_alloc<F>( nbf * nbf );
-  dmat_device = mem.aligned_alloc<F>( nbf * nbf );
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-}
-
-
-
-
-using task_iterator = std::vector< XCTask >::iterator;
-template <typename F>
-using device_task_container = std::vector< hip::XCTaskDevice<F> >;
-
-template <typename F>
-std::tuple< task_iterator, device_task_container<F> >
-  XCHipData<F>::generate_buffers( const BasisSet<F>& basis,
-                                   task_iterator      task_begin,
-                                   task_iterator      task_end    ) {
-
-  // Host data packing arrays
-  std::vector< std::array<double,3> > points_pack;
-  std::vector< double > weights_pack;
-  std::vector< size_t > shell_list_pack;
-  std::vector< size_t > shell_offs_pack;
-  std::vector< std::array<int32_t, 3> > submat_cut_pack;
-  std::vector< int32_t > submat_block_pack;
-  std::vector< int32_t > iparent_pack;
-  std::vector< double >  dist_nearest_pack;
-
-  // Host copies for batched GEMM/SYRK arrays
-  std::vector< double* > dmat_array, bf_array, zmat_array;
-  std::vector< int > m_array, n_array, k_array, lda_array, ldb_array, ldc_array;
-
-  device_task_container tasks_device;
-
-
-  auto concat_iterable = []( auto& a, const auto& b ) {
-    a.insert( a.end(), b.begin(), b.end() );
-  };
-
-
-  size_t ntask          = 0;
-  size_t total_npts     = 0;
-  size_t total_nbe_nbe  = 0;
-  size_t total_nbe_npts = 0;
-  size_t total_nshells  = 0;
-  size_t total_ncut     = 0;
-  size_t total_nblock   = 0;
-  size_t memleft = dynmem_sz;
-
-  uint32_t submat_chunk_size = hip::get_submat_cut_block(nbf, 0);
-
-  // Offset memory by the static requirement of an extra pointer element 
-  // for each of the size batch arrays in MAGMA
-  memleft -= 6 * sizeof(int); //M,N,K,LDA,LDB,LDC
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    auto iAtom      = task_it->iParent;
-    auto points     = task_it->points    ;
-    auto weights    = task_it->weights   ;
-    auto shell_list = task_it->shell_list;
-    auto nbe        = task_it->nbe;
-    auto dist_nearest = task_it->dist_nearest;
-
-    // Generate map from compressed to non-compressed matrices
-    auto [submat_cut, submat_block] = integrator::gen_compressed_submat_map( basis, shell_list, nbf, submat_chunk_size );
-    size_t ncut     = submat_cut.size();
-    size_t nblock   = submat_block.size();
-    size_t nshells  = shell_list.size();
-    size_t npts     = points.size();
-
-
-    size_t mem_points  = 3 * npts; 
-    size_t mem_weights = npts;     
-
-    size_t mem_shells     = nshells;
-    size_t mem_shell_list = nshells;
-    size_t mem_shell_offs = nshells;
-    size_t mem_submat_cut = 3 * ncut;
-    size_t mem_submat_block = nblock;
-
-    size_t mem_nbe_scr    = nbe * nbe;
-    size_t mem_zmat       = nbe * npts;
-
-    size_t mem_bf         = nbe * npts;
-    size_t mem_dbfx       = mem_bf;
-    size_t mem_dbfy       = mem_bf;
-    size_t mem_dbfz       = mem_bf;
-
-    size_t mem_den        = npts;
-    size_t mem_denx       = npts;
-    size_t mem_deny       = npts;
-    size_t mem_denz       = npts;
-
-    size_t mem_eps        = npts;
-    size_t mem_gamma      = npts;
-    size_t mem_vrho       = npts;
-    size_t mem_vgamma     = npts;
-
-    //size_t mem_partition_scr = natoms * npts;
-    size_t mem_dist_scr      = LDatoms * npts;
-    size_t mem_iparent       = npts;
-    size_t mem_dist_nearest  = npts;
-
-    size_t mem_batch_mat_arr = 3; // dmat/zmat/bf
-    size_t mem_batch_sz_arr  = 6; // M/N/K/LDA/LDB/LDC
-    size_t mem_task      = 1;
-
-
-    size_t mem_req_batch = 
-      mem_points            * sizeof(double) + 
-      mem_weights           * sizeof(double) +    
-      mem_shells            * sizeof(Shell<F>) +             
-      mem_shell_list        * sizeof(size_t) +
-      mem_shell_offs        * sizeof(size_t) + 
-      mem_submat_cut        * sizeof(int32_t) +
-      mem_submat_block      * sizeof(int32_t) +
-      mem_nbe_scr           * sizeof(double) +
-      mem_zmat              * sizeof(double) +
-      mem_bf                * sizeof(double) +
-      mem_dbfx              * sizeof(double) +
-      mem_dbfy              * sizeof(double) +
-      mem_dbfz              * sizeof(double) +
-      mem_den               * sizeof(double) +
-      mem_denx              * sizeof(double) +
-      mem_deny              * sizeof(double) +
-      mem_denz              * sizeof(double) +
-      mem_eps               * sizeof(double) +
-      mem_gamma             * sizeof(double) +
-      mem_vrho              * sizeof(double) +
-      mem_vgamma            * sizeof(double) +
-      //mem_partition_scr     * sizeof(double) +
-      mem_dist_scr          * sizeof(double) +
-      mem_iparent           * sizeof(int32_t) +
-      mem_dist_nearest      * sizeof(double) +
-      mem_batch_mat_arr     * sizeof(double*) +
-      mem_batch_sz_arr      * sizeof(int32_t) +
-      mem_task              * sizeof(hip::XCTaskDevice<F>);
-
-    //std::cout << "Memory requirement for task " << ntask+1 << " " << mem_req_batch << " memleft " << memleft << std::endl;
-
-    if( mem_req_batch > memleft ) break;
-    
-    // Update memory and increment task iterator
-    memleft -= mem_req_batch;
-    ntask++;
-    task_it++;
-
-    // Update counters
-    total_npts     += npts;
-    total_nbe_nbe  += nbe*nbe;
-    total_nbe_npts += nbe*npts;
-    total_nshells  += nshells;
-    total_ncut     += ncut;
-    total_nblock   += nblock;
-
-    // Compute offsets
-    std::vector< size_t > shell_offs( nshells );
-    shell_offs.at(0) = 0;
-    for( auto i = 1ul; i < nshells; ++i )
-      shell_offs.at(i) = shell_offs.at(i-1) + 
-                           basis.at( shell_list.at(i-1) ).size();
-
-
-    // Pack the data on host
-    concat_iterable( points_pack,  points  );
-    concat_iterable( weights_pack, weights );
-    concat_iterable( shell_list_pack, shell_list );
-    concat_iterable( shell_offs_pack, shell_offs );
-    concat_iterable( submat_cut_pack, submat_cut );
-    concat_iterable( submat_block_pack, submat_block );
-
-    m_array.emplace_back( npts  );
-    n_array.emplace_back( nbe );
-    k_array.emplace_back( nbe  );
-
-    lda_array.emplace_back( nbe  );
-    ldb_array.emplace_back( npts );
-    ldc_array.emplace_back( npts );
-
-    iparent_pack.insert( iparent_pack.end(), npts, iAtom );
-    dist_nearest_pack.insert( dist_nearest_pack.end(), npts, dist_nearest );
-
-    // Add task
-    tasks_device.emplace_back();
-
-    tasks_device.back().nbe          = nbe;
-    tasks_device.back().npts         = npts;
-    tasks_device.back().ncut         = ncut;
-    tasks_device.back().nblock       = nblock;
-    tasks_device.back().nshells      = nshells;
-    tasks_device.back().iParent      = iAtom;
-    tasks_device.back().dist_nearest = dist_nearest;
-  }
-
-
-  std::cout << "XCDeviceData will stack allocate for " << tasks_device.size() << " tasks"; 
-  std::cout << " Using chunk size of " << submat_chunk_size << std::endl;
-
-  // Allocate out of dynamic memory
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  // (possibly) Large types
-  important_shells_device = mem.aligned_alloc<Shell<F>>( total_nshells );
-  device_tasks            = mem.aligned_alloc<hip::XCTaskDevice<F>>( ntask );
-
-  // 64-bit types
-  nbe_scr_device     = mem.aligned_alloc<double>( total_nbe_nbe  );
-  zmat_device        = mem.aligned_alloc<double>( total_nbe_npts );
-  bf_eval_device     = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_x_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_y_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-  dbf_z_eval_device  = mem.aligned_alloc<double>( total_nbe_npts );
-
-  den_eval_device   = mem.aligned_alloc<double>( total_npts );
-  eps_eval_device   = mem.aligned_alloc<double>( total_npts );
-  vrho_eval_device  = mem.aligned_alloc<double>( total_npts );
-
-  den_x_eval_device  = mem.aligned_alloc<double>( total_npts );
-  den_y_eval_device  = mem.aligned_alloc<double>( total_npts );
-  den_z_eval_device  = mem.aligned_alloc<double>( total_npts );
-  gamma_eval_device  = mem.aligned_alloc<double>( total_npts );
-  vgamma_eval_device = mem.aligned_alloc<double>( total_npts );
-
-  points_device_buffer     = mem.aligned_alloc<double>( 3 * total_npts );
-  weights_device_buffer    = mem.aligned_alloc<double>( total_npts );
-  shell_list_device_buffer = mem.aligned_alloc<size_t>( total_nshells );
-  shell_offs_device_buffer = mem.aligned_alloc<size_t>( total_nshells );
-  submat_cut_device_buffer = mem.aligned_alloc<int32_t>( 3 * total_ncut );
-  submat_block_device_buffer = mem.aligned_alloc<int32_t>( total_nblock );
-
-  dist_scratch_device = mem.aligned_alloc<double>( LDatoms * total_npts, 2 * sizeof(double) );
-  dist_nearest_buffer = mem.aligned_alloc<double>( total_npts );
-
-  dmat_array_device = mem.aligned_alloc<double*>( ntask );
-  zmat_array_device = mem.aligned_alloc<double*>( ntask );
-  bf_array_device   = mem.aligned_alloc<double*>( ntask );
-
-  // 32-bit types
-  m_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  n_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  k_array_device   = mem.aligned_alloc<int32_t>( ntask + 1 );
-  lda_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-  ldb_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-  ldc_array_device = mem.aligned_alloc<int32_t>( ntask + 1 );
-
-  iparent_device_buffer = mem.aligned_alloc<int32_t>( total_npts );
-
-
-  // Update tasks with allocated pointers
-  {
-  double* points_ptr  = points_device_buffer;
-  double* weights_ptr = weights_device_buffer;
-
-  size_t* shell_list_ptr  = shell_list_device_buffer;
-  size_t* shell_offs_ptr  = shell_offs_device_buffer;
-  int32_t* submat_cut_ptr = submat_cut_device_buffer;
-  int32_t* submat_block_ptr = submat_block_device_buffer;
-  Shell<F>   * shells_ptr = important_shells_device;
-  double*      nbe_ptr    = nbe_scr_device;
-  double*      zmat_ptr   = zmat_device;
-
-  double*      bf_ptr     = bf_eval_device;
-  double*      dbfx_ptr   = dbf_x_eval_device;
-  double*      dbfy_ptr   = dbf_y_eval_device;
-  double*      dbfz_ptr   = dbf_z_eval_device;
-  
-  double*      den_ptr    = den_eval_device;
-  double*      ddenx_ptr  = den_x_eval_device;
-  double*      ddeny_ptr  = den_y_eval_device;
-  double*      ddenz_ptr  = den_z_eval_device;
-
-  double*      eps_ptr     = eps_eval_device;
-  double*      gamma_ptr   = gamma_eval_device;
-  double*      vrho_ptr    = vrho_eval_device;
-  double*      vgamma_ptr  = vgamma_eval_device;
-
-
-  double* dist_scratch_ptr      = dist_scratch_device;
-
-  for( auto& task : tasks_device ) {
-
-    task.points     = points_ptr;
-    task.weights    = weights_ptr;
-    task.shell_list = shell_list_ptr;
-    task.shell_offs = shell_offs_ptr;
-    task.submat_cut = submat_cut_ptr;
-    task.submat_block = submat_block_ptr;
-    
-    task.shells  = shells_ptr;
-    task.nbe_scr = nbe_ptr;
-    task.zmat    = zmat_ptr;
-    task.bf      = bf_ptr;
-    task.dbfx    = dbfx_ptr;
-    task.dbfy    = dbfy_ptr;
-    task.dbfz    = dbfz_ptr;
-    task.den     = den_ptr;
-    task.ddenx   = ddenx_ptr;
-    task.ddeny   = ddeny_ptr;
-    task.ddenz   = ddenz_ptr;
-
-    task.eps    = eps_ptr;
-    task.gamma  = gamma_ptr;
-    task.vrho   = vrho_ptr;
-    task.vgamma = vgamma_ptr;
-
-    task.dist_scratch      = dist_scratch_ptr;
-
-    auto npts    = task.npts;
-    auto nbe     = task.nbe;
-    auto nshells = task.nshells;
-    auto ncut    = task.ncut;
-    auto nblock  = task.nblock;
-
-    points_ptr     += 3 * npts;
-    weights_ptr    += npts;
-    shell_list_ptr += nshells;
-    shell_offs_ptr += nshells;
-    submat_cut_ptr += 3 * ncut;
-    submat_block_ptr += nblock;
-    
-    shells_ptr += nshells;
-    nbe_ptr    += nbe * nbe;
-    zmat_ptr   += nbe * npts;
-
-    bf_ptr     += nbe * npts;
-    dbfx_ptr   += nbe * npts;
-    dbfy_ptr   += nbe * npts;
-    dbfz_ptr   += nbe * npts;
-
-    den_ptr    += npts;
-    ddenx_ptr  += npts;
-    ddeny_ptr  += npts;
-    ddenz_ptr  += npts;
-
-    eps_ptr    += npts;
-    gamma_ptr  += npts;
-    vrho_ptr   += npts;
-    vgamma_ptr += npts;
-
-    dist_scratch_ptr += LDatoms * npts;
-
-
-
-    // Batched LA
-    dmat_array.emplace_back( task.nbe_scr );
-    bf_array.emplace_back(   task.bf      );
-    zmat_array.emplace_back( task.zmat    );
-  }
-
-  } // End task setup
-
-
-
-
-  auto copy_rev = [&]( size_t n, const auto* src, auto* dest, hipStream_t stream,
-                       std::string m ) {
-    util::hip_copy_async( n, dest, src, stream, m );
-  };
-
-
-
-  try {
-
-  // Send the data to the device
-  copy_rev( 3*points_pack.size(), points_pack.data()->data(), 
-                         points_device_buffer, *master_stream, 
-                         "send points buffer" ); 
-  copy_rev( weights_pack.size(), weights_pack.data(), 
-                         weights_device_buffer, *master_stream, 
-                         "send weights buffer" ); 
-
-  copy_rev( shell_list_pack.size(), shell_list_pack.data(), 
-                          shell_list_device_buffer, *master_stream, 
-                          "send_shell_list_buffer" );
-  copy_rev( shell_offs_pack.size(), shell_offs_pack.data(), 
-                         shell_offs_device_buffer, *master_stream, 
-                         "send_shell_offs_buffer" );
-//  std::cout << "Element size " << sizeof(std::get<0>(submat_cut_pack[0]) << std::endl;
-  copy_rev( 3 * submat_cut_pack.size(), submat_cut_pack.data()->data(), 
-                         submat_cut_device_buffer, *master_stream, 
-                         "send_submat_cut_buffer"  ); 
-  copy_rev( submat_block_pack.size(), submat_block_pack.data(), 
-                         submat_block_device_buffer, *master_stream, 
-                         "send_submat_block_buffer"  ); 
-
-  copy_rev( tasks_device.size(), tasks_device.data(), device_tasks, 
-                          *master_stream, "send_tasks_device" );
-
-
-  copy_rev( dmat_array.size(), dmat_array.data(), dmat_array_device, 
-                         *master_stream, "send dmat_array" );
-  copy_rev( zmat_array.size(), zmat_array.data(), zmat_array_device, 
-                         *master_stream, "send zmat_array" );
-  copy_rev( bf_array.size(), bf_array.data(), bf_array_device, 
-                         *master_stream, "send bf_array" );
-
-  copy_rev( m_array.size(), m_array.data(), m_array_device, 
-                         *master_stream, "send m_array" );
-  copy_rev( n_array.size(), n_array.data(), n_array_device, 
-                         *master_stream, "send n_array" );
-  copy_rev( k_array.size(), k_array.data(), k_array_device, 
-                         *master_stream, "send k_array" );
-
-  copy_rev( lda_array.size(), lda_array.data(), lda_array_device, 
-                         *master_stream, "send lda_array" );
-  copy_rev( ldb_array.size(), ldb_array.data(), ldb_array_device, 
-                         *master_stream, "send ldb_array" );
-  copy_rev( ldc_array.size(), ldc_array.data(), ldc_array_device, 
-                         *master_stream, "send ldc_array" );
-
-  copy_rev( iparent_pack.size(), iparent_pack.data(), 
-                         iparent_device_buffer, *master_stream, "send iparent"  );
-  copy_rev( dist_nearest_pack.size(), dist_nearest_pack.data(), 
-                         dist_nearest_buffer, *master_stream, "send dist_nearest" );
-
-  } catch(...) {
-    //teardown_();  throw;
-    throw;
-  }
-
-
-  // To avoid packed vectors going out of scope
-  hipStreamSynchronize( *master_stream );
-
-  return std::make_tuple(task_it, tasks_device);
-}
-
-
-// Explicit Instantiations
-template class XCHipData<double>;
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/incore_xc_device_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/device/incore_xc_device_exc_vxc.hpp
deleted file mode 100644
index 9558ad2..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/incore_xc_device_exc_vxc.hpp
+++ /dev/null
@@ -1,116 +0,0 @@
-#include <memory>
-#include <gauxc/new_xc_integrator/replicated/incore_xc_device_integrator.hpp>
-
-#include "device/local_work_replicated_incore_exc_vxc.hpp"
-#include <gauxc/util/unused.hpp>
-#include <gauxc/gauxc_config.hpp>
-#include "exceptions/magma_exception.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void IncoreXCDeviceIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* VXC, int64_t ldvxc,
-                 value_type* EXC ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Initialize MAGMA
-  {
-    auto ierr = magma_init();
-    GAUXC_MAGMA_ERROR( "MAGMA Init Failed", ierr );
-  }
-#endif
-
-  util::unused(m,n,ldp,ldvxc);
-
-  size_t nbf = this->basis_->nbf();
-
-  //// TODO: Check that P is sane
-
-
-  // Generate Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-  size_t n_deriv = this->func_->is_gga() ? 1 : 0;
-
-  // Allocate Memory
-  auto device_data = this->timer_.time_op("XCIntegrator.DeviceAlloc",[&]() {
-    auto ptr = GauXC::integrator::device::make_device_data<ValueType>();
-    ptr->allocate_static_data( this->load_balancer_->molecule().natoms(),
-                               n_deriv, this->basis_->nbf(), 
-                               this->basis_->size() );
-    return ptr;
-  });
-
-  value_type N_EL;
-
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    GauXC::integrator::device::local_work_replicated_incore_exc_vxc< value_type >(
-      n_deriv, XCWeightAlg::SSF, state_, *this->func_, 
-      *this->basis_, this->load_balancer_->molecule(), 
-      this->load_balancer_->molmeta(), *device_data, tasks, P, 
-      VXC, EXC, &N_EL 
-    );
-  });
-
-  // Update State of Integrator
-  state_.load_balancer_populated     = true;
-  //state_.modified_weights_are_stored = true;
-
-            
-#ifdef GAUXC_ENABLE_MPI
-
-  int world_size;
-  MPI_Comm_size( this->comm_, &world_size );
-
-  if( world_size > 1 ) {
-
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-    // Test of communicator is an inter-communicator
-    // XXX: Can't think of a case when this would be true, but who knows...
-    int inter_flag;
-    MPI_Comm_test_inter( this->comm_, &inter_flag );
-
-    // Is Intra-communicator, Allreduce can be done inplace
-    if( not inter_flag ) {
-
-      MPI_Allreduce( MPI_IN_PLACE, VXC, nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-    // Isn't Intra-communicator (weird), Allreduce can't be done inplace
-    } else {
-
-      std::allocator<value_type> alloc;
-      auto VXC_cpy = alloc.allocate( nbf*nbf );
-      value_type EXC_cpy = *EXC, N_EL_cpy = N_EL;
-
-      MPI_Allreduce( VXC_cpy, VXC, nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( &EXC_cpy,  EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( &N_EL_cpy, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      
-
-    }
-  });
-
-  }
-
-#endif
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Finalize MAGMA
-  {
-    auto ierr = magma_finalize();
-    GAUXC_MAGMA_ERROR( "MAGMA Finalize Failed", ierr );
-  }
-#endif
-
-}
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/incore_xc_device_integrator.cxx b/third_party/gauxc/attic/src/new_integrator/device/incore_xc_device_integrator.cxx
deleted file mode 100644
index 88c7ffd..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/incore_xc_device_integrator.cxx
+++ /dev/null
@@ -1,27 +0,0 @@
-#include <gauxc/new_xc_integrator/replicated/incore_xc_device_integrator.hpp>
-
-#include "device/incore_xc_device_exc_vxc.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-IncoreXCDeviceIntegrator<ValueType>::
-  IncoreXCDeviceIntegrator( const IncoreXCDeviceIntegrator& ) = default;
-
-template <typename ValueType>
-IncoreXCDeviceIntegrator<ValueType>::
-  IncoreXCDeviceIntegrator( IncoreXCDeviceIntegrator&& ) noexcept = default;
-
-template <typename ValueType>
-IncoreXCDeviceIntegrator<ValueType>::
-  ~IncoreXCDeviceIntegrator() noexcept = default;
-
-
-
-
-
-template class IncoreXCDeviceIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_incore_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_incore_exc_vxc.hpp
deleted file mode 100644
index 314e567..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_incore_exc_vxc.hpp
+++ /dev/null
@@ -1,93 +0,0 @@
-#pragma once
-
-#include <gauxc/gauxc_config.hpp>
-
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-#ifdef GAUXC_ENABLE_CUDA
-#include "device/cuda/local_work_replicated_incore_exc_vxc.hpp"
-#endif
-
-#ifdef GAUXC_ENABLE_HIP
-#include "device/hip/local_work_replicated_incore_exc_vxc.hpp"
-#endif
-
-namespace GauXC::integrator::device {
-
-using host_task_iterator = std::vector<XCTask>::iterator;
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_incore_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-) {
-
-  
-#ifdef GAUXC_ENABLE_CUDA
-  GauXC::integrator::cuda::local_work_replicated_incore_exc_vxc_impl<F,n_deriv>(
-    weight_alg, state, func, basis, mol, meta, device_data, local_work_begin, 
-    local_work_end, P, VXC, exc, n_el 
-  );
-#endif
-
-#ifdef GAUXC_ENABLE_HIP
-  GauXC::integrator::hip::local_work_replicated_incore_exc_vxc_impl<F,n_deriv>(
-    weight_alg, state, func, basis, mol, meta, device_data, local_work_begin, 
-    local_work_end, P, VXC, exc, n_el 
-  );
-#endif
-
-}
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_incore_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  std::vector< XCTask >& tasks,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-) {
-
-  local_work_replicated_incore_exc_vxc_impl<F,n_deriv>( weight_alg, state, func, 
-    basis, mol, meta, device_data, tasks.begin(), tasks.end(), P, VXC, exc, n_el );
-    
-
-}
-
-template <typename F, typename... Args>
-inline void local_work_replicated_incore_exc_vxc( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    local_work_replicated_incore_exc_vxc_impl<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    local_work_replicated_incore_exc_vxc_impl<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_shellbatched_exc_vxc.cxx b/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_shellbatched_exc_vxc.cxx
deleted file mode 100644
index 56a99d7..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_shellbatched_exc_vxc.cxx
+++ /dev/null
@@ -1,431 +0,0 @@
-#include <set>
-#include <queue>
-#include <future>
-#include <cstring>
-
-#include <gauxc/util/unused.hpp>
-#include <gauxc/util/misc.hpp>
-
-#include "device/local_work_replicated_incore_exc_vxc.hpp"
-#include "device/local_work_replicated_shellbatched_exc_vxc.hpp"
-#include "host/util.hpp"
-#include "common/integrator_common.hpp"
-
-namespace GauXC  {
-namespace integrator::device {
-
-struct dev_ex_task {
-  host_task_iterator   task_begin;
-  host_task_iterator   task_end;
-  std::vector<int32_t> shell_list;
-};
-
-
-
-
-dev_ex_task generate_dev_batch( const uint32_t nbf_threshold,
-                                host_task_iterator task_begin,
-                                host_task_iterator local_work_end,
-                                const BasisSet<double>& basis,
-                                util::Timer&            timer ) {
-
-
-  auto nbe_comparator = []( const auto& task_a, const auto& task_b ) {
-    return task_a.nbe < task_b.nbe;
-  };
-
-  // Find task with largest NBE
-  auto max_task = timer.time_op_accumulate("XCIntegrator.MaxTask", [&]() {
-    return std::max_element( task_begin, local_work_end, nbe_comparator );
-  } );
-
-  const auto max_shell_list = max_task->shell_list; // copy for reset
-
-  // Init uniion shell list to max shell list outside of loop
-  std::set<int32_t> union_shell_set(max_shell_list.begin(), 
-                                    max_shell_list.end());
-
-
-
-  size_t n_overlap_pthresh     = 20;
-  double overlap_pthresh_delta = 1. / n_overlap_pthresh;
-  std::vector<double> overlap_pthresh;
-  for( int i = 1; i < n_overlap_pthresh; ++i )
-    overlap_pthresh.emplace_back( i*overlap_pthresh_delta );
-
-  std::vector<int> overlap_pthresh_idx( overlap_pthresh.size() );
-  std::iota( overlap_pthresh_idx.begin(), overlap_pthresh_idx.end(), 0 );
-
-  std::map<int, std::pair<host_task_iterator, decltype(union_shell_set)>> 
-    cached_task_ends;
-
-  int cur_partition_pthresh_idx = -1;
-
-  auto _it = std::partition_point( overlap_pthresh_idx.rbegin(), 
-                                   overlap_pthresh_idx.rend(), 
-  [&](int idx) {
-
-    uint32_t overlap_threshold = 
-      std::max(1., max_shell_list.size() * overlap_pthresh[idx] );
-
-
-    host_task_iterator search_st = task_begin;
-    host_task_iterator search_en = local_work_end;
-
-    // Make a local copy of union list
-    std::set<int32_t> local_union_shell_set;
-
-    // Attempt to limit task search based on current partition
-    if( cur_partition_pthresh_idx >= 0 ) {
-
-      const auto& last_pthresh = 
-        cached_task_ends.at(cur_partition_pthresh_idx);
-
-      if( cur_partition_pthresh_idx > idx ) {
-        search_st = last_pthresh.first;    
-        local_union_shell_set = last_pthresh.second;
-      } else {
-        search_en = last_pthresh.first;    
-        local_union_shell_set = union_shell_set;
-      }
-
-    } else {
-      local_union_shell_set = union_shell_set;
-    }
-
-
-    // Partition tasks into those which overlap max_task up to
-    // specified threshold
-    auto task_end = 
-    timer.time_op_accumulate("XCIntegrator.TaskIntersection", [&]() {
-      return std::partition( search_st, search_en, [&](const auto& t) {
-        return util::integral_list_intersect( max_shell_list, t.shell_list,
-                                        overlap_threshold );
-      } );
-    } );
-
-
-
-    // Take union of shell list for all overlapping tasks
-    timer.time_op_accumulate("XCIntegrator.ShellListUnion",[&]() {
-      for( auto task_it = search_st; task_it != task_end; ++task_it ) {
-        local_union_shell_set.insert( task_it->shell_list.begin(), 
-                                      task_it->shell_list.end() );
-      }
-    } );
-
-    auto cur_nbe = basis.nbf_subset( local_union_shell_set.begin(), 
-                                     local_union_shell_set.end() );
-
-    //std::cout << "  Threshold %       = " << std::setw(5)  << overlap_pthresh[idx] << ", ";
-    //std::cout << "  Overlap Threshold = " << std::setw(8)  << overlap_threshold    << ", ";
-    //std::cout << "  Current NBE       = " << std::setw(8)  << cur_nbe              << std::endl;
-
-    // Cache the data
-    cached_task_ends[idx] = std::make_pair( task_end, local_union_shell_set );
-
-    // Update partitioned threshold
-    cur_partition_pthresh_idx = idx;
-
-    return cur_nbe < nbf_threshold;
-
-  } );
-
-  host_task_iterator task_end;
-  auto _idx_partition = (_it == overlap_pthresh_idx.rend()) ? 0 : *_it;
-  std::tie( task_end, union_shell_set ) = cached_task_ends.at(_idx_partition);
-
-
-
-
-
-  //std::cout << "FOUND " << std::distance( task_begin, task_end ) 
-  //                      << " OVERLAPPING TASKS" << std::endl;
-
-
-  std::vector<int32_t> union_shell_list( union_shell_set.begin(),
-                                         union_shell_set.end() );
-
-  // Try to add additional tasks given current union list
-  task_end = timer.time_op_accumulate("XCIntegrator.SubtaskGeneration", [&]() {
-    return std::partition( task_end, local_work_end, [&]( const auto& t ) {
-      return util::list_subset( union_shell_list, t.shell_list );
-    } );
-  } );
-
-  //std::cout << "FOUND " << std::distance( task_begin, task_end ) 
-  //                      << " SUBTASKS" << std::endl;
-
-
-  dev_ex_task ex_task;
-  ex_task.task_begin = task_begin;
-  ex_task.task_end   = task_end;
-  ex_task.shell_list = std::move( union_shell_list );
-
-  return ex_task;
-
-}
-
-template <typename F, size_t n_deriv>
-void device_execute_shellbatched(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL,
-  const dev_ex_task&     ex_task_obj
-) {
-
-  // Alias information
-  auto task_begin  = ex_task_obj.task_begin;
-  auto task_end    = ex_task_obj.task_end;
-  auto& union_shell_list = ex_task_obj.shell_list;
-
-  const auto natoms = mol.natoms();
-
-  // Extract subbasis
-  BasisSet<F> basis_subset; basis_subset.reserve(union_shell_list.size());
-  timer.time_op_accumulate("XCIntegrator.CopySubBasis",[&]() {
-    for( auto i : union_shell_list ) {
-      basis_subset.emplace_back( basis.at(i) );
-    }
-    //basis_subset.generate_shell_to_ao();
-  });
-
-  // Setup basis maps
-  BasisSetMap basis_map( basis );
-
-  const size_t nshells = basis_subset.size();
-  const size_t nbe     = basis_subset.nbf();
-  std::cout << "TASK_UNION HAS:"   << std::endl
-            << "  NSHELLS    = " <<  nshells << std::endl
-            << "  NBE        = " <<  nbe     << std::endl;
-
-  // Recalculate shell_list based on subbasis
-  timer.time_op_accumulate("XCIntegrator.RecalcShellList",[&]() {
-    for( auto _it = task_begin; _it != task_end; ++_it ) {
-      auto union_list_idx = 0;
-      auto& cur_shell_list = _it->shell_list;
-      for( auto j = 0; j < cur_shell_list.size(); ++j ) {
-        while( union_shell_list[union_list_idx] != cur_shell_list[j] )
-          union_list_idx++;
-        cur_shell_list[j] = union_list_idx;
-      }
-    }
-  } );
-  
-
-
-  // Allocate host temporaries
-  std::vector<F> P_submat_host(nbe*nbe), VXC_submat_host(nbe*nbe);
-  F EXC_tmp, NEL_tmp;
-  F* P_submat   = P_submat_host.data();
-  F* VXC_submat = VXC_submat_host.data();
-
-  // Extract subdensity
-  std::vector<std::array<int32_t,3>> union_submat_cut;
-  std::vector<int32_t> foo;
-  //auto [union_submat_cut, foo] = 
-  std::tie(union_submat_cut,foo) = 
-    integrator::gen_compressed_submat_map( basis_map, union_shell_list, 
-      basis.nbf(), basis.nbf() );
-
-  timer.time_op_accumulate("XCIntegrator.ExtractSubDensity",[&]() {
-    detail::submat_set( basis.nbf(), basis.nbf(), nbe, nbe, P, basis.nbf(), 
-                        P_submat, nbe, union_submat_cut );
-  } );
- 
-
-  // Allocate static quantities on device stack
-  device_data.allocate_static_data( natoms, n_deriv, nbe, nshells );
-
-  // Process batches on device with subobjects
-  local_work_replicated_incore_exc_vxc_impl<F,n_deriv>(
-    weight_alg, state, func, basis_subset, mol, meta, device_data, 
-    task_begin, task_end, P_submat, VXC_submat, &EXC_tmp, &NEL_tmp
-  );
-
-  // Update full quantities
-  *EXC += EXC_tmp;
-  *NEL += NEL_tmp;
-  timer.time_op_accumulate("XCIntegrator.IncrementSubPotential",[&]() {
-    detail::inc_by_submat( basis.nbf(), basis.nbf(), nbe, nbe, VXC, basis.nbf(), 
-                           VXC_submat, nbe, union_submat_cut );
-  });
-
-
-  // Reset shell_list to be wrt full basis
-  timer.time_op_accumulate("XCIntegrator.ResetShellList",[&]() {
-    for( auto _it = task_begin; _it != task_end; ++_it ) 
-    for( auto j = 0; j < _it->shell_list.size();  ++j  ) {
-      _it->shell_list[j] = union_shell_list[_it->shell_list[j]];
-    }
-  });
-
-}
-
-
-
-
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_shellbatched_exc_vxc_impl(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     EXC,
-  F*                     NEL
-) {
-
-  const uint32_t nbf_threshold = 8000;
-  std::cout << "IN SHELL BATCHED\n" << std::flush;
-  std::cout << "TOTAL NTASKS = " << std::distance( local_work_begin, local_work_end ) << std:: endl;
-  std::cout << "TOTAL NBF    = " << basis.nbf() << std::endl;
-  std::cout << "NBF THRESH   = " << nbf_threshold << std::endl;
-
-
-  // Zero out final results
-  timer.time_op( "XCIntegrator.ZeroHost", [&]() {
-    *EXC = 0.;
-    *NEL = 0.;
-    std::memset( VXC, 0, basis.nbf()*basis.nbf()*sizeof(F) );
-  });
-
-#if 0
-  size_t nbf     = basis.nbf();
-  size_t nshells = basis.nshells();
-  size_t natoms  = mol.size();
-
-  // Allocate static quantities on device stack
-  device_data.allocate_static_data( natoms, n_deriv, nbf, nshells );
-
-  process_batches_cuda_replicated_density_incore_p<F,n_deriv>(
-    weight_alg, func, basis, mol, meta, device_data, 
-    local_work_begin, local_work_end, P, VXC, EXC, NEL
-  );
-#else
-
-  auto nbe_comparator = []( const auto& task_a, const auto& task_b ) {
-    return task_a.nbe < task_b.nbe;
-  };
-
-
-  size_t batch_iter = 0;
-  auto task_begin = local_work_begin;
-
-  const size_t natoms  = mol.size();
-
-  //std::future<void> device_ex;
-
-  std::cout << "MASTER THREAD ID = " << std::this_thread::get_id() << std::endl;
-  std::queue< dev_ex_task > dev_tasks;
-
-  auto execute_device_task = [&] () {
-
-    if( dev_tasks.empty() ) return;
-
-    std::cout << "Executing device tasks on thread " << std::this_thread::get_id() << std::endl;
-
-    dev_ex_task batch_task = std::move( dev_tasks.front() ); // Move task to local scope
-    dev_tasks.pop(); // Remove from queue
-    
-    // Execute task
-    timer.time_op_accumulate( "XCIntegrator.DeviceWork", [&]() {
-      device_execute_shellbatched<F,n_deriv>( timer, weight_alg, state, func, basis, mol,
-                                              meta, device_data, P, VXC, EXC, NEL,
-                                              batch_task );
-    });
-
-
-  };
-
-  std::future<void> dev_future;
-  while( task_begin != local_work_end ) {
-
-    // Generate task
-    dev_tasks.emplace( generate_dev_batch( nbf_threshold, task_begin, 
-                                           local_work_end, basis, timer ) );
-
-    if( not dev_future.valid() ) {
-      dev_future = std::async( std::launch::async, execute_device_task );
-    } else {
-      auto status = dev_future.wait_for( std::chrono::milliseconds(5) );
-      if( status == std::future_status::ready ) {
-        dev_future.get();
-        dev_future = std::async( std::launch::async, execute_device_task );
-      }
-    }
-
-    // Update task iterator for next set of batches
-    task_begin = dev_tasks.back().task_end;
-
-  }
-
-
-  if( dev_future.valid() ) dev_future.wait();
-
-  // TODO: Try to merge tasks if possible
-  //for( auto _task_it = dev_tasks.begin(); _task_it != dev_tasks.end()-1; ++_task_it ) {
-  //  const auto& shell_list = _task_it->union_shell_list;
-  //  auto task_nbe = basis.nbf_subset( shell_list.begin(), shell_list.end() );
-  //  auto _merge_it = _task_it + 1;
-  //  while( task_nbe <= nbf_threshold and _merge_it != dev_tasks.end() ) {
-  //    _merge_it = std::find_if( _merge_it, dev_tasks.end(), [&]( const auto& t ) {
-  //      const auto& local_shell_list
-  //    } );
-  //  }
-  //}
-
-  while( not dev_tasks.empty() ) {
-    // Execute remaining tasks
-    execute_device_task();
-  }
-
-
-
-#endif
-
-}
-
-
-#define CUDA_IMPL( F, ND ) \
-template \
-void local_work_replicated_shellbatched_exc_vxc_impl<F,ND>(\
-  util::Timer&           timer,\
-  XCWeightAlg            weight_alg,\
-  XCIntegratorState      state,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCDeviceData<F>  &     device_data,\
-  host_task_iterator     local_work_begin,\
-  host_task_iterator     local_work_end,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-CUDA_IMPL( double, 0 );
-CUDA_IMPL( double, 1 );
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_shellbatched_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_shellbatched_exc_vxc.hpp
deleted file mode 100644
index e3e24c7..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/local_work_replicated_shellbatched_exc_vxc.hpp
+++ /dev/null
@@ -1,76 +0,0 @@
-#pragma once
-
-#include <gauxc/gauxc_config.hpp>
-
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/util/timer.hpp>
-
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-#include "device/xc_device_data.hpp"
-
-namespace GauXC::integrator::device {
-
-using host_task_iterator = std::vector<XCTask>::iterator;
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_shellbatched_exc_vxc_impl(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  host_task_iterator     local_work_begin,
-  host_task_iterator     local_work_end,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_shellbatched_exc_vxc_impl(
-  util::Timer&           timer,
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCDeviceData<F>  &     device_data,
-  std::vector< XCTask >& tasks,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-) {
-
-  local_work_replicated_shellbatched_exc_vxc_impl<F,n_deriv>( timer, weight_alg,
-    state, func, basis, mol, meta, device_data, tasks.begin(), tasks.end(),
-    P, VXC, exc, n_el );
-
-}
-
-  
-
-template <typename F, typename... Args>
-inline void local_work_replicated_shellbatched_exc_vxc( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    local_work_replicated_shellbatched_exc_vxc_impl<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    local_work_replicated_shellbatched_exc_vxc_impl<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/shellbatched_xc_device_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/device/shellbatched_xc_device_exc_vxc.hpp
deleted file mode 100644
index 6b9efe6..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/shellbatched_xc_device_exc_vxc.hpp
+++ /dev/null
@@ -1,112 +0,0 @@
-#include <memory>
-#include <gauxc/new_xc_integrator/replicated/shellbatched_xc_device_integrator.hpp>
-
-#include "device/local_work_replicated_shellbatched_exc_vxc.hpp"
-#include <gauxc/util/unused.hpp>
-#include <gauxc/gauxc_config.hpp>
-#include "exceptions/magma_exception.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void ShellBatchedXCDeviceIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* VXC, int64_t ldvxc,
-                 value_type* EXC ) {
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Initialize MAGMA
-  {
-    auto ierr = magma_init();
-    GAUXC_MAGMA_ERROR( "MAGMA Init Failed", ierr );
-  }
-#endif
-
-  util::unused(m,n,ldp,ldvxc);
-
-  size_t nbf = this->basis_->nbf();
-
-  //// TODO: Check that P is sane
-
-
-  // Generate Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-  size_t n_deriv = this->func_->is_gga() ? 1 : 0;
-
-  // Allocate Memory
-  auto device_data = this->timer_.time_op("XCIntegrator.DeviceAlloc",[&]() {
-    return GauXC::integrator::device::make_device_data<ValueType>();
-  });
-
-  value_type N_EL;
-
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    GauXC::integrator::device::local_work_replicated_shellbatched_exc_vxc< value_type >(
-      n_deriv, this->timer_, XCWeightAlg::SSF, state_, *this->func_, 
-      *this->basis_, this->load_balancer_->molecule(), 
-      this->load_balancer_->molmeta(), *device_data, tasks, P, 
-      VXC, EXC, &N_EL 
-    );
-  });
-
-  // Update State of Integrator
-  state_.load_balancer_populated     = true;
-  //state_.modified_weights_are_stored = true;
-
-            
-#ifdef GAUXC_ENABLE_MPI
-
-  int world_size;
-  MPI_Comm_size( this->comm_, &world_size );
-
-  if( world_size > 1 ) {
-
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-    // Test of communicator is an inter-communicator
-    // XXX: Can't think of a case when this would be true, but who knows...
-    int inter_flag;
-    MPI_Comm_test_inter( this->comm_, &inter_flag );
-
-    // Is Intra-communicator, Allreduce can be done inplace
-    if( not inter_flag ) {
-
-      MPI_Allreduce( MPI_IN_PLACE, VXC, nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-    // Isn't Intra-communicator (weird), Allreduce can't be done inplace
-    } else {
-
-      std::allocator<value_type> alloc;
-      auto VXC_cpy = alloc.allocate( nbf*nbf );
-      value_type EXC_cpy = *EXC, N_EL_cpy = N_EL;
-
-      MPI_Allreduce( VXC_cpy, VXC, nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( &EXC_cpy,  EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( &N_EL_cpy, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      
-
-    }
-  });
-
-  }
-
-#endif
-
-#ifdef GAUXC_ENABLE_MAGMA
-  // Finalize MAGMA
-  {
-    auto ierr = magma_finalize();
-    GAUXC_MAGMA_ERROR( "MAGMA Finalize Failed", ierr );
-  }
-#endif
-
-}
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/device/shellbatched_xc_device_integrator.cxx b/third_party/gauxc/attic/src/new_integrator/device/shellbatched_xc_device_integrator.cxx
deleted file mode 100644
index 782a387..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/shellbatched_xc_device_integrator.cxx
+++ /dev/null
@@ -1,27 +0,0 @@
-#include <gauxc/new_xc_integrator/replicated/shellbatched_xc_device_integrator.hpp>
-
-#include "device/shellbatched_xc_device_exc_vxc.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-ShellBatchedXCDeviceIntegrator<ValueType>::
-  ShellBatchedXCDeviceIntegrator( const ShellBatchedXCDeviceIntegrator& ) = default;
-
-template <typename ValueType>
-ShellBatchedXCDeviceIntegrator<ValueType>::
-  ShellBatchedXCDeviceIntegrator( ShellBatchedXCDeviceIntegrator&& ) noexcept = default;
-
-template <typename ValueType>
-ShellBatchedXCDeviceIntegrator<ValueType>::
-  ~ShellBatchedXCDeviceIntegrator() noexcept = default;
-
-
-
-
-
-template class ShellBatchedXCDeviceIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/device/xc_device_data.hpp b/third_party/gauxc/attic/src/new_integrator/device/xc_device_data.hpp
deleted file mode 100644
index d299d63..0000000
--- a/third_party/gauxc/attic/src/new_integrator/device/xc_device_data.hpp
+++ /dev/null
@@ -1,32 +0,0 @@
-#pragma once
-
-#include <memory>
-#include <iostream>
-
-namespace GauXC {
-
-template <typename F>
-class XCDeviceData {
-
-public:
-
-  virtual void allocate_static_data( size_t _natoms,
-                                     size_t _n_deriv,
-                                     size_t _nbf,
-                                     size_t _nshells ) = 0;
-
-  virtual ~XCDeviceData() noexcept = default;
-
-};
-
-namespace integrator::device {
-
-  template <typename T>
-  std::shared_ptr<XCDeviceData<T>> make_device_data();
-
-  extern template std::shared_ptr<XCDeviceData<double>> make_device_data();
-
-}
-
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/blas.cxx b/third_party/gauxc/attic/src/new_integrator/host/blas.cxx
deleted file mode 100644
index b7126e4..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/blas.cxx
+++ /dev/null
@@ -1,214 +0,0 @@
-#include "host/blas.hpp"
-#include <type_traits>
-#include <stdexcept>
-
-extern "C" {
-
-//void dlacpy_( const char* UPLO, const int* M, const int* N, const double* A, 
-//              const int* LDA, double* B, const int* LDB );
-//void slacpy_( const char* UPLO, const int* M, const int* N, const float* A, 
-//              const int* LDA, float* B, const int* LDB );
-
-void dgemm_( const char* TA, const char* TB, const int* M, const int* N, 
-             const int* K, const double* ALPHA, const double* A, 
-             const int* LDA, const double* B, const int* LDB, 
-             const double* BETA, double* C, const int* LDC );
-void sgemm_( const char* TA, const char* TB, const int* M, const int* N, 
-             const int* K, const float* ALPHA, const float* A, 
-             const int* LDA, const float* B, const int* LDB, 
-             const float* BETA, float* C, const int* LDC );
-
-void dsyr2k_( const char* UPLO, const char* TRANS, const int* N, const int* K, 
-              const double* ALPHA, const double* A, const int* LDA, const double* B, 
-              const int* LDB, const double* BETA, double* C, const int* LDC ); 
-void ssyr2k_( const char* UPLO, const char* TRANS, const int* N, const int* K, 
-              const float* ALPHA, const float* A, const int* LDA, const float* B, 
-              const int* LDB, const float* BETA, float* C, const int* LDC ); 
-
-double ddot_( const int* N, const double* X, const int* INCX, const double* Y, 
-              const int* INCY );
-float sdot_( const int* N, const float* X, const int* INCX, const float* Y, 
-              const int* INCY );
-
-
-void daxpy_( const int* N, const double* ALPHA, const double* A, const int* INCX, 
-             double* Y, const int* INCY );
-void saxpy_( const int* N, const float* ALPHA, const float* A, const int* INCX, 
-             float* Y, const int* INCY );
-
-void dscal_( const int* N, const double* ALPHA, const double* X, const int* INCX );
-void sscal_( const int* N, const float* ALPHA, const float* X, const int* INCX ); 
-}
-
-namespace GauXC::blas {
-
-template <typename T>
-void lacpy( char UPLO, int M, int N, const T* A, int LDA, T* B,
-            int LDB ) {
-
-/*
-  if constexpr ( std::is_same_v<T,float> )
-    slacpy_( &UPLO, &M, &N, A, &LDA, B, &LDB );
-  else if constexpr ( std::is_same_v<T,double> )
-    dlacpy_( &UPLO, &M, &N, A, &LDA, B, &LDB );
-  else throw std::runtime_error("LACPY NYI");
-*/
-
-  if( UPLO == 'L' ) {
-
-    for( int j = 0; j < N; ++j )
-    for( int i = j; i < M; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  } else if( UPLO == 'U' ) {
-
-    for( int j = 0; j <  N; ++j )
-    for( int i = 0; i <= j; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  } else {
-
-    for( int j = 0; j < N; ++j )
-    for( int i = 0; i < M; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  }
-
-}
-
-template void lacpy( char UPLO, int M, int N, const float* A, int LDA, 
-                     float* B, int LDB );
-template void lacpy( char UPLO, int M, int N, const double* A, int LDA, 
-                     double* B, int LDB );
-
-
-
-
-
-
-
-
-
-template <typename T>
-void gemm( char TA, char TB, int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB, T BETA,
-           T* C, int LDC ) {
-
-
-  if constexpr ( std::is_same_v<T,float> )
-    sgemm_( &TA, &TB, &M, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else if constexpr ( std::is_same_v<T,double> )
-    dgemm_( &TA, &TB, &M, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else throw std::runtime_error("GEMM NYI");
-
-
-}
-template
-void gemm( char floatA, char floatB, int M, int N, int K, float ALPHA, 
-           const float* A, int LDA, const float* B, int LDB, float BETA,
-           float* C, int LDC );
-template
-void gemm( char doubleA, char doubleB, int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB, double BETA,
-           double* C, int LDC );
-
-
-
-
-
-
-
-template <typename T>
-void syr2k( char UPLO, char TRANS, int N, int K, T ALPHA,
-            const T* A, int LDA, const T* B, int LDB, T BETA, 
-            T* C, int LDC ) {
-
-
-  if constexpr ( std::is_same_v<T,float> )
-    ssyr2k_( &UPLO, &TRANS, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else if constexpr ( std::is_same_v<T,double> )
-    dsyr2k_( &UPLO, &TRANS, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else throw std::runtime_error("SYR2K NYI");
-
-
-}
-
-template
-void syr2k( char UPLO, char floatRANS, int N, int K, float ALPHA,
-            const float* A, int LDA, const float* B, int LDB, float BETA, 
-            float* C, int LDC );
-template
-void syr2k( char UPLO, char doubleRANS, int N, int K, double ALPHA,
-            const double* A, int LDA, const double* B, int LDB, double BETA, 
-            double* C, int LDC );
-            
-
-
-
-
-
-
-template <typename T>
-T dot( int N, const T* X, int INCX, const T* Y, int INCY ) {
-
-  if constexpr ( std::is_same_v<T,float> )
-    return sdot_(&N, X, &INCX, Y, &INCY);
-  else if constexpr ( std::is_same_v<T,double> )
-    return ddot_(&N, X, &INCX, Y, &INCY);
-  else throw std::runtime_error("DOT NYI");
-
-  return 0.;
-}
-
-template
-float dot( int N, const float* X, int INCX, const float* Y, int INCY );
-template
-double dot( int N, const double* X, int INCX, const double* Y, int INCY );
-
-
-
-
-
-
-template <typename T>
-void axpy( int N, T ALPHA, const T* X, int INCX, T* Y, int INCY ) {
-
-  if constexpr ( std::is_same_v<T,float> )
-    saxpy_(&N, &ALPHA, X, &INCX, Y, &INCY );
-  else if constexpr ( std::is_same_v<T,double> )
-    daxpy_(&N, &ALPHA, X, &INCX, Y, &INCY );
-  else throw std::runtime_error("AXPY NYI");
-
-}
-
-template
-void axpy( int N, float ALPHA, const float* A, int INCX, float* Y, 
-           int INCY );
-template
-void axpy( int N, double ALPHA, const double* A, int INCX, double* Y, 
-           int INCY );
-            
-
-
-
-
-
-template <typename T>
-void scal( int N, T ALPHA, T* X, int INCX ) {
-
-  if constexpr ( std::is_same_v<T,float> )
-    sscal_(&N, &ALPHA, X, &INCX );
-  else if constexpr ( std::is_same_v<T,double> )
-    dscal_(&N, &ALPHA, X, &INCX );
-  else throw std::runtime_error("SCAL NYI");
-
-}
-
-template
-void scal( int N, float ALPHA, float* X, int INCX ); 
-template
-void scal( int N, double ALPHA, double* X, int INCX );
-
-}
-
-
diff --git a/third_party/gauxc/attic/src/new_integrator/host/blas.hpp b/third_party/gauxc/attic/src/new_integrator/host/blas.hpp
deleted file mode 100644
index add036a..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/blas.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-#pragma once
-#include <cstdint>
-
-namespace GauXC::blas {
-
-template <typename T>
-void lacpy( char UPLO, int M, int N, const T* A, int LDA, T* B,
-            int LDB );
-
-template <typename T>
-void gemm( char TA, char TB, int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB, T BETA,
-           T* C, int LDC );
-
-template <typename T>
-void syr2k( char UPLO, char TRANS, int N, int K, T ALPHA,
-            const T* A, int LDA, const T* B, int LDB, T BETA, 
-            T* C, int LDC ); 
-            
-
-template <typename T>
-T dot( int N, const T* X, int INCX, const T* Y, int INCY );
-
-template <typename T>
-void axpy( int N, T ALPHA, const T* X, int INCX, T* Y, int INCY );
-            
-template <typename T>
-void scal( int N, T ALPHA,  T* X, int INCX );
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/gauxc-host.cmake b/third_party/gauxc/attic/src/new_integrator/host/gauxc-host.cmake
deleted file mode 100644
index 84cb2ab..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/gauxc-host.cmake
+++ /dev/null
@@ -1,23 +0,0 @@
-find_package( LAPACK  REQUIRED )
-include( gauxc-gau2grid     )
-target_sources( gauxc PRIVATE 
-  # Common Host Utilities
-  host/host_weights.cxx
-  host/host_collocation.cxx
-  host/blas.cxx
-  
-  # XC Specific
-  host/host_exc_vxc_zmat.cxx
-  host/local_work_replicated_exc_vxc.cxx
-  
-  # Interfaces
-  host/reference_xc_host_integrator.cxx
-)
-
-target_link_libraries( gauxc PUBLIC LAPACK::LAPACK )
-
-if( GAUXC_ENABLE_GAU2GRID )
-  target_link_libraries( gauxc PUBLIC gau2grid::gg )
-endif()
-
-
diff --git a/third_party/gauxc/attic/src/new_integrator/host/host_collocation.cxx b/third_party/gauxc/attic/src/new_integrator/host/host_collocation.cxx
deleted file mode 100644
index 8edf654..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/host_collocation.cxx
+++ /dev/null
@@ -1,137 +0,0 @@
-#include "host/host_collocation.hpp"
-
-
-#ifdef GAUXC_ENABLE_GAU2GRID
-  #include "gau2grid/gau2grid.h"
-#else
-  #include "collocation/collocation_angular_cartesian.hpp"
-  #include "collocation/collocation_angular_spherical_unnorm.hpp"
-  #include "collocation/collocation_radial.hpp"
-#endif
-
-namespace GauXC::integrator::host {
-
-void eval_collocation( size_t                  npts, 
-                       size_t                  nshells,
-                       size_t                  nbe,
-                       const double*           points, 
-                       const BasisSet<double>& basis,
-                       const int32_t*          shell_mask,
-                       double*                 basis_eval ) {
-
-#ifdef GAUXC_ENABLE_GAU2GRID
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( npts * nbe );
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-    gg_collocation( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ncomp*npts );
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv, basis_eval );
-  a.deallocate( rv, npts*nbe );
-
-#else
-  
-  for( size_t ipt = 0; ipt < npts;  ++ipt )
-  for( size_t i = 0;   i < nshells; ++i   ) {
-    
-    const auto ish = shell_mask[i];
-    const auto& sh = basis.at(ish);
-    auto* eval = basis_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-
-    double x,y,z, bf;
-    integrator::cuda::collocation_device_radial_eval( sh, points + 3*ipt, 
-                                                      &x, &y, &z, &bf );
-
-    if( sh.pure() )
-      integrator::cuda::collocation_spherical_unnorm_angular( sh.l(), bf, x, y, z,
-                                                              eval );
-    else
-      integrator::cuda::collocation_cartesian_angular( sh.l(), bf, x, y, z, eval );
-                                                              
-                                                              
-  }
-
-#endif
-
-}
-
-void eval_collocation_deriv1( size_t                  npts, 
-                              size_t                  nshells,
-                              size_t                  nbe,
-                              const double*           points, 
-                              const BasisSet<double>& basis,
-                              const int32_t*          shell_mask,
-                              double*                 basis_eval, 
-                              double*                 dbasis_x_eval, 
-                              double*                 dbasis_y_eval,
-                              double*                 dbasis_z_eval ) {
-
-#ifdef GAUXC_ENABLE_GAU2GRID
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( 4 * npts * nbe );
-  auto* rv_x = rv   + npts * nbe;
-  auto* rv_y = rv_x + npts * nbe;
-  auto* rv_z = rv_y + npts * nbe;
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-    gg_collocation_deriv1( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ncomp*npts, 
-      rv_x + ncomp*npts, rv_y + ncomp*npts, rv_z + ncomp*npts );
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv,   basis_eval );
-  gg_fast_transpose( ncomp, npts, rv_x, dbasis_x_eval );
-  gg_fast_transpose( ncomp, npts, rv_y, dbasis_y_eval );
-  gg_fast_transpose( ncomp, npts, rv_z, dbasis_z_eval );
-
-  a.deallocate( rv, 4*npts*nbe );
-
-#else 
-
-  for( size_t ipt = 0; ipt < npts;  ++ipt )
-  for( size_t i = 0;   i < nshells; ++i   ) {
-    
-    const auto ish = shell_mask[i];
-    const auto& sh = basis.at(ish);
-    auto* eval = basis_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_x = dbasis_x_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_y = dbasis_y_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_z = dbasis_z_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-
-    double x,y,z, bf, dbf_x, dbf_y, dbf_z;
-    integrator::cuda::collocation_device_radial_eval_deriv1( sh, points + 3*ipt, 
-                                                      &x, &y, &z, &bf, &dbf_x,
-                                                      &dbf_y, &dbf_z);
-
-    if( sh.pure() )
-      integrator::cuda::collocation_spherical_unnorm_angular_deriv1( 
-        sh.l(), bf, dbf_x, dbf_y, dbf_z, x, y, z, eval, deval_x, deval_y, deval_z );
-    else
-      integrator::cuda::collocation_cartesian_angular_deriv1( 
-        sh.l(), bf, dbf_x, dbf_y, dbf_z, x, y, z, eval, deval_x, deval_y, deval_z );
-                                                              
-  }
-
-#endif
-}
-
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/host_collocation.hpp b/third_party/gauxc/attic/src/new_integrator/host/host_collocation.hpp
deleted file mode 100644
index 536ba26..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/host_collocation.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-#pragma once
-
-#include <gauxc/basisset.hpp>
-
-namespace GauXC::integrator::host {
-
-void eval_collocation( size_t                  npts, 
-                       size_t                  nshells,
-                       size_t                  nbe,
-                       const double*           points, 
-                       const BasisSet<double>& basis,
-                       const int32_t*          shell_mask,
-                       double*                 basis_eval );
-
-void eval_collocation_deriv1( size_t                  npts, 
-                              size_t                  nshells,
-                              size_t                  nbe,
-                              const double*           points, 
-                              const BasisSet<double>& basis,
-                              const int32_t*          shell_mask,
-                              double*                 basis_eval, 
-                              double*                 dbasis_x_eval, 
-                              double*                 dbasis_y_eval,
-                              double*                 dbasis_z_eval );
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/host_exc_vxc_zmat.cxx b/third_party/gauxc/attic/src/new_integrator/host/host_exc_vxc_zmat.cxx
deleted file mode 100644
index 3e5d582..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/host_exc_vxc_zmat.cxx
+++ /dev/null
@@ -1,115 +0,0 @@
-#include "host/host_exc_vxc_zmat.hpp"
-#include "host/blas.hpp"
-
-namespace GauXC  {
-namespace integrator::host {
-
-template <typename F>
-void zmat_lda_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  basis,
-                    F*        z_matrix ) {
-
-  GauXC::blas::lacpy( 'A', nbf, npts, basis, nbf, 
-                      z_matrix, nbf );
-
-  for( int32_t i = 0; i < npts; ++i ) {
-
-    auto* z_col = z_matrix + i*nbf;
-
-    const F fact = 0.5 * vrho[i];
-    GauXC::blas::scal( nbf, fact, z_col, 1 );
-
-  }
-
-} 
-
-template
-void zmat_lda_host( int32_t    npts,
-                    int32_t    nbf,
-                    const float*  vrho,
-                    const float*  basis,
-                    float*        z_matrix ); 
-template
-void zmat_lda_host( int32_t    npts,
-                    int32_t    nbf,
-                    const double*  vrho,
-                    const double*  basis,
-                    double*        z_matrix ); 
-
-
-
-template <typename F>
-void zmat_gga_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  vgamma,
-                    const F*  basis,
-                    const F*  dbasis_x,
-                    const F*  dbasis_y,
-                    const F*  dbasis_z,
-                    const F*  dden_x,
-                    const F*  dden_y,
-                    const F*  dden_z,
-                    F*        z_matrix ) {
-
-  GauXC::blas::lacpy( 'A', nbf, npts, basis, nbf, 
-                      z_matrix, nbf );
-
-  for( int32_t i = 0; i < npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* z_col    = z_matrix + ioff;
-    auto* bf_x_col = dbasis_x + ioff; 
-    auto* bf_y_col = dbasis_y + ioff; 
-    auto* bf_z_col = dbasis_z + ioff; 
-
-    const F lda_fact = 0.5 * vrho[i];
-    GauXC::blas::scal( nbf, lda_fact, z_col, 1 );
-
-    const F gga_fact = 2. * vgamma[i]; 
-    const auto x_fact = gga_fact * dden_x[i];
-    const auto y_fact = gga_fact * dden_y[i];
-    const auto z_fact = gga_fact * dden_z[i];
-
-    GauXC::blas::axpy( nbf, x_fact, bf_x_col, 1, z_col, 1 );
-    GauXC::blas::axpy( nbf, y_fact, bf_y_col, 1, z_col, 1 );
-    GauXC::blas::axpy( nbf, z_fact, bf_z_col, 1, z_col, 1 );
-
-  }
-
-} 
-
-template 
-void zmat_gga_host( int32_t    npts,
-                    int32_t    nbf,
-                    const float*  vrho,
-                    const float*  vgamma,
-                    const float*  basis,
-                    const float*  dbasis_x,
-                    const float*  dbasis_y,
-                    const float*  dbasis_z,
-                    const float*  dden_x,
-                    const float*  dden_y,
-                    const float*  dden_z,
-                    float*        z_matrix );
-
-template 
-void zmat_gga_host( int32_t    npts,
-                    int32_t    nbf,
-                    const double*  vrho,
-                    const double*  vgamma,
-                    const double*  basis,
-                    const double*  dbasis_x,
-                    const double*  dbasis_y,
-                    const double*  dbasis_z,
-                    const double*  dden_x,
-                    const double*  dden_y,
-                    const double*  dden_z,
-                    double*        z_matrix );
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/host/host_exc_vxc_zmat.hpp b/third_party/gauxc/attic/src/new_integrator/host/host_exc_vxc_zmat.hpp
deleted file mode 100644
index ba33541..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/host_exc_vxc_zmat.hpp
+++ /dev/null
@@ -1,29 +0,0 @@
-#pragma once
-#include <cstdint>
-
-namespace GauXC  {
-namespace integrator::host {
-
-template <typename F>
-void zmat_lda_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  basis,
-                    F*        z_matrix ); 
-
-template <typename F>
-void zmat_gga_host( int32_t   npts,
-                    int32_t   nbf,
-                    const F*  vrho,
-                    const F*  vgamma,
-                    const F*  basis,
-                    const F*  dbasis_x,
-                    const F*  dbasis_y,
-                    const F*  dbasis_z,
-                    const F*  dden_x,
-                    const F*  dden_y,
-                    const F*  dden_z,
-                    F*        z_matrix ); 
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/host_weights.cxx b/third_party/gauxc/attic/src/new_integrator/host/host_weights.cxx
deleted file mode 100644
index d8d4785..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/host_weights.cxx
+++ /dev/null
@@ -1,205 +0,0 @@
-#include "host/host_weights.hpp"
-#include "common/integrator_constants.hpp"
-
-namespace GauXC::integrator::host {
-
-void ssf_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-);
-
-void becke_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-);
-
-void partition_weights_host(
-  XCWeightAlg            weight_alg,
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-) {
-
-  switch( weight_alg ) {
-    case XCWeightAlg::Becke:
-      becke_weights_host( mol, meta, tasks );
-      break;
-    case XCWeightAlg::SSF:
-      ssf_weights_host( mol, meta, tasks );
-      break;
-    default:
-      throw std::runtime_error("Weight Alg Not Supported");
-  }
-
-}
- 
-void becke_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-) {
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-
-  const size_t ntasks = tasks.size();
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  #pragma omp for
-  for( size_t iT = 0; iT < ntasks;                  ++iT )
-  for( size_t i  = 0; i  < tasks[iT].points.size(); ++i  ) {
-
-    auto&       task   = tasks[iT];
-    auto&       weight = task.weights[i];
-    const auto& point  = task.points[i];
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ ){
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-      const double g = gBecke(mu);
-
-      partitionScratch[iA] *= 0.5 * (1. - g);
-      partitionScratch[jA] *= 0.5 * (1. + g);
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[task.iParent] / sum;
-
-  } // Collapsed loop over tasks and points
-
-  } // OMP context
-
-
-}
-
-void ssf_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-) {
-
-  auto gFrisch = [&](double x) {
-    const double s_x  = x / magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-
-  const size_t ntasks = tasks.size();
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  #pragma omp for
-  for( size_t iT = 0; iT < ntasks;                  ++iT )
-  for( size_t i  = 0; i  < tasks[iT].points.size(); ++i  ) {
-
-    auto&       task   = tasks[iT];
-    auto&       weight = task.weights[i];
-    const auto& point  = task.points[i];
-
-    const auto dist_cutoff = 0.5 * (1-magic_ssf_factor<>) * task.dist_nearest;
-
-    // Compute dist to parent atom
-    {
-      const double da_x = point[0] - mol[task.iParent].x;
-      const double da_y = point[1] - mol[task.iParent].y;
-      const double da_z = point[2] - mol[task.iParent].z;
-
-      atomDist[task.iParent] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-    }
-
-    if( atomDist[task.iParent] < dist_cutoff ) continue; // Partition weight = 1
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      if( iA == (size_t)task.iParent ) continue;
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ )
-    if( partitionScratch[iA] > ssf_weight_tol or 
-        partitionScratch[jA] > ssf_weight_tol ) {
-
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-
-      if( mu <= -magic_ssf_factor<> ) {
-
-        partitionScratch[jA] = 0.;
-
-      } else if (mu >= magic_ssf_factor<>) {
-
-        partitionScratch[iA] = 0.;
-
-      } else {
-
-        double g = 0.5 * ( 1. - gFrisch(mu) );
-        partitionScratch[iA] *= g;
-        partitionScratch[jA] *= 1. - g;
-
-      }
-
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[task.iParent] / sum;
-
-  } // Collapsed loop over tasks and points
-
-  } // OMP context
-
-
-}
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/host_weights.hpp b/third_party/gauxc/attic/src/new_integrator/host/host_weights.hpp
deleted file mode 100644
index 11736de..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/host_weights.hpp
+++ /dev/null
@@ -1,15 +0,0 @@
-#pragma once
-
-#include <gauxc/xc_integrator.hpp>
-
-namespace GauXC::integrator::host {
-
-void partition_weights_host(
-  XCWeightAlg            weight_alg,
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  std::vector< XCTask >& tasks
-);
-
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/local_work_replicated_exc_vxc.cxx b/third_party/gauxc/attic/src/new_integrator/host/local_work_replicated_exc_vxc.cxx
deleted file mode 100644
index 84f7fe7..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/local_work_replicated_exc_vxc.cxx
+++ /dev/null
@@ -1,207 +0,0 @@
-#include "local_work_replicated_exc_vxc.hpp"
-
-#include "host/host_weights.hpp"
-#include "host/host_collocation.hpp"
-#include "host/host_exc_vxc_zmat.hpp"
-#include "common/integrator_common.hpp"
-#include "host/blas.hpp"
-#include "host/util.hpp"
-
-namespace GauXC::integrator::host {
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCHostData<F>    &     host_data,
-  std::vector< XCTask >& tasks,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-) {
-
-  const int32_t nbf = basis.nbf();
-
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.nbe) > (b.points.size() * b.nbe);
-  };
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-
-  if( not state.modified_weights_are_stored )
-    partition_weights_host( weight_alg, mol, meta, tasks );
-
-
-  std::fill( VXC, VXC + size_t(nbf)*nbf, F(0.) );
-  *exc = 0.;
-
-  size_t ntasks = tasks.size();
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    auto& task = tasks[iT];
-
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.nbe;
-    const int32_t  nshells = task.shell_list.size();
-
-    const F* points      = task.points.data()->data();
-    const F* weights     = task.weights.data();
-    const int32_t* shell_list = task.shell_list.data();
-
-    F* basis_eval = host_data.basis_eval.data();
-    F* den_eval   = host_data.den_scr.data();
-    F* nbe_scr    = host_data.nbe_scr.data();
-    F* zmat       = host_data.zmat.data();
-
-    F* eps        = host_data.eps.data();
-    F* gamma      = host_data.gamma.data();
-    F* vrho       = host_data.vrho.data();
-    F* vgamma     = host_data.vgamma.data();
-
-    F* dbasis_x_eval = nullptr;
-    F* dbasis_y_eval = nullptr;
-    F* dbasis_z_eval = nullptr;
-    F* dden_x_eval = nullptr;
-    F* dden_y_eval = nullptr;
-    F* dden_z_eval = nullptr;
-
-    if( n_deriv > 0 ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      dden_x_eval   = den_eval    + npts;
-      dden_y_eval   = dden_x_eval + npts;
-      dden_z_eval   = dden_y_eval + npts;
-    }
-
-
-    // Get the submatrix map for batch
-    auto [submat_map, foo] = gen_compressed_submat_map( basis, task.shell_list, nbf, nbf);
-
-
-    // Evaluate Collocation Matrix 
-    if( n_deriv == 1 )
-      eval_collocation_deriv1( npts, nshells, nbe, points, basis, shell_list, 
-                               basis_eval, dbasis_x_eval, dbasis_y_eval, 
-                               dbasis_z_eval );
-    else
-      eval_collocation( npts, nshells, nbe, points, basis, shell_list, basis_eval );
-
-
-    // Extrat Submatrix
-    const F* den_ptr_use = P;
-    if( nbe != nbf ) {
-      detail::submat_set( nbf, nbf, nbe, nbe, P, nbf, nbe_scr, nbe, submat_map );
-      den_ptr_use = nbe_scr;
-    } 
-
-    // Z = P * BF
-    GauXC::blas::gemm( 'N', 'N', nbe, npts, nbe, 1., den_ptr_use, nbe,
-                       basis_eval, nbe, 0., zmat, nbe );
-    
-
-    // Evaluate the density 
-    for( int32_t i = 0; i < npts; ++i ) {
-
-      const size_t ioff = size_t(i) * nbe;
-      const F*     zmat_i = zmat + ioff;
-
-      den_eval[i] = 
-        2. * GauXC::blas::dot( nbe, basis_eval + ioff, 1, zmat_i, 1 );
-
-      if( n_deriv > 0 ) {
-        const F dx = 
-          4. * GauXC::blas::dot( nbe, dbasis_x_eval + ioff, 1, zmat_i, 1 );
-        const F dy = 
-          4. * GauXC::blas::dot( nbe, dbasis_y_eval + ioff, 1, zmat_i, 1 );
-        const F dz = 
-          4. * GauXC::blas::dot( nbe, dbasis_z_eval + ioff, 1, zmat_i, 1 );
-
-        dden_x_eval[i] = dx;
-        dden_y_eval[i] = dy;
-        dden_z_eval[i] = dz;
-
-        gamma[i] = dx*dx + dy*dy + dz*dz;
-      }
-
-    }
-
-
-    // Evaluate XC functional
-    if( func.is_gga() )
-      func.eval_exc_vxc( npts, den_eval, gamma, eps, vrho, vgamma );
-    else
-      func.eval_exc_vxc( npts, den_eval, eps, vrho );
-
-
-    // Factor weights into XC results
-    for( int32_t i = 0; i < npts; ++i ) {
-      eps[i]  *= weights[i];
-      vrho[i] *= weights[i];
-    }
-
-    if( func.is_gga() )
-      for( int32_t i = 0; i < npts; ++i ) vgamma[i] *= weights[i];
-    
-
-
-    // Scalar integrations
-    if( n_el )
-      for( int32_t i = 0; i < npts; ++i ) *n_el += weights[i] * den_eval[i];
-
-    for( int32_t i = 0; i < npts; ++i ) *exc += eps[i] * den_eval[i];
-    
-
-    // Assemble Z
-    if( func.is_gga() )
-      zmat_gga_host( npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-                     dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval,
-                     dden_z_eval, zmat ); 
-    else
-      zmat_lda_host( npts, nbe, vrho, basis_eval, zmat ); 
-
-
-
-    // Update VXC XXX: Only LT
-    GauXC::blas::syr2k( 'L', 'N', nbe, npts, F(1.), basis_eval,
-                        nbe, zmat, nbe, F(0.), nbe_scr, nbe );
-
-
-    detail::inc_by_submat( nbf, nbf, nbe, nbe, VXC, nbf, nbe_scr, nbe,
-                           submat_map );
-  }
-
-  // Symmetrize VXC
-  for( int32_t j = 0;   j < nbf; ++j )
-  for( int32_t i = j+1; i < nbf; ++i )
-    VXC[ j + i*nbf ] = VXC[ i + j*nbf ];
-
-
-}
-
-#define HOST_IMPL( F, ND ) \
-template \
-void local_work_replicated_exc_vxc_impl<F, ND>(\
-  XCWeightAlg            weight_alg,\
-  XCIntegratorState      state,\
-  const functional_type& func,\
-  const BasisSet<F>&     basis,\
-  const Molecule   &     mol,\
-  const MolMeta    &     meta,\
-  XCHostData<F>    &     host_data,\
-  std::vector< XCTask >& local_work,\
-  const F*               P,\
-  F*                     VXC,\
-  F*                     exc,\
-  F*                     n_el\
-) 
-
-HOST_IMPL( double, 0 );
-HOST_IMPL( double, 1 );
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/local_work_replicated_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/host/local_work_replicated_exc_vxc.hpp
deleted file mode 100644
index f5a7265..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/local_work_replicated_exc_vxc.hpp
+++ /dev/null
@@ -1,43 +0,0 @@
-#pragma once
-
-
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include <gauxc/new_xc_integrator/xc_integrator_state.hpp>
-
-#include "host/xc_host_data.hpp"
-
-namespace GauXC::integrator::host {
-
-template <typename F, size_t n_deriv>
-void local_work_replicated_exc_vxc_impl(
-  XCWeightAlg            weight_alg,
-  XCIntegratorState      state,
-  const functional_type& func,
-  const BasisSet<F>&     basis,
-  const Molecule   &     mol,
-  const MolMeta    &     meta,
-  XCHostData<F>    &     host_data,
-  std::vector< XCTask >& tasks,
-  const F*               P,
-  F*                     VXC,
-  F*                     exc,
-  F*                     n_el
-);
-
-template <typename F, typename... Args>
-inline void local_work_replicated_exc_vxc( size_t n_deriv, Args&&... args ) {
-  if( n_deriv == 0 )
-    local_work_replicated_exc_vxc_impl<F,0>( std::forward<Args>(args)... );
-  else if( n_deriv == 1 )
-    local_work_replicated_exc_vxc_impl<F,1>( std::forward<Args>(args)... );
-  else
-    throw std::runtime_error("MGGA NYI");
-}
-
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/reference_xc_host_exc_vxc.hpp b/third_party/gauxc/attic/src/new_integrator/host/reference_xc_host_exc_vxc.hpp
deleted file mode 100644
index b21abaa..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/reference_xc_host_exc_vxc.hpp
+++ /dev/null
@@ -1,102 +0,0 @@
-#include <gauxc/new_xc_integrator/replicated/reference_xc_host_integrator.hpp>
-
-#include "host/xc_host_data.hpp"
-#include "host/local_work_replicated_exc_vxc.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void ReferenceXCHostIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* VXC, int64_t ldvxc,
-                 value_type* EXC ) {
-
-  size_t nbf = this->basis_->nbf();
-
-  //// TODO: Check that P is sane
-
-
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  size_t max_npts       = this->load_balancer_->max_npts();
-  size_t max_nbe        = this->load_balancer_->max_nbe();
-  size_t max_npts_x_nbe = this->load_balancer_->max_npts_x_nbe();
-
-  size_t n_deriv = this->func_->is_gga() ? 1 : 0;
-
-  // Allocate Memory
-  auto host_data = this->timer_.time_op("XCIntegrator.HostAlloc",
-    [&](){
-      return std::make_shared<XCHostData<value_type>>(
-        n_deriv, nbf, max_npts, max_npts_x_nbe 
-      );
-    });
-
-
-  value_type N_EL;
-
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    GauXC::integrator::host::local_work_replicated_exc_vxc< value_type >(
-      n_deriv, XCWeightAlg::SSF, state_, *this->func_, 
-      *this->basis_, this->load_balancer_->molecule(), 
-      this->load_balancer_->molmeta(), *host_data, tasks, P, 
-      VXC, EXC, &N_EL 
-    );
-  });
-
-  // Update State of Integrator
-  state_.load_balancer_populated     = true;
-  state_.modified_weights_are_stored = true;
-
-            
-#ifdef GAUXC_ENABLE_MPI
-
-  int world_size;
-  MPI_Comm_size( this->comm_, &world_size );
-
-  if( world_size > 1 ) {
-
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-    // Test of communicator is an inter-communicator
-    // XXX: Can't think of a case when this would be true, but who knows...
-    int inter_flag;
-    MPI_Comm_test_inter( this->comm_, &inter_flag );
-
-    // Is Intra-communicator, Allreduce can be done inplace
-    if( not inter_flag ) {
-
-      MPI_Allreduce( MPI_IN_PLACE, VXC, nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( MPI_IN_PLACE, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-
-    // Isn't Intra-communicator (weird), Allreduce can't be done inplace
-    } else {
-
-      std::allocator<value_type> alloc;
-      auto VXC_cpy = alloc.allocate( nbf*nbf );
-      value_type EXC_cpy = *EXC, N_EL_cpy = N_EL;
-
-      MPI_Allreduce( VXC_cpy, VXC, nbf*nbf, MPI_DOUBLE,
-                     MPI_SUM, this->comm_ );
-      MPI_Allreduce( &EXC_cpy,  EXC,  1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      MPI_Allreduce( &N_EL_cpy, &N_EL, 1, MPI_DOUBLE, MPI_SUM, this->comm_ );
-      
-
-    }
-  });
-
-  }
-
-#endif
-
-
-
-
-}
-
-}
-}
-
diff --git a/third_party/gauxc/attic/src/new_integrator/host/reference_xc_host_integrator.cxx b/third_party/gauxc/attic/src/new_integrator/host/reference_xc_host_integrator.cxx
deleted file mode 100644
index bf005b0..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/reference_xc_host_integrator.cxx
+++ /dev/null
@@ -1,27 +0,0 @@
-#include <gauxc/new_xc_integrator/replicated/reference_xc_host_integrator.hpp>
-
-#include "host/reference_xc_host_exc_vxc.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-ReferenceXCHostIntegrator<ValueType>::
-  ReferenceXCHostIntegrator( const ReferenceXCHostIntegrator& ) = default;
-
-template <typename ValueType>
-ReferenceXCHostIntegrator<ValueType>::
-  ReferenceXCHostIntegrator( ReferenceXCHostIntegrator&& ) noexcept = default;
-
-template <typename ValueType>
-ReferenceXCHostIntegrator<ValueType>::
-  ~ReferenceXCHostIntegrator() noexcept = default;
-
-
-
-
-
-template class ReferenceXCHostIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/util.hpp b/third_party/gauxc/attic/src/new_integrator/host/util.hpp
deleted file mode 100644
index b23f66f..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/util.hpp
+++ /dev/null
@@ -1,80 +0,0 @@
-#pragma once
-#include "host/blas.hpp"
-#include <vector>
-#include <tuple>
-#include <cstdint>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename _F1, typename _F2>
-void submat_set(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  std::vector<std::array<int32_t,3>> &submat_map) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    GauXC::blas::lacpy( 'A', deltaI, deltaJ, ABig_use, LDAB, 
-                         ASmall_use, LDAS );
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-
-}
-
-template <typename _F1, typename _F2>
-void inc_by_submat(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  std::vector<std::array<int32_t,3>> &submat_map) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    for( int32_t jj = 0; jj < deltaJ; ++jj )
-    for( int32_t ii = 0; ii < deltaI; ++ii )
-      ABig_use[ ii + jj * LDAB ] += ASmall_use[ ii + jj * LDAS ];
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-
-}
-
-}
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/host/xc_host_data.hpp b/third_party/gauxc/attic/src/new_integrator/host/xc_host_data.hpp
deleted file mode 100644
index f2a51c8..0000000
--- a/third_party/gauxc/attic/src/new_integrator/host/xc_host_data.hpp
+++ /dev/null
@@ -1,39 +0,0 @@
-#pragma once
-#include <vector>
-#include <cstdint>
-
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-
-template <typename F>
-struct XCHostData {
-
-  std::vector<F> eps;
-  std::vector<F> gamma;
-  std::vector<F> vrho;
-  std::vector<F> vgamma;
- 
-  std::vector<F> zmat;
-  std::vector<F> nbe_scr;
-  std::vector<F> den_scr;
-  std::vector<F> basis_eval;
-   
-
-  XCHostData( size_t n_deriv, 
-              size_t nbf,
-              size_t max_npts, 
-              size_t max_npts_x_nbe ) :
-    eps( max_npts ),
-    gamma( (n_deriv > 0) * max_npts ),
-    vrho( max_npts ),
-    vgamma( (n_deriv > 0) * max_npts ),
-    zmat( max_npts_x_nbe ),
-    nbe_scr( nbf * nbf ),
-    den_scr( (3*n_deriv + 1) * max_npts ),
-    basis_eval( (3*n_deriv + 1) * max_npts_x_nbe ) { }
-   
-
-};
-
-}
diff --git a/third_party/gauxc/attic/src/new_integrator/replicated/gauxc-replicated.cmake b/third_party/gauxc/attic/src/new_integrator/replicated/gauxc-replicated.cmake
deleted file mode 100644
index 1ec274f..0000000
--- a/third_party/gauxc/attic/src/new_integrator/replicated/gauxc-replicated.cmake
+++ /dev/null
@@ -1,7 +0,0 @@
-# Implementations of generic interfaces
-target_sources( gauxc PRIVATE replicated/replicated_xc_integrator_impl.cxx )
-
-if( GAUXC_ENABLE_HOST )
-  target_sources( gauxc PRIVATE replicated/reference_xc_host_integrator.cxx )
-endif()
-
diff --git a/third_party/gauxc/attic/src/new_integrator/replicated_xc_integrator_impl.cxx b/third_party/gauxc/attic/src/new_integrator/replicated_xc_integrator_impl.cxx
deleted file mode 100644
index aacbed3..0000000
--- a/third_party/gauxc/attic/src/new_integrator/replicated_xc_integrator_impl.cxx
+++ /dev/null
@@ -1,45 +0,0 @@
-#include <gauxc/new_xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-#ifdef GAUXC_ENABLE_MPI
-
-template <typename ValueType>
-ReplicatedXCIntegratorImpl<ValueType>::
-  ReplicatedXCIntegratorImpl( MPI_Comm comm,
-                              std::shared_ptr< functional_type > func,
-                              std::shared_ptr< basis_type >      basis,
-                              std::shared_ptr< LoadBalancer >    lb ) :
-    comm_(comm), func_(func), basis_(basis), load_balancer_(lb) { }
-
-#else
-
-template <typename ValueType>
-ReplicatedXCIntegratorImpl<ValueType>::
-  ReplicatedXCIntegratorImpl( std::shared_ptr< functional_type > func,
-                              std::shared_ptr< basis_type >      basis,
-                              std::shared_ptr< LoadBalancer >    lb ) :
-    func_(func), basis_(basis), load_balancer_(lb) { }
-
-#endif
-
-template <typename ValueType>
-ReplicatedXCIntegratorImpl<ValueType>::
-  ~ReplicatedXCIntegratorImpl() noexcept = default;
-
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_vxc( int64_t m, int64_t n, const value_type* P,
-                int64_t ldp, value_type* VXC, int64_t ldvxc,
-                value_type* EXC ) {
-
-    eval_exc_vxc_(m,n,P,ldp,VXC,ldvxc,EXC);
-
-}
-
-template class ReplicatedXCIntegratorImpl<double>;
-
-}
-}
diff --git a/third_party/gauxc/attic/tests/collocation_cuda.hpp b/third_party/gauxc/attic/tests/collocation_cuda.hpp
deleted file mode 100644
index 9c654e2..0000000
--- a/third_party/gauxc/attic/tests/collocation_cuda.hpp
+++ /dev/null
@@ -1,725 +0,0 @@
-#ifdef GAUXC_ENABLE_CUDA
-#include "collocation_common.hpp"
-#include "exceptions/cuda_exception.hpp"
-#include <gauxc/util/cuda_util.hpp>
-#include "device/cuda/collocation_device.hpp"
-
-
-
-
-void test_cuda_collocation_petite( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  auto offs_device    = util::cuda_malloc<size_t>( basis.size() );
-  auto pts_device     = util::cuda_malloc<double>( 3 * MAX_NPTS_CHECK );
-  auto eval_device    = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-
-
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-    std::vector<Shell<double>> shells;
-    for( auto idx : mask ) shells.emplace_back(basis[idx]);
-    util::cuda_copy( shells.size(), shells_device, shells.data() );
-
-    integrator::cuda::eval_collocation_petite( shells.size(), nbf, npts,
-                                               shells_device, offs_device,
-                                               pts_device,
-                                               eval_device, stream );
-
-    std::vector<double> eval( nbf * npts );
-
-    util::cuda_copy( nbf * npts, eval.data(),    eval_device    );
-  
-    check_collocation_transpose( npts, nbf, d.eval.data(), eval.data() );
-
-  }
-  util::cuda_device_sync();
-  util::cuda_free(shells_device, offs_device, pts_device, eval_device );
-
-}
-
-
-
-
-void test_cuda_collocation_masked( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  auto offs_device    = util::cuda_malloc<size_t>( basis.size() );
-  auto mask_device    = util::cuda_malloc<size_t>( basis.size() );
-  auto pts_device     = util::cuda_malloc<double>( 3 * MAX_NPTS_CHECK );
-  auto eval_device    = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-
-
-  std::vector<Shell<double>> shells( basis );
-  util::cuda_copy( basis.size(), shells_device, shells.data() );
-
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> mask_ul( mask.size() );
-    std::copy( mask.begin(), mask.end(), mask_ul.begin() );
-    util::cuda_copy( mask.size(), mask_device, mask_ul.data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-
-    integrator::cuda::eval_collocation_masked( mask.size(), nbf, npts,
-                                               shells_device, mask_device,
-                                               offs_device, pts_device,
-                                               eval_device, stream );
-
-    std::vector<double> eval( nbf * npts );
-
-    util::cuda_copy( nbf * npts, eval.data(),    eval_device    );
-
-    check_collocation_transpose( npts, nbf, d.eval.data(), eval.data() );
-
-  }
-  util::cuda_device_sync();
-  util::cuda_free(shells_device, offs_device, pts_device, eval_device );
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-void test_cuda_collocation_petite_combined( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-
-  std::vector< cuda::XCTaskDevice<double> > tasks;
-
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    /// XXX: THIS DOES NOT POPULATE A VALID TASK, ONLY WHAT's REQUIRED FOR THIS
-    //  TEST
-    auto& task = tasks.emplace_back();
-    task.nbe     = nbf;
-    task.npts    = npts;
-    task.nshells = mask.size();
-
-    task.points     = util::cuda_malloc<double>( 3 * npts );
-    task.shell_offs = util::cuda_malloc<size_t>( mask.size() );
-    task.shells     = util::cuda_malloc<Shell<double>>(mask.size());
-    task.bf         = util::cuda_malloc<double>( nbf * npts );
-
-    auto* pts_device = task.points;
-    auto* offs_device = task.shell_offs;
-    auto* shells_device = task.shells;
-
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-    std::vector<Shell<double>> shells;
-    for( auto idx : mask ) shells.emplace_back(basis[idx]);
-    util::cuda_copy( shells.size(), shells_device, shells.data() );
-
-
-  }
-
-
-  const auto nshells_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.nshells < b.nshells;
-    })->nshells;
-
-  const auto npts_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.npts < b.npts;
-    })->npts;
-
-  auto* tasks_device = util::cuda_malloc<cuda::XCTaskDevice<double>>( tasks.size() );
-  util::cuda_copy( tasks.size(), tasks_device, tasks.data() );
-
-  integrator::cuda::eval_collocation_petite_combined( tasks.size(), npts_max,
-    nshells_max, tasks_device, stream );
-
-  util::cuda_device_sync();
-
-
-  for( int i = 0; i < tasks.size(); i++ ) {
-
-    auto* ref_eval = ref_data[i].eval.data();
-    std::vector<double> eval (tasks[i].nbe * tasks[i].npts);
-    util::cuda_copy( eval.size(), eval.data(), tasks[i].bf );
-
-    check_collocation_transpose( tasks[i].npts, tasks[i].nbe, ref_eval, eval.data() );
-  }
-
-
-  for( auto& t : tasks ) {
-    util::cuda_free( t.points, t.shell_offs, t.shells, t.bf );
-  }
-  util::cuda_free( tasks_device );
-}
-
-
-void test_cuda_collocation_masked_combined( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-
-  std::vector< cuda::XCTaskDevice<double> > tasks;
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  std::vector<Shell<double>> shells( basis );
-  util::cuda_copy( basis.size(), shells_device, shells.data() );
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    /// XXX: THIS DOES NOT POPULATE A VALID TASK, ONLY WHAT's REQUIRED FOR THIS
-    //  TEST
-    auto& task = tasks.emplace_back();
-    task.nbe     = nbf;
-    task.npts    = npts;
-    task.nshells = mask.size();
-
-    task.points     = util::cuda_malloc<double>( 3 * npts );
-    task.shell_offs = util::cuda_malloc<size_t>( mask.size() );
-    task.shell_list = util::cuda_malloc<size_t>( mask.size() );
-    task.bf         = util::cuda_malloc<double>( nbf * npts );
-
-    auto* pts_device = task.points;
-    auto* offs_device = task.shell_offs;
-    auto* mask_device = task.shell_list;
-
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> mask_ul( mask.size() );
-    std::copy( mask.begin(), mask.end(), mask_ul.begin() );
-    util::cuda_copy( mask.size(), mask_device, mask_ul.data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-
-  }
-
-
-  const auto nshells_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.nshells < b.nshells;
-    })->nshells;
-
-  const auto npts_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.npts < b.npts;
-    })->npts;
-
-  auto* tasks_device = util::cuda_malloc<cuda::XCTaskDevice<double>>( tasks.size() );
-  util::cuda_copy( tasks.size(), tasks_device, tasks.data() );
-
-  integrator::cuda::eval_collocation_masked_combined( tasks.size(), npts_max,
-    nshells_max, shells_device, tasks_device, stream );
-
-  util::cuda_device_sync();
-
-
-  for( int i = 0; i < tasks.size(); i++ ) {
-
-    auto* ref_eval = ref_data[i].eval.data();
-    std::vector<double> eval (tasks[i].nbe * tasks[i].npts);
-    util::cuda_copy( eval.size(), eval.data(), tasks[i].bf );
-
-    check_collocation_transpose( tasks[i].npts, tasks[i].nbe, ref_eval, eval.data() );
-  }
-
-
-  for( auto& t : tasks ) {
-    util::cuda_free( t.points, t.shell_offs, t.shell_list, t.bf );
-  }
-  util::cuda_free( tasks_device, shells_device );
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-void test_cuda_collocation_deriv1_petite( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  auto offs_device    = util::cuda_malloc<size_t>( basis.size() );
-  auto pts_device     = util::cuda_malloc<double>( 3 * MAX_NPTS_CHECK );
-  auto eval_device    = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-  auto deval_device_x = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-  auto deval_device_y = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-  auto deval_device_z = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-
-
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-    std::vector<Shell<double>> shells;
-    for( auto idx : mask ) shells.emplace_back(basis[idx]);
-    util::cuda_copy( shells.size(), shells_device, shells.data() );
-
-    integrator::cuda::eval_collocation_petite_deriv1( shells.size(), nbf, npts,
-                                                      shells_device, offs_device,
-                                                      pts_device,
-                                                      eval_device, deval_device_x,
-                                                      deval_device_y, deval_device_z,
-                                                      stream );
-
-    std::vector<double> eval   ( nbf * npts ),
-                        deval_x( nbf * npts ),
-                        deval_y( nbf * npts ),
-                        deval_z( nbf * npts );
-
-    util::cuda_copy( nbf * npts, eval.data(),    eval_device    );
-    util::cuda_copy( nbf * npts, deval_x.data(), deval_device_x );
-    util::cuda_copy( nbf * npts, deval_y.data(), deval_device_y );
-    util::cuda_copy( nbf * npts, deval_z.data(), deval_device_z );
-
-    check_collocation_transpose( npts, nbf, d.eval.data(), eval.data() );
-    check_collocation_transpose( npts, nbf, d.deval_x.data(), deval_x.data() );
-    check_collocation_transpose( npts, nbf, d.deval_y.data(), deval_y.data() );
-    check_collocation_transpose( npts, nbf, d.deval_z.data(), deval_z.data() );
-
-  }
-  util::cuda_device_sync();
-  util::cuda_free(shells_device, offs_device, pts_device, eval_device,
-                 deval_device_x, deval_device_y, deval_device_z);
-}
-
-
-
-
-void test_cuda_collocation_deriv1_masked( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  auto offs_device    = util::cuda_malloc<size_t>( basis.size() );
-  auto mask_device    = util::cuda_malloc<size_t>( basis.size() );
-  auto pts_device     = util::cuda_malloc<double>( 3 * MAX_NPTS_CHECK );
-  auto eval_device    = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-  auto deval_device_x = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-  auto deval_device_y = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-  auto deval_device_z = util::cuda_malloc<double>( basis.nbf() * MAX_NPTS_CHECK );
-
-
-  std::vector<Shell<double>> shells( basis );
-  util::cuda_copy( basis.size(), shells_device, shells.data() );
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> mask_ul( mask.size() );
-    std::copy( mask.begin(), mask.end(), mask_ul.begin() );
-    util::cuda_copy( mask.size(), mask_device, mask_ul.data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-
-    integrator::cuda::eval_collocation_masked_deriv1( mask.size(), nbf, npts,
-                                                      shells_device, mask_device,
-                                                      offs_device, pts_device,
-                                                      eval_device, deval_device_x,
-                                                      deval_device_y, deval_device_z,
-                                                      stream );
-
-    std::vector<double> eval   ( nbf * npts ),
-                        deval_x( nbf * npts ),
-                        deval_y( nbf * npts ),
-                        deval_z( nbf * npts );
-
-    util::cuda_copy( nbf * npts, eval.data(),    eval_device    );
-    util::cuda_copy( nbf * npts, deval_x.data(), deval_device_x );
-    util::cuda_copy( nbf * npts, deval_y.data(), deval_device_y );
-    util::cuda_copy( nbf * npts, deval_z.data(), deval_device_z );
-      
-    check_collocation_transpose( npts, nbf, d.eval.data(), eval.data() );
-    check_collocation_transpose( npts, nbf, d.deval_x.data(), deval_x.data() );
-    check_collocation_transpose( npts, nbf, d.deval_y.data(), deval_y.data() );
-    check_collocation_transpose( npts, nbf, d.deval_z.data(), deval_z.data() );
-
-  }
-  util::cuda_device_sync();
-  util::cuda_free(shells_device, offs_device, pts_device, eval_device,
-                 deval_device_x, deval_device_y, deval_device_z);
-}
-
-
-
-
-
-
-
-void test_cuda_collocation_petite_combined_deriv1( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-
-  std::vector< cuda::XCTaskDevice<double> > tasks;
-
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    /// XXX: THIS DOES NOT POPULATE A VALID TASK, ONLY WHAT's REQUIRED FOR THIS
-    //  TEST
-    auto& task = tasks.emplace_back();
-    task.nbe     = nbf;
-    task.npts    = npts;
-    task.nshells = mask.size();
-
-    task.points     = util::cuda_malloc<double>( 3 * npts );
-    task.shell_offs = util::cuda_malloc<size_t>( mask.size() );
-    task.shells     = util::cuda_malloc<Shell<double>>(mask.size());
-    task.bf         = util::cuda_malloc<double>( nbf * npts );
-    task.dbfx       = util::cuda_malloc<double>( nbf * npts );
-    task.dbfy       = util::cuda_malloc<double>( nbf * npts );
-    task.dbfz       = util::cuda_malloc<double>( nbf * npts );
-
-    auto* pts_device = task.points;
-    auto* offs_device = task.shell_offs;
-    auto* shells_device = task.shells;
-
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-    std::vector<Shell<double>> shells;
-    for( auto idx : mask ) shells.emplace_back(basis[idx]);
-    util::cuda_copy( shells.size(), shells_device, shells.data() );
-
-
-  }
-
-
-  const auto nshells_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.nshells < b.nshells;
-    })->nshells;
-
-  const auto npts_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.npts < b.npts;
-    })->npts;
-
-  auto* tasks_device = util::cuda_malloc<cuda::XCTaskDevice<double>>( tasks.size() );
-  util::cuda_copy( tasks.size(), tasks_device, tasks.data() );
-
-  integrator::cuda::eval_collocation_petite_combined_deriv1( tasks.size(), npts_max,
-    nshells_max, tasks_device, stream );
-
-  util::cuda_device_sync();
-
-
-  for( int i = 0; i < tasks.size(); i++ ) {
-
-    auto* ref_eval = ref_data[i].eval.data();
-    auto* ref_deval_x = ref_data[i].deval_x.data();
-    auto* ref_deval_y = ref_data[i].deval_y.data();
-    auto* ref_deval_z = ref_data[i].deval_z.data();
-
-    std::vector<double> eval (tasks[i].nbe * tasks[i].npts);
-    std::vector<double> deval_x (tasks[i].nbe * tasks[i].npts);
-    std::vector<double> deval_y (tasks[i].nbe * tasks[i].npts);
-    std::vector<double> deval_z (tasks[i].nbe * tasks[i].npts);
-
-    util::cuda_copy( eval.size(), eval.data(), tasks[i].bf );
-    util::cuda_copy( eval.size(), deval_x.data(), tasks[i].dbfx );
-    util::cuda_copy( eval.size(), deval_y.data(), tasks[i].dbfy );
-    util::cuda_copy( eval.size(), deval_z.data(), tasks[i].dbfz );
-
-
-    auto npts = tasks[i].npts;
-    auto nbe  = tasks[i].nbe;
-    check_collocation_transpose( npts, nbe, ref_eval, eval.data() );
-    check_collocation_transpose( npts, nbe, ref_deval_x, deval_x.data() );
-    check_collocation_transpose( npts, nbe, ref_deval_y, deval_y.data() );
-    check_collocation_transpose( npts, nbe, ref_deval_z, deval_z.data() );
-  }
-
-
-  for( auto& t : tasks ) {
-    util::cuda_free( t.points, t.shell_offs, t.shells, t.bf, t.dbfx, t.dbfy,
-      t.dbfz );
-  }
-  util::cuda_free( tasks_device );
-}
-
-
-void test_cuda_collocation_masked_combined_deriv1( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-
-  std::vector< cuda::XCTaskDevice<double> > tasks;
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  std::vector<Shell<double>> shells( basis );
-  util::cuda_copy( basis.size(), shells_device, shells.data() );
-
-  cudaStream_t stream = 0;
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    /// XXX: THIS DOES NOT POPULATE A VALID TASK, ONLY WHAT's REQUIRED FOR THIS
-    //  TEST
-    auto& task = tasks.emplace_back();
-    task.nbe     = nbf;
-    task.npts    = npts;
-    task.nshells = mask.size();
-
-    task.points     = util::cuda_malloc<double>( 3 * npts );
-    task.shell_offs = util::cuda_malloc<size_t>( mask.size() );
-    task.shell_list = util::cuda_malloc<size_t>( mask.size() );
-    task.bf         = util::cuda_malloc<double>( nbf * npts );
-    task.dbfx       = util::cuda_malloc<double>( nbf * npts );
-    task.dbfy       = util::cuda_malloc<double>( nbf * npts );
-    task.dbfz       = util::cuda_malloc<double>( nbf * npts );
-
-
-    auto* pts_device = task.points;
-    auto* offs_device = task.shell_offs;
-    auto* mask_device = task.shell_list;
-
-
-    util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-
-    std::vector<size_t> mask_ul( mask.size() );
-    std::copy( mask.begin(), mask.end(), mask_ul.begin() );
-    util::cuda_copy( mask.size(), mask_device, mask_ul.data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-
-  }
-
-
-  const auto nshells_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.nshells < b.nshells;
-    })->nshells;
-
-  const auto npts_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.npts < b.npts;
-    })->npts;
-
-  auto* tasks_device = util::cuda_malloc<cuda::XCTaskDevice<double>>( tasks.size() );
-  util::cuda_copy( tasks.size(), tasks_device, tasks.data() );
-
-  integrator::cuda::eval_collocation_masked_combined_deriv1( tasks.size(), npts_max,
-    nshells_max, shells_device, tasks_device, stream );
-
-  util::cuda_device_sync();
-
-
-  for( int i = 0; i < tasks.size(); i++ ) {
-
-    auto* ref_eval = ref_data[i].eval.data();
-    auto* ref_deval_x = ref_data[i].deval_x.data();
-    auto* ref_deval_y = ref_data[i].deval_y.data();
-    auto* ref_deval_z = ref_data[i].deval_z.data();
-
-    std::vector<double> eval (tasks[i].nbe * tasks[i].npts);
-    std::vector<double> deval_x (tasks[i].nbe * tasks[i].npts);
-    std::vector<double> deval_y (tasks[i].nbe * tasks[i].npts);
-    std::vector<double> deval_z (tasks[i].nbe * tasks[i].npts);
-
-    util::cuda_copy( eval.size(), eval.data(), tasks[i].bf );
-    util::cuda_copy( eval.size(), deval_x.data(), tasks[i].dbfx );
-    util::cuda_copy( eval.size(), deval_y.data(), tasks[i].dbfy );
-    util::cuda_copy( eval.size(), deval_z.data(), tasks[i].dbfz );
-
-
-    auto npts = tasks[i].npts;
-    auto nbe  = tasks[i].nbe;
-    check_collocation_transpose( npts, nbe, ref_eval, eval.data() );
-    check_collocation_transpose( npts, nbe, ref_deval_x, deval_x.data() );
-    check_collocation_transpose( npts, nbe, ref_deval_y, deval_y.data() );
-    check_collocation_transpose( npts, nbe, ref_deval_z, deval_z.data() );
-  }
-
-
-  for( auto& t : tasks ) {
-    util::cuda_free( t.points, t.shell_offs, t.shell_list, t.bf, t.dbfx, t.dbfy,
-      t.dbfz );
-  }
-  util::cuda_free( tasks_device, shells_device );
-}
-#endif // GAUXC_ENABLE_SYCL
-
diff --git a/third_party/gauxc/cmake/BuildFindCereal.cmake b/third_party/gauxc/cmake/BuildFindCereal.cmake
deleted file mode 100644
index f6787d4..0000000
--- a/third_party/gauxc/cmake/BuildFindCereal.cmake
+++ /dev/null
@@ -1,32 +0,0 @@
-find_package( cereal QUIET )
-if( NOT cereal_FOUND )
-
-  include( gauxc-dep-versions )
-
-  message( STATUS "Could not find Cereal... Building" )
-  message( STATUS "CEREAL REPO = ${GAUXC_CEREAL_REPOSITORY}" )
-  message( STATUS "CEREAL REV  = ${GAUXC_CEREAL_REVISION}"   )
-
-  FetchContent_Declare(
-    cereal
-    GIT_REPOSITORY ${GAUXC_CEREAL_REPOSITORY} 
-    GIT_TAG        ${GAUXC_CEREAL_REVISION} 
-  )
-
-  FetchContent_GetProperties(cereal)
-  if(NOT cereal_POPULATED)
-    FetchContent_Populate( cereal )
-    add_library( cereal INTERFACE IMPORTED )
-    set_target_properties( cereal PROPERTIES
-      INTERFACE_INCLUDE_DIRECTORIES "${cereal_SOURCE_DIR}/include"
-      INTERFACE_COMPILE_DEFINITIONS "CEREAL_THREAD_SAFE=1;GAUXC_HAS_CEREAL=1"
-    )
-  endif()
-
-else()
-
-  target_compile_definitions( cereal INTERFACE
-    "CEREAL_THREAD_SAFE=1;GAUXC_HAS_CEREAL=1" 
-  )
-
-endif()
diff --git a/third_party/gauxc/cmake/gauxc-cereal.cmake b/third_party/gauxc/cmake/gauxc-cereal.cmake
deleted file mode 100644
index 5ddbc3b..0000000
--- a/third_party/gauxc/cmake/gauxc-cereal.cmake
+++ /dev/null
@@ -1 +0,0 @@
-include( BuildFindCereal )
diff --git a/third_party/gauxc/cmake/gauxc-config.cmake.in b/third_party/gauxc/cmake/gauxc-config.cmake.in
deleted file mode 100644
index 0a675b9..0000000
--- a/third_party/gauxc/cmake/gauxc-config.cmake.in
+++ /dev/null
@@ -1,84 +0,0 @@
-cmake_minimum_required(VERSION 3.18 FATAL_ERROR) # Require CMake 3.18+
-
-get_filename_component(GauXC_CMAKE_DIR "${CMAKE_CURRENT_LIST_FILE}" PATH)
-
-list(PREPEND CMAKE_MODULE_PATH ${GauXC_CMAKE_DIR}                      )
-list(PREPEND CMAKE_MODULE_PATH ${GauXC_CMAKE_DIR}/linalg-cmake-modules )
-include(CMakeFindDependencyMacro)
-
-# Always Required Dependencies
-find_dependency( ExchCXX )
-find_dependency( IntegratorXX )
-
-set( GAUXC_HAS_HOST       @GAUXC_HAS_HOST@      )
-set( GAUXC_HAS_CUDA       @GAUXC_HAS_CUDA@      )
-set( GAUXC_HAS_HIP        @GAUXC_HAS_HIP@       )
-set( GAUXC_HAS_MAGMA      @GAUXC_HAS_MAGMA@     )
-set( GAUXC_HAS_NCCL       @GAUXC_HAS_NCCL@      )
-set( GAUXC_HAS_CUTLASS    @GAUXC_HAS_CUTLASS@   )
-set( GAUXC_HAS_MPI        @GAUXC_HAS_MPI@       )
-set( GAUXC_HAS_OPENMP     @GAUXC_HAS_OPENMP@    )
-set( GAUXC_HAS_GAU2GRID   @GAUXC_HAS_GAU2GRID@  )
-set( GAUXC_HAS_HDF5       @GAUXC_HAS_HDF5@      )
-set( GAUXC_BLAS_IS_LP64   @GAUXC_BLAS_IS_LP64@  )
-set( GAUXC_HAS_ONEDFT     @GAUXC_HAS_ONEDFT@    )
-
-# Make sure C / CXX are enabled (former for BLAS discovery)
-enable_language(C)
-enable_language(CXX) 
-
-if(GAUXC_HAS_OPENMP)
-  find_dependency( OpenMP )
-endif()
-
-if( GAUXC_HAS_HOST )
-  if(GAUXC_BLAS_IS_LP64)
-    set( _blas_components lp64 )
-  else()
-    set( _blas_components ilp64 )
-  endif()
-  find_dependency( BLAS COMPONENTS "${_blas_components}")
-  unset( _blas_components )
-endif()
-
-if( GAUXC_HAS_CUDA )
-  enable_language( CUDA )
-  find_dependency( CUDAToolkit @CUDAToolkit_VERSION@ EXACT )
-  if( GAUXC_HAS_MAGMA )
-    find_dependency( MAGMA )
-  endif()
-  if( GAUXC_HAS_NCCL )
-    find_dependency( NCCL )
-  endif()
-endif()
-
-if( GAUXC_HAS_MPI )
-  find_dependency( MPI )
-endif()
-
-if( GAUXC_HAS_OPENMP )
-  find_dependency( OpenMP )
-endif()
-
-if( GAUXC_HAS_HDF5 )
-  find_dependency( HighFive )
-endif()
-
-if ( GAUXC_HAS_ONEDFT )
-  set(_PREV_CUDA_ARCHS "${CMAKE_CUDA_ARCHITECTURES}")
-  find_dependency ( Torch )
-  if(CMAKE_CUDA_ARCHITECTURES STREQUAL "OFF")
-    set(CMAKE_CUDA_ARCHITECTURES "${_PREV_CUDA_ARCHS}" CACHE STRING "Restore CUDA archs after Torch override" FORCE)
-    message(WARNING "Torch set CMAKE_CUDA_ARCHITECTURES to OFF. Restored previous value: ${CMAKE_CUDA_ARCHITECTURES}")
-  endif()
-  find_dependency ( nlohmann_json )
-endif()
-
-list(REMOVE_AT CMAKE_MODULE_PATH 0)
-list(REMOVE_AT CMAKE_MODULE_PATH 0)
-
-if(NOT TARGET gauxc::gauxc)
-    include("${GauXC_CMAKE_DIR}/gauxc-targets.cmake")
-endif()
-
-set(GauXC_LIBRARIES gauxc::gauxc)
diff --git a/third_party/gauxc/cmake/gauxc-cub.cmake b/third_party/gauxc/cmake/gauxc-cub.cmake
deleted file mode 100644
index e1f8990..0000000
--- a/third_party/gauxc/cmake/gauxc-cub.cmake
+++ /dev/null
@@ -1,31 +0,0 @@
-if( GAUXC_HAS_CUDA )
-
-  find_package( CUDAToolkit REQUIRED )
-  if( CUDAToolkit_VERSION VERSION_LESS "11.0.0" )
-    include( gauxc-dep-versions )
-
-    message( STATUS "Building Local CUB Installation" )
-    message( STATUS "CUB REPO = ${GAUXC_CUB_REPOSITORY}" )
-    message( STATUS "CUB REV  = ${GAUXC_CUB_REVISION}"   )
-
-    FetchContent_Declare(
-      cub
-      GIT_REPOSITORY ${GAUXC_CUB_REPOSITORY} 
-      GIT_TAG        ${GAUXC_CUB_REVISION} 
-    )
-
-    FetchContent_GetProperties( cub )
-    if( NOT cub_POPULATED )
-      FetchContent_Populate( cub )
-    endif()
-
-    add_library( gauxc_cub INTERFACE IMPORTED )
-    set_target_properties( gauxc_cub PROPERTIES 
-      INTERFACE_INCLUDE_DIRECTORIES ${cub_SOURCE_DIR}
-    )
-  else()
-    message( STATUS "Using CUB from CUDAToolkit" )
-    message( STATUS "  CUDATOOLKIT VERSION = ${CUDAToolkit_VERSION}" )
-  endif()
-
-endif()
diff --git a/third_party/gauxc/cmake/gauxc-cutlass.cmake b/third_party/gauxc/cmake/gauxc-cutlass.cmake
deleted file mode 100644
index 7020eb2..0000000
--- a/third_party/gauxc/cmake/gauxc-cutlass.cmake
+++ /dev/null
@@ -1,33 +0,0 @@
-# Check that only CUDA CC 8.0+ is enabled
-foreach( cuda_arch ${CMAKE_CUDA_ARCHITECTURES} )
-  if( NOT cuda_arch GREATER_EQUAL 80 )
-    message(FATAL_ERROR "GauXC Requires CUDA CC >= 8.0 For CUTLASS")
-  endif()
-endforeach()
-
-include( gauxc-dep-versions )
-
-message( STATUS "Building Local CUTLASS Installation" )
-message( STATUS "CUTLASS REPO = ${GAUXC_CUTLASS_REPOSITORY}" )
-message( STATUS "CUTLASS REV  = ${GAUXC_CUTLASS_REVISION}"   )
-
-FetchContent_Declare(
-  cutlass
-  GIT_REPOSITORY ${GAUXC_CUTLASS_REPOSITORY} 
-  GIT_TAG        ${GAUXC_CUTLASS_REVISION} 
-)
-
-FetchContent_GetProperties( cutlass )
-if( NOT cutlass_POPULATED )
-  FetchContent_Populate( cutlass )
-endif()
-
-
-
-add_library( gauxc_cutlass INTERFACE IMPORTED )
-set_target_properties( gauxc_cutlass PROPERTIES 
-  INTERFACE_INCLUDE_DIRECTORIES 
-    "${cutlass_SOURCE_DIR}/include;${cutlass_SOURCE_DIR}/tools/util/include"
-)
-
-set(GAUXC_HAS_CUTLASS TRUE CACHE BOOL "GauXC has CUTLASS" FORCE) 
diff --git a/third_party/gauxc/cmake/gauxc-dep-versions.cmake b/third_party/gauxc/cmake/gauxc-dep-versions.cmake
deleted file mode 100644
index f5d8d78..0000000
--- a/third_party/gauxc/cmake/gauxc-dep-versions.cmake
+++ /dev/null
@@ -1,26 +0,0 @@
-set( GAUXC_LINALG_MODULES_REPOSITORY https://github.com/wavefunction91/linalg-cmake-modules.git )
-set( GAUXC_LINALG_MODULES_REVISION  9d2c273a671d6811e9fd432f6a4fa3d915b144b8 )
-
-set( GAUXC_CEREAL_REPOSITORY https://github.com/USCiLab/cereal.git )
-set( GAUXC_CEREAL_REVISION   v1.3.0 )
-
-set ( GAUXC_NLOHMANN_JSON_REPOSITORY https://github.com/nlohmann/json.git )
-set ( GAUXC_NLOHMANN_JSON_REVISION v3.12.0 )
-
-set( GAUXC_CUB_REPOSITORY https://github.com/NVIDIA/cub.git )
-set( GAUXC_CUB_REVISION   1.10.0 )
-
-set( GAUXC_CUTLASS_REPOSITORY https://github.com/NVIDIA/cutlass.git )
-set( GAUXC_CUTLASS_REVISION v2.10.0 )
-
-set( GAUXC_EXCHCXX_REPOSITORY https://github.com/wavefunction91/ExchCXX.git )
-set( GAUXC_EXCHCXX_REVISION   v1.0.0 )
-
-set( GAUXC_GAU2GRID_REPOSITORY https://github.com/dgasmith/gau2grid.git )
-set( GAUXC_GAU2GRID_REVISION   v2.0.6 )
-
-set( GAUXC_INTEGRATORXX_REPOSITORY https://github.com/wavefunction91/IntegratorXX.git )
-set( GAUXC_INTEGRATORXX_REVISION   1369be58d7a3235dac36d75dd964fef058830622 )
-
-set( GAUXC_HIGHFIVE_REPOSITORY https://github.com/BlueBrain/HighFive.git )
-set( GAUXC_HIGHFIVE_REVISION 805f0e13d09b47c4b01d40682621904aa3b31bb8 )
\ No newline at end of file
diff --git a/third_party/gauxc/cmake/gauxc-eigen3.cmake b/third_party/gauxc/cmake/gauxc-eigen3.cmake
deleted file mode 100644
index c775472..0000000
--- a/third_party/gauxc/cmake/gauxc-eigen3.cmake
+++ /dev/null
@@ -1,25 +0,0 @@
-find_package( Eigen3 CONFIG HINTS ${EIGEN3_ROOT_DIR} )
-if( NOT Eigen3_FOUND )
-  
-  message( STATUS "Could Not Find Eigen3... Building" )
-  message( STATUS "EIGEN3 REPO = https://gitlab.com/libeigen/eigen/-/archive/3.4.0/eigen-3.4.0.tar.gz" )
-  #message( STATUS "EIGEN3 REV  = "   )
-
-  FetchContent_Declare(
-    eigen3
-    URL https://gitlab.com/libeigen/eigen/-/archive/3.4.0/eigen-3.4.0.tar.gz
-  )
-
-  FetchContent_GetProperties( eigen3 )
-  if( NOT eigen3_POPULATED )
-    FetchContent_Populate( eigen3 )
-  endif()
-
-  #message( FATAL_ERROR "Eigen3 Pull Not Yet Configured" )
-  add_library( Eigen3::Eigen INTERFACE IMPORTED )
-  set_target_properties( Eigen3::Eigen PROPERTIES
-    INTERFACE_INCLUDE_DIRECTORIES ${eigen3_SOURCE_DIR}
-  )
-
-endif()
-
diff --git a/third_party/gauxc/cmake/gauxc-exchcxx.cmake b/third_party/gauxc/cmake/gauxc-exchcxx.cmake
deleted file mode 100644
index 412df9b..0000000
--- a/third_party/gauxc/cmake/gauxc-exchcxx.cmake
+++ /dev/null
@@ -1,35 +0,0 @@
-find_package( ExchCXX QUIET )
-if( NOT ${ExchCXX_FOUND} )
-
-  include( gauxc-dep-versions )
-
-  message( STATUS "Could not find ExchCXX... Building" )
-  message( STATUS "EXCHCXX REPO = ${GAUXC_EXCHCXX_REPOSITORY}" )
-  message( STATUS "EXCHCXX REV  = ${GAUXC_EXCHCXX_REVISION}"   )
-
-  set( EXCHCXX_ENABLE_CUDA  ${GAUXC_HAS_CUDA} CACHE BOOL "" )
-  set( EXCHCXX_ENABLE_HIP   ${GAUXC_HAS_HIP}  CACHE BOOL "" )
-  set( EXCHCXX_ENABLE_TESTS OFF               CACHE BOOL "" )
-
-  FetchContent_Declare(
-    exchcxx
-    GIT_REPOSITORY ${GAUXC_EXCHCXX_REPOSITORY} 
-    GIT_TAG        ${GAUXC_EXCHCXX_REVISION} 
-  )
-
-  FetchContent_MakeAvailable( exchcxx )
-
-
-else()
-
-  if( ${GAUXC_HAS_CUDA} AND NOT ${EXCHCXX_ENABLE_CUDA} )
-    message( FATAL_ERROR "GauXC CUDA BINDINGS REQUIRE ExchCXX CUDA Bindings" )
-  endif()
-
-  if( ${GAUXC_HAS_HIP} AND NOT ${EXCHCXX_ENABLE_HIP} )
-    message( FATAL_ERROR "GauXC HIP BINDINGS REQUIRE ExchCXX HIP Bindings" )
-  endif()
-
-endif()
-
-
diff --git a/third_party/gauxc/cmake/gauxc-gau2grid.cmake b/third_party/gauxc/cmake/gauxc-gau2grid.cmake
deleted file mode 100644
index 51db34d..0000000
--- a/third_party/gauxc/cmake/gauxc-gau2grid.cmake
+++ /dev/null
@@ -1,43 +0,0 @@
-if( GAUXC_ENABLE_GAU2GRID )
-  if( NOT TARGET gau2grid::gg )
-  
-    # First try to find the package if target doesn't exist
-    find_package( gau2grid CONFIG QUIET ) 
-    
-    if( NOT gau2grid_FOUND )
-    
-      message( STATUS "Could not find Gau2grid... Building" )
-      
-      if( GAUXC_FORCE_EXTERNAL_GAU2GRID )
-        
-        include( gauxc-dep-versions )
-        
-        message( STATUS "GAU2GRID REPO = ${GAUXC_GAU2GRID_REPOSITORY}" )
-        message( STATUS "GAU2GRID REV  = ${GAUXC_GAU2GRID_REVISION}"   )
-        
-        FetchContent_Declare(
-          gau2grid
-          GIT_REPOSITORY ${GAUXC_GAU2GRID_REPOSITORY} 
-          GIT_TAG        ${GAUXC_GAU2GRID_REVISION} 
-        )
-        
-        set( MAX_AM 6 CACHE STRING "" )
-        set( DISABLE_PRAGMA ON CACHE BOOL "" )
-        FetchContent_MakeAvailable( gau2grid )
-        
-        if( NOT TARGET gau2grid::gg )
-          message( STATUS "Something Went Horribly Wrong With Gau2Grid discovery!" )
-        endif()
-      
-      else()
-      
-        message( STATUS "Building Pregenerated Gau2grid" )
-        add_subdirectory( ${PROJECT_SOURCE_DIR}/external/gau2grid ${PROJECT_BINARY_DIR}/external/gau2grid )
-      
-      endif()
-    
-    endif() # If not discoverable
-  endif() # If target not present
-
-  set(GAUXC_HAS_GAU2GRID TRUE CACHE BOOL "GauXC has Gau2Grid and will build bindings" FORCE)
-endif() # If enabled
diff --git a/third_party/gauxc/cmake/gauxc-integratorxx.cmake b/third_party/gauxc/cmake/gauxc-integratorxx.cmake
deleted file mode 100644
index b6bbbf0..0000000
--- a/third_party/gauxc/cmake/gauxc-integratorxx.cmake
+++ /dev/null
@@ -1,21 +0,0 @@
-find_package( IntegratorXX QUIET )
-if( NOT ${IntegratorXX_FOUND} )
-
-  include( gauxc-dep-versions )
-
-  message( STATUS "Could not find IntegratorXX... Building" )
-  message( STATUS "INTEGRATORXX REPO = ${GAUXC_INTEGRATORXX_REPOSITORY}" )
-  message( STATUS "INTEGRATORXX REV  = ${GAUXC_INTEGRATORXX_REVISION}"   )
-
-  set( INTEGRATORXX_ENABLE_TESTS OFF CACHE BOOL "" )
-  FetchContent_Declare(
-    integratorxx
-    GIT_REPOSITORY ${GAUXC_INTEGRATORXX_REPOSITORY} 
-    GIT_TAG        ${GAUXC_INTEGRATORXX_REVISION} 
-  )
-
-  FetchContent_MakeAvailable( integratorxx )
-
-endif()
-
-
diff --git a/third_party/gauxc/cmake/gauxc-linalg-modules.cmake b/third_party/gauxc/cmake/gauxc-linalg-modules.cmake
deleted file mode 100644
index 69a69a7..0000000
--- a/third_party/gauxc/cmake/gauxc-linalg-modules.cmake
+++ /dev/null
@@ -1,11 +0,0 @@
-include( FetchContent )
-include( gauxc-dep-versions )
-FetchContent_Declare( linalg-cmake-modules 
-  GIT_REPOSITORY ${GAUXC_LINALG_MODULES_REPOSITORY} 
-  GIT_TAG        ${GAUXC_LINALG_MODULES_REVISION} 
-)
-FetchContent_GetProperties( linalg-cmake-modules )
-if( NOT linalg-cmake-modules_POPULATED )
-  FetchContent_Populate( linalg-cmake-modules )
-  list( PREPEND CMAKE_MODULE_PATH ${linalg-cmake-modules_SOURCE_DIR} )
-endif()
diff --git a/third_party/gauxc/cmake/gauxc-onedft.cmake b/third_party/gauxc/cmake/gauxc-onedft.cmake
deleted file mode 100644
index 7003d54..0000000
--- a/third_party/gauxc/cmake/gauxc-onedft.cmake
+++ /dev/null
@@ -1,32 +0,0 @@
-find_package(nlohmann_json)
-if( NOT nlohmann_json_FOUND )
-
-  message( STATUS "Could Not Find nlohmann_json... Building" )
-  message( STATUS "NLOHMANN_JSON REPO = ${GAUXC_NLOHMANN_JSON_REPOSITORY}" )
-
-  FetchContent_Declare(
-    nlohmann_json
-    GIT_REPOSITORY ${GAUXC_NLOHMANN_JSON_REPOSITORY}
-    GIT_TAG        ${GAUXC_NLOHMANN_JSON_REVISION}
-  )
-
-  FetchContent_GetProperties( nlohmann_json )
-  if( NOT nlohmann_json_POPULATED )
-    FetchContent_Populate( nlohmann_json )
-  endif()
-
-  add_library( nlohmann_json::nlohmann_json INTERFACE IMPORTED )
-  set_target_properties( nlohmann_json::nlohmann_json PROPERTIES
-    INTERFACE_INCLUDE_DIRECTORIES ${nlohmann_json_SOURCE_DIR}/include
-  )
-endif()
-
-# store and restore CMAKE_CUDA_ARCHITECTURES if Torch clobbers it
-set(_PREV_CUDA_ARCHS "${CMAKE_CUDA_ARCHITECTURES}")
-find_package(Torch REQUIRED)
-if(CMAKE_CUDA_ARCHITECTURES STREQUAL "OFF")
-  set(CMAKE_CUDA_ARCHITECTURES "${_PREV_CUDA_ARCHS}" CACHE STRING "Restore CUDA archs after Torch override" FORCE)
-  message(WARNING "Torch set CMAKE_CUDA_ARCHITECTURES to OFF. Restored previous value: ${CMAKE_CUDA_ARCHITECTURES}")
-endif()
-list(REMOVE_ITEM TORCH_LIBRARIES torch::nvtoolsext)
-message(STATUS "Torch libraries without nvtoolsext: ${TORCH_LIBRARIES}")
diff --git a/third_party/gauxc/cmake/modules/FindMAGMA.cmake b/third_party/gauxc/cmake/modules/FindMAGMA.cmake
deleted file mode 100644
index 8c24d7b..0000000
--- a/third_party/gauxc/cmake/modules/FindMAGMA.cmake
+++ /dev/null
@@ -1,43 +0,0 @@
-if( NOT DEFINED MAGMA_ROOT_DIR )
-  find_package(PkgConfig)
-  pkg_check_modules( PC_MAGMA magma )
-endif()
-
-if( NOT MAGMA_INCLUDE_DIR )
-find_path( MAGMA_INCLUDE_DIR magma.h
-           HINTS ${PC_MAGMA_INCLUDEDIR}
-                 ${PC_MAGMA_INCLUDE_DIRS}
-           PATHS ${MAGMA_ROOT_DIR}
-           PATH_SUFFIXES include
-)
-endif()
-
-if(NOT MAGMA_LIBRARY) 
-find_library( MAGMA_LIBRARY NAMES magma
-              HINTS ${PC_MAGMA_LIBDIR}
-                    ${PC_MAGMA_LIBRARY_DIRS}
-              PATHS ${MAGMA_ROOT_DIR}
-              PATH_SUFFIXES lib lib64 lib32
-)
-endif()
-
-include(FindPackageHandleStandardArgs)
-find_package_handle_standard_args( 
-  MAGMA DEFAULT_MSG
-  MAGMA_LIBRARY
-  MAGMA_INCLUDE_DIR
-)
-
-if( MAGMA_FOUND AND NOT TARGET MAGMA::magma )
-
-  set( MAGMA_INCLUDE_DIRS ${MAGMA_INCLUDE_DIR} )
-  set( MAGMA_LIBRARIES    ${MAGMA_LIBRARY}     )
-
-  add_library( MAGMA::magma INTERFACE IMPORTED )
-  set_target_properties( MAGMA::magma PROPERTIES
-    INTERFACE_INCLUDE_DIRECTORIES "${MAGMA_INCLUDE_DIRS}"
-    INTERFACE_LINK_LIBRARIES      "${MAGMA_LIBRARIES}"
-  )
-
-endif()
-
diff --git a/third_party/gauxc/cmake/modules/FindNCCL.cmake b/third_party/gauxc/cmake/modules/FindNCCL.cmake
deleted file mode 100644
index 9474ebb..0000000
--- a/third_party/gauxc/cmake/modules/FindNCCL.cmake
+++ /dev/null
@@ -1,39 +0,0 @@
-if( NOT DEFINED NCCL_ROOT_DIR )
-  find_package(PkgConfig)
-  pkg_check_modules( PC_NCCL QUIET nccl )
-endif()
-
-find_path( NCCL_INCLUDE_DIR nccl.h
-           HINTS ${PC_NCCL_INCLUDEDIR}
-                 ${PC_NCCL_INCLUDE_DIRS}
-           PATHS ${NCCL_ROOT_DIR}
-           PATH_SUFFIXES include
-)
-
-find_library( NCCL_LIBRARY NAMES nccl
-              HINTS ${PC_NCCL_LIBDIR}
-                    ${PC_NCCL_LIBRARY_DIRS}
-              PATHS ${NCCL_ROOT_DIR}
-              PATH_SUFFIXES lib lib64 lib32
-)
-
-include(FindPackageHandleStandardArgs)
-find_package_handle_standard_args( 
-  NCCL DEFAULT_MSG
-  NCCL_LIBRARY
-  NCCL_INCLUDE_DIR
-)
-
-if( NCCL_FOUND AND NOT TARGET NCCL::nccl )
-
-  set( NCCL_INCLUDE_DIRS ${NCCL_INCLUDE_DIR} )
-  set( NCCL_LIBRARIES    ${NCCL_LIBRARY}     )
-
-  add_library( NCCL::nccl INTERFACE IMPORTED )
-  set_target_properties( NCCL::nccl PROPERTIES
-    INTERFACE_INCLUDE_DIRECTORIES "${NCCL_INCLUDE_DIRS}"
-    INTERFACE_LINK_LIBRARIES      "${NCCL_LIBRARIES}"
-  )
-
-endif()
-
diff --git a/third_party/gauxc/data/onedft_models/lda.fun b/third_party/gauxc/data/onedft_models/lda.fun
deleted file mode 100644
index 2b17684..0000000
Binary files a/third_party/gauxc/data/onedft_models/lda.fun and /dev/null differ
diff --git a/third_party/gauxc/data/onedft_models/pbe.fun b/third_party/gauxc/data/onedft_models/pbe.fun
deleted file mode 100644
index b2228f8..0000000
Binary files a/third_party/gauxc/data/onedft_models/pbe.fun and /dev/null differ
diff --git a/third_party/gauxc/data/onedft_models/tpss.fun b/third_party/gauxc/data/onedft_models/tpss.fun
deleted file mode 100644
index f2001c8..0000000
Binary files a/third_party/gauxc/data/onedft_models/tpss.fun and /dev/null differ
diff --git a/third_party/gauxc/external/gau2grid/CMakeLists.txt b/third_party/gauxc/external/gau2grid/CMakeLists.txt
deleted file mode 100644
index ca0638e..0000000
--- a/third_party/gauxc/external/gau2grid/CMakeLists.txt
+++ /dev/null
@@ -1,18 +0,0 @@
-# This CMake harness is meant for use with the GauXC library
-# and is released under the terms of the 3-clause BSD license
-
-target_sources( gauxc PRIVATE
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_phi.c
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_orbital.c
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_deriv1.c
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_deriv2.c
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_deriv3.c
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_transform.c
-  ${CMAKE_CURRENT_SOURCE_DIR}/generated_source/gau2grid_helper.c )
-
-
-target_compile_definitions( gauxc PRIVATE $<BUILD_INTERFACE:__GG_NO_PRAGMA> )
-target_include_directories( gauxc 
-  PRIVATE
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_SOURCE_DIR}/generated_source>
-)
diff --git a/third_party/gauxc/external/gau2grid/LICENSE b/third_party/gauxc/external/gau2grid/LICENSE
deleted file mode 100644
index 3eba99f..0000000
--- a/third_party/gauxc/external/gau2grid/LICENSE
+++ /dev/null
@@ -1,29 +0,0 @@
-BSD 3-Clause License
-
-Copyright (c) 2017, Daniel Smith
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice,
-  this list of conditions and the following disclaimer in the documentation
-  and/or other materials provided with the distribution.
-
-* Neither the name of the copyright holder nor the names of its
-  contributors may be used to endorse or promote products derived from
-  this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
diff --git a/third_party/gauxc/external/gau2grid/README.txt b/third_party/gauxc/external/gau2grid/README.txt
deleted file mode 100644
index d2d5eae..0000000
--- a/third_party/gauxc/external/gau2grid/README.txt
+++ /dev/null
@@ -1,2 +0,0 @@
-This folder contains pregenerated source for the gau2grid library for gaussian
-collocation evaluation. See LICENSE for library specific terms.
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid.h b/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid.h
deleted file mode 100644
index 29f8888..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid.h
+++ /dev/null
@@ -1,82 +0,0 @@
-/*
- * BSD 3-Clause License
- * 
- * Copyright (c) 2017, Daniel Smith
- * All rights reserved.
- * 
- * Redistribution and use in source and binary forms, with or without
- * modification, are permitted provided that the following conditions are met:
- * 
- * * Redistributions of source code must retain the above copyright notice, this
- * list of conditions and the following disclaimer.
- * 
- * * Redistributions in binary form must reproduce the above copyright notice,
- * this list of conditions and the following disclaimer in the documentation
- * and/or other materials provided with the distribution.
- * 
- * * Neither the name of the copyright holder nor the names of its
- * contributors may be used to endorse or promote products derived from
- * this software without specific prior written permission.
- * 
- * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
- * AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
- * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
- * DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
- * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
- * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
- * SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
- * CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
- * OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
- * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
- */
-
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-
-#ifndef GAU2GRID_GUARD_H
-#define GAU2GRID_GUARD_H
-
-#include "gau2grid/gau2grid_pragma.h"
-
-// Order definitions
-#define GG_SPHERICAL_CCA 300
-#define GG_SPHERICAL_GAUSSIAN 301
-#define GG_CARTESIAN_CCA 400
-#define GG_CARTESIAN_MOLDEN 401
-// Information helpers
-int gg_max_L();
-
-int gg_ncomponents(const int L, const int spherical);
-
-// Fast transposers
-void gg_naive_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output);
-void gg_fast_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output);
-
-// Fast segment copiers
-void block_copy(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, unsigned long is, double* PRAGMA_RESTRICT output, unsigned long os, const int trans);
-
-
-// Orbitals on a grid
-void gg_orbitals(int L, const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-// Collocation matrix functions
-void gg_collocation(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_deriv1(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_deriv2(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_deriv3(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-#ifdef __cplusplus
-}
-#endif
-#endif /* GAU2GRID_GUARD_H */
\ No newline at end of file
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid_pragma.h b/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid_pragma.h
deleted file mode 100644
index f603388..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid_pragma.h
+++ /dev/null
@@ -1,99 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-
-
-// ISOC11 does not seem to be well implemented across platforms and compilers
-// This is a collection of macros to change pragmas and function calls as needed for compat.
-
-#pragma once
-
-
-#if defined(__GG_NO_PRAGMA)
-    // Turn everything off if there are issues
-
-    #define ALIGNED_MALLOC(alignment, size)                  malloc(size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE
-    #define PRAGMA_RESTRICT
-
-#elif defined(__ICC) || defined(__INTEL_COMPILER)
-    // pragmas for Intel
-
-    #define ALIGNED_MALLOC(alignment, size)                  _mm_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _mm_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)                       __assume_aligned(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("vector")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif defined(__clang__) && defined(_MSC_VER)
-    // pragmas for MSVC
-
-    #define ALIGNED_MALLOC(alignment, size)                  _aligned_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _aligned_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 __pragma(loop(ivdep))
-    #define PRAGMA_RESTRICT                                  __restrict
-
-#elif defined(__clang__)
-    // pragmas for Clang.
-    // Do this before GCC because clang also defines __GNUC__
-
-    #define ALIGNED_MALLOC(alignment, size)                  _mm_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _mm_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("clang loop vectorize(enable)")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif (defined(__GNUC__) || defined(__GNUG__)) && defined(__APPLE__)
-    // pragmas for GCC on Darwin (weird aligned alloc not found on Darwin)
-
-    #define ALIGNED_MALLOC(alignment, size)                  malloc(size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("GCC ivdep")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif defined(__GNUC__) || defined(__GNUG__)
-    // pragmas for GCC
-
-    #define ALIGNED_MALLOC(alignment, size)                  aligned_alloc(alignment, size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("GCC ivdep")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif defined(_MSC_VER)
-    // pragmas for MSVC
-
-    #define ALIGNED_MALLOC(alignment, size)                  _aligned_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _aligned_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 __pragma(loop(ivdep))
-    #define PRAGMA_RESTRICT                                  __restrict
-
-
-#elif defined(__PGI)
-    // pragmas for PGI
-
-    #define ALIGNED_MALLOC(alignment, size)                  aligned_alloc(alignment, size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("ivdep")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-
-#endif
\ No newline at end of file
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid_utility.h b/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid_utility.h
deleted file mode 100644
index 3039bb9..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid/gau2grid_utility.h
+++ /dev/null
@@ -1,197 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-// Spherical transformers
-void gg_cca_cart_to_spherical_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L0(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L1(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L2(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L3(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L4(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L5(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_cca_cart_to_spherical_sum_L6(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L0(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L1(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L2(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L3(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L4(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L5(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical);
-
-void gg_gaussian_cart_to_spherical_sum_L6(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical);
-
-void gg_cca_cart_copy_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L0(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_copy_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L1(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_copy_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L2(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_copy_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L3(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_copy_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L4(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_copy_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L5(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_copy_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_cca_cart_sum_L6(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L0(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L1(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L2(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L3(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L4(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L5(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_copy_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-void gg_molden_cart_sum_L6(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out);
-
-
-// Fast matrix vector block sum
-void block_matrix_vector(unsigned long n, unsigned long m, const double* vector, const double* PRAGMA_RESTRICT input, unsigned long is, double* PRAGMA_RESTRICT output);
-// Orbital computers
-void gg_orbitals_L0(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-void gg_orbitals_L1(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-void gg_orbitals_L2(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-void gg_orbitals_L3(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-void gg_orbitals_L4(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-void gg_orbitals_L5(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-void gg_orbitals_L6(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out);
-
-// Phi computers
-void gg_collocation_L0(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_L1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_L2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_L3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_L4(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_L5(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-void gg_collocation_L6(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out);
-
-// Phi grad computers
-void gg_collocation_L0_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_L1_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_L2_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_L3_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_L4_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_L5_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-void gg_collocation_L6_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out);
-
-// Phi Hess computers
-void gg_collocation_L0_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_L1_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_L2_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_L3_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_L4_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_L5_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-void gg_collocation_L6_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out);
-
-// Phi Der3 computers
-void gg_collocation_L0_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-void gg_collocation_L1_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-void gg_collocation_L2_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-void gg_collocation_L3_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-void gg_collocation_L4_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-void gg_collocation_L5_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
-
-void gg_collocation_L6_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out);
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv1.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv1.c
deleted file mode 100644
index 503c165..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv1.c
+++ /dev/null
@@ -1,2382 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-
-
-void gg_collocation_L0_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 1;
-    const unsigned long nspherical = 1;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            phi_out[start + i] = S0[i];
-
-            // Gradient AM=0 Component=0
-            phi_x_out[start + i] = SX;
-            phi_y_out[start + i] = SY;
-            phi_z_out[start + i] = SZ;
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
-
-void gg_collocation_L1_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 3;
-    const unsigned long nspherical = 3;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Density AM=1 Component=X
-            phi_tmp[i] = S0[i] * xc[i];
-
-            // Gradient AM=1 Component=X
-            phi_x_tmp[i] = SX * xc[i];
-            phi_y_tmp[i] = SY * xc[i];
-            phi_z_tmp[i] = SZ * xc[i];
-            phi_x_tmp[i] += S0[i];
-
-            // Density AM=1 Component=Y
-            phi_tmp[32 + i] = S0[i] * yc[i];
-
-            // Gradient AM=1 Component=Y
-            phi_x_tmp[32 + i] = SX * yc[i];
-            phi_y_tmp[32 + i] = SY * yc[i];
-            phi_z_tmp[32 + i] = SZ * yc[i];
-            phi_y_tmp[32 + i] += S0[i];
-
-            // Density AM=1 Component=Z
-            phi_tmp[64 + i] = S0[i] * zc[i];
-
-            // Gradient AM=1 Component=Z
-            phi_x_tmp[64 + i] = SX * zc[i];
-            phi_y_tmp[64 + i] = SY * zc[i];
-            phi_z_tmp[64 + i] = SZ * zc[i];
-            phi_z_tmp[64 + i] += S0[i];
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
-
-void gg_collocation_L2_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 6;
-    const unsigned long nspherical = 5;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-
-            // Density AM=2 Component=XX
-            phi_tmp[i] = S0[i] * xc_pow2;
-
-            // Gradient AM=2 Component=XX
-            phi_x_tmp[i] = SX * xc_pow2;
-            phi_y_tmp[i] = SY * xc_pow2;
-            phi_z_tmp[i] = SZ * xc_pow2;
-            AX = 2.0 * xc[i];
-            phi_x_tmp[i] += S0[i] * AX;
-
-            // Density AM=2 Component=XY
-            A = xc[i] * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Gradient AM=2 Component=XY
-            phi_x_tmp[32 + i] = SX * A;
-            phi_y_tmp[32 + i] = SY * A;
-            phi_z_tmp[32 + i] = SZ * A;
-            phi_x_tmp[32 + i] += S0[i] * yc[i];
-            phi_y_tmp[32 + i] += S0[i] * xc[i];
-
-            // Density AM=2 Component=XZ
-            A = xc[i] * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Gradient AM=2 Component=XZ
-            phi_x_tmp[64 + i] = SX * A;
-            phi_y_tmp[64 + i] = SY * A;
-            phi_z_tmp[64 + i] = SZ * A;
-            phi_x_tmp[64 + i] += S0[i] * zc[i];
-            phi_z_tmp[64 + i] += S0[i] * xc[i];
-
-            // Density AM=2 Component=YY
-            phi_tmp[96 + i] = S0[i] * yc_pow2;
-
-            // Gradient AM=2 Component=YY
-            phi_x_tmp[96 + i] = SX * yc_pow2;
-            phi_y_tmp[96 + i] = SY * yc_pow2;
-            phi_z_tmp[96 + i] = SZ * yc_pow2;
-            AY = 2.0 * yc[i];
-            phi_y_tmp[96 + i] += S0[i] * AY;
-
-            // Density AM=2 Component=YZ
-            A = yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Gradient AM=2 Component=YZ
-            phi_x_tmp[128 + i] = SX * A;
-            phi_y_tmp[128 + i] = SY * A;
-            phi_z_tmp[128 + i] = SZ * A;
-            phi_y_tmp[128 + i] += S0[i] * zc[i];
-            phi_z_tmp[128 + i] += S0[i] * yc[i];
-
-            // Density AM=2 Component=ZZ
-            phi_tmp[160 + i] = S0[i] * zc_pow2;
-
-            // Gradient AM=2 Component=ZZ
-            phi_x_tmp[160 + i] = SX * zc_pow2;
-            phi_y_tmp[160 + i] = SY * zc_pow2;
-            phi_z_tmp[160 + i] = SZ * zc_pow2;
-            AZ = 2.0 * zc[i];
-            phi_z_tmp[160 + i] += S0[i] * AZ;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
-
-void gg_collocation_L3_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 10;
-    const unsigned long nspherical = 7;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-
-            // Density AM=3 Component=XXX
-            phi_tmp[i] = S0[i] * xc_pow3;
-
-            // Gradient AM=3 Component=XXX
-            phi_x_tmp[i] = SX * xc_pow3;
-            phi_y_tmp[i] = SY * xc_pow3;
-            phi_z_tmp[i] = SZ * xc_pow3;
-            AX = 3.0 * xc_pow2;
-            phi_x_tmp[i] += S0[i] * AX;
-
-            // Density AM=3 Component=XXY
-            A = xc_pow2 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=XXY
-            phi_x_tmp[32 + i] = SX * A;
-            phi_y_tmp[32 + i] = SY * A;
-            phi_z_tmp[32 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc[i];
-            phi_x_tmp[32 + i] += S0[i] * AX;
-            phi_y_tmp[32 + i] += S0[i] * xc_pow2;
-
-            // Density AM=3 Component=XXZ
-            A = xc_pow2 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=XXZ
-            phi_x_tmp[64 + i] = SX * A;
-            phi_y_tmp[64 + i] = SY * A;
-            phi_z_tmp[64 + i] = SZ * A;
-            AX = 2.0 * xc[i] * zc[i];
-            phi_x_tmp[64 + i] += S0[i] * AX;
-            phi_z_tmp[64 + i] += S0[i] * xc_pow2;
-
-            // Density AM=3 Component=XYY
-            A = xc[i] * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=XYY
-            phi_x_tmp[96 + i] = SX * A;
-            phi_y_tmp[96 + i] = SY * A;
-            phi_z_tmp[96 + i] = SZ * A;
-            phi_x_tmp[96 + i] += S0[i] * yc_pow2;
-            AY = 2.0 * xc[i] * yc[i];
-            phi_y_tmp[96 + i] += S0[i] * AY;
-
-            // Density AM=3 Component=XYZ
-            A = xc[i] * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=XYZ
-            phi_x_tmp[128 + i] = SX * A;
-            phi_y_tmp[128 + i] = SY * A;
-            phi_z_tmp[128 + i] = SZ * A;
-            AX = yc[i] * zc[i];
-            phi_x_tmp[128 + i] += S0[i] * AX;
-            AY = xc[i] * zc[i];
-            phi_y_tmp[128 + i] += S0[i] * AY;
-            AZ = xc[i] * yc[i];
-            phi_z_tmp[128 + i] += S0[i] * AZ;
-
-            // Density AM=3 Component=XZZ
-            A = xc[i] * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=XZZ
-            phi_x_tmp[160 + i] = SX * A;
-            phi_y_tmp[160 + i] = SY * A;
-            phi_z_tmp[160 + i] = SZ * A;
-            phi_x_tmp[160 + i] += S0[i] * zc_pow2;
-            AZ = 2.0 * xc[i] * zc[i];
-            phi_z_tmp[160 + i] += S0[i] * AZ;
-
-            // Density AM=3 Component=YYY
-            phi_tmp[192 + i] = S0[i] * yc_pow3;
-
-            // Gradient AM=3 Component=YYY
-            phi_x_tmp[192 + i] = SX * yc_pow3;
-            phi_y_tmp[192 + i] = SY * yc_pow3;
-            phi_z_tmp[192 + i] = SZ * yc_pow3;
-            AY = 3.0 * yc_pow2;
-            phi_y_tmp[192 + i] += S0[i] * AY;
-
-            // Density AM=3 Component=YYZ
-            A = yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=YYZ
-            phi_x_tmp[224 + i] = SX * A;
-            phi_y_tmp[224 + i] = SY * A;
-            phi_z_tmp[224 + i] = SZ * A;
-            AY = 2.0 * yc[i] * zc[i];
-            phi_y_tmp[224 + i] += S0[i] * AY;
-            phi_z_tmp[224 + i] += S0[i] * yc_pow2;
-
-            // Density AM=3 Component=YZZ
-            A = yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Gradient AM=3 Component=YZZ
-            phi_x_tmp[256 + i] = SX * A;
-            phi_y_tmp[256 + i] = SY * A;
-            phi_z_tmp[256 + i] = SZ * A;
-            phi_y_tmp[256 + i] += S0[i] * zc_pow2;
-            AZ = 2.0 * yc[i] * zc[i];
-            phi_z_tmp[256 + i] += S0[i] * AZ;
-
-            // Density AM=3 Component=ZZZ
-            phi_tmp[288 + i] = S0[i] * zc_pow3;
-
-            // Gradient AM=3 Component=ZZZ
-            phi_x_tmp[288 + i] = SX * zc_pow3;
-            phi_y_tmp[288 + i] = SY * zc_pow3;
-            phi_z_tmp[288 + i] = SZ * zc_pow3;
-            AZ = 3.0 * zc_pow2;
-            phi_z_tmp[288 + i] += S0[i] * AZ;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L3(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L3(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L3(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L3(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L3(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L3(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L3(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L3(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L3(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L3(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L3(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L3(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
-
-void gg_collocation_L4_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 15;
-    const unsigned long nspherical = 9;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-
-            // Density AM=4 Component=XXXX
-            phi_tmp[i] = S0[i] * xc_pow4;
-
-            // Gradient AM=4 Component=XXXX
-            phi_x_tmp[i] = SX * xc_pow4;
-            phi_y_tmp[i] = SY * xc_pow4;
-            phi_z_tmp[i] = SZ * xc_pow4;
-            AX = 4.0 * xc_pow3;
-            phi_x_tmp[i] += S0[i] * AX;
-
-            // Density AM=4 Component=XXXY
-            A = xc_pow3 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XXXY
-            phi_x_tmp[32 + i] = SX * A;
-            phi_y_tmp[32 + i] = SY * A;
-            phi_z_tmp[32 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * yc[i];
-            phi_x_tmp[32 + i] += S0[i] * AX;
-            phi_y_tmp[32 + i] += S0[i] * xc_pow3;
-
-            // Density AM=4 Component=XXXZ
-            A = xc_pow3 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XXXZ
-            phi_x_tmp[64 + i] = SX * A;
-            phi_y_tmp[64 + i] = SY * A;
-            phi_z_tmp[64 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * zc[i];
-            phi_x_tmp[64 + i] += S0[i] * AX;
-            phi_z_tmp[64 + i] += S0[i] * xc_pow3;
-
-            // Density AM=4 Component=XXYY
-            A = xc_pow2 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XXYY
-            phi_x_tmp[96 + i] = SX * A;
-            phi_y_tmp[96 + i] = SY * A;
-            phi_z_tmp[96 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc_pow2;
-            phi_x_tmp[96 + i] += S0[i] * AX;
-            AY = 2.0 * xc_pow2 * yc[i];
-            phi_y_tmp[96 + i] += S0[i] * AY;
-
-            // Density AM=4 Component=XXYZ
-            A = xc_pow2 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XXYZ
-            phi_x_tmp[128 + i] = SX * A;
-            phi_y_tmp[128 + i] = SY * A;
-            phi_z_tmp[128 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc[i] * zc[i];
-            phi_x_tmp[128 + i] += S0[i] * AX;
-            AY = xc_pow2 * zc[i];
-            phi_y_tmp[128 + i] += S0[i] * AY;
-            AZ = xc_pow2 * yc[i];
-            phi_z_tmp[128 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=XXZZ
-            A = xc_pow2 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XXZZ
-            phi_x_tmp[160 + i] = SX * A;
-            phi_y_tmp[160 + i] = SY * A;
-            phi_z_tmp[160 + i] = SZ * A;
-            AX = 2.0 * xc[i] * zc_pow2;
-            phi_x_tmp[160 + i] += S0[i] * AX;
-            AZ = 2.0 * xc_pow2 * zc[i];
-            phi_z_tmp[160 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=XYYY
-            A = xc[i] * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XYYY
-            phi_x_tmp[192 + i] = SX * A;
-            phi_y_tmp[192 + i] = SY * A;
-            phi_z_tmp[192 + i] = SZ * A;
-            phi_x_tmp[192 + i] += S0[i] * yc_pow3;
-            AY = 3.0 * xc[i] * yc_pow2;
-            phi_y_tmp[192 + i] += S0[i] * AY;
-
-            // Density AM=4 Component=XYYZ
-            A = xc[i] * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XYYZ
-            phi_x_tmp[224 + i] = SX * A;
-            phi_y_tmp[224 + i] = SY * A;
-            phi_z_tmp[224 + i] = SZ * A;
-            AX = yc_pow2 * zc[i];
-            phi_x_tmp[224 + i] += S0[i] * AX;
-            AY = 2.0 * xc[i] * yc[i] * zc[i];
-            phi_y_tmp[224 + i] += S0[i] * AY;
-            AZ = xc[i] * yc_pow2;
-            phi_z_tmp[224 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=XYZZ
-            A = xc[i] * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XYZZ
-            phi_x_tmp[256 + i] = SX * A;
-            phi_y_tmp[256 + i] = SY * A;
-            phi_z_tmp[256 + i] = SZ * A;
-            AX = yc[i] * zc_pow2;
-            phi_x_tmp[256 + i] += S0[i] * AX;
-            AY = xc[i] * zc_pow2;
-            phi_y_tmp[256 + i] += S0[i] * AY;
-            AZ = 2.0 * xc[i] * yc[i] * zc[i];
-            phi_z_tmp[256 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=XZZZ
-            A = xc[i] * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=XZZZ
-            phi_x_tmp[288 + i] = SX * A;
-            phi_y_tmp[288 + i] = SY * A;
-            phi_z_tmp[288 + i] = SZ * A;
-            phi_x_tmp[288 + i] += S0[i] * zc_pow3;
-            AZ = 3.0 * xc[i] * zc_pow2;
-            phi_z_tmp[288 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=YYYY
-            phi_tmp[320 + i] = S0[i] * yc_pow4;
-
-            // Gradient AM=4 Component=YYYY
-            phi_x_tmp[320 + i] = SX * yc_pow4;
-            phi_y_tmp[320 + i] = SY * yc_pow4;
-            phi_z_tmp[320 + i] = SZ * yc_pow4;
-            AY = 4.0 * yc_pow3;
-            phi_y_tmp[320 + i] += S0[i] * AY;
-
-            // Density AM=4 Component=YYYZ
-            A = yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=YYYZ
-            phi_x_tmp[352 + i] = SX * A;
-            phi_y_tmp[352 + i] = SY * A;
-            phi_z_tmp[352 + i] = SZ * A;
-            AY = 3.0 * yc_pow2 * zc[i];
-            phi_y_tmp[352 + i] += S0[i] * AY;
-            phi_z_tmp[352 + i] += S0[i] * yc_pow3;
-
-            // Density AM=4 Component=YYZZ
-            A = yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=YYZZ
-            phi_x_tmp[384 + i] = SX * A;
-            phi_y_tmp[384 + i] = SY * A;
-            phi_z_tmp[384 + i] = SZ * A;
-            AY = 2.0 * yc[i] * zc_pow2;
-            phi_y_tmp[384 + i] += S0[i] * AY;
-            AZ = 2.0 * yc_pow2 * zc[i];
-            phi_z_tmp[384 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=YZZZ
-            A = yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Gradient AM=4 Component=YZZZ
-            phi_x_tmp[416 + i] = SX * A;
-            phi_y_tmp[416 + i] = SY * A;
-            phi_z_tmp[416 + i] = SZ * A;
-            phi_y_tmp[416 + i] += S0[i] * zc_pow3;
-            AZ = 3.0 * yc[i] * zc_pow2;
-            phi_z_tmp[416 + i] += S0[i] * AZ;
-
-            // Density AM=4 Component=ZZZZ
-            phi_tmp[448 + i] = S0[i] * zc_pow4;
-
-            // Gradient AM=4 Component=ZZZZ
-            phi_x_tmp[448 + i] = SX * zc_pow4;
-            phi_y_tmp[448 + i] = SY * zc_pow4;
-            phi_z_tmp[448 + i] = SZ * zc_pow4;
-            AZ = 4.0 * zc_pow3;
-            phi_z_tmp[448 + i] += S0[i] * AZ;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L4(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L4(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L4(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L4(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L4(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L4(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L4(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L4(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L4(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L4(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L4(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L4(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
-
-void gg_collocation_L5_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 21;
-    const unsigned long nspherical = 11;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-            const double xc_pow5 = xc_pow4 * xc[i];
-            const double yc_pow5 = yc_pow4 * yc[i];
-            const double zc_pow5 = zc_pow4 * zc[i];
-
-
-            // Density AM=5 Component=XXXXX
-            phi_tmp[i] = S0[i] * xc_pow5;
-
-            // Gradient AM=5 Component=XXXXX
-            phi_x_tmp[i] = SX * xc_pow5;
-            phi_y_tmp[i] = SY * xc_pow5;
-            phi_z_tmp[i] = SZ * xc_pow5;
-            AX = 5.0 * xc_pow4;
-            phi_x_tmp[i] += S0[i] * AX;
-
-            // Density AM=5 Component=XXXXY
-            A = xc_pow4 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXXXY
-            phi_x_tmp[32 + i] = SX * A;
-            phi_y_tmp[32 + i] = SY * A;
-            phi_z_tmp[32 + i] = SZ * A;
-            AX = 4.0 * xc_pow3 * yc[i];
-            phi_x_tmp[32 + i] += S0[i] * AX;
-            phi_y_tmp[32 + i] += S0[i] * xc_pow4;
-
-            // Density AM=5 Component=XXXXZ
-            A = xc_pow4 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXXXZ
-            phi_x_tmp[64 + i] = SX * A;
-            phi_y_tmp[64 + i] = SY * A;
-            phi_z_tmp[64 + i] = SZ * A;
-            AX = 4.0 * xc_pow3 * zc[i];
-            phi_x_tmp[64 + i] += S0[i] * AX;
-            phi_z_tmp[64 + i] += S0[i] * xc_pow4;
-
-            // Density AM=5 Component=XXXYY
-            A = xc_pow3 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXXYY
-            phi_x_tmp[96 + i] = SX * A;
-            phi_y_tmp[96 + i] = SY * A;
-            phi_z_tmp[96 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * yc_pow2;
-            phi_x_tmp[96 + i] += S0[i] * AX;
-            AY = 2.0 * xc_pow3 * yc[i];
-            phi_y_tmp[96 + i] += S0[i] * AY;
-
-            // Density AM=5 Component=XXXYZ
-            A = xc_pow3 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXXYZ
-            phi_x_tmp[128 + i] = SX * A;
-            phi_y_tmp[128 + i] = SY * A;
-            phi_z_tmp[128 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * yc[i] * zc[i];
-            phi_x_tmp[128 + i] += S0[i] * AX;
-            AY = xc_pow3 * zc[i];
-            phi_y_tmp[128 + i] += S0[i] * AY;
-            AZ = xc_pow3 * yc[i];
-            phi_z_tmp[128 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XXXZZ
-            A = xc_pow3 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXXZZ
-            phi_x_tmp[160 + i] = SX * A;
-            phi_y_tmp[160 + i] = SY * A;
-            phi_z_tmp[160 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * zc_pow2;
-            phi_x_tmp[160 + i] += S0[i] * AX;
-            AZ = 2.0 * xc_pow3 * zc[i];
-            phi_z_tmp[160 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XXYYY
-            A = xc_pow2 * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXYYY
-            phi_x_tmp[192 + i] = SX * A;
-            phi_y_tmp[192 + i] = SY * A;
-            phi_z_tmp[192 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc_pow3;
-            phi_x_tmp[192 + i] += S0[i] * AX;
-            AY = 3.0 * xc_pow2 * yc_pow2;
-            phi_y_tmp[192 + i] += S0[i] * AY;
-
-            // Density AM=5 Component=XXYYZ
-            A = xc_pow2 * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXYYZ
-            phi_x_tmp[224 + i] = SX * A;
-            phi_y_tmp[224 + i] = SY * A;
-            phi_z_tmp[224 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc_pow2 * zc[i];
-            phi_x_tmp[224 + i] += S0[i] * AX;
-            AY = 2.0 * xc_pow2 * yc[i] * zc[i];
-            phi_y_tmp[224 + i] += S0[i] * AY;
-            AZ = xc_pow2 * yc_pow2;
-            phi_z_tmp[224 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XXYZZ
-            A = xc_pow2 * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXYZZ
-            phi_x_tmp[256 + i] = SX * A;
-            phi_y_tmp[256 + i] = SY * A;
-            phi_z_tmp[256 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc[i] * zc_pow2;
-            phi_x_tmp[256 + i] += S0[i] * AX;
-            AY = xc_pow2 * zc_pow2;
-            phi_y_tmp[256 + i] += S0[i] * AY;
-            AZ = 2.0 * xc_pow2 * yc[i] * zc[i];
-            phi_z_tmp[256 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XXZZZ
-            A = xc_pow2 * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XXZZZ
-            phi_x_tmp[288 + i] = SX * A;
-            phi_y_tmp[288 + i] = SY * A;
-            phi_z_tmp[288 + i] = SZ * A;
-            AX = 2.0 * xc[i] * zc_pow3;
-            phi_x_tmp[288 + i] += S0[i] * AX;
-            AZ = 3.0 * xc_pow2 * zc_pow2;
-            phi_z_tmp[288 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XYYYY
-            A = xc[i] * yc_pow4;
-            phi_tmp[320 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XYYYY
-            phi_x_tmp[320 + i] = SX * A;
-            phi_y_tmp[320 + i] = SY * A;
-            phi_z_tmp[320 + i] = SZ * A;
-            phi_x_tmp[320 + i] += S0[i] * yc_pow4;
-            AY = 4.0 * xc[i] * yc_pow3;
-            phi_y_tmp[320 + i] += S0[i] * AY;
-
-            // Density AM=5 Component=XYYYZ
-            A = xc[i] * yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XYYYZ
-            phi_x_tmp[352 + i] = SX * A;
-            phi_y_tmp[352 + i] = SY * A;
-            phi_z_tmp[352 + i] = SZ * A;
-            AX = yc_pow3 * zc[i];
-            phi_x_tmp[352 + i] += S0[i] * AX;
-            AY = 3.0 * xc[i] * yc_pow2 * zc[i];
-            phi_y_tmp[352 + i] += S0[i] * AY;
-            AZ = xc[i] * yc_pow3;
-            phi_z_tmp[352 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XYYZZ
-            A = xc[i] * yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XYYZZ
-            phi_x_tmp[384 + i] = SX * A;
-            phi_y_tmp[384 + i] = SY * A;
-            phi_z_tmp[384 + i] = SZ * A;
-            AX = yc_pow2 * zc_pow2;
-            phi_x_tmp[384 + i] += S0[i] * AX;
-            AY = 2.0 * xc[i] * yc[i] * zc_pow2;
-            phi_y_tmp[384 + i] += S0[i] * AY;
-            AZ = 2.0 * xc[i] * yc_pow2 * zc[i];
-            phi_z_tmp[384 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XYZZZ
-            A = xc[i] * yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XYZZZ
-            phi_x_tmp[416 + i] = SX * A;
-            phi_y_tmp[416 + i] = SY * A;
-            phi_z_tmp[416 + i] = SZ * A;
-            AX = yc[i] * zc_pow3;
-            phi_x_tmp[416 + i] += S0[i] * AX;
-            AY = xc[i] * zc_pow3;
-            phi_y_tmp[416 + i] += S0[i] * AY;
-            AZ = 3.0 * xc[i] * yc[i] * zc_pow2;
-            phi_z_tmp[416 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=XZZZZ
-            A = xc[i] * zc_pow4;
-            phi_tmp[448 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=XZZZZ
-            phi_x_tmp[448 + i] = SX * A;
-            phi_y_tmp[448 + i] = SY * A;
-            phi_z_tmp[448 + i] = SZ * A;
-            phi_x_tmp[448 + i] += S0[i] * zc_pow4;
-            AZ = 4.0 * xc[i] * zc_pow3;
-            phi_z_tmp[448 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=YYYYY
-            phi_tmp[480 + i] = S0[i] * yc_pow5;
-
-            // Gradient AM=5 Component=YYYYY
-            phi_x_tmp[480 + i] = SX * yc_pow5;
-            phi_y_tmp[480 + i] = SY * yc_pow5;
-            phi_z_tmp[480 + i] = SZ * yc_pow5;
-            AY = 5.0 * yc_pow4;
-            phi_y_tmp[480 + i] += S0[i] * AY;
-
-            // Density AM=5 Component=YYYYZ
-            A = yc_pow4 * zc[i];
-            phi_tmp[512 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=YYYYZ
-            phi_x_tmp[512 + i] = SX * A;
-            phi_y_tmp[512 + i] = SY * A;
-            phi_z_tmp[512 + i] = SZ * A;
-            AY = 4.0 * yc_pow3 * zc[i];
-            phi_y_tmp[512 + i] += S0[i] * AY;
-            phi_z_tmp[512 + i] += S0[i] * yc_pow4;
-
-            // Density AM=5 Component=YYYZZ
-            A = yc_pow3 * zc_pow2;
-            phi_tmp[544 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=YYYZZ
-            phi_x_tmp[544 + i] = SX * A;
-            phi_y_tmp[544 + i] = SY * A;
-            phi_z_tmp[544 + i] = SZ * A;
-            AY = 3.0 * yc_pow2 * zc_pow2;
-            phi_y_tmp[544 + i] += S0[i] * AY;
-            AZ = 2.0 * yc_pow3 * zc[i];
-            phi_z_tmp[544 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=YYZZZ
-            A = yc_pow2 * zc_pow3;
-            phi_tmp[576 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=YYZZZ
-            phi_x_tmp[576 + i] = SX * A;
-            phi_y_tmp[576 + i] = SY * A;
-            phi_z_tmp[576 + i] = SZ * A;
-            AY = 2.0 * yc[i] * zc_pow3;
-            phi_y_tmp[576 + i] += S0[i] * AY;
-            AZ = 3.0 * yc_pow2 * zc_pow2;
-            phi_z_tmp[576 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=YZZZZ
-            A = yc[i] * zc_pow4;
-            phi_tmp[608 + i] = S0[i] * A;
-
-            // Gradient AM=5 Component=YZZZZ
-            phi_x_tmp[608 + i] = SX * A;
-            phi_y_tmp[608 + i] = SY * A;
-            phi_z_tmp[608 + i] = SZ * A;
-            phi_y_tmp[608 + i] += S0[i] * zc_pow4;
-            AZ = 4.0 * yc[i] * zc_pow3;
-            phi_z_tmp[608 + i] += S0[i] * AZ;
-
-            // Density AM=5 Component=ZZZZZ
-            phi_tmp[640 + i] = S0[i] * zc_pow5;
-
-            // Gradient AM=5 Component=ZZZZZ
-            phi_x_tmp[640 + i] = SX * zc_pow5;
-            phi_y_tmp[640 + i] = SY * zc_pow5;
-            phi_z_tmp[640 + i] = SZ * zc_pow5;
-            AZ = 5.0 * zc_pow4;
-            phi_z_tmp[640 + i] += S0[i] * AZ;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L5(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L5(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L5(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L5(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L5(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L5(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L5(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L5(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L5(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L5(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L5(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L5(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
-
-void gg_collocation_L6_deriv1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 28;
-    const unsigned long nspherical = 13;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 224 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-            const double xc_pow5 = xc_pow4 * xc[i];
-            const double yc_pow5 = yc_pow4 * yc[i];
-            const double zc_pow5 = zc_pow4 * zc[i];
-
-            const double xc_pow6 = xc_pow5 * xc[i];
-            const double yc_pow6 = yc_pow5 * yc[i];
-            const double zc_pow6 = zc_pow5 * zc[i];
-
-
-            // Density AM=6 Component=XXXXXX
-            phi_tmp[i] = S0[i] * xc_pow6;
-
-            // Gradient AM=6 Component=XXXXXX
-            phi_x_tmp[i] = SX * xc_pow6;
-            phi_y_tmp[i] = SY * xc_pow6;
-            phi_z_tmp[i] = SZ * xc_pow6;
-            AX = 6.0 * xc_pow5;
-            phi_x_tmp[i] += S0[i] * AX;
-
-            // Density AM=6 Component=XXXXXY
-            A = xc_pow5 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXXXY
-            phi_x_tmp[32 + i] = SX * A;
-            phi_y_tmp[32 + i] = SY * A;
-            phi_z_tmp[32 + i] = SZ * A;
-            AX = 5.0 * xc_pow4 * yc[i];
-            phi_x_tmp[32 + i] += S0[i] * AX;
-            phi_y_tmp[32 + i] += S0[i] * xc_pow5;
-
-            // Density AM=6 Component=XXXXXZ
-            A = xc_pow5 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXXXZ
-            phi_x_tmp[64 + i] = SX * A;
-            phi_y_tmp[64 + i] = SY * A;
-            phi_z_tmp[64 + i] = SZ * A;
-            AX = 5.0 * xc_pow4 * zc[i];
-            phi_x_tmp[64 + i] += S0[i] * AX;
-            phi_z_tmp[64 + i] += S0[i] * xc_pow5;
-
-            // Density AM=6 Component=XXXXYY
-            A = xc_pow4 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXXYY
-            phi_x_tmp[96 + i] = SX * A;
-            phi_y_tmp[96 + i] = SY * A;
-            phi_z_tmp[96 + i] = SZ * A;
-            AX = 4.0 * xc_pow3 * yc_pow2;
-            phi_x_tmp[96 + i] += S0[i] * AX;
-            AY = 2.0 * xc_pow4 * yc[i];
-            phi_y_tmp[96 + i] += S0[i] * AY;
-
-            // Density AM=6 Component=XXXXYZ
-            A = xc_pow4 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXXYZ
-            phi_x_tmp[128 + i] = SX * A;
-            phi_y_tmp[128 + i] = SY * A;
-            phi_z_tmp[128 + i] = SZ * A;
-            AX = 4.0 * xc_pow3 * yc[i] * zc[i];
-            phi_x_tmp[128 + i] += S0[i] * AX;
-            AY = xc_pow4 * zc[i];
-            phi_y_tmp[128 + i] += S0[i] * AY;
-            AZ = xc_pow4 * yc[i];
-            phi_z_tmp[128 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXXXZZ
-            A = xc_pow4 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXXZZ
-            phi_x_tmp[160 + i] = SX * A;
-            phi_y_tmp[160 + i] = SY * A;
-            phi_z_tmp[160 + i] = SZ * A;
-            AX = 4.0 * xc_pow3 * zc_pow2;
-            phi_x_tmp[160 + i] += S0[i] * AX;
-            AZ = 2.0 * xc_pow4 * zc[i];
-            phi_z_tmp[160 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXXYYY
-            A = xc_pow3 * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXYYY
-            phi_x_tmp[192 + i] = SX * A;
-            phi_y_tmp[192 + i] = SY * A;
-            phi_z_tmp[192 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * yc_pow3;
-            phi_x_tmp[192 + i] += S0[i] * AX;
-            AY = 3.0 * xc_pow3 * yc_pow2;
-            phi_y_tmp[192 + i] += S0[i] * AY;
-
-            // Density AM=6 Component=XXXYYZ
-            A = xc_pow3 * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXYYZ
-            phi_x_tmp[224 + i] = SX * A;
-            phi_y_tmp[224 + i] = SY * A;
-            phi_z_tmp[224 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * yc_pow2 * zc[i];
-            phi_x_tmp[224 + i] += S0[i] * AX;
-            AY = 2.0 * xc_pow3 * yc[i] * zc[i];
-            phi_y_tmp[224 + i] += S0[i] * AY;
-            AZ = xc_pow3 * yc_pow2;
-            phi_z_tmp[224 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXXYZZ
-            A = xc_pow3 * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXYZZ
-            phi_x_tmp[256 + i] = SX * A;
-            phi_y_tmp[256 + i] = SY * A;
-            phi_z_tmp[256 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * yc[i] * zc_pow2;
-            phi_x_tmp[256 + i] += S0[i] * AX;
-            AY = xc_pow3 * zc_pow2;
-            phi_y_tmp[256 + i] += S0[i] * AY;
-            AZ = 2.0 * xc_pow3 * yc[i] * zc[i];
-            phi_z_tmp[256 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXXZZZ
-            A = xc_pow3 * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXXZZZ
-            phi_x_tmp[288 + i] = SX * A;
-            phi_y_tmp[288 + i] = SY * A;
-            phi_z_tmp[288 + i] = SZ * A;
-            AX = 3.0 * xc_pow2 * zc_pow3;
-            phi_x_tmp[288 + i] += S0[i] * AX;
-            AZ = 3.0 * xc_pow3 * zc_pow2;
-            phi_z_tmp[288 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXYYYY
-            A = xc_pow2 * yc_pow4;
-            phi_tmp[320 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXYYYY
-            phi_x_tmp[320 + i] = SX * A;
-            phi_y_tmp[320 + i] = SY * A;
-            phi_z_tmp[320 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc_pow4;
-            phi_x_tmp[320 + i] += S0[i] * AX;
-            AY = 4.0 * xc_pow2 * yc_pow3;
-            phi_y_tmp[320 + i] += S0[i] * AY;
-
-            // Density AM=6 Component=XXYYYZ
-            A = xc_pow2 * yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXYYYZ
-            phi_x_tmp[352 + i] = SX * A;
-            phi_y_tmp[352 + i] = SY * A;
-            phi_z_tmp[352 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc_pow3 * zc[i];
-            phi_x_tmp[352 + i] += S0[i] * AX;
-            AY = 3.0 * xc_pow2 * yc_pow2 * zc[i];
-            phi_y_tmp[352 + i] += S0[i] * AY;
-            AZ = xc_pow2 * yc_pow3;
-            phi_z_tmp[352 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXYYZZ
-            A = xc_pow2 * yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXYYZZ
-            phi_x_tmp[384 + i] = SX * A;
-            phi_y_tmp[384 + i] = SY * A;
-            phi_z_tmp[384 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc_pow2 * zc_pow2;
-            phi_x_tmp[384 + i] += S0[i] * AX;
-            AY = 2.0 * xc_pow2 * yc[i] * zc_pow2;
-            phi_y_tmp[384 + i] += S0[i] * AY;
-            AZ = 2.0 * xc_pow2 * yc_pow2 * zc[i];
-            phi_z_tmp[384 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXYZZZ
-            A = xc_pow2 * yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXYZZZ
-            phi_x_tmp[416 + i] = SX * A;
-            phi_y_tmp[416 + i] = SY * A;
-            phi_z_tmp[416 + i] = SZ * A;
-            AX = 2.0 * xc[i] * yc[i] * zc_pow3;
-            phi_x_tmp[416 + i] += S0[i] * AX;
-            AY = xc_pow2 * zc_pow3;
-            phi_y_tmp[416 + i] += S0[i] * AY;
-            AZ = 3.0 * xc_pow2 * yc[i] * zc_pow2;
-            phi_z_tmp[416 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XXZZZZ
-            A = xc_pow2 * zc_pow4;
-            phi_tmp[448 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XXZZZZ
-            phi_x_tmp[448 + i] = SX * A;
-            phi_y_tmp[448 + i] = SY * A;
-            phi_z_tmp[448 + i] = SZ * A;
-            AX = 2.0 * xc[i] * zc_pow4;
-            phi_x_tmp[448 + i] += S0[i] * AX;
-            AZ = 4.0 * xc_pow2 * zc_pow3;
-            phi_z_tmp[448 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XYYYYY
-            A = xc[i] * yc_pow5;
-            phi_tmp[480 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XYYYYY
-            phi_x_tmp[480 + i] = SX * A;
-            phi_y_tmp[480 + i] = SY * A;
-            phi_z_tmp[480 + i] = SZ * A;
-            phi_x_tmp[480 + i] += S0[i] * yc_pow5;
-            AY = 5.0 * xc[i] * yc_pow4;
-            phi_y_tmp[480 + i] += S0[i] * AY;
-
-            // Density AM=6 Component=XYYYYZ
-            A = xc[i] * yc_pow4 * zc[i];
-            phi_tmp[512 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XYYYYZ
-            phi_x_tmp[512 + i] = SX * A;
-            phi_y_tmp[512 + i] = SY * A;
-            phi_z_tmp[512 + i] = SZ * A;
-            AX = yc_pow4 * zc[i];
-            phi_x_tmp[512 + i] += S0[i] * AX;
-            AY = 4.0 * xc[i] * yc_pow3 * zc[i];
-            phi_y_tmp[512 + i] += S0[i] * AY;
-            AZ = xc[i] * yc_pow4;
-            phi_z_tmp[512 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XYYYZZ
-            A = xc[i] * yc_pow3 * zc_pow2;
-            phi_tmp[544 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XYYYZZ
-            phi_x_tmp[544 + i] = SX * A;
-            phi_y_tmp[544 + i] = SY * A;
-            phi_z_tmp[544 + i] = SZ * A;
-            AX = yc_pow3 * zc_pow2;
-            phi_x_tmp[544 + i] += S0[i] * AX;
-            AY = 3.0 * xc[i] * yc_pow2 * zc_pow2;
-            phi_y_tmp[544 + i] += S0[i] * AY;
-            AZ = 2.0 * xc[i] * yc_pow3 * zc[i];
-            phi_z_tmp[544 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XYYZZZ
-            A = xc[i] * yc_pow2 * zc_pow3;
-            phi_tmp[576 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XYYZZZ
-            phi_x_tmp[576 + i] = SX * A;
-            phi_y_tmp[576 + i] = SY * A;
-            phi_z_tmp[576 + i] = SZ * A;
-            AX = yc_pow2 * zc_pow3;
-            phi_x_tmp[576 + i] += S0[i] * AX;
-            AY = 2.0 * xc[i] * yc[i] * zc_pow3;
-            phi_y_tmp[576 + i] += S0[i] * AY;
-            AZ = 3.0 * xc[i] * yc_pow2 * zc_pow2;
-            phi_z_tmp[576 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XYZZZZ
-            A = xc[i] * yc[i] * zc_pow4;
-            phi_tmp[608 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XYZZZZ
-            phi_x_tmp[608 + i] = SX * A;
-            phi_y_tmp[608 + i] = SY * A;
-            phi_z_tmp[608 + i] = SZ * A;
-            AX = yc[i] * zc_pow4;
-            phi_x_tmp[608 + i] += S0[i] * AX;
-            AY = xc[i] * zc_pow4;
-            phi_y_tmp[608 + i] += S0[i] * AY;
-            AZ = 4.0 * xc[i] * yc[i] * zc_pow3;
-            phi_z_tmp[608 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=XZZZZZ
-            A = xc[i] * zc_pow5;
-            phi_tmp[640 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=XZZZZZ
-            phi_x_tmp[640 + i] = SX * A;
-            phi_y_tmp[640 + i] = SY * A;
-            phi_z_tmp[640 + i] = SZ * A;
-            phi_x_tmp[640 + i] += S0[i] * zc_pow5;
-            AZ = 5.0 * xc[i] * zc_pow4;
-            phi_z_tmp[640 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=YYYYYY
-            phi_tmp[672 + i] = S0[i] * yc_pow6;
-
-            // Gradient AM=6 Component=YYYYYY
-            phi_x_tmp[672 + i] = SX * yc_pow6;
-            phi_y_tmp[672 + i] = SY * yc_pow6;
-            phi_z_tmp[672 + i] = SZ * yc_pow6;
-            AY = 6.0 * yc_pow5;
-            phi_y_tmp[672 + i] += S0[i] * AY;
-
-            // Density AM=6 Component=YYYYYZ
-            A = yc_pow5 * zc[i];
-            phi_tmp[704 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=YYYYYZ
-            phi_x_tmp[704 + i] = SX * A;
-            phi_y_tmp[704 + i] = SY * A;
-            phi_z_tmp[704 + i] = SZ * A;
-            AY = 5.0 * yc_pow4 * zc[i];
-            phi_y_tmp[704 + i] += S0[i] * AY;
-            phi_z_tmp[704 + i] += S0[i] * yc_pow5;
-
-            // Density AM=6 Component=YYYYZZ
-            A = yc_pow4 * zc_pow2;
-            phi_tmp[736 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=YYYYZZ
-            phi_x_tmp[736 + i] = SX * A;
-            phi_y_tmp[736 + i] = SY * A;
-            phi_z_tmp[736 + i] = SZ * A;
-            AY = 4.0 * yc_pow3 * zc_pow2;
-            phi_y_tmp[736 + i] += S0[i] * AY;
-            AZ = 2.0 * yc_pow4 * zc[i];
-            phi_z_tmp[736 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=YYYZZZ
-            A = yc_pow3 * zc_pow3;
-            phi_tmp[768 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=YYYZZZ
-            phi_x_tmp[768 + i] = SX * A;
-            phi_y_tmp[768 + i] = SY * A;
-            phi_z_tmp[768 + i] = SZ * A;
-            AY = 3.0 * yc_pow2 * zc_pow3;
-            phi_y_tmp[768 + i] += S0[i] * AY;
-            AZ = 3.0 * yc_pow3 * zc_pow2;
-            phi_z_tmp[768 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=YYZZZZ
-            A = yc_pow2 * zc_pow4;
-            phi_tmp[800 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=YYZZZZ
-            phi_x_tmp[800 + i] = SX * A;
-            phi_y_tmp[800 + i] = SY * A;
-            phi_z_tmp[800 + i] = SZ * A;
-            AY = 2.0 * yc[i] * zc_pow4;
-            phi_y_tmp[800 + i] += S0[i] * AY;
-            AZ = 4.0 * yc_pow2 * zc_pow3;
-            phi_z_tmp[800 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=YZZZZZ
-            A = yc[i] * zc_pow5;
-            phi_tmp[832 + i] = S0[i] * A;
-
-            // Gradient AM=6 Component=YZZZZZ
-            phi_x_tmp[832 + i] = SX * A;
-            phi_y_tmp[832 + i] = SY * A;
-            phi_z_tmp[832 + i] = SZ * A;
-            phi_y_tmp[832 + i] += S0[i] * zc_pow5;
-            AZ = 5.0 * yc[i] * zc_pow4;
-            phi_z_tmp[832 + i] += S0[i] * AZ;
-
-            // Density AM=6 Component=ZZZZZZ
-            phi_tmp[864 + i] = S0[i] * zc_pow6;
-
-            // Gradient AM=6 Component=ZZZZZZ
-            phi_x_tmp[864 + i] = SX * zc_pow6;
-            phi_y_tmp[864 + i] = SY * zc_pow6;
-            phi_z_tmp[864 + i] = SZ * zc_pow6;
-            AZ = 6.0 * zc_pow5;
-            phi_z_tmp[864 + i] += S0[i] * AZ;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L6(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L6(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L6(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L6(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L6(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L6(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L6(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L6(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L6(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L6(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L6(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L6(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-
-}
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv2.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv2.c
deleted file mode 100644
index 822f62a..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv2.c
+++ /dev/null
@@ -1,4549 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-
-
-void gg_collocation_L0_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 1;
-    const unsigned long nspherical = 1;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xx_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_zz_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Gaussians derivs (Hessians)
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            phi_out[start + i] = S0[i];
-
-            // Gradient AM=0 Component=0
-            phi_x_out[start + i] = SX;
-            phi_y_out[start + i] = SY;
-            phi_z_out[start + i] = SZ;
-
-            // Hessian AM=0 Component=0
-            phi_xx_out[start + i] = SXX;
-            phi_yy_out[start + i] = SYY;
-            phi_zz_out[start + i] = SZZ;
-            phi_xy_out[start + i] = SXY;
-            phi_xz_out[start + i] = SXZ;
-            phi_yz_out[start + i] = SYZ;
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-    ALIGNED_FREE(phi_xx_tmp);
-    ALIGNED_FREE(phi_xy_tmp);
-    ALIGNED_FREE(phi_xz_tmp);
-    ALIGNED_FREE(phi_yy_tmp);
-    ALIGNED_FREE(phi_yz_tmp);
-    ALIGNED_FREE(phi_zz_tmp);
-
-}
-
-void gg_collocation_L1_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 3;
-    const unsigned long nspherical = 3;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xx_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_zz_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Gaussians derivs (Hessians)
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            // Density AM=1 Component=X
-            phi_tmp[i] = S0[i] * xc[i];
-
-            // Gradient AM=1 Component=X
-            phi_x_tmp[i] = SX * xc[i];
-            phi_y_tmp[i] = SY * xc[i];
-            phi_z_tmp[i] = SZ * xc[i];
-            phi_x_tmp[i] += S0[i];
-
-            // Hessian AM=1 Component=X
-            phi_xx_tmp[i] = SXX * xc[i];
-            phi_xx_tmp[i] += SX;
-            phi_xx_tmp[i] += SX;
-            phi_yy_tmp[i] = SYY * xc[i];
-            phi_zz_tmp[i] = SZZ * xc[i];
-            phi_xy_tmp[i] = SXY * xc[i];
-            phi_xy_tmp[i] += SY;
-            phi_xz_tmp[i] = SXZ * xc[i];
-            phi_xz_tmp[i] += SZ;
-            phi_yz_tmp[i] = SYZ * xc[i];
-
-            // Density AM=1 Component=Y
-            phi_tmp[32 + i] = S0[i] * yc[i];
-
-            // Gradient AM=1 Component=Y
-            phi_x_tmp[32 + i] = SX * yc[i];
-            phi_y_tmp[32 + i] = SY * yc[i];
-            phi_z_tmp[32 + i] = SZ * yc[i];
-            phi_y_tmp[32 + i] += S0[i];
-
-            // Hessian AM=1 Component=Y
-            phi_xx_tmp[32 + i] = SXX * yc[i];
-            phi_yy_tmp[32 + i] = SYY * yc[i];
-            phi_yy_tmp[32 + i] += SY;
-            phi_yy_tmp[32 + i] += SY;
-            phi_zz_tmp[32 + i] = SZZ * yc[i];
-            phi_xy_tmp[32 + i] = SXY * yc[i];
-            phi_xy_tmp[32 + i] += SX;
-            phi_xz_tmp[32 + i] = SXZ * yc[i];
-            phi_yz_tmp[32 + i] = SYZ * yc[i];
-            phi_yz_tmp[32 + i] += SZ;
-
-            // Density AM=1 Component=Z
-            phi_tmp[64 + i] = S0[i] * zc[i];
-
-            // Gradient AM=1 Component=Z
-            phi_x_tmp[64 + i] = SX * zc[i];
-            phi_y_tmp[64 + i] = SY * zc[i];
-            phi_z_tmp[64 + i] = SZ * zc[i];
-            phi_z_tmp[64 + i] += S0[i];
-
-            // Hessian AM=1 Component=Z
-            phi_xx_tmp[64 + i] = SXX * zc[i];
-            phi_yy_tmp[64 + i] = SYY * zc[i];
-            phi_zz_tmp[64 + i] = SZZ * zc[i];
-            phi_zz_tmp[64 + i] += SZ;
-            phi_zz_tmp[64 + i] += SZ;
-            phi_xy_tmp[64 + i] = SXY * zc[i];
-            phi_xz_tmp[64 + i] = SXZ * zc[i];
-            phi_xz_tmp[64 + i] += SX;
-            phi_yz_tmp[64 + i] = SYZ * zc[i];
-            phi_yz_tmp[64 + i] += SY;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-    ALIGNED_FREE(phi_xx_tmp);
-    ALIGNED_FREE(phi_xy_tmp);
-    ALIGNED_FREE(phi_xz_tmp);
-    ALIGNED_FREE(phi_yy_tmp);
-    ALIGNED_FREE(phi_yz_tmp);
-    ALIGNED_FREE(phi_zz_tmp);
-
-}
-
-void gg_collocation_L2_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 6;
-    const unsigned long nspherical = 5;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xx_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_xx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xy_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_xy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xz_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_xz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yy_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_yy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yz_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_yz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zz_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_zz_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Gaussians derivs (Hessians)
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-
-            // Density AM=2 Component=XX
-            phi_tmp[i] = S0[i] * xc_pow2;
-
-            // Gradient AM=2 Component=XX
-            phi_x_tmp[i] = SX * xc_pow2;
-            phi_y_tmp[i] = SY * xc_pow2;
-            phi_z_tmp[i] = SZ * xc_pow2;
-            AX = 2.0 * xc[i];
-            phi_x_tmp[i] += S0[i] * AX;
-
-            // Hessian AM=2 Component=XX
-            phi_xx_tmp[i] = SXX * xc_pow2;
-            phi_xx_tmp[i] += SX * AX;
-            phi_xx_tmp[i] += SX * AX;
-            phi_xx_tmp[i] += 2.0 * S0[i];
-            phi_yy_tmp[i] = SYY * xc_pow2;
-            phi_zz_tmp[i] = SZZ * xc_pow2;
-            phi_xy_tmp[i] = SXY * xc_pow2;
-            phi_xy_tmp[i] += SY * AX;
-            phi_xz_tmp[i] = SXZ * xc_pow2;
-            phi_xz_tmp[i] += SZ * AX;
-            phi_yz_tmp[i] = SYZ * xc_pow2;
-
-            // Density AM=2 Component=XY
-            A = xc[i] * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Gradient AM=2 Component=XY
-            phi_x_tmp[32 + i] = SX * A;
-            phi_y_tmp[32 + i] = SY * A;
-            phi_z_tmp[32 + i] = SZ * A;
-            phi_x_tmp[32 + i] += S0[i] * yc[i];
-            phi_y_tmp[32 + i] += S0[i] * xc[i];
-
-            // Hessian AM=2 Component=XY
-            phi_xx_tmp[32 + i] = SXX * A;
-            phi_xx_tmp[32 + i] += SX * yc[i];
-            phi_xx_tmp[32 + i] += SX * yc[i];
-            phi_yy_tmp[32 + i] = SYY * A;
-            phi_yy_tmp[32 + i] += SY * xc[i];
-            phi_yy_tmp[32 + i] += SY * xc[i];
-            phi_zz_tmp[32 + i] = SZZ * A;
-            phi_xy_tmp[32 + i] = SXY * A;
-            phi_xy_tmp[32 + i] += SX * xc[i];
-            phi_xy_tmp[32 + i] += SY * yc[i];
-            phi_xy_tmp[32 + i] += S0[i];
-            phi_xz_tmp[32 + i] = SXZ * A;
-            phi_xz_tmp[32 + i] += SZ * yc[i];
-            phi_yz_tmp[32 + i] = SYZ * A;
-            phi_yz_tmp[32 + i] += SZ * xc[i];
-
-            // Density AM=2 Component=XZ
-            A = xc[i] * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Gradient AM=2 Component=XZ
-            phi_x_tmp[64 + i] = SX * A;
-            phi_y_tmp[64 + i] = SY * A;
-            phi_z_tmp[64 + i] = SZ * A;
-            phi_x_tmp[64 + i] += S0[i] * zc[i];
-            phi_z_tmp[64 + i] += S0[i] * xc[i];
-
-            // Hessian AM=2 Component=XZ
-            phi_xx_tmp[64 + i] = SXX * A;
-            phi_xx_tmp[64 + i] += SX * zc[i];
-            phi_xx_tmp[64 + i] += SX * zc[i];
-            phi_yy_tmp[64 + i] = SYY * A;
-            phi_zz_tmp[64 + i] = SZZ * A;
-            phi_zz_tmp[64 + i] += SZ * xc[i];
-            phi_zz_tmp[64 + i] += SZ * xc[i];
-            phi_xy_tmp[64 + i] = SXY * A;
-            phi_xy_tmp[64 + i] += SY * zc[i];
-            phi_xz_tmp[64 + i] = SXZ * A;
-            phi_xz_tmp[64 + i] += SX * xc[i];
-            phi_xz_tmp[64 + i] += SZ * zc[i];
-            phi_xz_tmp[64 + i] += S0[i];
-            phi_yz_tmp[64 + i] = SYZ * A;
-            phi_yz_tmp[64 + i] += SY * xc[i];
-
-            // Density AM=2 Component=YY
-            phi_tmp[96 + i] = S0[i] * yc_pow2;
-
-            // Gradient AM=2 Component=YY
-            phi_x_tmp[96 + i] = SX * yc_pow2;
-            phi_y_tmp[96 + i] = SY * yc_pow2;
-            phi_z_tmp[96 + i] = SZ * yc_pow2;
-            AY = 2.0 * yc[i];
-            phi_y_tmp[96 + i] += S0[i] * AY;
-
-            // Hessian AM=2 Component=YY
-            phi_xx_tmp[96 + i] = SXX * yc_pow2;
-            phi_yy_tmp[96 + i] = SYY * yc_pow2;
-            phi_yy_tmp[96 + i] += SY * AY;
-            phi_yy_tmp[96 + i] += SY * AY;
-            phi_yy_tmp[96 + i] += 2.0 * S0[i];
-            phi_zz_tmp[96 + i] = SZZ * yc_pow2;
-            phi_xy_tmp[96 + i] = SXY * yc_pow2;
-            phi_xy_tmp[96 + i] += SX * AY;
-            phi_xz_tmp[96 + i] = SXZ * yc_pow2;
-            phi_yz_tmp[96 + i] = SYZ * yc_pow2;
-            phi_yz_tmp[96 + i] += SZ * AY;
-
-            // Density AM=2 Component=YZ
-            A = yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Gradient AM=2 Component=YZ
-            phi_x_tmp[128 + i] = SX * A;
-            phi_y_tmp[128 + i] = SY * A;
-            phi_z_tmp[128 + i] = SZ * A;
-            phi_y_tmp[128 + i] += S0[i] * zc[i];
-            phi_z_tmp[128 + i] += S0[i] * yc[i];
-
-            // Hessian AM=2 Component=YZ
-            phi_xx_tmp[128 + i] = SXX * A;
-            phi_yy_tmp[128 + i] = SYY * A;
-            phi_yy_tmp[128 + i] += SY * zc[i];
-            phi_yy_tmp[128 + i] += SY * zc[i];
-            phi_zz_tmp[128 + i] = SZZ * A;
-            phi_zz_tmp[128 + i] += SZ * yc[i];
-            phi_zz_tmp[128 + i] += SZ * yc[i];
-            phi_xy_tmp[128 + i] = SXY * A;
-            phi_xy_tmp[128 + i] += SX * zc[i];
-            phi_xz_tmp[128 + i] = SXZ * A;
-            phi_xz_tmp[128 + i] += SX * yc[i];
-            phi_yz_tmp[128 + i] = SYZ * A;
-            phi_yz_tmp[128 + i] += SY * yc[i];
-            phi_yz_tmp[128 + i] += SZ * zc[i];
-            phi_yz_tmp[128 + i] += S0[i];
-
-            // Density AM=2 Component=ZZ
-            phi_tmp[160 + i] = S0[i] * zc_pow2;
-
-            // Gradient AM=2 Component=ZZ
-            phi_x_tmp[160 + i] = SX * zc_pow2;
-            phi_y_tmp[160 + i] = SY * zc_pow2;
-            phi_z_tmp[160 + i] = SZ * zc_pow2;
-            AZ = 2.0 * zc[i];
-            phi_z_tmp[160 + i] += S0[i] * AZ;
-
-            // Hessian AM=2 Component=ZZ
-            phi_xx_tmp[160 + i] = SXX * zc_pow2;
-            phi_yy_tmp[160 + i] = SYY * zc_pow2;
-            phi_zz_tmp[160 + i] = SZZ * zc_pow2;
-            phi_zz_tmp[160 + i] += SZ * AZ;
-            phi_zz_tmp[160 + i] += SZ * AZ;
-            phi_zz_tmp[160 + i] += 2.0 * S0[i];
-            phi_xy_tmp[160 + i] = SXY * zc_pow2;
-            phi_xz_tmp[160 + i] = SXZ * zc_pow2;
-            phi_xz_tmp[160 + i] += SX * AZ;
-            phi_yz_tmp[160 + i] = SYZ * zc_pow2;
-            phi_yz_tmp[160 + i] += SY * AZ;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_cca_cart_to_spherical_L2(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_cca_cart_to_spherical_L2(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L2(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L2(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_cca_cart_copy_L2(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_cca_cart_copy_L2(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L2(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_molden_cart_copy_L2(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_molden_cart_copy_L2(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-    ALIGNED_FREE(phi_xx_tmp);
-    ALIGNED_FREE(phi_xy_tmp);
-    ALIGNED_FREE(phi_xz_tmp);
-    ALIGNED_FREE(phi_yy_tmp);
-    ALIGNED_FREE(phi_yz_tmp);
-    ALIGNED_FREE(phi_zz_tmp);
-
-}
-
-void gg_collocation_L3_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 10;
-    const unsigned long nspherical = 7;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 64 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 64 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 64 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[32 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = zc_pow[32 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SX;
-            phi_tmp[i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXX;
-            phi_tmp[i] += 6.0 * xc_pow[i] * SX;
-            phi_tmp[i] += 6.0 * xc[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 4.0 * xc[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 4.0 * xc[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * SX;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * SX;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXY;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[i] * SX;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SY;
-            phi_tmp[32 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SX;
-            phi_tmp[96 + i] += yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXZ;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[i] * SX;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SX;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SX;
-            phi_tmp[160 + i] += zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += yc_pow[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[i] * SZ;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * zc[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L4_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 15;
-    const unsigned long nspherical = 9;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-            xc_pow[64 + i] = xc_pow[32 + i] * xc[i];
-            yc_pow[64 + i] = yc_pow[32 + i] * yc[i];
-            zc_pow[64 + i] = zc_pow[32 + i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[64 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[320 + i] = yc_pow[64 + i] * S0[i];
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[448 + i] = zc_pow[64 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SX;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[32 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXX;
-            phi_tmp[i] += 8.0 * xc_pow[32 + i] * SX;
-            phi_tmp[i] += 12.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 6.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 6.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXY;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SX;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXZ;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SX;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 8.0 * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 4.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 8.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * zc_pow[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L5_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 21;
-    const unsigned long nspherical = 11;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 128 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 128 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 128 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-            xc_pow[64 + i] = xc_pow[32 + i] * xc[i];
-            yc_pow[64 + i] = yc_pow[32 + i] * yc[i];
-            zc_pow[64 + i] = zc_pow[32 + i] * zc[i];
-            xc_pow[96 + i] = xc_pow[64 + i] * xc[i];
-            yc_pow[96 + i] = yc_pow[64 + i] * yc[i];
-            zc_pow[96 + i] = zc_pow[64 + i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[96 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * S0[i];
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[480 + i] = yc_pow[96 + i] * S0[i];
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * S0[i];
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * S0[i];
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[640 + i] = zc_pow[96 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SX;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[320 + i] += yc_pow[64 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[448 + i] += zc_pow[64 + i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[64 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXX;
-            phi_tmp[i] += 10.0 * xc_pow[64 + i] * SX;
-            phi_tmp[i] += 20.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 8.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 12.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 8.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 12.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 6.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 6.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 6.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXY;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SX;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXZ;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SX;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 8.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYY;
-            phi_tmp[480 + i] += 10.0 * yc_pow[64 + i] * SY;
-            phi_tmp[480 + i] += 20.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 8.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 12.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYZ;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 8.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SZZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 8.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SZZ;
-            phi_tmp[640 + i] += 10.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[640 + i] += 20.0 * zc_pow[32 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L6_deriv2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 28;
-    const unsigned long nspherical = 13;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 256 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 160 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 160 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 160 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-            xc_pow[64 + i] = xc_pow[32 + i] * xc[i];
-            yc_pow[64 + i] = yc_pow[32 + i] * yc[i];
-            zc_pow[64 + i] = zc_pow[32 + i] * zc[i];
-            xc_pow[96 + i] = xc_pow[64 + i] * xc[i];
-            yc_pow[96 + i] = yc_pow[64 + i] * yc[i];
-            zc_pow[96 + i] = zc_pow[64 + i] * zc[i];
-            xc_pow[128 + i] = xc_pow[96 + i] * xc[i];
-            yc_pow[128 + i] = yc_pow[96 + i] * yc[i];
-            zc_pow[128 + i] = zc_pow[96 + i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[128 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * S0[i];
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * S0[i];
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * S0[i];
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * S0[i];
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * S0[i];
-            phi_tmp[672 + i] = yc_pow[128 + i] * S0[i];
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * S0[i];
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * S0[i];
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * S0[i];
-            phi_tmp[864 + i] = zc_pow[128 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SX;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SX;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SX;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SX;
-            phi_tmp[480 + i] += yc_pow[96 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SX;
-            phi_tmp[640 + i] += zc_pow[96 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[96 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SY;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SY;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * S0[i];
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXX;
-            phi_tmp[i] += 12.0 * xc_pow[96 + i] * SX;
-            phi_tmp[i] += 30.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 10.0 * xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 20.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 10.0 * xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 20.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 8.0 * xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 12.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 8.0 * xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 12.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 8.0 * xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 12.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 6.0 * xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 6.0 * xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXX;
-            phi_tmp[480 + i] += 2.0 * yc_pow[96 + i] * SX;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[576 + i] += 2.0 * yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[608 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXX;
-            phi_tmp[640 + i] += 2.0 * zc_pow[96 + i] * SX;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXY;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SX;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 8.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 9.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 8.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXY;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXY;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXY;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXZ;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SX;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 8.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 9.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 8.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXZ;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[96 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 8.0 * xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYY;
-            phi_tmp[480 + i] += 10.0 * xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[480 + i] += 20.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 8.0 * xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 12.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYY;
-            phi_tmp[672 + i] += 12.0 * yc_pow[96 + i] * SY;
-            phi_tmp[672 + i] += 30.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYY;
-            phi_tmp[704 + i] += 10.0 * yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[704 + i] += 20.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYY;
-            phi_tmp[736 + i] += 8.0 * yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[736 + i] += 12.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYY;
-            phi_tmp[768 + i] += 6.0 * yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[768 + i] += 6.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[800 + i] += 4.0 * yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[800 + i] += 2.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYY;
-            phi_tmp[832 + i] += 2.0 * zc_pow[96 + i] * SY;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYZ;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYZ;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[736 + i] += 8.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[768 + i] += 9.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[800 + i] += 8.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SZ;
-            phi_tmp[832 + i] += 5.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[96 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 8.0 * xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SZZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 8.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SZZ;
-            phi_tmp[640 + i] += 10.0 * xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[640 + i] += 20.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SZZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SZZ;
-            phi_tmp[704 + i] += 2.0 * yc_pow[96 + i] * SZ;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SZZ;
-            phi_tmp[736 + i] += 4.0 * yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[800 + i] += 8.0 * yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[800 + i] += 12.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SZZ;
-            phi_tmp[832 + i] += 10.0 * yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[832 + i] += 20.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SZZ;
-            phi_tmp[864 + i] += 12.0 * zc_pow[96 + i] * SZ;
-            phi_tmp[864 + i] += 30.0 * zc_pow[64 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv3.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv3.c
deleted file mode 100644
index c38afc7..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_deriv3.c
+++ /dev/null
@@ -1,9321 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-
-
-void gg_collocation_L0_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 1;
-    const unsigned long nspherical = 1;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xx_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_zz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xxx_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xxx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xxy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xxy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xxz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xxz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xyy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xyy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xyz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xyz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xzz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_xzz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yyy_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yyy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yyz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yyz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yzz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_yzz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zzz_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_zzz_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Gaussians derivs (Hessians)
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            // Gaussians 3rd derivs)
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + yc[i] * S2[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + zc[i] * S2[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + xc[i] * S2[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + xc[i] * S2[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + zc[i] * S2[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + yc[i] * S2[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-            phi_out[start + i] = S0[i];
-
-            // Gradient AM=0 Component=0
-            phi_x_out[start + i] = SX;
-            phi_y_out[start + i] = SY;
-            phi_z_out[start + i] = SZ;
-
-            // Hessian AM=0 Component=0
-            phi_xx_out[start + i] = SXX;
-            phi_yy_out[start + i] = SYY;
-            phi_zz_out[start + i] = SZZ;
-            phi_xy_out[start + i] = SXY;
-            phi_xz_out[start + i] = SXZ;
-            phi_yz_out[start + i] = SYZ;
-
-            // Der3 AM=0 Component=0
-            phi_xxx_out[start + i] = SXXX;
-            phi_xxy_out[start + i] = SXXY;
-            phi_xxz_out[start + i] = SXXZ;
-            phi_xyy_out[start + i] = SXYY;
-            phi_xyz_out[start + i] = SXYZ;
-            phi_xzz_out[start + i] = SXZZ;
-            phi_yyy_out[start + i] = SYYY;
-            phi_yyz_out[start + i] = SYYZ;
-            phi_yzz_out[start + i] = SYZZ;
-            phi_zzz_out[start + i] = SZZZ;
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-    ALIGNED_FREE(phi_xx_tmp);
-    ALIGNED_FREE(phi_xy_tmp);
-    ALIGNED_FREE(phi_xz_tmp);
-    ALIGNED_FREE(phi_yy_tmp);
-    ALIGNED_FREE(phi_yz_tmp);
-    ALIGNED_FREE(phi_zz_tmp);
-    ALIGNED_FREE(phi_xxx_tmp);
-    ALIGNED_FREE(phi_xxy_tmp);
-    ALIGNED_FREE(phi_xxz_tmp);
-    ALIGNED_FREE(phi_xyy_tmp);
-    ALIGNED_FREE(phi_xyz_tmp);
-    ALIGNED_FREE(phi_xzz_tmp);
-    ALIGNED_FREE(phi_yyy_tmp);
-    ALIGNED_FREE(phi_yyz_tmp);
-    ALIGNED_FREE(phi_yzz_tmp);
-    ALIGNED_FREE(phi_zzz_tmp);
-
-}
-
-void gg_collocation_L1_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 3;
-    const unsigned long nspherical = 3;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-    double* PRAGMA_RESTRICT phi_x_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_x_tmp, 64);
-    double* PRAGMA_RESTRICT phi_y_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_y_tmp, 64);
-    double* PRAGMA_RESTRICT phi_z_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_z_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xx_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_zz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xxx_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xxx_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xxy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xxy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xxz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xxz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xyy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xyy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xyz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xyz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_xzz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_xzz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yyy_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yyy_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yyz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yyz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_yzz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_yzz_tmp, 64);
-    double* PRAGMA_RESTRICT phi_zzz_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_zzz_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            // Gaussian derivs (gradients)
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-
-            // Gaussians derivs (Hessians)
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            // Gaussians 3rd derivs)
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + yc[i] * S2[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + zc[i] * S2[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + xc[i] * S2[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + xc[i] * S2[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + zc[i] * S2[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + yc[i] * S2[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-
-            // Density AM=1 Component=X
-            phi_tmp[i] = S0[i] * xc[i];
-
-            // Gradient AM=1 Component=X
-            phi_x_tmp[i] = SX * xc[i];
-            phi_y_tmp[i] = SY * xc[i];
-            phi_z_tmp[i] = SZ * xc[i];
-            phi_x_tmp[i] += S0[i];
-
-            // Hessian AM=1 Component=X
-            phi_xx_tmp[i] = SXX * xc[i];
-            phi_xx_tmp[i] += SX;
-            phi_xx_tmp[i] += SX;
-            phi_yy_tmp[i] = SYY * xc[i];
-            phi_zz_tmp[i] = SZZ * xc[i];
-            phi_xy_tmp[i] = SXY * xc[i];
-            phi_xy_tmp[i] += SY;
-            phi_xz_tmp[i] = SXZ * xc[i];
-            phi_xz_tmp[i] += SZ;
-            phi_yz_tmp[i] = SYZ * xc[i];
-            phi_xyz_tmp[i] = SXYZ * xc[i];
-            phi_xyz_tmp[i] += SYZ;
-            phi_xxy_tmp[i] = SXXY * xc[i];
-            phi_xxy_tmp[i] += 2.0 * SXY;
-            phi_xxz_tmp[i] = SXXZ * xc[i];
-            phi_xxz_tmp[i] += 2.0 * SXZ;
-            phi_xyy_tmp[i] = SXYY * xc[i];
-            phi_xyy_tmp[i] += SYY;
-            phi_xzz_tmp[i] = SXZZ * xc[i];
-            phi_xzz_tmp[i] += SZZ;
-            phi_yyz_tmp[i] = SYYZ * xc[i];
-            phi_yzz_tmp[i] = SYZZ * xc[i];
-            phi_xxx_tmp[i] = SXXX * xc[i];
-            phi_xxx_tmp[i] += 3.0 * SXX;
-            phi_yyy_tmp[i] = SYYY * xc[i];
-            phi_zzz_tmp[i] = SZZZ * xc[i];
-
-
-            // Density AM=1 Component=Y
-            phi_tmp[32 + i] = S0[i] * yc[i];
-
-            // Gradient AM=1 Component=Y
-            phi_x_tmp[32 + i] = SX * yc[i];
-            phi_y_tmp[32 + i] = SY * yc[i];
-            phi_z_tmp[32 + i] = SZ * yc[i];
-            phi_y_tmp[32 + i] += S0[i];
-
-            // Hessian AM=1 Component=Y
-            phi_xx_tmp[32 + i] = SXX * yc[i];
-            phi_yy_tmp[32 + i] = SYY * yc[i];
-            phi_yy_tmp[32 + i] += SY;
-            phi_yy_tmp[32 + i] += SY;
-            phi_zz_tmp[32 + i] = SZZ * yc[i];
-            phi_xy_tmp[32 + i] = SXY * yc[i];
-            phi_xy_tmp[32 + i] += SX;
-            phi_xz_tmp[32 + i] = SXZ * yc[i];
-            phi_yz_tmp[32 + i] = SYZ * yc[i];
-            phi_yz_tmp[32 + i] += SZ;
-            phi_xyz_tmp[32 + i] = SXYZ * yc[i];
-            phi_xyz_tmp[32 + i] += SXZ;
-            phi_xxy_tmp[32 + i] = SXXY * yc[i];
-            phi_xxy_tmp[32 + i] += SXX;
-            phi_xxz_tmp[32 + i] = SXXZ * yc[i];
-            phi_xyy_tmp[32 + i] = SXYY * yc[i];
-            phi_xyy_tmp[32 + i] += 2.0 * SXY;
-            phi_xzz_tmp[32 + i] = SXZZ * yc[i];
-            phi_yyz_tmp[32 + i] = SYYZ * yc[i];
-            phi_yyz_tmp[32 + i] += 2.0 * SYZ;
-            phi_yzz_tmp[32 + i] = SYZZ * yc[i];
-            phi_yzz_tmp[32 + i] += SZZ;
-            phi_xxx_tmp[32 + i] = SXXX * yc[i];
-            phi_yyy_tmp[32 + i] = SYYY * yc[i];
-            phi_yyy_tmp[32 + i] += 3.0 * SYY;
-            phi_zzz_tmp[32 + i] = SZZZ * yc[i];
-
-
-            // Density AM=1 Component=Z
-            phi_tmp[64 + i] = S0[i] * zc[i];
-
-            // Gradient AM=1 Component=Z
-            phi_x_tmp[64 + i] = SX * zc[i];
-            phi_y_tmp[64 + i] = SY * zc[i];
-            phi_z_tmp[64 + i] = SZ * zc[i];
-            phi_z_tmp[64 + i] += S0[i];
-
-            // Hessian AM=1 Component=Z
-            phi_xx_tmp[64 + i] = SXX * zc[i];
-            phi_yy_tmp[64 + i] = SYY * zc[i];
-            phi_zz_tmp[64 + i] = SZZ * zc[i];
-            phi_zz_tmp[64 + i] += SZ;
-            phi_zz_tmp[64 + i] += SZ;
-            phi_xy_tmp[64 + i] = SXY * zc[i];
-            phi_xz_tmp[64 + i] = SXZ * zc[i];
-            phi_xz_tmp[64 + i] += SX;
-            phi_yz_tmp[64 + i] = SYZ * zc[i];
-            phi_yz_tmp[64 + i] += SY;
-            phi_xyz_tmp[64 + i] = SXYZ * zc[i];
-            phi_xyz_tmp[64 + i] += SXY;
-            phi_xxy_tmp[64 + i] = SXXY * zc[i];
-            phi_xxz_tmp[64 + i] = SXXZ * zc[i];
-            phi_xxz_tmp[64 + i] += SXX;
-            phi_xyy_tmp[64 + i] = SXYY * zc[i];
-            phi_xzz_tmp[64 + i] = SXZZ * zc[i];
-            phi_xzz_tmp[64 + i] += 2.0 * SXZ;
-            phi_yyz_tmp[64 + i] = SYYZ * zc[i];
-            phi_yyz_tmp[64 + i] += SYY;
-            phi_yzz_tmp[64 + i] = SYZZ * zc[i];
-            phi_yzz_tmp[64 + i] += 2.0 * SYZ;
-            phi_xxx_tmp[64 + i] = SXXX * zc[i];
-            phi_yyy_tmp[64 + i] = SYYY * zc[i];
-            phi_zzz_tmp[64 + i] = SZZZ * zc[i];
-            phi_zzz_tmp[64 + i] += 3.0 * SZZ;
-
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xxx_tmp, 32, (phi_xxx_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xxy_tmp, 32, (phi_xxy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xxz_tmp, 32, (phi_xxz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xyy_tmp, 32, (phi_xyy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xyz_tmp, 32, (phi_xyz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_xzz_tmp, 32, (phi_xzz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yyy_tmp, 32, (phi_yyy_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yyz_tmp, 32, (phi_yyz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_yzz_tmp, 32, (phi_yzz_out + start), npoints);
-            gg_cca_cart_to_spherical_L1(remain, phi_zzz_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xxx_tmp, 32, (phi_xxx_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xxy_tmp, 32, (phi_xxy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xxz_tmp, 32, (phi_xxz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xyy_tmp, 32, (phi_xyy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xyz_tmp, 32, (phi_xyz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_xzz_tmp, 32, (phi_xzz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yyy_tmp, 32, (phi_yyy_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yyz_tmp, 32, (phi_yyz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_yzz_tmp, 32, (phi_yzz_out + start), npoints);
-            gg_gaussian_cart_to_spherical_L1(remain, phi_zzz_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xxx_tmp, 32, (phi_xxx_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xxy_tmp, 32, (phi_xxy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xxz_tmp, 32, (phi_xxz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xyy_tmp, 32, (phi_xyy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xyz_tmp, 32, (phi_xyz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_xzz_tmp, 32, (phi_xzz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yyy_tmp, 32, (phi_yyy_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yyz_tmp, 32, (phi_yyz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_yzz_tmp, 32, (phi_yzz_out + start), npoints);
-            gg_cca_cart_copy_L1(remain, phi_zzz_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-
-            // Gradient, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_x_tmp, 32, (phi_x_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_y_tmp, 32, (phi_y_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_z_tmp, 32, (phi_z_out + start), npoints);
-
-            // Hessian, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_xx_tmp, 32, (phi_xx_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xy_tmp, 32, (phi_xy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xz_tmp, 32, (phi_xz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yy_tmp, 32, (phi_yy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yz_tmp, 32, (phi_yz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_zz_tmp, 32, (phi_zz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xxx_tmp, 32, (phi_xxx_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xxy_tmp, 32, (phi_xxy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xxz_tmp, 32, (phi_xxz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xyy_tmp, 32, (phi_xyy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xyz_tmp, 32, (phi_xyz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_xzz_tmp, 32, (phi_xzz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yyy_tmp, 32, (phi_yyy_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yyz_tmp, 32, (phi_yyz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_yzz_tmp, 32, (phi_yzz_out + start), npoints);
-            gg_molden_cart_copy_L1(remain, phi_zzz_tmp, 32, (phi_zzz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-    ALIGNED_FREE(phi_x_tmp);
-    ALIGNED_FREE(phi_y_tmp);
-    ALIGNED_FREE(phi_z_tmp);
-    ALIGNED_FREE(phi_xx_tmp);
-    ALIGNED_FREE(phi_xy_tmp);
-    ALIGNED_FREE(phi_xz_tmp);
-    ALIGNED_FREE(phi_yy_tmp);
-    ALIGNED_FREE(phi_yz_tmp);
-    ALIGNED_FREE(phi_zz_tmp);
-    ALIGNED_FREE(phi_xxx_tmp);
-    ALIGNED_FREE(phi_xxy_tmp);
-    ALIGNED_FREE(phi_xxz_tmp);
-    ALIGNED_FREE(phi_xyy_tmp);
-    ALIGNED_FREE(phi_xyz_tmp);
-    ALIGNED_FREE(phi_xzz_tmp);
-    ALIGNED_FREE(phi_yyy_tmp);
-    ALIGNED_FREE(phi_yyz_tmp);
-    ALIGNED_FREE(phi_yzz_tmp);
-    ALIGNED_FREE(phi_zzz_tmp);
-
-}
-
-void gg_collocation_L2_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 6;
-    const unsigned long nspherical = 5;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[i] * S0[i];
-            phi_tmp[32 + i] = xc[i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc[i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = zc_pow[i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[i] * SX;
-            phi_tmp[i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SX;
-            phi_tmp[32 + i] += yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SX;
-            phi_tmp[64 + i] += zc[i] * S0[i];
-
-            phi_tmp[96 + i] = yc_pow[i] * SX;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[i] * SY;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += zc[i] * S0[i];
-
-            phi_tmp[160 + i] = zc_pow[i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[i] * SZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc[i] * S0[i];
-
-            phi_tmp[96 + i] = yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += yc[i] * S0[i];
-
-            phi_tmp[160 + i] = zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[i] * SXX;
-            phi_tmp[i] += 4.0 * xc[i] * SX;
-            phi_tmp[i] += 2.0 * S0[i];
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 2.0 * yc[i] * SX;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 2.0 * zc[i] * SX;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXX;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXY;
-            phi_tmp[i] += 2.0 * xc[i] * SY;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc[i] * SX;
-            phi_tmp[32 + i] += yc[i] * SY;
-            phi_tmp[32 + i] +=  1 * S0[i];
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXY;
-            phi_tmp[64 + i] += zc[i] * SY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * yc[i] * SX;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += zc[i] * SX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXZ;
-            phi_tmp[i] += 2.0 * xc[i] * SZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc[i] * SX;
-            phi_tmp[64 + i] += zc[i] * SZ;
-            phi_tmp[64 + i] +=  1 * S0[i];
-
-            phi_tmp[96 + i] = yc_pow[i] * SXZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += yc[i] * SX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[i] * SYY;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc[i] * SY;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * S0[i];
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * zc[i] * SY;
-
-            phi_tmp[160 + i] = zc_pow[i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[i] * SYZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc[i] * SZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc[i] * SY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * yc[i] * SZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += yc[i] * SY;
-            phi_tmp[128 + i] += zc[i] * SZ;
-            phi_tmp[128 + i] +=  1 * S0[i];
-
-            phi_tmp[160 + i] = zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[i] * SZZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * SZ;
-
-            phi_tmp[96 + i] = yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * yc[i] * SZ;
-
-            phi_tmp[160 + i] = zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-        // Combine XXX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[i] * SXXX;
-            phi_tmp[i] += 3.0 * 2.0 * xc[i] * SXX;
-            phi_tmp[i] += 3.0 * 2.0 * SX;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXXX;
-            phi_tmp[32 + i] += 3.0 * yc[i] * SXX;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXXX;
-            phi_tmp[64 + i] += 3.0 * zc[i] * SXX;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXXX;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXXX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-        }
-
-        // Combine XXY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXXY;
-            phi_tmp[i] += 2.0 * 2.0 * xc[i] * SXY;
-            phi_tmp[i] += 2.0 * SY;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXXY;
-            phi_tmp[32 + i] += 2.0 * yc[i] * SXY;
-            phi_tmp[32 + i] += xc[i] * SXX;
-            phi_tmp[32 + i] += 2.0 *  1 * SX;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXXY;
-            phi_tmp[64 + i] += 2.0 * zc[i] * SXY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXXY;
-            phi_tmp[96 + i] += 2.0 * yc[i] * SXX;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXXY;
-            phi_tmp[128 + i] += zc[i] * SXX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-        }
-
-        // Combine XXZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXXZ;
-            phi_tmp[i] += 2.0 * 2.0 * xc[i] * SXZ;
-            phi_tmp[i] += 2.0 * SZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXXZ;
-            phi_tmp[32 + i] += 2.0 * yc[i] * SXZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXXZ;
-            phi_tmp[64 + i] += 2.0 * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc[i] * SXX;
-            phi_tmp[64 + i] += 2.0 *  1 * SX;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXXZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXXZ;
-            phi_tmp[128 + i] += yc[i] * SXX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXXZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-        }
-
-        // Combine XYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXYY;
-            phi_tmp[i] += 2.0 * xc[i] * SYY;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXYY;
-            phi_tmp[32 + i] += 2.0 * xc[i] * SXY;
-            phi_tmp[32 + i] += yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 *  1 * SY;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXYY;
-            phi_tmp[64 + i] += zc[i] * SYY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXYY;
-            phi_tmp[96 + i] += 2.0 * 2.0 * yc[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * SX;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXYY;
-            phi_tmp[128 + i] += 2.0 * zc[i] * SXY;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-        }
-
-        // Combine XYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXYZ;
-            phi_tmp[i] += 2.0 * xc[i] * SYZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXYZ;
-            phi_tmp[32 + i] += yc[i] * SYZ;
-            phi_tmp[32 + i] += xc[i] * SXZ;
-            phi_tmp[32 + i] +=  1 * SZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXYZ;
-            phi_tmp[64 + i] += zc[i] * SYZ;
-            phi_tmp[64 + i] += xc[i] * SXY;
-            phi_tmp[64 + i] +=  1 * SY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXYZ;
-            phi_tmp[96 + i] += 2.0 * yc[i] * SXZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXYZ;
-            phi_tmp[128 + i] += zc[i] * SXZ;
-            phi_tmp[128 + i] += yc[i] * SXY;
-            phi_tmp[128 + i] +=  1 * SX;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXYZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-        }
-
-        // Combine XZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[i] * SXZZ;
-            phi_tmp[i] += 2.0 * xc[i] * SZZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SXZZ;
-            phi_tmp[32 + i] += yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SXZZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * SXZ;
-            phi_tmp[64 + i] += zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 *  1 * SZ;
-
-            phi_tmp[96 + i] = yc_pow[i] * SXZZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SXZZ;
-            phi_tmp[128 + i] += 2.0 * yc[i] * SXZ;
-
-            phi_tmp[160 + i] = zc_pow[i] * SXZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * zc[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-        }
-
-        // Combine YYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[i] * SYYY;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SYYY;
-            phi_tmp[32 + i] += 3.0 * xc[i] * SYY;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SYYY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SYYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * yc[i] * SYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * SY;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SYYY;
-            phi_tmp[128 + i] += 3.0 * zc[i] * SYY;
-
-            phi_tmp[160 + i] = zc_pow[i] * SYYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-        }
-
-        // Combine YYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[i] * SYYZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SYYZ;
-            phi_tmp[32 + i] += 2.0 * xc[i] * SYZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SYYZ;
-            phi_tmp[64 + i] += xc[i] * SYY;
-
-            phi_tmp[96 + i] = yc_pow[i] * SYYZ;
-            phi_tmp[96 + i] += 2.0 * 2.0 * yc[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * SZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SYYZ;
-            phi_tmp[128 + i] += 2.0 * zc[i] * SYZ;
-            phi_tmp[128 + i] += yc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 *  1 * SY;
-
-            phi_tmp[160 + i] = zc_pow[i] * SYYZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-        }
-
-        // Combine YZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[i] * SYZZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SYZZ;
-            phi_tmp[32 + i] += xc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SYZZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * SYZ;
-
-            phi_tmp[96 + i] = yc_pow[i] * SYZZ;
-            phi_tmp[96 + i] += 2.0 * yc[i] * SZZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SYZZ;
-            phi_tmp[128 + i] += 2.0 * yc[i] * SYZ;
-            phi_tmp[128 + i] += zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 *  1 * SZ;
-
-            phi_tmp[160 + i] = zc_pow[i] * SYZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * zc[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-        }
-
-        // Combine ZZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[i] * SZZZ;
-
-            phi_tmp[32 + i] = xc[i] * yc[i] * SZZZ;
-
-            phi_tmp[64 + i] = xc[i] * zc[i] * SZZZ;
-            phi_tmp[64 + i] += 3.0 * xc[i] * SZZ;
-
-            phi_tmp[96 + i] = yc_pow[i] * SZZZ;
-
-            phi_tmp[128 + i] = yc[i] * zc[i] * SZZZ;
-            phi_tmp[128 + i] += 3.0 * yc[i] * SZZ;
-
-            phi_tmp[160 + i] = zc_pow[i] * SZZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * zc[i] * SZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * SZ;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L3_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 10;
-    const unsigned long nspherical = 7;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 64 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 64 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 64 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[32 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = zc_pow[32 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SX;
-            phi_tmp[i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXX;
-            phi_tmp[i] += 6.0 * xc_pow[i] * SX;
-            phi_tmp[i] += 6.0 * xc[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 4.0 * xc[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 4.0 * xc[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * SX;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * SX;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXY;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[i] * SX;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SY;
-            phi_tmp[32 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SX;
-            phi_tmp[96 + i] += yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXZ;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[i] * SX;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SX;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SX;
-            phi_tmp[160 + i] += zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += yc_pow[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[i] * SZ;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * zc[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-        // Combine XXX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXXX;
-            phi_tmp[i] += 3.0 * 3.0 * xc_pow[i] * SXX;
-            phi_tmp[i] += 3.0 * 6.0 * xc[i] * SX;
-            phi_tmp[i] += 6.0 * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXXX;
-            phi_tmp[32 + i] += 3.0 * 2.0 * xc[i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 3.0 * 2.0 * yc[i] * SX;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXXX;
-            phi_tmp[64 + i] += 3.0 * 2.0 * xc[i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 3.0 * 2.0 * zc[i] * SX;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXXX;
-            phi_tmp[96 + i] += 3.0 * yc_pow[i] * SXX;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXXX;
-            phi_tmp[128 + i] += 3.0 * yc[i] * zc[i] * SXX;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXXX;
-            phi_tmp[160 + i] += 3.0 * zc_pow[i] * SXX;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXXX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXXX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXXX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-        }
-
-        // Combine XXY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXXY;
-            phi_tmp[i] += 2.0 * 3.0 * xc_pow[i] * SXY;
-            phi_tmp[i] += 6.0 * xc[i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXXY;
-            phi_tmp[32 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[i] * SXX;
-            phi_tmp[32 + i] += 2.0 * yc[i] * SY;
-            phi_tmp[32 + i] += 2.0 * 2.0 * xc[i] * SX;
-            phi_tmp[32 + i] += 2.0 * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXXY;
-            phi_tmp[64 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 2.0 * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXXY;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SXX;
-            phi_tmp[96 + i] += 2.0 * 2.0 * yc[i] * SX;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXXY;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 2.0 * zc[i] * SX;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXXY;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * SXY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXXY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SXX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXXY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SXX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXXY;
-            phi_tmp[256 + i] += zc_pow[i] * SXX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-        }
-
-        // Combine XXZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXXZ;
-            phi_tmp[i] += 2.0 * 3.0 * xc_pow[i] * SXZ;
-            phi_tmp[i] += 6.0 * xc[i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXXZ;
-            phi_tmp[32 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 2.0 * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXXZ;
-            phi_tmp[64 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[i] * SXX;
-            phi_tmp[64 + i] += 2.0 * zc[i] * SZ;
-            phi_tmp[64 + i] += 2.0 * 2.0 * xc[i] * SX;
-            phi_tmp[64 + i] += 2.0 * S0[i];
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXXZ;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * SXZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXXZ;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SXX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * SX;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXXZ;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SXX;
-            phi_tmp[160 + i] += 2.0 * 2.0 * zc[i] * SX;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXXZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXXZ;
-            phi_tmp[224 + i] += yc_pow[i] * SXX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXXZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SXX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXXZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-        }
-
-        // Combine XYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXYY;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[i] * SXY;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * 2.0 * xc[i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXYY;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXYY;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SXY;
-            phi_tmp[96 + i] += yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * SX;
-            phi_tmp[96 + i] += 2.0 * 2.0 * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * S0[i];
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXYY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXYY;
-            phi_tmp[160 + i] += zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXYY;
-            phi_tmp[192 + i] += 2.0 * 3.0 * yc_pow[i] * SXY;
-            phi_tmp[192 + i] += 6.0 * yc[i] * SX;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXYY;
-            phi_tmp[224 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * zc[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXYY;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * SXY;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-        }
-
-        // Combine XYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXYZ;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXYZ;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[i] * SXZ;
-            phi_tmp[32 + i] += 2.0 * xc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXYZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[i] * SXY;
-            phi_tmp[64 + i] += 2.0 * xc[i] * SY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXYZ;
-            phi_tmp[96 + i] += yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SXZ;
-            phi_tmp[96 + i] += 2.0 * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXYZ;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SXY;
-            phi_tmp[128 + i] += zc[i] * SZ;
-            phi_tmp[128 + i] += yc[i] * SY;
-            phi_tmp[128 + i] += xc[i] * SX;
-            phi_tmp[128 + i] +=  1 * S0[i];
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXYZ;
-            phi_tmp[160 + i] += zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SXY;
-            phi_tmp[160 + i] += 2.0 * zc[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXYZ;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SXZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXYZ;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += yc_pow[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * SX;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXYZ;
-            phi_tmp[256 + i] += zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SXY;
-            phi_tmp[256 + i] += 2.0 * zc[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXYZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-        }
-
-        // Combine XZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SXZZ;
-            phi_tmp[i] += 3.0 * xc_pow[i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SXZZ;
-            phi_tmp[32 + i] += 2.0 * xc[i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SXZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[i] * SXZ;
-            phi_tmp[64 + i] += 2.0 * xc[i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * 2.0 * xc[i] * SZ;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SXZZ;
-            phi_tmp[96 + i] += yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SXZZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * SXZ;
-            phi_tmp[128 + i] += yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SXZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SXZ;
-            phi_tmp[160 + i] += zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * SX;
-            phi_tmp[160 + i] += 2.0 * 2.0 * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * S0[i];
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SXZZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SXZZ;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * SXZ;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SXZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * SX;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SXZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * zc_pow[i] * SXZ;
-            phi_tmp[288 + i] += 6.0 * zc[i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-        }
-
-        // Combine YYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYYY;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYYY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * SYY;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYYY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc[i] * yc[i] * SYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc[i] * SY;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYYY;
-            phi_tmp[128 + i] += 3.0 * xc[i] * zc[i] * SYY;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYYY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYYY;
-            phi_tmp[192 + i] += 3.0 * 3.0 * yc_pow[i] * SYY;
-            phi_tmp[192 + i] += 3.0 * 6.0 * yc[i] * SY;
-            phi_tmp[192 + i] += 6.0 * S0[i];
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * yc[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * zc[i] * SY;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYYY;
-            phi_tmp[256 + i] += 3.0 * zc_pow[i] * SYY;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-        }
-
-        // Combine YYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYYZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYYZ;
-            phi_tmp[32 + i] += 2.0 * xc_pow[i] * SYZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYYZ;
-            phi_tmp[64 + i] += xc_pow[i] * SYY;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYYZ;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * SZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYYZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc[i] * yc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * SY;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYYZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc[i] * SYY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYYZ;
-            phi_tmp[192 + i] += 2.0 * 3.0 * yc_pow[i] * SYZ;
-            phi_tmp[192 + i] += 6.0 * yc[i] * SZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYYZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += yc_pow[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * yc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * S0[i];
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYYZ;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * zc[i] * SY;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYYZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-        }
-
-        // Combine YZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SYZZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SYZZ;
-            phi_tmp[32 + i] += xc_pow[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SYZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[i] * SYZ;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SYZZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc[i] * SZZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SYZZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * SYZ;
-            phi_tmp[128 + i] += xc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * SZ;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SYZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * SY;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SYZZ;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SZZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SYZZ;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * yc[i] * SZ;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SYZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SYZ;
-            phi_tmp[256 + i] += zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * S0[i];
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SYZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * zc_pow[i] * SYZ;
-            phi_tmp[288 + i] += 6.0 * zc[i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-        }
-
-        // Combine ZZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[32 + i] * SZZZ;
-
-            phi_tmp[32 + i] = xc_pow[i] * yc[i] * SZZZ;
-
-            phi_tmp[64 + i] = xc_pow[i] * zc[i] * SZZZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * SZZ;
-
-            phi_tmp[96 + i] = xc[i] * yc_pow[i] * SZZZ;
-
-            phi_tmp[128 + i] = xc[i] * yc[i] * zc[i] * SZZZ;
-            phi_tmp[128 + i] += 3.0 * xc[i] * yc[i] * SZZ;
-
-            phi_tmp[160 + i] = xc[i] * zc_pow[i] * SZZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc[i] * zc[i] * SZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc[i] * SZ;
-
-            phi_tmp[192 + i] = yc_pow[32 + i] * SZZZ;
-
-            phi_tmp[224 + i] = yc_pow[i] * zc[i] * SZZZ;
-            phi_tmp[224 + i] += 3.0 * yc_pow[i] * SZZ;
-
-            phi_tmp[256 + i] = yc[i] * zc_pow[i] * SZZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * yc[i] * zc[i] * SZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * yc[i] * SZ;
-
-            phi_tmp[288 + i] = zc_pow[32 + i] * SZZZ;
-            phi_tmp[288 + i] += 3.0 * 3.0 * zc_pow[i] * SZZ;
-            phi_tmp[288 + i] += 3.0 * 6.0 * zc[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L4_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 15;
-    const unsigned long nspherical = 9;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-            xc_pow[64 + i] = xc_pow[32 + i] * xc[i];
-            yc_pow[64 + i] = yc_pow[32 + i] * yc[i];
-            zc_pow[64 + i] = zc_pow[32 + i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[64 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[320 + i] = yc_pow[64 + i] * S0[i];
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[448 + i] = zc_pow[64 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SX;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[32 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXX;
-            phi_tmp[i] += 8.0 * xc_pow[32 + i] * SX;
-            phi_tmp[i] += 12.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 6.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 6.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXY;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SX;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXZ;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SX;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 8.0 * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 4.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 8.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * zc_pow[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-        // Combine XXX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXXX;
-            phi_tmp[i] += 3.0 * 4.0 * xc_pow[32 + i] * SXX;
-            phi_tmp[i] += 3.0 * 12.0 * xc_pow[i] * SX;
-            phi_tmp[i] += 24.0 * xc[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXXX;
-            phi_tmp[32 + i] += 3.0 * 3.0 * xc_pow[i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 3.0 * 6.0 * xc[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 6.0 * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXXX;
-            phi_tmp[64 + i] += 3.0 * 3.0 * xc_pow[i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 3.0 * 6.0 * xc[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 6.0 * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXXX;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc[i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 3.0 * 2.0 * yc_pow[i] * SX;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXXX;
-            phi_tmp[128 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 3.0 * 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXXX;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc[i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 3.0 * 2.0 * zc_pow[i] * SX;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXXX;
-            phi_tmp[192 + i] += 3.0 * yc_pow[32 + i] * SXX;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXXX;
-            phi_tmp[224 + i] += 3.0 * yc_pow[i] * zc[i] * SXX;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXXX;
-            phi_tmp[256 + i] += 3.0 * yc[i] * zc_pow[i] * SXX;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXXX;
-            phi_tmp[288 + i] += 3.0 * zc_pow[32 + i] * SXX;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXXX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXXX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXXX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXXX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-        }
-
-        // Combine XXY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXXY;
-            phi_tmp[i] += 2.0 * 4.0 * xc_pow[32 + i] * SXY;
-            phi_tmp[i] += 12.0 * xc_pow[i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXXY;
-            phi_tmp[32 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SXX;
-            phi_tmp[32 + i] += 6.0 * xc[i] * yc[i] * SY;
-            phi_tmp[32 + i] += 2.0 * 3.0 * xc_pow[i] * SX;
-            phi_tmp[32 + i] += 6.0 * xc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXXY;
-            phi_tmp[64 + i] += 2.0 * 3.0 * xc_pow[i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 6.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXXY;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SXX;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * 4.0 * xc[i] * yc[i] * SX;
-            phi_tmp[96 + i] += 4.0 * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXXY;
-            phi_tmp[128 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXXY;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc[i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXXY;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SXX;
-            phi_tmp[192 + i] += 2.0 * 3.0 * yc_pow[i] * SX;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXXY;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXXY;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * SXY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXXY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SXX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXXY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SXX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXXY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SXX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SXX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-        }
-
-        // Combine XXZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXXZ;
-            phi_tmp[i] += 2.0 * 4.0 * xc_pow[32 + i] * SXZ;
-            phi_tmp[i] += 12.0 * xc_pow[i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXXZ;
-            phi_tmp[32 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 6.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXXZ;
-            phi_tmp[64 + i] += 2.0 * 3.0 * xc_pow[i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SXX;
-            phi_tmp[64 + i] += 6.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 2.0 * 3.0 * xc_pow[i] * SX;
-            phi_tmp[64 + i] += 6.0 * xc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXXZ;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 2.0 * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXXZ;
-            phi_tmp[128 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SXX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SX;
-            phi_tmp[128 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXXZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc[i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SXX;
-            phi_tmp[160 + i] += 2.0 * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * 4.0 * xc[i] * zc[i] * SX;
-            phi_tmp[160 + i] += 4.0 * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXXZ;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * SXZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXXZ;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SXX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * SX;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXXZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[256 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SXX;
-            phi_tmp[288 + i] += 2.0 * 3.0 * zc_pow[i] * SX;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXXZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXXZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SXX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXXZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SXX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SXX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXXZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-        }
-
-        // Combine XYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXYY;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[32 + i] * SXY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * 3.0 * xc_pow[i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXYY;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXYY;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * SX;
-            phi_tmp[96 + i] += 2.0 * 4.0 * xc[i] * yc[i] * SY;
-            phi_tmp[96 + i] += 4.0 * xc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXYY;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXYY;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * SXY;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc[i] * SX;
-            phi_tmp[192 + i] += 2.0 * 3.0 * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXYY;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXYY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXYY;
-            phi_tmp[320 + i] += 2.0 * 4.0 * yc_pow[32 + i] * SXY;
-            phi_tmp[320 + i] += 12.0 * yc_pow[i] * SX;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXYY;
-            phi_tmp[352 + i] += 2.0 * 3.0 * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 6.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXYY;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * SXY;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-        }
-
-        // Combine XYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXYZ;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXYZ;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SXZ;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXYZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SXY;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXYZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SXZ;
-            phi_tmp[96 + i] += 4.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXYZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SXY;
-            phi_tmp[128 + i] += 2.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[i] * SX;
-            phi_tmp[128 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXYZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SXY;
-            phi_tmp[160 + i] += 4.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXYZ;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SXZ;
-            phi_tmp[192 + i] += 3.0 * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXYZ;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * SX;
-            phi_tmp[224 + i] += 4.0 * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXYZ;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[256 + i] += zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SXY;
-            phi_tmp[288 + i] += 3.0 * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXYZ;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SXZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXYZ;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SXY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * SX;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXYZ;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[416 + i] += 3.0 * zc_pow[i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXYZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-        }
-
-        // Combine XZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SXZZ;
-            phi_tmp[i] += 4.0 * xc_pow[32 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SXZZ;
-            phi_tmp[32 + i] += 3.0 * xc_pow[i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SXZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[32 + i] * SXZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * 3.0 * xc_pow[i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SXZZ;
-            phi_tmp[96 + i] += 2.0 * xc[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SXZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * yc[i] * SXZ;
-            phi_tmp[128 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SXZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc_pow[i] * zc[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc[i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * SX;
-            phi_tmp[160 + i] += 2.0 * 4.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 4.0 * xc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SXZZ;
-            phi_tmp[192 + i] += yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SXZZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * SXZ;
-            phi_tmp[224 + i] += yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SXZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[256 + i] += yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * SX;
-            phi_tmp[256 + i] += 2.0 * 2.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc[i] * zc_pow[i] * SXZ;
-            phi_tmp[288 + i] += zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc[i] * SX;
-            phi_tmp[288 + i] += 2.0 * 3.0 * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SXZZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SXZZ;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * SXZ;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SXZZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * SX;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[416 + i] += 2.0 * 3.0 * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc[i] * SX;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SXZZ;
-            phi_tmp[448 + i] += 2.0 * 4.0 * zc_pow[32 + i] * SXZ;
-            phi_tmp[448 + i] += 12.0 * zc_pow[i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-        }
-
-        // Combine YYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYYY;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYYY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[32 + i] * SYY;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYYY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc_pow[i] * yc[i] * SYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc_pow[i] * SY;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYYY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * zc[i] * SYY;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYYY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYYY;
-            phi_tmp[192 + i] += 3.0 * 3.0 * xc[i] * yc_pow[i] * SYY;
-            phi_tmp[192 + i] += 3.0 * 6.0 * xc[i] * yc[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYYY;
-            phi_tmp[256 + i] += 3.0 * xc[i] * zc_pow[i] * SYY;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYYY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYYY;
-            phi_tmp[320 + i] += 3.0 * 4.0 * yc_pow[32 + i] * SYY;
-            phi_tmp[320 + i] += 3.0 * 12.0 * yc_pow[i] * SY;
-            phi_tmp[320 + i] += 24.0 * yc[i] * S0[i];
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYYY;
-            phi_tmp[352 + i] += 3.0 * 3.0 * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 3.0 * 6.0 * yc[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYYY;
-            phi_tmp[384 + i] += 3.0 * 2.0 * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 3.0 * 2.0 * zc_pow[i] * SY;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYYY;
-            phi_tmp[416 + i] += 3.0 * zc_pow[32 + i] * SYY;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-        }
-
-        // Combine YYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYYZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYYZ;
-            phi_tmp[32 + i] += 2.0 * xc_pow[32 + i] * SYZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYYZ;
-            phi_tmp[64 + i] += xc_pow[32 + i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYYZ;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYYZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[i] * yc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * zc[i] * SYY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYYZ;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * SYZ;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYYZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc[i] * yc_pow[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYYZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[288 + i] += 3.0 * xc[i] * zc_pow[i] * SYY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYYZ;
-            phi_tmp[320 + i] += 2.0 * 4.0 * yc_pow[32 + i] * SYZ;
-            phi_tmp[320 + i] += 12.0 * yc_pow[i] * SZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYYZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SYY;
-            phi_tmp[352 + i] += 6.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * yc_pow[i] * SY;
-            phi_tmp[352 + i] += 6.0 * yc[i] * S0[i];
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYYZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[384 + i] += 2.0 * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * 4.0 * yc[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 4.0 * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[416 + i] += 2.0 * 3.0 * zc_pow[i] * SY;
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYYZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-        }
-
-        // Combine YZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SYZZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SYZZ;
-            phi_tmp[32 + i] += xc_pow[32 + i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SYZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[32 + i] * SYZ;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SYZZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[i] * yc[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SYZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * yc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SYZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc_pow[i] * zc[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SYZZ;
-            phi_tmp[192 + i] += 3.0 * xc[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SYZZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SYZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[256 + i] += xc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc[i] * zc_pow[i] * SYZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc[i] * SY;
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SYZZ;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SYZZ;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * SYZ;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * yc_pow[i] * SZ;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SYZZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * 4.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * yc[i] * S0[i];
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[416 + i] += 2.0 * 3.0 * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc[i] * SY;
-            phi_tmp[416 + i] += 2.0 * 3.0 * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SYZZ;
-            phi_tmp[448 + i] += 2.0 * 4.0 * zc_pow[32 + i] * SYZ;
-            phi_tmp[448 + i] += 12.0 * zc_pow[i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-        }
-
-        // Combine ZZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[64 + i] * SZZZ;
-
-            phi_tmp[32 + i] = xc_pow[32 + i] * yc[i] * SZZZ;
-
-            phi_tmp[64 + i] = xc_pow[32 + i] * zc[i] * SZZZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[32 + i] * SZZ;
-
-            phi_tmp[96 + i] = xc_pow[i] * yc_pow[i] * SZZZ;
-
-            phi_tmp[128 + i] = xc_pow[i] * yc[i] * zc[i] * SZZZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * SZZ;
-
-            phi_tmp[160 + i] = xc_pow[i] * zc_pow[i] * SZZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc_pow[i] * zc[i] * SZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc_pow[i] * SZ;
-
-            phi_tmp[192 + i] = xc[i] * yc_pow[32 + i] * SZZZ;
-
-            phi_tmp[224 + i] = xc[i] * yc_pow[i] * zc[i] * SZZZ;
-            phi_tmp[224 + i] += 3.0 * xc[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[256 + i] = xc[i] * yc[i] * zc_pow[i] * SZZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc[i] * yc[i] * SZ;
-
-            phi_tmp[288 + i] = xc[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[288 + i] += 3.0 * 3.0 * xc[i] * zc_pow[i] * SZZ;
-            phi_tmp[288 + i] += 3.0 * 6.0 * xc[i] * zc[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * S0[i];
-
-            phi_tmp[320 + i] = yc_pow[64 + i] * SZZZ;
-
-            phi_tmp[352 + i] = yc_pow[32 + i] * zc[i] * SZZZ;
-            phi_tmp[352 + i] += 3.0 * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[384 + i] = yc_pow[i] * zc_pow[i] * SZZZ;
-            phi_tmp[384 + i] += 3.0 * 2.0 * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[384 + i] += 3.0 * 2.0 * yc_pow[i] * SZ;
-
-            phi_tmp[416 + i] = yc[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[416 + i] += 3.0 * 3.0 * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[416 + i] += 3.0 * 6.0 * yc[i] * zc[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * S0[i];
-
-            phi_tmp[448 + i] = zc_pow[64 + i] * SZZZ;
-            phi_tmp[448 + i] += 3.0 * 4.0 * zc_pow[32 + i] * SZZ;
-            phi_tmp[448 + i] += 3.0 * 12.0 * zc_pow[i] * SZ;
-            phi_tmp[448 + i] += 24.0 * zc[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L5_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 21;
-    const unsigned long nspherical = 11;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 128 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 128 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 128 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-            xc_pow[64 + i] = xc_pow[32 + i] * xc[i];
-            yc_pow[64 + i] = yc_pow[32 + i] * yc[i];
-            zc_pow[64 + i] = zc_pow[32 + i] * zc[i];
-            xc_pow[96 + i] = xc_pow[64 + i] * xc[i];
-            yc_pow[96 + i] = yc_pow[64 + i] * yc[i];
-            zc_pow[96 + i] = zc_pow[64 + i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[96 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * S0[i];
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[480 + i] = yc_pow[96 + i] * S0[i];
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * S0[i];
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * S0[i];
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[640 + i] = zc_pow[96 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SX;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[320 + i] += yc_pow[64 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[448 + i] += zc_pow[64 + i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[64 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXX;
-            phi_tmp[i] += 10.0 * xc_pow[64 + i] * SX;
-            phi_tmp[i] += 20.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 8.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 12.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 8.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 12.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 6.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 6.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 6.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXY;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SX;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXZ;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SX;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 8.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYY;
-            phi_tmp[480 + i] += 10.0 * yc_pow[64 + i] * SY;
-            phi_tmp[480 + i] += 20.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 8.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 12.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYZ;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 8.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SZZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 8.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SZZ;
-            phi_tmp[640 + i] += 10.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[640 + i] += 20.0 * zc_pow[32 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-        // Combine XXX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXXX;
-            phi_tmp[i] += 3.0 * 5.0 * xc_pow[64 + i] * SXX;
-            phi_tmp[i] += 3.0 * 20.0 * xc_pow[32 + i] * SX;
-            phi_tmp[i] += 60.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXXX;
-            phi_tmp[32 + i] += 3.0 * 4.0 * xc_pow[32 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 3.0 * 12.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[32 + i] += 24.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXXX;
-            phi_tmp[64 + i] += 3.0 * 4.0 * xc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 3.0 * 12.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[64 + i] += 24.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXXX;
-            phi_tmp[96 + i] += 3.0 * 3.0 * xc_pow[i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 3.0 * 6.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 6.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXXX;
-            phi_tmp[128 + i] += 3.0 * 3.0 * xc_pow[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 3.0 * 6.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXXX;
-            phi_tmp[160 + i] += 3.0 * 3.0 * xc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 3.0 * 6.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 6.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXXX;
-            phi_tmp[192 + i] += 3.0 * 2.0 * xc[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 3.0 * 2.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXXX;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 3.0 * 2.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXXX;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 3.0 * 2.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXXX;
-            phi_tmp[288 + i] += 3.0 * 2.0 * xc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 3.0 * 2.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXXX;
-            phi_tmp[320 + i] += 3.0 * yc_pow[64 + i] * SXX;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXXX;
-            phi_tmp[352 + i] += 3.0 * yc_pow[32 + i] * zc[i] * SXX;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXXX;
-            phi_tmp[384 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SXX;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXXX;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXXX;
-            phi_tmp[448 + i] += 3.0 * zc_pow[64 + i] * SXX;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXXX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXXX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXXX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXXX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXXX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-        }
-
-        // Combine XXY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXXY;
-            phi_tmp[i] += 2.0 * 5.0 * xc_pow[64 + i] * SXY;
-            phi_tmp[i] += 20.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXXY;
-            phi_tmp[32 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SXX;
-            phi_tmp[32 + i] += 12.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[32 + i] += 2.0 * 4.0 * xc_pow[32 + i] * SX;
-            phi_tmp[32 + i] += 12.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXXY;
-            phi_tmp[64 + i] += 2.0 * 4.0 * xc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 12.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXXY;
-            phi_tmp[96 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SXX;
-            phi_tmp[96 + i] += 6.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * 6.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[96 + i] += 12.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXXY;
-            phi_tmp[128 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 6.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 2.0 * 3.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXXY;
-            phi_tmp[160 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 6.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXXY;
-            phi_tmp[192 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SXX;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 2.0 * 6.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += 6.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXXY;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 4.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXXY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 2.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[288 + i] += 2.0 * 2.0 * xc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXXY;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[320 + i] += 2.0 * 4.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXXY;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 2.0 * 3.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXXY;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXXY;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * SXY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXXY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SXX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXXY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SXX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXXY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SXX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXXY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SXX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-        }
-
-        // Combine XXZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXXZ;
-            phi_tmp[i] += 2.0 * 5.0 * xc_pow[64 + i] * SXZ;
-            phi_tmp[i] += 20.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXXZ;
-            phi_tmp[32 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 12.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXXZ;
-            phi_tmp[64 + i] += 2.0 * 4.0 * xc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SXX;
-            phi_tmp[64 + i] += 12.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 2.0 * 4.0 * xc_pow[32 + i] * SX;
-            phi_tmp[64 + i] += 12.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXXZ;
-            phi_tmp[96 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 6.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXXZ;
-            phi_tmp[128 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SXX;
-            phi_tmp[128 + i] += 6.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[128 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXXZ;
-            phi_tmp[160 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[160 + i] += 6.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * 6.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[160 + i] += 12.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXXZ;
-            phi_tmp[192 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += 2.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXXZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SXX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += 2.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXXZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SXX;
-            phi_tmp[256 + i] += 2.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 4.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[288 + i] += 2.0 * 2.0 * xc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[288 + i] += 2.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 2.0 * 6.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += 6.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXXZ;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * SXZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXXZ;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXXZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[416 + i] += 2.0 * 3.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXXZ;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[448 + i] += 2.0 * 4.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXXZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXXZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SXX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXXZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SXX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SXX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXXZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXXZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-        }
-
-        // Combine XYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXYY;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[64 + i] * SXY;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * 4.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXYY;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXYY;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * SXY;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * SX;
-            phi_tmp[96 + i] += 2.0 * 6.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[96 + i] += 6.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * 3.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXYY;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXYY;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SXY;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[192 + i] += 2.0 * 6.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 12.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXYY;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 4.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXYY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXYY;
-            phi_tmp[320 + i] += 2.0 * 4.0 * xc[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 12.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[320 + i] += 2.0 * 4.0 * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXYY;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * 3.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXYY;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXYY;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SYY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXYY;
-            phi_tmp[480 + i] += 2.0 * 5.0 * yc_pow[64 + i] * SXY;
-            phi_tmp[480 + i] += 20.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXYY;
-            phi_tmp[512 + i] += 2.0 * 4.0 * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += 12.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXYY;
-            phi_tmp[544 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += 6.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[576 + i] += 2.0 * 2.0 * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += 2.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXYY;
-            phi_tmp[608 + i] += 2.0 * zc_pow[64 + i] * SXY;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-        }
-
-        // Combine XYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXYZ;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXYZ;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SXZ;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXYZ;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SXY;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXYZ;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SXZ;
-            phi_tmp[96 + i] += 6.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXYZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SXY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[32 + i] * SX;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXYZ;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[160 + i] += 6.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXYZ;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SXZ;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXYZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SXY;
-            phi_tmp[224 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[224 + i] += 8.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXYZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SXY;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 2.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXYZ;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[320 + i] += 4.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXYZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[352 + i] += 3.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[352 + i] += 9.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXYZ;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[416 + i] += zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += 3.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXYZ;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[448 + i] += 4.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXYZ;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SXZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXYZ;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SXY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXYZ;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[544 + i] += 6.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[576 + i] += 6.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXYZ;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[608 + i] += 4.0 * zc_pow[32 + i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXYZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-        }
-
-        // Combine XZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SXZZ;
-            phi_tmp[i] += 5.0 * xc_pow[64 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SXZZ;
-            phi_tmp[32 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SXZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[64 + i] * SXZ;
-            phi_tmp[64 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * 4.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SXZZ;
-            phi_tmp[96 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SXZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SXZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SXZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[160 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * SX;
-            phi_tmp[160 + i] += 2.0 * 6.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 6.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SXZZ;
-            phi_tmp[192 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SXZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc_pow[i] * SXZ;
-            phi_tmp[224 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SXZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * SX;
-            phi_tmp[256 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 4.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[288 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc[i] * SX;
-            phi_tmp[288 + i] += 2.0 * 6.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 12.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SXZZ;
-            phi_tmp[320 + i] += yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SXZZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[352 + i] += yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SXZZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[384 + i] += yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * 2.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[416 + i] += yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc[i] * SX;
-            phi_tmp[416 + i] += 2.0 * 3.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SXZZ;
-            phi_tmp[448 + i] += 2.0 * 4.0 * xc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[448 + i] += zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 12.0 * xc[i] * zc_pow[i] * SX;
-            phi_tmp[448 + i] += 2.0 * 4.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SXZZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SXZZ;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * SXZ;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SXZZ;
-            phi_tmp[544 + i] += 2.0 * 2.0 * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * SX;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[576 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc[i] * SX;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SXZZ;
-            phi_tmp[608 + i] += 2.0 * 4.0 * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[608 + i] += 12.0 * yc[i] * zc_pow[i] * SX;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SXZZ;
-            phi_tmp[640 + i] += 2.0 * 5.0 * zc_pow[64 + i] * SXZ;
-            phi_tmp[640 + i] += 20.0 * zc_pow[32 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-        }
-
-        // Combine YYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYYY;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYYY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[64 + i] * SYY;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYYY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc_pow[32 + i] * yc[i] * SYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYYY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[32 + i] * zc[i] * SYY;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYYY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYYY;
-            phi_tmp[192 + i] += 3.0 * 3.0 * xc_pow[i] * yc_pow[i] * SYY;
-            phi_tmp[192 + i] += 3.0 * 6.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc_pow[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYYY;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SYY;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYYY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYYY;
-            phi_tmp[320 + i] += 3.0 * 4.0 * xc[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[320 + i] += 3.0 * 12.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[320 + i] += 24.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYYY;
-            phi_tmp[352 + i] += 3.0 * 3.0 * xc[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 3.0 * 6.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYYY;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYYY;
-            phi_tmp[416 + i] += 3.0 * xc[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYYY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYYY;
-            phi_tmp[480 + i] += 3.0 * 5.0 * yc_pow[64 + i] * SYY;
-            phi_tmp[480 + i] += 3.0 * 20.0 * yc_pow[32 + i] * SY;
-            phi_tmp[480 + i] += 60.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYYY;
-            phi_tmp[512 + i] += 3.0 * 4.0 * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 3.0 * 12.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[512 + i] += 24.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYYY;
-            phi_tmp[544 + i] += 3.0 * 3.0 * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 3.0 * 6.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYYY;
-            phi_tmp[576 + i] += 3.0 * 2.0 * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 3.0 * 2.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYYY;
-            phi_tmp[608 + i] += 3.0 * zc_pow[64 + i] * SYY;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-        }
-
-        // Combine YYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYYZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYYZ;
-            phi_tmp[32 + i] += 2.0 * xc_pow[64 + i] * SYZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYYZ;
-            phi_tmp[64 + i] += xc_pow[64 + i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYYZ;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYYZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * yc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYYZ;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SYZ;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYYZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc_pow[i] * yc_pow[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SYY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYYZ;
-            phi_tmp[320 + i] += 2.0 * 4.0 * xc[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[320 + i] += 12.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYYZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += xc[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYYZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * xc[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYYZ;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYYZ;
-            phi_tmp[480 + i] += 2.0 * 5.0 * yc_pow[64 + i] * SYZ;
-            phi_tmp[480 + i] += 20.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYYZ;
-            phi_tmp[512 + i] += 2.0 * 4.0 * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SYY;
-            phi_tmp[512 + i] += 12.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[512 + i] += 2.0 * 4.0 * yc_pow[32 + i] * SY;
-            phi_tmp[512 + i] += 12.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYYZ;
-            phi_tmp[544 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * 6.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[544 + i] += 12.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[576 + i] += 2.0 * 2.0 * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[576 + i] += 2.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 2.0 * 6.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 6.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYYZ;
-            phi_tmp[608 + i] += 2.0 * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * 4.0 * zc_pow[32 + i] * SY;
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYYZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-        }
-
-        // Combine YZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SYZZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SYZZ;
-            phi_tmp[32 + i] += xc_pow[64 + i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SYZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[64 + i] * SYZ;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SYZZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SYZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SYZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[32 + i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SYZZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SYZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc_pow[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SYZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[256 + i] += xc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * yc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc[i] * SY;
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SYZZ;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SYZZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SYZZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[416 + i] += xc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc[i] * SY;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SYZZ;
-            phi_tmp[448 + i] += 2.0 * 4.0 * xc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[448 + i] += 12.0 * xc[i] * zc_pow[i] * SY;
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SYZZ;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SYZZ;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * SYZ;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * 4.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SYZZ;
-            phi_tmp[544 + i] += 2.0 * 2.0 * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * SY;
-            phi_tmp[544 + i] += 2.0 * 6.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 6.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[576 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc[i] * SY;
-            phi_tmp[576 + i] += 2.0 * 6.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 12.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SYZZ;
-            phi_tmp[608 + i] += 2.0 * 4.0 * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 12.0 * yc[i] * zc_pow[i] * SY;
-            phi_tmp[608 + i] += 2.0 * 4.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SYZZ;
-            phi_tmp[640 + i] += 2.0 * 5.0 * zc_pow[64 + i] * SYZ;
-            phi_tmp[640 + i] += 20.0 * zc_pow[32 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-        }
-
-        // Combine ZZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[96 + i] * SZZZ;
-
-            phi_tmp[32 + i] = xc_pow[64 + i] * yc[i] * SZZZ;
-
-            phi_tmp[64 + i] = xc_pow[64 + i] * zc[i] * SZZZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[64 + i] * SZZ;
-
-            phi_tmp[96 + i] = xc_pow[32 + i] * yc_pow[i] * SZZZ;
-
-            phi_tmp[128 + i] = xc_pow[32 + i] * yc[i] * zc[i] * SZZZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[32 + i] * yc[i] * SZZ;
-
-            phi_tmp[160 + i] = xc_pow[32 + i] * zc_pow[i] * SZZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc_pow[32 + i] * SZ;
-
-            phi_tmp[192 + i] = xc_pow[i] * yc_pow[32 + i] * SZZZ;
-
-            phi_tmp[224 + i] = xc_pow[i] * yc_pow[i] * zc[i] * SZZZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SZZ;
-
-            phi_tmp[256 + i] = xc_pow[i] * yc[i] * zc_pow[i] * SZZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc_pow[i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc_pow[i] * yc[i] * SZ;
-
-            phi_tmp[288 + i] = xc_pow[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[288 + i] += 3.0 * 3.0 * xc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[288 + i] += 3.0 * 6.0 * xc_pow[i] * zc[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc[i] * yc_pow[64 + i] * SZZZ;
-
-            phi_tmp[352 + i] = xc[i] * yc_pow[32 + i] * zc[i] * SZZZ;
-            phi_tmp[352 + i] += 3.0 * xc[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[384 + i] = xc[i] * yc_pow[i] * zc_pow[i] * SZZZ;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc[i] * yc_pow[i] * SZ;
-
-            phi_tmp[416 + i] = xc[i] * yc[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[416 + i] += 3.0 * 3.0 * xc[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[416 + i] += 3.0 * 6.0 * xc[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc[i] * zc_pow[64 + i] * SZZZ;
-            phi_tmp[448 + i] += 3.0 * 4.0 * xc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[448 + i] += 3.0 * 12.0 * xc[i] * zc_pow[i] * SZ;
-            phi_tmp[448 + i] += 24.0 * xc[i] * zc[i] * S0[i];
-
-            phi_tmp[480 + i] = yc_pow[96 + i] * SZZZ;
-
-            phi_tmp[512 + i] = yc_pow[64 + i] * zc[i] * SZZZ;
-            phi_tmp[512 + i] += 3.0 * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[544 + i] = yc_pow[32 + i] * zc_pow[i] * SZZZ;
-            phi_tmp[544 + i] += 3.0 * 2.0 * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[544 + i] += 3.0 * 2.0 * yc_pow[32 + i] * SZ;
-
-            phi_tmp[576 + i] = yc_pow[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[576 + i] += 3.0 * 3.0 * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[576 + i] += 3.0 * 6.0 * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = yc[i] * zc_pow[64 + i] * SZZZ;
-            phi_tmp[608 + i] += 3.0 * 4.0 * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[608 + i] += 3.0 * 12.0 * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[608 + i] += 24.0 * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[640 + i] = zc_pow[96 + i] * SZZZ;
-            phi_tmp[640 + i] += 3.0 * 5.0 * zc_pow[64 + i] * SZZ;
-            phi_tmp[640 + i] += 3.0 * 20.0 * zc_pow[32 + i] * SZ;
-            phi_tmp[640 + i] += 60.0 * zc_pow[i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L6_deriv3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 28;
-    const unsigned long nspherical = 13;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 288 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-    double* PRAGMA_RESTRICT S1 = cache_data + 192;
-    ASSUME_ALIGNED(S1, 64);
-    double* PRAGMA_RESTRICT S2 = cache_data + 224;
-    ASSUME_ALIGNED(S2, 64);
-    double* PRAGMA_RESTRICT S3 = cache_data + 256;
-    ASSUME_ALIGNED(S3, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-    double* PRAGMA_RESTRICT expn2 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate power temporaries
-    double* PRAGMA_RESTRICT xc_pow = (double*)ALIGNED_MALLOC(64, 160 * sizeof(double));
-    ASSUME_ALIGNED(xc_pow, 64);
-    double* PRAGMA_RESTRICT yc_pow = (double*)ALIGNED_MALLOC(64, 160 * sizeof(double));
-    ASSUME_ALIGNED(yc_pow, 64);
-    double* PRAGMA_RESTRICT zc_pow = (double*)ALIGNED_MALLOC(64, 160 * sizeof(double));
-    ASSUME_ALIGNED(zc_pow, 64);
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-    double AX, AY, AZ;
-    double AXX, AXY, AXZ, AYY, AYZ, AZZ;
-    double AXXX, XXY, XXZ, XYY, XYZ, XZZ, YYY, YYZ, YZZ, ZZZ;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-        expn2[i] = -2.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-                S1[i] = 0.0;
-                S2[i] = 0.0;
-                S3[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-            const double alpha_n2 = expn2[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-                const double T2 = alpha_n2 * T1;
-                S1[i] += T2;
-                const double T3 = alpha_n2 * T2;
-                S2[i] += T3;
-                const double T4 = alpha_n2 * T3;
-                S3[i] += T4;
-            }
-
-        }
-
-        // Build powers
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            xc_pow[i] = xc[i] * xc[i];
-            yc_pow[i] = yc[i] * yc[i];
-            zc_pow[i] = zc[i] * zc[i];
-            xc_pow[32 + i] = xc_pow[i] * xc[i];
-            yc_pow[32 + i] = yc_pow[i] * yc[i];
-            zc_pow[32 + i] = zc_pow[i] * zc[i];
-            xc_pow[64 + i] = xc_pow[32 + i] * xc[i];
-            yc_pow[64 + i] = yc_pow[32 + i] * yc[i];
-            zc_pow[64 + i] = zc_pow[32 + i] * zc[i];
-            xc_pow[96 + i] = xc_pow[64 + i] * xc[i];
-            yc_pow[96 + i] = yc_pow[64 + i] * yc[i];
-            zc_pow[96 + i] = zc_pow[64 + i] * zc[i];
-            xc_pow[128 + i] = xc_pow[96 + i] * xc[i];
-            yc_pow[128 + i] = yc_pow[96 + i] * yc[i];
-            zc_pow[128 + i] = zc_pow[96 + i] * zc[i];
-        }
-        // Combine A blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            phi_tmp[i] = xc_pow[128 + i] * S0[i];
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * S0[i];
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * S0[i];
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * S0[i];
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * S0[i];
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * S0[i];
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * S0[i];
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * S0[i];
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * S0[i];
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * S0[i];
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * S0[i];
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * S0[i];
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * S0[i];
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * S0[i];
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * S0[i];
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * S0[i];
-            phi_tmp[672 + i] = yc_pow[128 + i] * S0[i];
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * S0[i];
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * S0[i];
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * S0[i];
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * S0[i];
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * S0[i];
-            phi_tmp[864 + i] = zc_pow[128 + i] * S0[i];
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-        // Combine X blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SX;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SX;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SX;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SX;
-            phi_tmp[480 + i] += yc_pow[96 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SX;
-            phi_tmp[640 + i] += zc_pow[96 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_x_out + start), npoints);
-        }
-
-        // Combine Y blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += xc_pow[96 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SY;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SY;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * S0[i];
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_y_out + start), npoints);
-        }
-
-        // Combine Z blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_z_out + start), npoints);
-        }
-
-        // Combine XX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXX;
-            phi_tmp[i] += 12.0 * xc_pow[96 + i] * SX;
-            phi_tmp[i] += 30.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 10.0 * xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 20.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 10.0 * xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 20.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 8.0 * xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 12.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 8.0 * xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 12.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 8.0 * xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 12.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 6.0 * xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 6.0 * xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 6.0 * xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 6.0 * xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[320 + i] += 4.0 * xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[448 + i] += 4.0 * xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXX;
-            phi_tmp[480 + i] += 2.0 * yc_pow[96 + i] * SX;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[576 + i] += 2.0 * yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[608 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXX;
-            phi_tmp[640 + i] += 2.0 * zc_pow[96 + i] * SX;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xx_out + start), npoints);
-        }
-
-        // Combine XY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXY;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SX;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 8.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 9.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 8.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXY;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SY;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXY;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXY;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xy_out + start), npoints);
-        }
-
-        // Combine XZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXZ;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SX;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SX;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 8.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 9.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SX;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SX;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 8.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXZ;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SX;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SX;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SZ;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xz_out + start), npoints);
-        }
-
-        // Combine YY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[96 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 8.0 * xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 12.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYY;
-            phi_tmp[480 + i] += 10.0 * xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[480 + i] += 20.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 8.0 * xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 12.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYY;
-            phi_tmp[672 + i] += 12.0 * yc_pow[96 + i] * SY;
-            phi_tmp[672 + i] += 30.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYY;
-            phi_tmp[704 + i] += 10.0 * yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[704 + i] += 20.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYY;
-            phi_tmp[736 + i] += 8.0 * yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[736 + i] += 12.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYY;
-            phi_tmp[768 + i] += 6.0 * yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[768 + i] += 6.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[800 + i] += 4.0 * yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[800 + i] += 2.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYY;
-            phi_tmp[832 + i] += 2.0 * zc_pow[96 + i] * SY;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yy_out + start), npoints);
-        }
-
-        // Combine YZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYZ;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYZ;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[736 + i] += 8.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[768 + i] += 9.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[800 + i] += 8.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SZ;
-            phi_tmp[832 + i] += 5.0 * zc_pow[64 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yz_out + start), npoints);
-        }
-
-        // Combine ZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[96 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * xc_pow[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 8.0 * xc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 12.0 * xc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SZZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SZ;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 8.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * xc[i] * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SZZ;
-            phi_tmp[640 + i] += 10.0 * xc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[640 + i] += 20.0 * xc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SZZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SZZ;
-            phi_tmp[704 + i] += 2.0 * yc_pow[96 + i] * SZ;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SZZ;
-            phi_tmp[736 + i] += 4.0 * yc_pow[64 + i] * zc[i] * SZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * zc_pow[i] * SZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * zc[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[800 + i] += 8.0 * yc_pow[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[800 + i] += 12.0 * yc_pow[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SZZ;
-            phi_tmp[832 + i] += 10.0 * yc[i] * zc_pow[64 + i] * SZ;
-            phi_tmp[832 + i] += 20.0 * yc[i] * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SZZ;
-            phi_tmp[864 + i] += 12.0 * zc_pow[96 + i] * SZ;
-            phi_tmp[864 + i] += 30.0 * zc_pow[64 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_zz_out + start), npoints);
-        }
-
-        // Combine XXX blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXXX;
-            phi_tmp[i] += 3.0 * 6.0 * xc_pow[96 + i] * SXX;
-            phi_tmp[i] += 3.0 * 30.0 * xc_pow[64 + i] * SX;
-            phi_tmp[i] += 120.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXXX;
-            phi_tmp[32 + i] += 3.0 * 5.0 * xc_pow[64 + i] * yc[i] * SXX;
-            phi_tmp[32 + i] += 3.0 * 20.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[32 + i] += 60.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXXX;
-            phi_tmp[64 + i] += 3.0 * 5.0 * xc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[64 + i] += 3.0 * 20.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[64 + i] += 60.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXXX;
-            phi_tmp[96 + i] += 3.0 * 4.0 * xc_pow[32 + i] * yc_pow[i] * SXX;
-            phi_tmp[96 + i] += 3.0 * 12.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[96 + i] += 24.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXXX;
-            phi_tmp[128 + i] += 3.0 * 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 3.0 * 12.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[128 + i] += 24.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXXX;
-            phi_tmp[160 + i] += 3.0 * 4.0 * xc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[160 + i] += 3.0 * 12.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[160 + i] += 24.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXXX;
-            phi_tmp[192 + i] += 3.0 * 3.0 * xc_pow[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[192 + i] += 3.0 * 6.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[192 + i] += 6.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXXX;
-            phi_tmp[224 + i] += 3.0 * 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 3.0 * 6.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXXX;
-            phi_tmp[256 + i] += 3.0 * 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 3.0 * 6.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXXX;
-            phi_tmp[288 + i] += 3.0 * 3.0 * xc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[288 + i] += 3.0 * 6.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[288 + i] += 6.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXXX;
-            phi_tmp[320 + i] += 3.0 * 2.0 * xc[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[320 + i] += 3.0 * 2.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXXX;
-            phi_tmp[352 + i] += 3.0 * 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 3.0 * 2.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXXX;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 3.0 * 2.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXXX;
-            phi_tmp[416 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 3.0 * 2.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXXX;
-            phi_tmp[448 + i] += 3.0 * 2.0 * xc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[448 + i] += 3.0 * 2.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXXX;
-            phi_tmp[480 + i] += 3.0 * yc_pow[96 + i] * SXX;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXXX;
-            phi_tmp[512 + i] += 3.0 * yc_pow[64 + i] * zc[i] * SXX;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXXX;
-            phi_tmp[544 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXXX;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXXX;
-            phi_tmp[608 + i] += 3.0 * yc[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXXX;
-            phi_tmp[640 + i] += 3.0 * zc_pow[96 + i] * SXX;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXXX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXXX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXXX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXXX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXXX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXXX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xxx_out + start), npoints);
-        }
-
-        // Combine XXY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXXY;
-            phi_tmp[i] += 2.0 * 6.0 * xc_pow[96 + i] * SXY;
-            phi_tmp[i] += 30.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXXY;
-            phi_tmp[32 + i] += 2.0 * 5.0 * xc_pow[64 + i] * yc[i] * SXY;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SXX;
-            phi_tmp[32 + i] += 20.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[32 + i] += 2.0 * 5.0 * xc_pow[64 + i] * SX;
-            phi_tmp[32 + i] += 20.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXXY;
-            phi_tmp[64 + i] += 2.0 * 5.0 * xc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[64 + i] += 20.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXXY;
-            phi_tmp[96 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc_pow[i] * SXY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SXX;
-            phi_tmp[96 + i] += 12.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[96 + i] += 2.0 * 8.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[96 + i] += 24.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXXY;
-            phi_tmp[128 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[128 + i] += 12.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[128 + i] += 2.0 * 4.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[128 + i] += 12.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXXY;
-            phi_tmp[160 + i] += 2.0 * 4.0 * xc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[160 + i] += 12.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXXY;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SXX;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[192 + i] += 2.0 * 9.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[192 + i] += 18.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXXY;
-            phi_tmp[224 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[224 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * 6.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[224 + i] += 12.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXXY;
-            phi_tmp[256 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[256 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[256 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[256 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXXY;
-            phi_tmp[320 + i] += 2.0 * 2.0 * xc[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * SY;
-            phi_tmp[320 + i] += 2.0 * 8.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[320 + i] += 8.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXXY;
-            phi_tmp[352 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[352 + i] += 2.0 * 6.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[352 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXXY;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 4.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[416 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[416 + i] += 2.0 * 2.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[416 + i] += 2.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXXY;
-            phi_tmp[448 + i] += 2.0 * 2.0 * xc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXXY;
-            phi_tmp[480 + i] += 2.0 * yc_pow[96 + i] * SXY;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[480 + i] += 2.0 * 5.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXXY;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[512 + i] += 2.0 * 4.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXXY;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[544 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[576 + i] += 2.0 * yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[576 + i] += 2.0 * 2.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXXY;
-            phi_tmp[608 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[608 + i] += 2.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXXY;
-            phi_tmp[640 + i] += 2.0 * zc_pow[96 + i] * SXY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXXY;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SXX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXXY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SXX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXXY;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXXY;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXXY;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXXY;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SXX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xxy_out + start), npoints);
-        }
-
-        // Combine XXZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SXX = S2[i] * xc[i] * xc[i] + S1[i];
-            const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXXZ;
-            phi_tmp[i] += 2.0 * 6.0 * xc_pow[96 + i] * SXZ;
-            phi_tmp[i] += 30.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXXZ;
-            phi_tmp[32 + i] += 2.0 * 5.0 * xc_pow[64 + i] * yc[i] * SXZ;
-            phi_tmp[32 + i] += 20.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXXZ;
-            phi_tmp[64 + i] += 2.0 * 5.0 * xc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SXX;
-            phi_tmp[64 + i] += 20.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[64 + i] += 2.0 * 5.0 * xc_pow[64 + i] * SX;
-            phi_tmp[64 + i] += 20.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXXZ;
-            phi_tmp[96 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc_pow[i] * SXZ;
-            phi_tmp[96 + i] += 12.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXXZ;
-            phi_tmp[128 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SXX;
-            phi_tmp[128 + i] += 12.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[128 + i] += 12.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXXZ;
-            phi_tmp[160 + i] += 2.0 * 4.0 * xc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SXX;
-            phi_tmp[160 + i] += 12.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[160 + i] += 2.0 * 8.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[160 + i] += 24.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXXZ;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[192 + i] += 6.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXXZ;
-            phi_tmp[224 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SXX;
-            phi_tmp[224 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[224 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXXZ;
-            phi_tmp[256 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXX;
-            phi_tmp[256 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * 6.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[256 + i] += 12.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SXX;
-            phi_tmp[288 + i] += 6.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[288 + i] += 2.0 * 9.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[288 + i] += 18.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXXZ;
-            phi_tmp[320 + i] += 2.0 * 2.0 * xc[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[320 + i] += 2.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXXZ;
-            phi_tmp[352 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SXX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[352 + i] += 2.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXXZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXX;
-            phi_tmp[384 + i] += 2.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[384 + i] += 4.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[416 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXX;
-            phi_tmp[416 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 2.0 * 6.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXXZ;
-            phi_tmp[448 + i] += 2.0 * 2.0 * xc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[448 + i] += 2.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[448 + i] += 2.0 * 8.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[448 + i] += 8.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXXZ;
-            phi_tmp[480 + i] += 2.0 * yc_pow[96 + i] * SXZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXXZ;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SXX;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXXZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXX;
-            phi_tmp[544 + i] += 2.0 * 2.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[576 + i] += 2.0 * yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXX;
-            phi_tmp[576 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXXZ;
-            phi_tmp[608 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXX;
-            phi_tmp[608 + i] += 2.0 * 4.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXXZ;
-            phi_tmp[640 + i] += 2.0 * zc_pow[96 + i] * SXZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SXX;
-            phi_tmp[640 + i] += 2.0 * 5.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXXZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXXZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SXX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXXZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SXX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXXZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SXX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXXZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SXX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXXZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SXX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXXZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SXX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xxz_out + start), npoints);
-        }
-
-        // Combine XYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXYY;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SYY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXYY;
-            phi_tmp[32 + i] += 2.0 * xc_pow[96 + i] * SXY;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SYY;
-            phi_tmp[32 + i] += 2.0 * 5.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXYY;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXYY;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc_pow[64 + i] * yc[i] * SXY;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SYY;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * SX;
-            phi_tmp[96 + i] += 2.0 * 8.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[96 + i] += 8.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * 4.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXYY;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXYY;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc_pow[32 + i] * yc_pow[i] * SXY;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[192 + i] += 2.0 * 9.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[192 + i] += 18.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXYY;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[224 + i] += 2.0 * 6.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[224 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXYY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXYY;
-            phi_tmp[320 + i] += 2.0 * 4.0 * xc_pow[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[320 + i] += 12.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[320 + i] += 2.0 * 8.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[320 + i] += 24.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXYY;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[352 + i] += 2.0 * 6.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 12.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXYY;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[416 + i] += 2.0 * xc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[416 + i] += 2.0 * 2.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXYY;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXYY;
-            phi_tmp[480 + i] += 2.0 * 5.0 * xc[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SYY;
-            phi_tmp[480 + i] += 20.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[480 + i] += 2.0 * 5.0 * yc_pow[64 + i] * SY;
-            phi_tmp[480 + i] += 20.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXYY;
-            phi_tmp[512 + i] += 2.0 * 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 12.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[512 + i] += 2.0 * 4.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[512 + i] += 12.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXYY;
-            phi_tmp[544 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[544 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[576 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[576 + i] += 2.0 * 2.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[576 + i] += 2.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXYY;
-            phi_tmp[608 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXYY;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SYY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXYY;
-            phi_tmp[672 + i] += 2.0 * 6.0 * yc_pow[96 + i] * SXY;
-            phi_tmp[672 + i] += 30.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXYY;
-            phi_tmp[704 + i] += 2.0 * 5.0 * yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[704 + i] += 20.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXYY;
-            phi_tmp[736 + i] += 2.0 * 4.0 * yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[736 + i] += 12.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXYY;
-            phi_tmp[768 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[768 + i] += 6.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXYY;
-            phi_tmp[800 + i] += 2.0 * 2.0 * yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[800 + i] += 2.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXYY;
-            phi_tmp[832 + i] += 2.0 * zc_pow[96 + i] * SXY;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xyy_out + start), npoints);
-        }
-
-        // Combine XYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXY = S2[i] * xc[i] * yc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXYZ;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SYZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXYZ;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SYZ;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SXZ;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXYZ;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SXY;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXYZ;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SXZ;
-            phi_tmp[96 + i] += 8.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXYZ;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SXY;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[128 + i] += xc_pow[64 + i] * SX;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXYZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[160 + i] += 8.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SXZ;
-            phi_tmp[192 + i] += 9.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXYZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SXY;
-            phi_tmp[224 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[224 + i] += 12.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXYZ;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXY;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[256 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[288 + i] += 9.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXYZ;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[320 + i] += 8.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXYZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SXY;
-            phi_tmp[352 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[352 + i] += 18.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXYZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXY;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[384 + i] += 8.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXY;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[416 + i] += 2.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXYZ;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[448 + i] += 8.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXYZ;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SYZ;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[480 + i] += 5.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXYZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SXY;
-            phi_tmp[512 + i] += 4.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * SY;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[512 + i] += 16.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXYZ;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXY;
-            phi_tmp[544 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[544 + i] += 9.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXY;
-            phi_tmp[576 + i] += 2.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 3.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[576 + i] += 4.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXYZ;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[608 + i] += zc_pow[64 + i] * SZ;
-            phi_tmp[608 + i] += 4.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[608 + i] += 4.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[608 + i] += zc_pow[32 + i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXYZ;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SYZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[640 + i] += 5.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXYZ;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SXZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXYZ;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SXY;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXYZ;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SXY;
-            phi_tmp[736 + i] += 8.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXYZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SXY;
-            phi_tmp[768 + i] += 9.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXYZ;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SXY;
-            phi_tmp[800 + i] += 8.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXYZ;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SXZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SXY;
-            phi_tmp[832 + i] += 5.0 * zc_pow[64 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXYZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SXY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xyz_out + start), npoints);
-        }
-
-        // Combine XZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SX = S1[i] * xc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SXZ = S2[i] * xc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + S2[i] * xc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SXZZ;
-            phi_tmp[i] += 6.0 * xc_pow[96 + i] * SZZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SXZZ;
-            phi_tmp[32 + i] += 5.0 * xc_pow[64 + i] * yc[i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SXZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[96 + i] * SXZ;
-            phi_tmp[64 + i] += 5.0 * xc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[64 + i] += 2.0 * 5.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SXZZ;
-            phi_tmp[96 + i] += 4.0 * xc_pow[32 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SXZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SXZ;
-            phi_tmp[128 + i] += 4.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * 4.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SXZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[160 + i] += 4.0 * xc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * SX;
-            phi_tmp[160 + i] += 2.0 * 8.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[160 + i] += 8.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SXZZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SXZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc_pow[i] * SXZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SXZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SXZ;
-            phi_tmp[256 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SX;
-            phi_tmp[256 + i] += 2.0 * 6.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * zc[i] * SX;
-            phi_tmp[288 + i] += 2.0 * 9.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[288 + i] += 18.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SXZZ;
-            phi_tmp[320 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SXZZ;
-            phi_tmp[352 + i] += 2.0 * xc_pow[i] * yc_pow[32 + i] * SXZ;
-            phi_tmp[352 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SXZZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SXZ;
-            phi_tmp[384 + i] += 2.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * SX;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SXZ;
-            phi_tmp[416 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SX;
-            phi_tmp[416 + i] += 2.0 * 6.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 12.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SXZZ;
-            phi_tmp[448 + i] += 2.0 * 4.0 * xc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[448 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[448 + i] += 12.0 * xc_pow[i] * zc_pow[i] * SX;
-            phi_tmp[448 + i] += 2.0 * 8.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[448 + i] += 24.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SXZZ;
-            phi_tmp[480 + i] += yc_pow[96 + i] * SZZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SXZZ;
-            phi_tmp[512 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SXZ;
-            phi_tmp[512 + i] += yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SXZZ;
-            phi_tmp[544 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SXZ;
-            phi_tmp[544 + i] += yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SX;
-            phi_tmp[544 + i] += 2.0 * 2.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[576 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SXZ;
-            phi_tmp[576 + i] += yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SX;
-            phi_tmp[576 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SXZZ;
-            phi_tmp[608 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[608 + i] += yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 12.0 * xc[i] * yc[i] * zc_pow[i] * SX;
-            phi_tmp[608 + i] += 2.0 * 4.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SXZZ;
-            phi_tmp[640 + i] += 2.0 * 5.0 * xc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[640 + i] += zc_pow[96 + i] * SZZ;
-            phi_tmp[640 + i] += 20.0 * xc[i] * zc_pow[32 + i] * SX;
-            phi_tmp[640 + i] += 2.0 * 5.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[640 + i] += 20.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SXZZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SXZZ;
-            phi_tmp[704 + i] += 2.0 * yc_pow[96 + i] * SXZ;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SXZZ;
-            phi_tmp[736 + i] += 2.0 * 2.0 * yc_pow[64 + i] * zc[i] * SXZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * SX;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SXZZ;
-            phi_tmp[768 + i] += 2.0 * 3.0 * yc_pow[32 + i] * zc_pow[i] * SXZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * zc[i] * SX;
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SXZZ;
-            phi_tmp[800 + i] += 2.0 * 4.0 * yc_pow[i] * zc_pow[32 + i] * SXZ;
-            phi_tmp[800 + i] += 12.0 * yc_pow[i] * zc_pow[i] * SX;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SXZZ;
-            phi_tmp[832 + i] += 2.0 * 5.0 * yc[i] * zc_pow[64 + i] * SXZ;
-            phi_tmp[832 + i] += 20.0 * yc[i] * zc_pow[32 + i] * SX;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SXZZ;
-            phi_tmp[864 + i] += 2.0 * 6.0 * zc_pow[96 + i] * SXZ;
-            phi_tmp[864 + i] += 30.0 * zc_pow[64 + i] * SX;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_xzz_out + start), npoints);
-        }
-
-        // Combine YYY blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYYY;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYYY;
-            phi_tmp[32 + i] += 3.0 * xc_pow[96 + i] * SYY;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYYY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc_pow[64 + i] * yc[i] * SYY;
-            phi_tmp[96 + i] += 3.0 * 2.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYYY;
-            phi_tmp[128 + i] += 3.0 * xc_pow[64 + i] * zc[i] * SYY;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYYY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYYY;
-            phi_tmp[192 + i] += 3.0 * 3.0 * xc_pow[32 + i] * yc_pow[i] * SYY;
-            phi_tmp[192 + i] += 3.0 * 6.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[224 + i] += 3.0 * 2.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYYY;
-            phi_tmp[256 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYYY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYYY;
-            phi_tmp[320 + i] += 3.0 * 4.0 * xc_pow[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[320 + i] += 3.0 * 12.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[320 + i] += 24.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYYY;
-            phi_tmp[352 + i] += 3.0 * 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[352 + i] += 3.0 * 6.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYYY;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYYY;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYYY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYYY;
-            phi_tmp[480 + i] += 3.0 * 5.0 * xc[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[480 + i] += 3.0 * 20.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[480 + i] += 60.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYYY;
-            phi_tmp[512 + i] += 3.0 * 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[512 + i] += 3.0 * 12.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[512 + i] += 24.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYYY;
-            phi_tmp[544 + i] += 3.0 * 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[544 + i] += 3.0 * 6.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYYY;
-            phi_tmp[576 + i] += 3.0 * 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[576 + i] += 3.0 * 2.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYYY;
-            phi_tmp[608 + i] += 3.0 * xc[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYYY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYYY;
-            phi_tmp[672 + i] += 3.0 * 6.0 * yc_pow[96 + i] * SYY;
-            phi_tmp[672 + i] += 3.0 * 30.0 * yc_pow[64 + i] * SY;
-            phi_tmp[672 + i] += 120.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYYY;
-            phi_tmp[704 + i] += 3.0 * 5.0 * yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[704 + i] += 3.0 * 20.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[704 + i] += 60.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYYY;
-            phi_tmp[736 + i] += 3.0 * 4.0 * yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[736 + i] += 3.0 * 12.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[736 + i] += 24.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYYY;
-            phi_tmp[768 + i] += 3.0 * 3.0 * yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[768 + i] += 3.0 * 6.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[768 + i] += 6.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYYY;
-            phi_tmp[800 + i] += 3.0 * 2.0 * yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[800 + i] += 3.0 * 2.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYYY;
-            phi_tmp[832 + i] += 3.0 * zc_pow[96 + i] * SYY;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yyy_out + start), npoints);
-        }
-
-        // Combine YYZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SYY = S2[i] * yc[i] * yc[i] + S1[i];
-            const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + S2[i] * zc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYYZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYYZ;
-            phi_tmp[32 + i] += 2.0 * xc_pow[96 + i] * SYZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYYZ;
-            phi_tmp[64 + i] += xc_pow[96 + i] * SYY;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYYZ;
-            phi_tmp[96 + i] += 2.0 * 2.0 * xc_pow[64 + i] * yc[i] * SYZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYYZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * yc[i] * SYY;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * zc[i] * SYY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYYZ;
-            phi_tmp[192 + i] += 2.0 * 3.0 * xc_pow[32 + i] * yc_pow[i] * SYZ;
-            phi_tmp[192 + i] += 6.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYYZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[224 + i] += xc_pow[32 + i] * yc_pow[i] * SYY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SYY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[288 + i] += 3.0 * xc_pow[32 + i] * zc_pow[i] * SYY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYYZ;
-            phi_tmp[320 + i] += 2.0 * 4.0 * xc_pow[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[320 + i] += 12.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYYZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[352 + i] += xc_pow[i] * yc_pow[32 + i] * SYY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[352 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYYZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SYY;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[416 + i] += 2.0 * xc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[416 + i] += 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SYY;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYYZ;
-            phi_tmp[448 + i] += 4.0 * xc_pow[i] * zc_pow[32 + i] * SYY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYYZ;
-            phi_tmp[480 + i] += 2.0 * 5.0 * xc[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[480 + i] += 20.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYYZ;
-            phi_tmp[512 + i] += 2.0 * 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[512 + i] += xc[i] * yc_pow[64 + i] * SYY;
-            phi_tmp[512 + i] += 12.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[512 + i] += 2.0 * 4.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[512 + i] += 12.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYYZ;
-            phi_tmp[544 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SYY;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[544 + i] += 2.0 * 6.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[544 + i] += 12.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[576 + i] += 2.0 * 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[576 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SYY;
-            phi_tmp[576 + i] += 2.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[576 + i] += 2.0 * 6.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[576 + i] += 6.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYYZ;
-            phi_tmp[608 + i] += 2.0 * xc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[608 + i] += 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[608 + i] += 2.0 * 4.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYYZ;
-            phi_tmp[640 + i] += 5.0 * xc[i] * zc_pow[64 + i] * SYY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYYZ;
-            phi_tmp[672 + i] += 2.0 * 6.0 * yc_pow[96 + i] * SYZ;
-            phi_tmp[672 + i] += 30.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYYZ;
-            phi_tmp[704 + i] += 2.0 * 5.0 * yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[704 + i] += yc_pow[96 + i] * SYY;
-            phi_tmp[704 + i] += 20.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[704 + i] += 2.0 * 5.0 * yc_pow[64 + i] * SY;
-            phi_tmp[704 + i] += 20.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYYZ;
-            phi_tmp[736 + i] += 2.0 * 4.0 * yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * zc[i] * SYY;
-            phi_tmp[736 + i] += 12.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[736 + i] += 2.0 * 8.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[736 + i] += 24.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYYZ;
-            phi_tmp[768 + i] += 2.0 * 3.0 * yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[32 + i] * zc_pow[i] * SYY;
-            phi_tmp[768 + i] += 6.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[768 + i] += 2.0 * 9.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[768 + i] += 18.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYYZ;
-            phi_tmp[800 + i] += 2.0 * 2.0 * yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[800 + i] += 4.0 * yc_pow[i] * zc_pow[32 + i] * SYY;
-            phi_tmp[800 + i] += 2.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[800 + i] += 2.0 * 8.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[800 + i] += 8.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYYZ;
-            phi_tmp[832 + i] += 2.0 * zc_pow[96 + i] * SYZ;
-            phi_tmp[832 + i] += 5.0 * yc[i] * zc_pow[64 + i] * SYY;
-            phi_tmp[832 + i] += 2.0 * 5.0 * zc_pow[64 + i] * SY;
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYYZ;
-            phi_tmp[864 + i] += 6.0 * zc_pow[96 + i] * SYY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yyz_out + start), npoints);
-        }
-
-        // Combine YZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SY = S1[i] * yc[i];
-            const double SZ = S1[i] * zc[i];
-            const double SYZ = S2[i] * yc[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + S2[i] * yc[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SYZZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SYZZ;
-            phi_tmp[32 + i] += xc_pow[96 + i] * SZZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SYZZ;
-            phi_tmp[64 + i] += 2.0 * xc_pow[96 + i] * SYZ;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SYZZ;
-            phi_tmp[96 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SZZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SYZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * yc[i] * SYZ;
-            phi_tmp[128 + i] += xc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[128 + i] += 2.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SYZZ;
-            phi_tmp[160 + i] += 2.0 * 2.0 * xc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[160 + i] += 2.0 * xc_pow[64 + i] * SY;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SYZZ;
-            phi_tmp[192 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SYZZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc_pow[i] * SYZ;
-            phi_tmp[224 + i] += 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[224 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SYZZ;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SYZ;
-            phi_tmp[256 + i] += xc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * yc[i] * SY;
-            phi_tmp[256 + i] += 2.0 * 2.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[256 + i] += 2.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[288 + i] += 2.0 * 3.0 * xc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * zc[i] * SY;
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SYZZ;
-            phi_tmp[320 + i] += 4.0 * xc_pow[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SYZZ;
-            phi_tmp[352 + i] += 2.0 * xc_pow[i] * yc_pow[32 + i] * SYZ;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[352 + i] += 2.0 * 3.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SYZZ;
-            phi_tmp[384 + i] += 2.0 * 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SYZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[384 + i] += 2.0 * xc_pow[i] * yc_pow[i] * SY;
-            phi_tmp[384 + i] += 2.0 * 4.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[384 + i] += 4.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SYZ;
-            phi_tmp[416 + i] += xc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * zc[i] * SY;
-            phi_tmp[416 + i] += 2.0 * 3.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SYZZ;
-            phi_tmp[448 + i] += 2.0 * 4.0 * xc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[448 + i] += 12.0 * xc_pow[i] * zc_pow[i] * SY;
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SYZZ;
-            phi_tmp[480 + i] += 5.0 * xc[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SYZZ;
-            phi_tmp[512 + i] += 2.0 * xc[i] * yc_pow[64 + i] * SYZ;
-            phi_tmp[512 + i] += 4.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[512 + i] += 2.0 * 4.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SYZZ;
-            phi_tmp[544 + i] += 2.0 * 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SYZ;
-            phi_tmp[544 + i] += 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[544 + i] += 2.0 * xc[i] * yc_pow[32 + i] * SY;
-            phi_tmp[544 + i] += 2.0 * 6.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[544 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[576 + i] += 2.0 * 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SYZ;
-            phi_tmp[576 + i] += 2.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * zc[i] * SY;
-            phi_tmp[576 + i] += 2.0 * 6.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[576 + i] += 12.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SYZZ;
-            phi_tmp[608 + i] += 2.0 * 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[608 + i] += xc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[608 + i] += 12.0 * xc[i] * yc[i] * zc_pow[i] * SY;
-            phi_tmp[608 + i] += 2.0 * 4.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[608 + i] += 12.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SYZZ;
-            phi_tmp[640 + i] += 2.0 * 5.0 * xc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[640 + i] += 20.0 * xc[i] * zc_pow[32 + i] * SY;
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SYZZ;
-            phi_tmp[672 + i] += 6.0 * yc_pow[96 + i] * SZZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SYZZ;
-            phi_tmp[704 + i] += 2.0 * yc_pow[96 + i] * SYZ;
-            phi_tmp[704 + i] += 5.0 * yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[704 + i] += 2.0 * 5.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SYZZ;
-            phi_tmp[736 + i] += 2.0 * 2.0 * yc_pow[64 + i] * zc[i] * SYZ;
-            phi_tmp[736 + i] += 4.0 * yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[736 + i] += 2.0 * yc_pow[64 + i] * SY;
-            phi_tmp[736 + i] += 2.0 * 8.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[736 + i] += 8.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SYZZ;
-            phi_tmp[768 + i] += 2.0 * 3.0 * yc_pow[32 + i] * zc_pow[i] * SYZ;
-            phi_tmp[768 + i] += 3.0 * yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * zc[i] * SY;
-            phi_tmp[768 + i] += 2.0 * 9.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[768 + i] += 18.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SYZZ;
-            phi_tmp[800 + i] += 2.0 * 4.0 * yc_pow[i] * zc_pow[32 + i] * SYZ;
-            phi_tmp[800 + i] += 2.0 * yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[800 + i] += 12.0 * yc_pow[i] * zc_pow[i] * SY;
-            phi_tmp[800 + i] += 2.0 * 8.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[800 + i] += 24.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SYZZ;
-            phi_tmp[832 + i] += 2.0 * 5.0 * yc[i] * zc_pow[64 + i] * SYZ;
-            phi_tmp[832 + i] += zc_pow[96 + i] * SZZ;
-            phi_tmp[832 + i] += 20.0 * yc[i] * zc_pow[32 + i] * SY;
-            phi_tmp[832 + i] += 2.0 * 5.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[832 + i] += 20.0 * zc_pow[32 + i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SYZZ;
-            phi_tmp[864 + i] += 2.0 * 6.0 * zc_pow[96 + i] * SYZ;
-            phi_tmp[864 + i] += 30.0 * zc_pow[64 + i] * SY;
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_yzz_out + start), npoints);
-        }
-
-        // Combine ZZZ blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            const double SZ = S1[i] * zc[i];
-            const double SZZ = S2[i] * zc[i] * zc[i] + S1[i];
-            const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i];
-
-            phi_tmp[i] = xc_pow[128 + i] * SZZZ;
-
-            phi_tmp[32 + i] = xc_pow[96 + i] * yc[i] * SZZZ;
-
-            phi_tmp[64 + i] = xc_pow[96 + i] * zc[i] * SZZZ;
-            phi_tmp[64 + i] += 3.0 * xc_pow[96 + i] * SZZ;
-
-            phi_tmp[96 + i] = xc_pow[64 + i] * yc_pow[i] * SZZZ;
-
-            phi_tmp[128 + i] = xc_pow[64 + i] * yc[i] * zc[i] * SZZZ;
-            phi_tmp[128 + i] += 3.0 * xc_pow[64 + i] * yc[i] * SZZ;
-
-            phi_tmp[160 + i] = xc_pow[64 + i] * zc_pow[i] * SZZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[160 + i] += 3.0 * 2.0 * xc_pow[64 + i] * SZ;
-
-            phi_tmp[192 + i] = xc_pow[32 + i] * yc_pow[32 + i] * SZZZ;
-
-            phi_tmp[224 + i] = xc_pow[32 + i] * yc_pow[i] * zc[i] * SZZZ;
-            phi_tmp[224 + i] += 3.0 * xc_pow[32 + i] * yc_pow[i] * SZZ;
-
-            phi_tmp[256 + i] = xc_pow[32 + i] * yc[i] * zc_pow[i] * SZZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc_pow[32 + i] * yc[i] * zc[i] * SZZ;
-            phi_tmp[256 + i] += 3.0 * 2.0 * xc_pow[32 + i] * yc[i] * SZ;
-
-            phi_tmp[288 + i] = xc_pow[32 + i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[288 + i] += 3.0 * 3.0 * xc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[288 + i] += 3.0 * 6.0 * xc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[288 + i] += 6.0 * xc_pow[32 + i] * S0[i];
-
-            phi_tmp[320 + i] = xc_pow[i] * yc_pow[64 + i] * SZZZ;
-
-            phi_tmp[352 + i] = xc_pow[i] * yc_pow[32 + i] * zc[i] * SZZZ;
-            phi_tmp[352 + i] += 3.0 * xc_pow[i] * yc_pow[32 + i] * SZZ;
-
-            phi_tmp[384 + i] = xc_pow[i] * yc_pow[i] * zc_pow[i] * SZZZ;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc_pow[i] * yc_pow[i] * zc[i] * SZZ;
-            phi_tmp[384 + i] += 3.0 * 2.0 * xc_pow[i] * yc_pow[i] * SZ;
-
-            phi_tmp[416 + i] = xc_pow[i] * yc[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[416 + i] += 3.0 * 3.0 * xc_pow[i] * yc[i] * zc_pow[i] * SZZ;
-            phi_tmp[416 + i] += 3.0 * 6.0 * xc_pow[i] * yc[i] * zc[i] * SZ;
-            phi_tmp[416 + i] += 6.0 * xc_pow[i] * yc[i] * S0[i];
-
-            phi_tmp[448 + i] = xc_pow[i] * zc_pow[64 + i] * SZZZ;
-            phi_tmp[448 + i] += 3.0 * 4.0 * xc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[448 + i] += 3.0 * 12.0 * xc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[448 + i] += 24.0 * xc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[480 + i] = xc[i] * yc_pow[96 + i] * SZZZ;
-
-            phi_tmp[512 + i] = xc[i] * yc_pow[64 + i] * zc[i] * SZZZ;
-            phi_tmp[512 + i] += 3.0 * xc[i] * yc_pow[64 + i] * SZZ;
-
-            phi_tmp[544 + i] = xc[i] * yc_pow[32 + i] * zc_pow[i] * SZZZ;
-            phi_tmp[544 + i] += 3.0 * 2.0 * xc[i] * yc_pow[32 + i] * zc[i] * SZZ;
-            phi_tmp[544 + i] += 3.0 * 2.0 * xc[i] * yc_pow[32 + i] * SZ;
-
-            phi_tmp[576 + i] = xc[i] * yc_pow[i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[576 + i] += 3.0 * 3.0 * xc[i] * yc_pow[i] * zc_pow[i] * SZZ;
-            phi_tmp[576 + i] += 3.0 * 6.0 * xc[i] * yc_pow[i] * zc[i] * SZ;
-            phi_tmp[576 + i] += 6.0 * xc[i] * yc_pow[i] * S0[i];
-
-            phi_tmp[608 + i] = xc[i] * yc[i] * zc_pow[64 + i] * SZZZ;
-            phi_tmp[608 + i] += 3.0 * 4.0 * xc[i] * yc[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[608 + i] += 3.0 * 12.0 * xc[i] * yc[i] * zc_pow[i] * SZ;
-            phi_tmp[608 + i] += 24.0 * xc[i] * yc[i] * zc[i] * S0[i];
-
-            phi_tmp[640 + i] = xc[i] * zc_pow[96 + i] * SZZZ;
-            phi_tmp[640 + i] += 3.0 * 5.0 * xc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[640 + i] += 3.0 * 20.0 * xc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[640 + i] += 60.0 * xc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[672 + i] = yc_pow[128 + i] * SZZZ;
-
-            phi_tmp[704 + i] = yc_pow[96 + i] * zc[i] * SZZZ;
-            phi_tmp[704 + i] += 3.0 * yc_pow[96 + i] * SZZ;
-
-            phi_tmp[736 + i] = yc_pow[64 + i] * zc_pow[i] * SZZZ;
-            phi_tmp[736 + i] += 3.0 * 2.0 * yc_pow[64 + i] * zc[i] * SZZ;
-            phi_tmp[736 + i] += 3.0 * 2.0 * yc_pow[64 + i] * SZ;
-
-            phi_tmp[768 + i] = yc_pow[32 + i] * zc_pow[32 + i] * SZZZ;
-            phi_tmp[768 + i] += 3.0 * 3.0 * yc_pow[32 + i] * zc_pow[i] * SZZ;
-            phi_tmp[768 + i] += 3.0 * 6.0 * yc_pow[32 + i] * zc[i] * SZ;
-            phi_tmp[768 + i] += 6.0 * yc_pow[32 + i] * S0[i];
-
-            phi_tmp[800 + i] = yc_pow[i] * zc_pow[64 + i] * SZZZ;
-            phi_tmp[800 + i] += 3.0 * 4.0 * yc_pow[i] * zc_pow[32 + i] * SZZ;
-            phi_tmp[800 + i] += 3.0 * 12.0 * yc_pow[i] * zc_pow[i] * SZ;
-            phi_tmp[800 + i] += 24.0 * yc_pow[i] * zc[i] * S0[i];
-
-            phi_tmp[832 + i] = yc[i] * zc_pow[96 + i] * SZZZ;
-            phi_tmp[832 + i] += 3.0 * 5.0 * yc[i] * zc_pow[64 + i] * SZZ;
-            phi_tmp[832 + i] += 3.0 * 20.0 * yc[i] * zc_pow[32 + i] * SZ;
-            phi_tmp[832 + i] += 60.0 * yc[i] * zc_pow[i] * S0[i];
-
-            phi_tmp[864 + i] = zc_pow[128 + i] * SZZZ;
-            phi_tmp[864 + i] += 3.0 * 6.0 * zc_pow[96 + i] * SZZ;
-            phi_tmp[864 + i] += 3.0 * 30.0 * zc_pow[64 + i] * SZ;
-            phi_tmp[864 + i] += 120.0 * zc_pow[32 + i] * S0[i];
-
-        }
-
-        if (order == GG_SPHERICAL_CCA) {
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_zzz_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-    ALIGNED_FREE(expn2);
-
-    // Free Power temporaries
-    ALIGNED_FREE(xc_pow);
-    ALIGNED_FREE(yc_pow);
-    ALIGNED_FREE(zc_pow);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_helper.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_helper.c
deleted file mode 100644
index e5868df..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_helper.c
+++ /dev/null
@@ -1,134 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-// Information helpers
-int gg_max_L() { return 6; }
-
-int gg_ncomponents(const int L, const int spherical) {
-    if (spherical) {
-    return 2 * L + 1;
-    } else {
-    return (L + 2) * (L + 1) / 2;
-    }
-}
-
-// Collocation selector functions
-void gg_orbitals(int L, const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-    // Chooses the correct function for a given L
-    if (L == 0) {
-        gg_orbitals_L0(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else if (L == 1) {
-        gg_orbitals_L1(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else if (L == 2) {
-        gg_orbitals_L2(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else if (L == 3) {
-        gg_orbitals_L3(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else if (L == 4) {
-        gg_orbitals_L4(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else if (L == 5) {
-        gg_orbitals_L5(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else if (L == 6) {
-        gg_orbitals_L6(C, norbitals, npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, orbital_out);
-    } else {
-        exit(0);
-    }
-}
-void gg_collocation(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-    // Chooses the correct function for a given L
-    if (L == 0) {
-        gg_collocation_L0(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else if (L == 1) {
-        gg_collocation_L1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else if (L == 2) {
-        gg_collocation_L2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else if (L == 3) {
-        gg_collocation_L3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else if (L == 4) {
-        gg_collocation_L4(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else if (L == 5) {
-        gg_collocation_L5(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else if (L == 6) {
-        gg_collocation_L6(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out);
-    } else {
-        exit(0);
-    }
-}
-void gg_collocation_deriv1(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out) {
-    // Chooses the correct function for a given L
-    if (L == 0) {
-        gg_collocation_L0_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else if (L == 1) {
-        gg_collocation_L1_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else if (L == 2) {
-        gg_collocation_L2_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else if (L == 3) {
-        gg_collocation_L3_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else if (L == 4) {
-        gg_collocation_L4_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else if (L == 5) {
-        gg_collocation_L5_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else if (L == 6) {
-        gg_collocation_L6_deriv1(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out);
-    } else {
-        exit(0);
-    }
-}
-void gg_collocation_deriv2(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out) {
-    // Chooses the correct function for a given L
-    if (L == 0) {
-        gg_collocation_L0_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else if (L == 1) {
-        gg_collocation_L1_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else if (L == 2) {
-        gg_collocation_L2_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else if (L == 3) {
-        gg_collocation_L3_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else if (L == 4) {
-        gg_collocation_L4_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else if (L == 5) {
-        gg_collocation_L5_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else if (L == 6) {
-        gg_collocation_L6_deriv2(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out);
-    } else {
-        exit(0);
-    }
-}
-void gg_collocation_deriv3(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out) {
-    // Chooses the correct function for a given L
-    if (L == 0) {
-        gg_collocation_L0_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else if (L == 1) {
-        gg_collocation_L1_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else if (L == 2) {
-        gg_collocation_L2_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else if (L == 3) {
-        gg_collocation_L3_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else if (L == 4) {
-        gg_collocation_L4_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else if (L == 5) {
-        gg_collocation_L5_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else if (L == 6) {
-        gg_collocation_L6_deriv3(npoints, xyz, xyz_stride, nprim, coeffs, exponents, center, order, phi_out, phi_x_out, phi_y_out, phi_z_out, phi_xx_out, phi_xy_out, phi_xz_out, phi_yy_out, phi_yz_out, phi_zz_out, phi_xxx_out, phi_xxy_out, phi_xxz_out, phi_xyy_out, phi_xyz_out, phi_xzz_out, phi_yyy_out, phi_yyz_out, phi_yzz_out, phi_zzz_out);
-    } else {
-        exit(0);
-    }
-}
\ No newline at end of file
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_orbital.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_orbital.c
deleted file mode 100644
index f9cc618..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_orbital.c
+++ /dev/null
@@ -1,1439 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-
-
-void gg_orbitals_L0(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 1;
-    const unsigned long nspherical = 1;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Density AM=0 Component=0
-            phi_tmp[i] = S0[i];
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L0(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L0(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L0(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L0(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_orbitals_L1(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 3;
-    const unsigned long nspherical = 3;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Density AM=1 Component=X
-            phi_tmp[i] = S0[i] * xc[i];
-
-            // Density AM=1 Component=Y
-            phi_tmp[32 + i] = S0[i] * yc[i];
-
-            // Density AM=1 Component=Z
-            phi_tmp[64 + i] = S0[i] * zc[i];
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L1(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L1(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L1(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L1(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_orbitals_L2(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 6;
-    const unsigned long nspherical = 5;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-
-            // Density AM=2 Component=XX
-            phi_tmp[i] = S0[i] * xc_pow2;
-
-            // Density AM=2 Component=XY
-            A = xc[i] * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=2 Component=XZ
-            A = xc[i] * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=2 Component=YY
-            phi_tmp[96 + i] = S0[i] * yc_pow2;
-
-            // Density AM=2 Component=YZ
-            A = yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=2 Component=ZZ
-            phi_tmp[160 + i] = S0[i] * zc_pow2;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L2(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L2(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L2(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L2(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_orbitals_L3(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 10;
-    const unsigned long nspherical = 7;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-
-            // Density AM=3 Component=XXX
-            phi_tmp[i] = S0[i] * xc_pow3;
-
-            // Density AM=3 Component=XXY
-            A = xc_pow2 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XXZ
-            A = xc_pow2 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XYY
-            A = xc[i] * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XYZ
-            A = xc[i] * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XZZ
-            A = xc[i] * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=3 Component=YYY
-            phi_tmp[192 + i] = S0[i] * yc_pow3;
-
-            // Density AM=3 Component=YYZ
-            A = yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=3 Component=YZZ
-            A = yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=3 Component=ZZZ
-            phi_tmp[288 + i] = S0[i] * zc_pow3;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L3(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L3(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L3(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L3(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_orbitals_L4(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 15;
-    const unsigned long nspherical = 9;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-
-            // Density AM=4 Component=XXXX
-            phi_tmp[i] = S0[i] * xc_pow4;
-
-            // Density AM=4 Component=XXXY
-            A = xc_pow3 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXXZ
-            A = xc_pow3 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXYY
-            A = xc_pow2 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXYZ
-            A = xc_pow2 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXZZ
-            A = xc_pow2 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XYYY
-            A = xc[i] * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XYYZ
-            A = xc[i] * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XYZZ
-            A = xc[i] * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XZZZ
-            A = xc[i] * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Density AM=4 Component=YYYY
-            phi_tmp[320 + i] = S0[i] * yc_pow4;
-
-            // Density AM=4 Component=YYYZ
-            A = yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Density AM=4 Component=YYZZ
-            A = yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Density AM=4 Component=YZZZ
-            A = yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Density AM=4 Component=ZZZZ
-            phi_tmp[448 + i] = S0[i] * zc_pow4;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L4(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L4(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L4(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L4(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_orbitals_L5(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 21;
-    const unsigned long nspherical = 11;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-            const double xc_pow5 = xc_pow4 * xc[i];
-            const double yc_pow5 = yc_pow4 * yc[i];
-            const double zc_pow5 = zc_pow4 * zc[i];
-
-
-            // Density AM=5 Component=XXXXX
-            phi_tmp[i] = S0[i] * xc_pow5;
-
-            // Density AM=5 Component=XXXXY
-            A = xc_pow4 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXXZ
-            A = xc_pow4 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXYY
-            A = xc_pow3 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXYZ
-            A = xc_pow3 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXZZ
-            A = xc_pow3 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXYYY
-            A = xc_pow2 * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXYYZ
-            A = xc_pow2 * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXYZZ
-            A = xc_pow2 * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXZZZ
-            A = xc_pow2 * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYYYY
-            A = xc[i] * yc_pow4;
-            phi_tmp[320 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYYYZ
-            A = xc[i] * yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYYZZ
-            A = xc[i] * yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYZZZ
-            A = xc[i] * yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XZZZZ
-            A = xc[i] * zc_pow4;
-            phi_tmp[448 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YYYYY
-            phi_tmp[480 + i] = S0[i] * yc_pow5;
-
-            // Density AM=5 Component=YYYYZ
-            A = yc_pow4 * zc[i];
-            phi_tmp[512 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YYYZZ
-            A = yc_pow3 * zc_pow2;
-            phi_tmp[544 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YYZZZ
-            A = yc_pow2 * zc_pow3;
-            phi_tmp[576 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YZZZZ
-            A = yc[i] * zc_pow4;
-            phi_tmp[608 + i] = S0[i] * A;
-
-            // Density AM=5 Component=ZZZZZ
-            phi_tmp[640 + i] = S0[i] * zc_pow5;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L5(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L5(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L5(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L5(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_orbitals_L6(const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 28;
-    const unsigned long nspherical = 13;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-            const double xc_pow5 = xc_pow4 * xc[i];
-            const double yc_pow5 = yc_pow4 * yc[i];
-            const double zc_pow5 = zc_pow4 * zc[i];
-
-            const double xc_pow6 = xc_pow5 * xc[i];
-            const double yc_pow6 = yc_pow5 * yc[i];
-            const double zc_pow6 = zc_pow5 * zc[i];
-
-
-            // Density AM=6 Component=XXXXXX
-            phi_tmp[i] = S0[i] * xc_pow6;
-
-            // Density AM=6 Component=XXXXXY
-            A = xc_pow5 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXXZ
-            A = xc_pow5 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXYY
-            A = xc_pow4 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXYZ
-            A = xc_pow4 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXZZ
-            A = xc_pow4 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXYYY
-            A = xc_pow3 * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXYYZ
-            A = xc_pow3 * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXYZZ
-            A = xc_pow3 * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXZZZ
-            A = xc_pow3 * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYYYY
-            A = xc_pow2 * yc_pow4;
-            phi_tmp[320 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYYYZ
-            A = xc_pow2 * yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYYZZ
-            A = xc_pow2 * yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYZZZ
-            A = xc_pow2 * yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXZZZZ
-            A = xc_pow2 * zc_pow4;
-            phi_tmp[448 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYYYY
-            A = xc[i] * yc_pow5;
-            phi_tmp[480 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYYYZ
-            A = xc[i] * yc_pow4 * zc[i];
-            phi_tmp[512 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYYZZ
-            A = xc[i] * yc_pow3 * zc_pow2;
-            phi_tmp[544 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYZZZ
-            A = xc[i] * yc_pow2 * zc_pow3;
-            phi_tmp[576 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYZZZZ
-            A = xc[i] * yc[i] * zc_pow4;
-            phi_tmp[608 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XZZZZZ
-            A = xc[i] * zc_pow5;
-            phi_tmp[640 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYYYYY
-            phi_tmp[672 + i] = S0[i] * yc_pow6;
-
-            // Density AM=6 Component=YYYYYZ
-            A = yc_pow5 * zc[i];
-            phi_tmp[704 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYYYZZ
-            A = yc_pow4 * zc_pow2;
-            phi_tmp[736 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYYZZZ
-            A = yc_pow3 * zc_pow3;
-            phi_tmp[768 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYZZZZ
-            A = yc_pow2 * zc_pow4;
-            phi_tmp[800 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YZZZZZ
-            A = yc[i] * zc_pow5;
-            phi_tmp[832 + i] = S0[i] * A;
-
-            // Density AM=6 Component=ZZZZZZ
-            phi_tmp[864 + i] = S0[i] * zc_pow6;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_to_spherical_sum_L6(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_gaussian_cart_to_spherical_sum_L6(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_cca_cart_sum_L6(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            for (unsigned long i = 0; i < norbitals; i++) {
-                gg_molden_cart_sum_L6(remain, (C + i * nout), phi_tmp, 32, (orbital_out + npoints * i + start), npoints);
-            }
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_phi.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_phi.c
deleted file mode 100644
index 77ece95..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_phi.c
+++ /dev/null
@@ -1,1371 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-
-
-void gg_collocation_L0(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 1;
-    const unsigned long nspherical = 1;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 32 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-            phi_out[start + i] = S0[i];
-        }
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L1(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 3;
-    const unsigned long nspherical = 3;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 96 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Density AM=1 Component=X
-            phi_tmp[i] = S0[i] * xc[i];
-
-            // Density AM=1 Component=Y
-            phi_tmp[32 + i] = S0[i] * yc[i];
-
-            // Density AM=1 Component=Z
-            phi_tmp[64 + i] = S0[i] * zc[i];
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L1(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L2(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 6;
-    const unsigned long nspherical = 5;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-
-            // Density AM=2 Component=XX
-            phi_tmp[i] = S0[i] * xc_pow2;
-
-            // Density AM=2 Component=XY
-            A = xc[i] * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=2 Component=XZ
-            A = xc[i] * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=2 Component=YY
-            phi_tmp[96 + i] = S0[i] * yc_pow2;
-
-            // Density AM=2 Component=YZ
-            A = yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=2 Component=ZZ
-            phi_tmp[160 + i] = S0[i] * zc_pow2;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L2(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L3(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 10;
-    const unsigned long nspherical = 7;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 320 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-
-            // Density AM=3 Component=XXX
-            phi_tmp[i] = S0[i] * xc_pow3;
-
-            // Density AM=3 Component=XXY
-            A = xc_pow2 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XXZ
-            A = xc_pow2 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XYY
-            A = xc[i] * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XYZ
-            A = xc[i] * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=3 Component=XZZ
-            A = xc[i] * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=3 Component=YYY
-            phi_tmp[192 + i] = S0[i] * yc_pow3;
-
-            // Density AM=3 Component=YYZ
-            A = yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=3 Component=YZZ
-            A = yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=3 Component=ZZZ
-            phi_tmp[288 + i] = S0[i] * zc_pow3;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L3(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L4(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 15;
-    const unsigned long nspherical = 9;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 480 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-
-            // Density AM=4 Component=XXXX
-            phi_tmp[i] = S0[i] * xc_pow4;
-
-            // Density AM=4 Component=XXXY
-            A = xc_pow3 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXXZ
-            A = xc_pow3 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXYY
-            A = xc_pow2 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXYZ
-            A = xc_pow2 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XXZZ
-            A = xc_pow2 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XYYY
-            A = xc[i] * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XYYZ
-            A = xc[i] * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XYZZ
-            A = xc[i] * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=4 Component=XZZZ
-            A = xc[i] * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Density AM=4 Component=YYYY
-            phi_tmp[320 + i] = S0[i] * yc_pow4;
-
-            // Density AM=4 Component=YYYZ
-            A = yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Density AM=4 Component=YYZZ
-            A = yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Density AM=4 Component=YZZZ
-            A = yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Density AM=4 Component=ZZZZ
-            phi_tmp[448 + i] = S0[i] * zc_pow4;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L4(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L5(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 21;
-    const unsigned long nspherical = 11;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 672 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-            const double xc_pow5 = xc_pow4 * xc[i];
-            const double yc_pow5 = yc_pow4 * yc[i];
-            const double zc_pow5 = zc_pow4 * zc[i];
-
-
-            // Density AM=5 Component=XXXXX
-            phi_tmp[i] = S0[i] * xc_pow5;
-
-            // Density AM=5 Component=XXXXY
-            A = xc_pow4 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXXZ
-            A = xc_pow4 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXYY
-            A = xc_pow3 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXYZ
-            A = xc_pow3 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXXZZ
-            A = xc_pow3 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXYYY
-            A = xc_pow2 * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXYYZ
-            A = xc_pow2 * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXYZZ
-            A = xc_pow2 * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XXZZZ
-            A = xc_pow2 * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYYYY
-            A = xc[i] * yc_pow4;
-            phi_tmp[320 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYYYZ
-            A = xc[i] * yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYYZZ
-            A = xc[i] * yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XYZZZ
-            A = xc[i] * yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Density AM=5 Component=XZZZZ
-            A = xc[i] * zc_pow4;
-            phi_tmp[448 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YYYYY
-            phi_tmp[480 + i] = S0[i] * yc_pow5;
-
-            // Density AM=5 Component=YYYYZ
-            A = yc_pow4 * zc[i];
-            phi_tmp[512 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YYYZZ
-            A = yc_pow3 * zc_pow2;
-            phi_tmp[544 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YYZZZ
-            A = yc_pow2 * zc_pow3;
-            phi_tmp[576 + i] = S0[i] * A;
-
-            // Density AM=5 Component=YZZZZ
-            A = yc[i] * zc_pow4;
-            phi_tmp[608 + i] = S0[i] * A;
-
-            // Density AM=5 Component=ZZZZZ
-            phi_tmp[640 + i] = S0[i] * zc_pow5;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L5(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
-
-void gg_collocation_L6(const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out) {
-
-    // Sizing
-    unsigned long nblocks = npoints / 32;
-    nblocks += (npoints % 32) ? 1 : 0;
-    const unsigned long ncart = 28;
-    const unsigned long nspherical = 13;
-    unsigned long nout;
-
-    if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN)) {
-        nout = nspherical;
-        } else {
-        nout = ncart;
-    }
-
-    // Allocate S temporaries, single block to stay on cache
-    double* PRAGMA_RESTRICT cache_data = (double*)ALIGNED_MALLOC(64, 192 * sizeof(double));
-    double* PRAGMA_RESTRICT xc = cache_data + 0;
-    ASSUME_ALIGNED(xc, 64);
-    double* PRAGMA_RESTRICT yc = cache_data + 32;
-    ASSUME_ALIGNED(yc, 64);
-    double* PRAGMA_RESTRICT zc = cache_data + 64;
-    ASSUME_ALIGNED(zc, 64);
-    double* PRAGMA_RESTRICT R2 = cache_data + 96;
-    ASSUME_ALIGNED(R2, 64);
-    double* PRAGMA_RESTRICT S0 = cache_data + 128;
-    ASSUME_ALIGNED(S0, 64);
-    double* PRAGMA_RESTRICT tmp1 = cache_data + 160;
-    ASSUME_ALIGNED(tmp1, 64);
-
-    // Allocate exponential temporaries
-    double* PRAGMA_RESTRICT expn1 = (double*)ALIGNED_MALLOC(64, nprim * sizeof(double));
-
-    // Allocate output temporaries
-    double* PRAGMA_RESTRICT phi_tmp = (double*)ALIGNED_MALLOC(64, 896 * sizeof(double));
-    ASSUME_ALIGNED(phi_tmp, 64);
-
-    // Declare doubles
-    const double center_x = center[0];
-    const double center_y = center[1];
-    const double center_z = center[2];
-    double A;
-
-    // Build negative exponents
-    for (unsigned long i = 0; i < nprim; i++) {
-        expn1[i] = -1.0 * exponents[i];
-    }
-
-    // Start outer block loop
-    for (unsigned long block = 0; block < nblocks; block++) {
-
-
-        // Copy data into inner temps
-        const unsigned long start = block * 32;
-        const unsigned long remain = ((start + 32) > npoints) ? (npoints - start) : 32;
-
-        // Handle non-AM dependant temps
-        if (xyz_stride == 1) {
-            const double* PRAGMA_RESTRICT x = xyz + start;
-            const double* PRAGMA_RESTRICT y = xyz + npoints + start;
-            const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start;
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = x[i] - center_x;
-                yc[i] = y[i] - center_y;
-                zc[i] = z[i] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-            } else {
-            unsigned int start_shift = start * xyz_stride;
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                xc[i] = xyz[start_shift + i * xyz_stride] - center_x;
-                yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y;
-                zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z;
-
-                // Distance
-                R2[i] = xc[i] * xc[i];
-                R2[i] += yc[i] * yc[i];
-                R2[i] += zc[i] * zc[i];
-
-                // Zero out S tmps
-                S0[i] = 0.0;
-            }
-        }
-
-        // Start exponential block loop
-        for (unsigned long n = 0; n < nprim; n++) {
-            const double coef = coeffs[n];
-            const double alpha_n1 = expn1[n];
-
-            PRAGMA_VECTORIZE
-            for (unsigned long i = 0; i < remain; i++) {
-                const double width = alpha_n1 * R2[i];
-                const double T1 = coef * exp(width);
-                S0[i] += T1;
-            }
-
-        }
-
-        // Combine blocks
-        PRAGMA_VECTORIZE
-        for (unsigned long i = 0; i < remain; i++) {
-
-            // Cartesian derivs
-            const double xc_pow2 = xc[i] * xc[i];
-            const double yc_pow2 = yc[i] * yc[i];
-            const double zc_pow2 = zc[i] * zc[i];
-
-            const double xc_pow3 = xc_pow2 * xc[i];
-            const double yc_pow3 = yc_pow2 * yc[i];
-            const double zc_pow3 = zc_pow2 * zc[i];
-
-            const double xc_pow4 = xc_pow3 * xc[i];
-            const double yc_pow4 = yc_pow3 * yc[i];
-            const double zc_pow4 = zc_pow3 * zc[i];
-
-            const double xc_pow5 = xc_pow4 * xc[i];
-            const double yc_pow5 = yc_pow4 * yc[i];
-            const double zc_pow5 = zc_pow4 * zc[i];
-
-            const double xc_pow6 = xc_pow5 * xc[i];
-            const double yc_pow6 = yc_pow5 * yc[i];
-            const double zc_pow6 = zc_pow5 * zc[i];
-
-
-            // Density AM=6 Component=XXXXXX
-            phi_tmp[i] = S0[i] * xc_pow6;
-
-            // Density AM=6 Component=XXXXXY
-            A = xc_pow5 * yc[i];
-            phi_tmp[32 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXXZ
-            A = xc_pow5 * zc[i];
-            phi_tmp[64 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXYY
-            A = xc_pow4 * yc_pow2;
-            phi_tmp[96 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXYZ
-            A = xc_pow4 * yc[i] * zc[i];
-            phi_tmp[128 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXXZZ
-            A = xc_pow4 * zc_pow2;
-            phi_tmp[160 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXYYY
-            A = xc_pow3 * yc_pow3;
-            phi_tmp[192 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXYYZ
-            A = xc_pow3 * yc_pow2 * zc[i];
-            phi_tmp[224 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXYZZ
-            A = xc_pow3 * yc[i] * zc_pow2;
-            phi_tmp[256 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXXZZZ
-            A = xc_pow3 * zc_pow3;
-            phi_tmp[288 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYYYY
-            A = xc_pow2 * yc_pow4;
-            phi_tmp[320 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYYYZ
-            A = xc_pow2 * yc_pow3 * zc[i];
-            phi_tmp[352 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYYZZ
-            A = xc_pow2 * yc_pow2 * zc_pow2;
-            phi_tmp[384 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXYZZZ
-            A = xc_pow2 * yc[i] * zc_pow3;
-            phi_tmp[416 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XXZZZZ
-            A = xc_pow2 * zc_pow4;
-            phi_tmp[448 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYYYY
-            A = xc[i] * yc_pow5;
-            phi_tmp[480 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYYYZ
-            A = xc[i] * yc_pow4 * zc[i];
-            phi_tmp[512 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYYZZ
-            A = xc[i] * yc_pow3 * zc_pow2;
-            phi_tmp[544 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYYZZZ
-            A = xc[i] * yc_pow2 * zc_pow3;
-            phi_tmp[576 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XYZZZZ
-            A = xc[i] * yc[i] * zc_pow4;
-            phi_tmp[608 + i] = S0[i] * A;
-
-            // Density AM=6 Component=XZZZZZ
-            A = xc[i] * zc_pow5;
-            phi_tmp[640 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYYYYY
-            phi_tmp[672 + i] = S0[i] * yc_pow6;
-
-            // Density AM=6 Component=YYYYYZ
-            A = yc_pow5 * zc[i];
-            phi_tmp[704 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYYYZZ
-            A = yc_pow4 * zc_pow2;
-            phi_tmp[736 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYYZZZ
-            A = yc_pow3 * zc_pow3;
-            phi_tmp[768 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YYZZZZ
-            A = yc_pow2 * zc_pow4;
-            phi_tmp[800 + i] = S0[i] * A;
-
-            // Density AM=6 Component=YZZZZZ
-            A = yc[i] * zc_pow5;
-            phi_tmp[832 + i] = S0[i] * A;
-
-            // Density AM=6 Component=ZZZZZZ
-            phi_tmp[864 + i] = S0[i] * zc_pow6;
-
-        }
-
-        // Copy data back into outer temps
-        if (order == GG_SPHERICAL_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_SPHERICAL_GAUSSIAN) {
-            // Phi, transform data to outer temps
-            gg_gaussian_cart_to_spherical_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_CCA) {
-            // Phi, transform data to outer temps
-            gg_cca_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-            } else if (order == GG_CARTESIAN_MOLDEN) {
-            // Phi, transform data to outer temps
-            gg_molden_cart_copy_L6(remain, phi_tmp, 32, (phi_out + start), npoints);
-        }
-
-    }
-
-    // Free S temporaries
-    ALIGNED_FREE(cache_data);
-    ALIGNED_FREE(expn1);
-
-    // Free inner temporaries
-    ALIGNED_FREE(phi_tmp);
-
-}
diff --git a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_transform.c b/third_party/gauxc/external/gau2grid/generated_source/gau2grid_transform.c
deleted file mode 100644
index 2e1c6f5..0000000
--- a/third_party/gauxc/external/gau2grid/generated_source/gau2grid_transform.c
+++ /dev/null
@@ -1,3716 +0,0 @@
-/*
- * This is a Gau2Grid automatically generated C file.
- *
- * More details can found at the following repo:
- *   https://github.com/dgasmith/gau2grid
- */
-
-#include <math.h>
-#if defined(__clang__) && defined(_MSC_VER)
-#include <malloc.h>
-#elif defined __clang__
-#include <mm_malloc.h>
-#elif defined _MSC_VER
-#include <malloc.h>
-#else
-#include <stdlib.h>
-#endif
-
-#include "gau2grid/gau2grid.h"
-#include "gau2grid/gau2grid_utility.h"
-#include "gau2grid/gau2grid_pragma.h"
-
-void gg_cca_cart_to_spherical_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_00 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = cart[i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L0(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_00 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[i];
-        output[i] += tmp * vector[0];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_10 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = cart[ncart + i];
-
-    }
-
-    // R_11c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  = cart[2 * ncart + i];
-
-    }
-    // R_11s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = cart[i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L1(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_10 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_11c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[2 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_11s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[i];
-        output[i] += tmp * vector[2];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_20 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  1.7320508075688772 * cart[ncart + i];
-
-    }
-
-    // R_21c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  1.7320508075688772 * cart[4 * ncart + i];
-
-    }
-    // R_21s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -0.5000000000000000 * cart[i];
-        spherical[2 * nspherical + i] += -0.5000000000000000 * cart[3 * ncart + i];
-        spherical[2 * nspherical + i] += cart[5 * ncart + i];
-
-    }
-
-    // R_22c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  =  1.7320508075688772 * cart[2 * ncart + i];
-
-    }
-    // R_22s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  0.8660254037844386 * cart[i];
-        spherical[4 * nspherical + i] += -0.8660254037844386 * cart[3 * ncart + i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L2(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_20 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.7320508075688772 * cart[ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_21c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.7320508075688772 * cart[4 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_21s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.5000000000000000 * cart[i];
-        tmp += -0.5000000000000000 * cart[3 * ncart + i];
-        tmp += cart[5 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_22c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.7320508075688772 * cart[2 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_22s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.8660254037844386 * cart[i];
-        tmp += -0.8660254037844386 * cart[3 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_30 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  2.3717082451262845 * cart[ncart + i];
-        spherical[i] += -0.7905694150420949 * cart[6 * ncart + i];
-
-    }
-
-    // R_31c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  3.8729833462074170 * cart[4 * ncart + i];
-
-    }
-    // R_31s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -0.6123724356957945 * cart[ncart + i];
-        spherical[2 * nspherical + i] += -0.6123724356957945 * cart[6 * ncart + i];
-        spherical[2 * nspherical + i] +=  2.4494897427831779 * cart[8 * ncart + i];
-
-    }
-
-    // R_32c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  = -1.5000000000000000 * cart[2 * ncart + i];
-        spherical[3 * nspherical + i] += -1.5000000000000000 * cart[7 * ncart + i];
-        spherical[3 * nspherical + i] += cart[9 * ncart + i];
-
-    }
-    // R_32s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  = -0.6123724356957945 * cart[i];
-        spherical[4 * nspherical + i] += -0.6123724356957945 * cart[3 * ncart + i];
-        spherical[4 * nspherical + i] +=  2.4494897427831779 * cart[5 * ncart + i];
-
-    }
-
-    // R_33c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  =  1.9364916731037085 * cart[2 * ncart + i];
-        spherical[5 * nspherical + i] += -1.9364916731037085 * cart[7 * ncart + i];
-
-    }
-    // R_33s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  =  0.7905694150420949 * cart[i];
-        spherical[6 * nspherical + i] += -2.3717082451262845 * cart[3 * ncart + i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L3(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_30 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.3717082451262845 * cart[ncart + i];
-        tmp += -0.7905694150420949 * cart[6 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_31c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  3.8729833462074170 * cart[4 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_31s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.6123724356957945 * cart[ncart + i];
-        tmp += -0.6123724356957945 * cart[6 * ncart + i];
-        tmp +=  2.4494897427831779 * cart[8 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_32c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.5000000000000000 * cart[2 * ncart + i];
-        tmp += -1.5000000000000000 * cart[7 * ncart + i];
-        tmp += cart[9 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_32s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.6123724356957945 * cart[i];
-        tmp += -0.6123724356957945 * cart[3 * ncart + i];
-        tmp +=  2.4494897427831779 * cart[5 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_33c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.9364916731037085 * cart[2 * ncart + i];
-        tmp += -1.9364916731037085 * cart[7 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_33s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.7905694150420949 * cart[i];
-        tmp += -2.3717082451262845 * cart[3 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_40 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  2.9580398915498081 * cart[ncart + i];
-        spherical[i] += -2.9580398915498081 * cart[6 * ncart + i];
-
-    }
-
-    // R_41c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  6.2749501990055663 * cart[4 * ncart + i];
-        spherical[nspherical + i] += -2.0916500663351889 * cart[11 * ncart + i];
-
-    }
-    // R_41s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -1.1180339887498949 * cart[ncart + i];
-        spherical[2 * nspherical + i] += -1.1180339887498949 * cart[6 * ncart + i];
-        spherical[2 * nspherical + i] +=  6.7082039324993694 * cart[8 * ncart + i];
-
-    }
-
-    // R_42c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  = -2.3717082451262845 * cart[4 * ncart + i];
-        spherical[3 * nspherical + i] += -2.3717082451262845 * cart[11 * ncart + i];
-        spherical[3 * nspherical + i] +=  3.1622776601683795 * cart[13 * ncart + i];
-
-    }
-    // R_42s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  0.3750000000000000 * cart[i];
-        spherical[4 * nspherical + i] +=  0.7500000000000000 * cart[3 * ncart + i];
-        spherical[4 * nspherical + i] +=  0.3750000000000000 * cart[10 * ncart + i];
-        spherical[4 * nspherical + i] += -3.0000000000000000 * cart[5 * ncart + i];
-        spherical[4 * nspherical + i] += -3.0000000000000000 * cart[12 * ncart + i];
-        spherical[4 * nspherical + i] += cart[14 * ncart + i];
-
-    }
-
-    // R_43c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  = -2.3717082451262845 * cart[2 * ncart + i];
-        spherical[5 * nspherical + i] += -2.3717082451262845 * cart[7 * ncart + i];
-        spherical[5 * nspherical + i] +=  3.1622776601683795 * cart[9 * ncart + i];
-
-    }
-    // R_43s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  = -0.5590169943749475 * cart[i];
-        spherical[6 * nspherical + i] +=  0.5590169943749475 * cart[10 * ncart + i];
-        spherical[6 * nspherical + i] +=  3.3541019662496847 * cart[5 * ncart + i];
-        spherical[6 * nspherical + i] += -3.3541019662496847 * cart[12 * ncart + i];
-
-    }
-
-    // R_44c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[7 * nspherical + i]  =  2.0916500663351889 * cart[2 * ncart + i];
-        spherical[7 * nspherical + i] += -6.2749501990055663 * cart[7 * ncart + i];
-
-    }
-    // R_44s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[8 * nspherical + i]  =  0.7395099728874520 * cart[i];
-        spherical[8 * nspherical + i] += -4.4370598373247123 * cart[3 * ncart + i];
-        spherical[8 * nspherical + i] +=  0.7395099728874520 * cart[10 * ncart + i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L4(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_40 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.9580398915498081 * cart[ncart + i];
-        tmp += -2.9580398915498081 * cart[6 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_41c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  6.2749501990055663 * cart[4 * ncart + i];
-        tmp += -2.0916500663351889 * cart[11 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_41s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.1180339887498949 * cart[ncart + i];
-        tmp += -1.1180339887498949 * cart[6 * ncart + i];
-        tmp +=  6.7082039324993694 * cart[8 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_42c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.3717082451262845 * cart[4 * ncart + i];
-        tmp += -2.3717082451262845 * cart[11 * ncart + i];
-        tmp +=  3.1622776601683795 * cart[13 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_42s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.3750000000000000 * cart[i];
-        tmp +=  0.7500000000000000 * cart[3 * ncart + i];
-        tmp +=  0.3750000000000000 * cart[10 * ncart + i];
-        tmp += -3.0000000000000000 * cart[5 * ncart + i];
-        tmp += -3.0000000000000000 * cart[12 * ncart + i];
-        tmp += cart[14 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_43c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.3717082451262845 * cart[2 * ncart + i];
-        tmp += -2.3717082451262845 * cart[7 * ncart + i];
-        tmp +=  3.1622776601683795 * cart[9 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_43s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.5590169943749475 * cart[i];
-        tmp +=  0.5590169943749475 * cart[10 * ncart + i];
-        tmp +=  3.3541019662496847 * cart[5 * ncart + i];
-        tmp += -3.3541019662496847 * cart[12 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-    // R_44c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.0916500663351889 * cart[2 * ncart + i];
-        tmp += -6.2749501990055663 * cart[7 * ncart + i];
-        output[i] += tmp * vector[7];
-
-    }
-    // R_44s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.7395099728874520 * cart[i];
-        tmp += -4.4370598373247123 * cart[3 * ncart + i];
-        tmp +=  0.7395099728874520 * cart[10 * ncart + i];
-        output[i] += tmp * vector[8];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_50 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  3.5078038001005702 * cart[ncart + i];
-        spherical[i] += -7.0156076002011405 * cart[6 * ncart + i];
-        spherical[i] +=  0.7015607600201140 * cart[15 * ncart + i];
-
-    }
-
-    // R_51c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  8.8741196746494246 * cart[4 * ncart + i];
-        spherical[nspherical + i] += -8.8741196746494246 * cart[11 * ncart + i];
-
-    }
-    // R_51s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -1.5687375497513916 * cart[ncart + i];
-        spherical[2 * nspherical + i] += -1.0458250331675945 * cart[6 * ncart + i];
-        spherical[2 * nspherical + i] +=  0.5229125165837972 * cart[15 * ncart + i];
-        spherical[2 * nspherical + i] +=  12.5499003980111326 * cart[8 * ncart + i];
-        spherical[2 * nspherical + i] += -4.1833001326703778 * cart[17 * ncart + i];
-
-    }
-
-    // R_52c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  = -5.1234753829797990 * cart[4 * ncart + i];
-        spherical[3 * nspherical + i] += -5.1234753829797990 * cart[11 * ncart + i];
-        spherical[3 * nspherical + i] +=  10.2469507659595980 * cart[13 * ncart + i];
-
-    }
-    // R_52s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  0.4841229182759271 * cart[ncart + i];
-        spherical[4 * nspherical + i] +=  0.9682458365518543 * cart[6 * ncart + i];
-        spherical[4 * nspherical + i] +=  0.4841229182759271 * cart[15 * ncart + i];
-        spherical[4 * nspherical + i] += -5.8094750193111251 * cart[8 * ncart + i];
-        spherical[4 * nspherical + i] += -5.8094750193111251 * cart[17 * ncart + i];
-        spherical[4 * nspherical + i] +=  3.8729833462074170 * cart[19 * ncart + i];
-
-    }
-
-    // R_53c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  =  1.8750000000000000 * cart[2 * ncart + i];
-        spherical[5 * nspherical + i] +=  3.7500000000000000 * cart[7 * ncart + i];
-        spherical[5 * nspherical + i] +=  1.8750000000000000 * cart[16 * ncart + i];
-        spherical[5 * nspherical + i] += -5.0000000000000000 * cart[9 * ncart + i];
-        spherical[5 * nspherical + i] += -5.0000000000000000 * cart[18 * ncart + i];
-        spherical[5 * nspherical + i] += cart[20 * ncart + i];
-
-    }
-    // R_53s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  =  0.4841229182759271 * cart[i];
-        spherical[6 * nspherical + i] +=  0.9682458365518543 * cart[3 * ncart + i];
-        spherical[6 * nspherical + i] +=  0.4841229182759271 * cart[10 * ncart + i];
-        spherical[6 * nspherical + i] += -5.8094750193111251 * cart[5 * ncart + i];
-        spherical[6 * nspherical + i] += -5.8094750193111251 * cart[12 * ncart + i];
-        spherical[6 * nspherical + i] +=  3.8729833462074170 * cart[14 * ncart + i];
-
-    }
-
-    // R_54c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[7 * nspherical + i]  = -2.5617376914898995 * cart[2 * ncart + i];
-        spherical[7 * nspherical + i] +=  2.5617376914898995 * cart[16 * ncart + i];
-        spherical[7 * nspherical + i] +=  5.1234753829797990 * cart[9 * ncart + i];
-        spherical[7 * nspherical + i] += -5.1234753829797990 * cart[18 * ncart + i];
-
-    }
-    // R_54s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[8 * nspherical + i]  = -0.5229125165837972 * cart[i];
-        spherical[8 * nspherical + i] +=  1.0458250331675945 * cart[3 * ncart + i];
-        spherical[8 * nspherical + i] +=  1.5687375497513916 * cart[10 * ncart + i];
-        spherical[8 * nspherical + i] +=  4.1833001326703778 * cart[5 * ncart + i];
-        spherical[8 * nspherical + i] += -12.5499003980111326 * cart[12 * ncart + i];
-
-    }
-
-    // R_55c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[9 * nspherical + i]  =  2.2185299186623562 * cart[2 * ncart + i];
-        spherical[9 * nspherical + i] += -13.3111795119741370 * cart[7 * ncart + i];
-        spherical[9 * nspherical + i] +=  2.2185299186623562 * cart[16 * ncart + i];
-
-    }
-    // R_55s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[10 * nspherical + i]  =  0.7015607600201140 * cart[i];
-        spherical[10 * nspherical + i] += -7.0156076002011405 * cart[3 * ncart + i];
-        spherical[10 * nspherical + i] +=  3.5078038001005702 * cart[10 * ncart + i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L5(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_50 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  3.5078038001005702 * cart[ncart + i];
-        tmp += -7.0156076002011405 * cart[6 * ncart + i];
-        tmp +=  0.7015607600201140 * cart[15 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_51c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  8.8741196746494246 * cart[4 * ncart + i];
-        tmp += -8.8741196746494246 * cart[11 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_51s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.5687375497513916 * cart[ncart + i];
-        tmp += -1.0458250331675945 * cart[6 * ncart + i];
-        tmp +=  0.5229125165837972 * cart[15 * ncart + i];
-        tmp +=  12.5499003980111326 * cart[8 * ncart + i];
-        tmp += -4.1833001326703778 * cart[17 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_52c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -5.1234753829797990 * cart[4 * ncart + i];
-        tmp += -5.1234753829797990 * cart[11 * ncart + i];
-        tmp +=  10.2469507659595980 * cart[13 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_52s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.4841229182759271 * cart[ncart + i];
-        tmp +=  0.9682458365518543 * cart[6 * ncart + i];
-        tmp +=  0.4841229182759271 * cart[15 * ncart + i];
-        tmp += -5.8094750193111251 * cart[8 * ncart + i];
-        tmp += -5.8094750193111251 * cart[17 * ncart + i];
-        tmp +=  3.8729833462074170 * cart[19 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_53c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.8750000000000000 * cart[2 * ncart + i];
-        tmp +=  3.7500000000000000 * cart[7 * ncart + i];
-        tmp +=  1.8750000000000000 * cart[16 * ncart + i];
-        tmp += -5.0000000000000000 * cart[9 * ncart + i];
-        tmp += -5.0000000000000000 * cart[18 * ncart + i];
-        tmp += cart[20 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_53s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.4841229182759271 * cart[i];
-        tmp +=  0.9682458365518543 * cart[3 * ncart + i];
-        tmp +=  0.4841229182759271 * cart[10 * ncart + i];
-        tmp += -5.8094750193111251 * cart[5 * ncart + i];
-        tmp += -5.8094750193111251 * cart[12 * ncart + i];
-        tmp +=  3.8729833462074170 * cart[14 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-    // R_54c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.5617376914898995 * cart[2 * ncart + i];
-        tmp +=  2.5617376914898995 * cart[16 * ncart + i];
-        tmp +=  5.1234753829797990 * cart[9 * ncart + i];
-        tmp += -5.1234753829797990 * cart[18 * ncart + i];
-        output[i] += tmp * vector[7];
-
-    }
-    // R_54s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.5229125165837972 * cart[i];
-        tmp +=  1.0458250331675945 * cart[3 * ncart + i];
-        tmp +=  1.5687375497513916 * cart[10 * ncart + i];
-        tmp +=  4.1833001326703778 * cart[5 * ncart + i];
-        tmp += -12.5499003980111326 * cart[12 * ncart + i];
-        output[i] += tmp * vector[8];
-
-    }
-
-    // R_55c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.2185299186623562 * cart[2 * ncart + i];
-        tmp += -13.3111795119741370 * cart[7 * ncart + i];
-        tmp +=  2.2185299186623562 * cart[16 * ncart + i];
-        output[i] += tmp * vector[9];
-
-    }
-    // R_55s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.7015607600201140 * cart[i];
-        tmp += -7.0156076002011405 * cart[3 * ncart + i];
-        tmp +=  3.5078038001005702 * cart[10 * ncart + i];
-        output[i] += tmp * vector[10];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_60 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  4.0301597362883772 * cart[ncart + i];
-        spherical[i] += -13.4338657876279228 * cart[6 * ncart + i];
-        spherical[i] +=  4.0301597362883772 * cart[15 * ncart + i];
-
-    }
-
-    // R_61c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  11.6340690431164280 * cart[4 * ncart + i];
-        spherical[nspherical + i] += -23.2681380862328560 * cart[11 * ncart + i];
-        spherical[nspherical + i] +=  2.3268138086232857 * cart[22 * ncart + i];
-
-    }
-    // R_61s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -1.9843134832984430 * cart[ncart + i];
-        spherical[2 * nspherical + i] +=  1.9843134832984430 * cart[15 * ncart + i];
-        spherical[2 * nspherical + i] +=  19.8431348329844290 * cart[8 * ncart + i];
-        spherical[2 * nspherical + i] += -19.8431348329844290 * cart[17 * ncart + i];
-
-    }
-
-    // R_62c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  = -8.1513994197315593 * cart[4 * ncart + i];
-        spherical[3 * nspherical + i] += -5.4342662798210393 * cart[11 * ncart + i];
-        spherical[3 * nspherical + i] +=  2.7171331399105196 * cart[22 * ncart + i];
-        spherical[3 * nspherical + i] +=  21.7370651192841571 * cart[13 * ncart + i];
-        spherical[3 * nspherical + i] += -7.2456883730947190 * cart[24 * ncart + i];
-
-    }
-    // R_62s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  0.9057110466368399 * cart[ncart + i];
-        spherical[4 * nspherical + i] +=  1.8114220932736798 * cart[6 * ncart + i];
-        spherical[4 * nspherical + i] +=  0.9057110466368399 * cart[15 * ncart + i];
-        spherical[4 * nspherical + i] += -14.4913767461894381 * cart[8 * ncart + i];
-        spherical[4 * nspherical + i] += -14.4913767461894381 * cart[17 * ncart + i];
-        spherical[4 * nspherical + i] +=  14.4913767461894381 * cart[19 * ncart + i];
-
-    }
-
-    // R_63c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  =  2.8641098093473998 * cart[4 * ncart + i];
-        spherical[5 * nspherical + i] +=  5.7282196186947996 * cart[11 * ncart + i];
-        spherical[5 * nspherical + i] +=  2.8641098093473998 * cart[22 * ncart + i];
-        spherical[5 * nspherical + i] += -11.4564392373895991 * cart[13 * ncart + i];
-        spherical[5 * nspherical + i] += -11.4564392373895991 * cart[24 * ncart + i];
-        spherical[5 * nspherical + i] +=  4.5825756949558398 * cart[26 * ncart + i];
-
-    }
-    // R_63s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  = -0.3125000000000000 * cart[i];
-        spherical[6 * nspherical + i] += -0.9375000000000000 * cart[3 * ncart + i];
-        spherical[6 * nspherical + i] += -0.9375000000000000 * cart[10 * ncart + i];
-        spherical[6 * nspherical + i] += -0.3125000000000000 * cart[21 * ncart + i];
-        spherical[6 * nspherical + i] +=  5.6250000000000000 * cart[5 * ncart + i];
-        spherical[6 * nspherical + i] +=  11.2500000000000000 * cart[12 * ncart + i];
-        spherical[6 * nspherical + i] +=  5.6250000000000000 * cart[23 * ncart + i];
-        spherical[6 * nspherical + i] += -7.5000000000000000 * cart[14 * ncart + i];
-        spherical[6 * nspherical + i] += -7.5000000000000000 * cart[25 * ncart + i];
-        spherical[6 * nspherical + i] += cart[27 * ncart + i];
-
-    }
-
-    // R_64c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[7 * nspherical + i]  =  2.8641098093473998 * cart[2 * ncart + i];
-        spherical[7 * nspherical + i] +=  5.7282196186947996 * cart[7 * ncart + i];
-        spherical[7 * nspherical + i] +=  2.8641098093473998 * cart[16 * ncart + i];
-        spherical[7 * nspherical + i] += -11.4564392373895991 * cart[9 * ncart + i];
-        spherical[7 * nspherical + i] += -11.4564392373895991 * cart[18 * ncart + i];
-        spherical[7 * nspherical + i] +=  4.5825756949558398 * cart[20 * ncart + i];
-
-    }
-    // R_64s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[8 * nspherical + i]  =  0.4528555233184199 * cart[i];
-        spherical[8 * nspherical + i] +=  0.4528555233184199 * cart[3 * ncart + i];
-        spherical[8 * nspherical + i] += -0.4528555233184199 * cart[10 * ncart + i];
-        spherical[8 * nspherical + i] += -0.4528555233184199 * cart[21 * ncart + i];
-        spherical[8 * nspherical + i] += -7.2456883730947190 * cart[5 * ncart + i];
-        spherical[8 * nspherical + i] +=  7.2456883730947190 * cart[23 * ncart + i];
-        spherical[8 * nspherical + i] +=  7.2456883730947190 * cart[14 * ncart + i];
-        spherical[8 * nspherical + i] += -7.2456883730947190 * cart[25 * ncart + i];
-
-    }
-
-    // R_65c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[9 * nspherical + i]  = -2.7171331399105196 * cart[2 * ncart + i];
-        spherical[9 * nspherical + i] +=  5.4342662798210393 * cart[7 * ncart + i];
-        spherical[9 * nspherical + i] +=  8.1513994197315593 * cart[16 * ncart + i];
-        spherical[9 * nspherical + i] +=  7.2456883730947190 * cart[9 * ncart + i];
-        spherical[9 * nspherical + i] += -21.7370651192841571 * cart[18 * ncart + i];
-
-    }
-    // R_65s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[10 * nspherical + i]  = -0.4960783708246108 * cart[i];
-        spherical[10 * nspherical + i] +=  2.4803918541230536 * cart[3 * ncart + i];
-        spherical[10 * nspherical + i] +=  2.4803918541230536 * cart[10 * ncart + i];
-        spherical[10 * nspherical + i] += -0.4960783708246108 * cart[21 * ncart + i];
-        spherical[10 * nspherical + i] +=  4.9607837082461073 * cart[5 * ncart + i];
-        spherical[10 * nspherical + i] += -29.7647022494766453 * cart[12 * ncart + i];
-        spherical[10 * nspherical + i] +=  4.9607837082461073 * cart[23 * ncart + i];
-
-    }
-
-    // R_66c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[11 * nspherical + i]  =  2.3268138086232857 * cart[2 * ncart + i];
-        spherical[11 * nspherical + i] += -23.2681380862328560 * cart[7 * ncart + i];
-        spherical[11 * nspherical + i] +=  11.6340690431164280 * cart[16 * ncart + i];
-
-    }
-    // R_66s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[12 * nspherical + i]  =  0.6716932893813962 * cart[i];
-        spherical[12 * nspherical + i] += -10.0753993407209421 * cart[3 * ncart + i];
-        spherical[12 * nspherical + i] +=  10.0753993407209421 * cart[10 * ncart + i];
-        spherical[12 * nspherical + i] += -0.6716932893813962 * cart[21 * ncart + i];
-
-    }
-
-}
-void gg_cca_cart_to_spherical_sum_L6(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_60 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  4.0301597362883772 * cart[ncart + i];
-        tmp += -13.4338657876279228 * cart[6 * ncart + i];
-        tmp +=  4.0301597362883772 * cart[15 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_61c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  11.6340690431164280 * cart[4 * ncart + i];
-        tmp += -23.2681380862328560 * cart[11 * ncart + i];
-        tmp +=  2.3268138086232857 * cart[22 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_61s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.9843134832984430 * cart[ncart + i];
-        tmp +=  1.9843134832984430 * cart[15 * ncart + i];
-        tmp +=  19.8431348329844290 * cart[8 * ncart + i];
-        tmp += -19.8431348329844290 * cart[17 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_62c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -8.1513994197315593 * cart[4 * ncart + i];
-        tmp += -5.4342662798210393 * cart[11 * ncart + i];
-        tmp +=  2.7171331399105196 * cart[22 * ncart + i];
-        tmp +=  21.7370651192841571 * cart[13 * ncart + i];
-        tmp += -7.2456883730947190 * cart[24 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_62s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.9057110466368399 * cart[ncart + i];
-        tmp +=  1.8114220932736798 * cart[6 * ncart + i];
-        tmp +=  0.9057110466368399 * cart[15 * ncart + i];
-        tmp += -14.4913767461894381 * cart[8 * ncart + i];
-        tmp += -14.4913767461894381 * cart[17 * ncart + i];
-        tmp +=  14.4913767461894381 * cart[19 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_63c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.8641098093473998 * cart[4 * ncart + i];
-        tmp +=  5.7282196186947996 * cart[11 * ncart + i];
-        tmp +=  2.8641098093473998 * cart[22 * ncart + i];
-        tmp += -11.4564392373895991 * cart[13 * ncart + i];
-        tmp += -11.4564392373895991 * cart[24 * ncart + i];
-        tmp +=  4.5825756949558398 * cart[26 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_63s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.3125000000000000 * cart[i];
-        tmp += -0.9375000000000000 * cart[3 * ncart + i];
-        tmp += -0.9375000000000000 * cart[10 * ncart + i];
-        tmp += -0.3125000000000000 * cart[21 * ncart + i];
-        tmp +=  5.6250000000000000 * cart[5 * ncart + i];
-        tmp +=  11.2500000000000000 * cart[12 * ncart + i];
-        tmp +=  5.6250000000000000 * cart[23 * ncart + i];
-        tmp += -7.5000000000000000 * cart[14 * ncart + i];
-        tmp += -7.5000000000000000 * cart[25 * ncart + i];
-        tmp += cart[27 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-    // R_64c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.8641098093473998 * cart[2 * ncart + i];
-        tmp +=  5.7282196186947996 * cart[7 * ncart + i];
-        tmp +=  2.8641098093473998 * cart[16 * ncart + i];
-        tmp += -11.4564392373895991 * cart[9 * ncart + i];
-        tmp += -11.4564392373895991 * cart[18 * ncart + i];
-        tmp +=  4.5825756949558398 * cart[20 * ncart + i];
-        output[i] += tmp * vector[7];
-
-    }
-    // R_64s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.4528555233184199 * cart[i];
-        tmp +=  0.4528555233184199 * cart[3 * ncart + i];
-        tmp += -0.4528555233184199 * cart[10 * ncart + i];
-        tmp += -0.4528555233184199 * cart[21 * ncart + i];
-        tmp += -7.2456883730947190 * cart[5 * ncart + i];
-        tmp +=  7.2456883730947190 * cart[23 * ncart + i];
-        tmp +=  7.2456883730947190 * cart[14 * ncart + i];
-        tmp += -7.2456883730947190 * cart[25 * ncart + i];
-        output[i] += tmp * vector[8];
-
-    }
-
-    // R_65c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.7171331399105196 * cart[2 * ncart + i];
-        tmp +=  5.4342662798210393 * cart[7 * ncart + i];
-        tmp +=  8.1513994197315593 * cart[16 * ncart + i];
-        tmp +=  7.2456883730947190 * cart[9 * ncart + i];
-        tmp += -21.7370651192841571 * cart[18 * ncart + i];
-        output[i] += tmp * vector[9];
-
-    }
-    // R_65s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.4960783708246108 * cart[i];
-        tmp +=  2.4803918541230536 * cart[3 * ncart + i];
-        tmp +=  2.4803918541230536 * cart[10 * ncart + i];
-        tmp += -0.4960783708246108 * cart[21 * ncart + i];
-        tmp +=  4.9607837082461073 * cart[5 * ncart + i];
-        tmp += -29.7647022494766453 * cart[12 * ncart + i];
-        tmp +=  4.9607837082461073 * cart[23 * ncart + i];
-        output[i] += tmp * vector[10];
-
-    }
-
-    // R_66c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.3268138086232857 * cart[2 * ncart + i];
-        tmp += -23.2681380862328560 * cart[7 * ncart + i];
-        tmp +=  11.6340690431164280 * cart[16 * ncart + i];
-        output[i] += tmp * vector[11];
-
-    }
-    // R_66s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.6716932893813962 * cart[i];
-        tmp += -10.0753993407209421 * cart[3 * ncart + i];
-        tmp +=  10.0753993407209421 * cart[10 * ncart + i];
-        tmp += -0.6716932893813962 * cart[21 * ncart + i];
-        output[i] += tmp * vector[12];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_00 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = cart[i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L0(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_00 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[i];
-        output[i] += tmp * vector[0];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_10 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = cart[2 * ncart + i];
-
-    }
-
-    // R_11c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  = cart[i];
-
-    }
-    // R_11s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = cart[ncart + i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L1(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_10 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[2 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_11c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_11s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = cart[ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_20 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = -0.5000000000000000 * cart[i];
-        spherical[i] += -0.5000000000000000 * cart[3 * ncart + i];
-        spherical[i] += cart[5 * ncart + i];
-
-    }
-
-    // R_21c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  1.7320508075688772 * cart[2 * ncart + i];
-
-    }
-    // R_21s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  =  1.7320508075688772 * cart[4 * ncart + i];
-
-    }
-
-    // R_22c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  =  0.8660254037844386 * cart[i];
-        spherical[3 * nspherical + i] += -0.8660254037844386 * cart[3 * ncart + i];
-
-    }
-    // R_22s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  1.7320508075688772 * cart[ncart + i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L2(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_20 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.5000000000000000 * cart[i];
-        tmp += -0.5000000000000000 * cart[3 * ncart + i];
-        tmp += cart[5 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_21c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.7320508075688772 * cart[2 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_21s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.7320508075688772 * cart[4 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_22c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.8660254037844386 * cart[i];
-        tmp += -0.8660254037844386 * cart[3 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_22s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.7320508075688772 * cart[ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_30 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = -1.5000000000000000 * cart[2 * ncart + i];
-        spherical[i] += -1.5000000000000000 * cart[7 * ncart + i];
-        spherical[i] += cart[9 * ncart + i];
-
-    }
-
-    // R_31c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  = -0.6123724356957945 * cart[i];
-        spherical[nspherical + i] += -0.6123724356957945 * cart[3 * ncart + i];
-        spherical[nspherical + i] +=  2.4494897427831779 * cart[5 * ncart + i];
-
-    }
-    // R_31s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -0.6123724356957945 * cart[ncart + i];
-        spherical[2 * nspherical + i] += -0.6123724356957945 * cart[6 * ncart + i];
-        spherical[2 * nspherical + i] +=  2.4494897427831779 * cart[8 * ncart + i];
-
-    }
-
-    // R_32c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  =  1.9364916731037085 * cart[2 * ncart + i];
-        spherical[3 * nspherical + i] += -1.9364916731037085 * cart[7 * ncart + i];
-
-    }
-    // R_32s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  3.8729833462074170 * cart[4 * ncart + i];
-
-    }
-
-    // R_33c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  =  0.7905694150420949 * cart[i];
-        spherical[5 * nspherical + i] += -2.3717082451262845 * cart[3 * ncart + i];
-
-    }
-    // R_33s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  =  2.3717082451262845 * cart[ncart + i];
-        spherical[6 * nspherical + i] += -0.7905694150420949 * cart[6 * ncart + i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L3(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_30 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.5000000000000000 * cart[2 * ncart + i];
-        tmp += -1.5000000000000000 * cart[7 * ncart + i];
-        tmp += cart[9 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_31c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.6123724356957945 * cart[i];
-        tmp += -0.6123724356957945 * cart[3 * ncart + i];
-        tmp +=  2.4494897427831779 * cart[5 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_31s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.6123724356957945 * cart[ncart + i];
-        tmp += -0.6123724356957945 * cart[6 * ncart + i];
-        tmp +=  2.4494897427831779 * cart[8 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_32c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.9364916731037085 * cart[2 * ncart + i];
-        tmp += -1.9364916731037085 * cart[7 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_32s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  3.8729833462074170 * cart[4 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_33c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.7905694150420949 * cart[i];
-        tmp += -2.3717082451262845 * cart[3 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_33s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.3717082451262845 * cart[ncart + i];
-        tmp += -0.7905694150420949 * cart[6 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_40 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  0.3750000000000000 * cart[i];
-        spherical[i] +=  0.7500000000000000 * cart[3 * ncart + i];
-        spherical[i] +=  0.3750000000000000 * cart[10 * ncart + i];
-        spherical[i] += -3.0000000000000000 * cart[5 * ncart + i];
-        spherical[i] += -3.0000000000000000 * cart[12 * ncart + i];
-        spherical[i] += cart[14 * ncart + i];
-
-    }
-
-    // R_41c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  = -2.3717082451262845 * cart[2 * ncart + i];
-        spherical[nspherical + i] += -2.3717082451262845 * cart[7 * ncart + i];
-        spherical[nspherical + i] +=  3.1622776601683795 * cart[9 * ncart + i];
-
-    }
-    // R_41s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  = -2.3717082451262845 * cart[4 * ncart + i];
-        spherical[2 * nspherical + i] += -2.3717082451262845 * cart[11 * ncart + i];
-        spherical[2 * nspherical + i] +=  3.1622776601683795 * cart[13 * ncart + i];
-
-    }
-
-    // R_42c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  = -0.5590169943749475 * cart[i];
-        spherical[3 * nspherical + i] +=  0.5590169943749475 * cart[10 * ncart + i];
-        spherical[3 * nspherical + i] +=  3.3541019662496847 * cart[5 * ncart + i];
-        spherical[3 * nspherical + i] += -3.3541019662496847 * cart[12 * ncart + i];
-
-    }
-    // R_42s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  = -1.1180339887498949 * cart[ncart + i];
-        spherical[4 * nspherical + i] += -1.1180339887498949 * cart[6 * ncart + i];
-        spherical[4 * nspherical + i] +=  6.7082039324993694 * cart[8 * ncart + i];
-
-    }
-
-    // R_43c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  =  2.0916500663351889 * cart[2 * ncart + i];
-        spherical[5 * nspherical + i] += -6.2749501990055663 * cart[7 * ncart + i];
-
-    }
-    // R_43s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  =  6.2749501990055663 * cart[4 * ncart + i];
-        spherical[6 * nspherical + i] += -2.0916500663351889 * cart[11 * ncart + i];
-
-    }
-
-    // R_44c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[7 * nspherical + i]  =  0.7395099728874520 * cart[i];
-        spherical[7 * nspherical + i] += -4.4370598373247123 * cart[3 * ncart + i];
-        spherical[7 * nspherical + i] +=  0.7395099728874520 * cart[10 * ncart + i];
-
-    }
-    // R_44s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[8 * nspherical + i]  =  2.9580398915498081 * cart[ncart + i];
-        spherical[8 * nspherical + i] += -2.9580398915498081 * cart[6 * ncart + i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L4(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_40 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.3750000000000000 * cart[i];
-        tmp +=  0.7500000000000000 * cart[3 * ncart + i];
-        tmp +=  0.3750000000000000 * cart[10 * ncart + i];
-        tmp += -3.0000000000000000 * cart[5 * ncart + i];
-        tmp += -3.0000000000000000 * cart[12 * ncart + i];
-        tmp += cart[14 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_41c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.3717082451262845 * cart[2 * ncart + i];
-        tmp += -2.3717082451262845 * cart[7 * ncart + i];
-        tmp +=  3.1622776601683795 * cart[9 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_41s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.3717082451262845 * cart[4 * ncart + i];
-        tmp += -2.3717082451262845 * cart[11 * ncart + i];
-        tmp +=  3.1622776601683795 * cart[13 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_42c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.5590169943749475 * cart[i];
-        tmp +=  0.5590169943749475 * cart[10 * ncart + i];
-        tmp +=  3.3541019662496847 * cart[5 * ncart + i];
-        tmp += -3.3541019662496847 * cart[12 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_42s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.1180339887498949 * cart[ncart + i];
-        tmp += -1.1180339887498949 * cart[6 * ncart + i];
-        tmp +=  6.7082039324993694 * cart[8 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_43c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.0916500663351889 * cart[2 * ncart + i];
-        tmp += -6.2749501990055663 * cart[7 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_43s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  6.2749501990055663 * cart[4 * ncart + i];
-        tmp += -2.0916500663351889 * cart[11 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-    // R_44c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.7395099728874520 * cart[i];
-        tmp += -4.4370598373247123 * cart[3 * ncart + i];
-        tmp +=  0.7395099728874520 * cart[10 * ncart + i];
-        output[i] += tmp * vector[7];
-
-    }
-    // R_44s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.9580398915498081 * cart[ncart + i];
-        tmp += -2.9580398915498081 * cart[6 * ncart + i];
-        output[i] += tmp * vector[8];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_50 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  =  1.8750000000000000 * cart[2 * ncart + i];
-        spherical[i] +=  3.7500000000000000 * cart[7 * ncart + i];
-        spherical[i] +=  1.8750000000000000 * cart[16 * ncart + i];
-        spherical[i] += -5.0000000000000000 * cart[9 * ncart + i];
-        spherical[i] += -5.0000000000000000 * cart[18 * ncart + i];
-        spherical[i] += cart[20 * ncart + i];
-
-    }
-
-    // R_51c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  0.4841229182759271 * cart[i];
-        spherical[nspherical + i] +=  0.9682458365518543 * cart[3 * ncart + i];
-        spherical[nspherical + i] +=  0.4841229182759271 * cart[10 * ncart + i];
-        spherical[nspherical + i] += -5.8094750193111251 * cart[5 * ncart + i];
-        spherical[nspherical + i] += -5.8094750193111251 * cart[12 * ncart + i];
-        spherical[nspherical + i] +=  3.8729833462074170 * cart[14 * ncart + i];
-
-    }
-    // R_51s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  =  0.4841229182759271 * cart[ncart + i];
-        spherical[2 * nspherical + i] +=  0.9682458365518543 * cart[6 * ncart + i];
-        spherical[2 * nspherical + i] +=  0.4841229182759271 * cart[15 * ncart + i];
-        spherical[2 * nspherical + i] += -5.8094750193111251 * cart[8 * ncart + i];
-        spherical[2 * nspherical + i] += -5.8094750193111251 * cart[17 * ncart + i];
-        spherical[2 * nspherical + i] +=  3.8729833462074170 * cart[19 * ncart + i];
-
-    }
-
-    // R_52c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  = -2.5617376914898995 * cart[2 * ncart + i];
-        spherical[3 * nspherical + i] +=  2.5617376914898995 * cart[16 * ncart + i];
-        spherical[3 * nspherical + i] +=  5.1234753829797990 * cart[9 * ncart + i];
-        spherical[3 * nspherical + i] += -5.1234753829797990 * cart[18 * ncart + i];
-
-    }
-    // R_52s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  = -5.1234753829797990 * cart[4 * ncart + i];
-        spherical[4 * nspherical + i] += -5.1234753829797990 * cart[11 * ncart + i];
-        spherical[4 * nspherical + i] +=  10.2469507659595980 * cart[13 * ncart + i];
-
-    }
-
-    // R_53c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  = -0.5229125165837972 * cart[i];
-        spherical[5 * nspherical + i] +=  1.0458250331675945 * cart[3 * ncart + i];
-        spherical[5 * nspherical + i] +=  1.5687375497513916 * cart[10 * ncart + i];
-        spherical[5 * nspherical + i] +=  4.1833001326703778 * cart[5 * ncart + i];
-        spherical[5 * nspherical + i] += -12.5499003980111326 * cart[12 * ncart + i];
-
-    }
-    // R_53s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  = -1.5687375497513916 * cart[ncart + i];
-        spherical[6 * nspherical + i] += -1.0458250331675945 * cart[6 * ncart + i];
-        spherical[6 * nspherical + i] +=  0.5229125165837972 * cart[15 * ncart + i];
-        spherical[6 * nspherical + i] +=  12.5499003980111326 * cart[8 * ncart + i];
-        spherical[6 * nspherical + i] += -4.1833001326703778 * cart[17 * ncart + i];
-
-    }
-
-    // R_54c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[7 * nspherical + i]  =  2.2185299186623562 * cart[2 * ncart + i];
-        spherical[7 * nspherical + i] += -13.3111795119741370 * cart[7 * ncart + i];
-        spherical[7 * nspherical + i] +=  2.2185299186623562 * cart[16 * ncart + i];
-
-    }
-    // R_54s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[8 * nspherical + i]  =  8.8741196746494246 * cart[4 * ncart + i];
-        spherical[8 * nspherical + i] += -8.8741196746494246 * cart[11 * ncart + i];
-
-    }
-
-    // R_55c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[9 * nspherical + i]  =  0.7015607600201140 * cart[i];
-        spherical[9 * nspherical + i] += -7.0156076002011405 * cart[3 * ncart + i];
-        spherical[9 * nspherical + i] +=  3.5078038001005702 * cart[10 * ncart + i];
-
-    }
-    // R_55s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[10 * nspherical + i]  =  3.5078038001005702 * cart[ncart + i];
-        spherical[10 * nspherical + i] += -7.0156076002011405 * cart[6 * ncart + i];
-        spherical[10 * nspherical + i] +=  0.7015607600201140 * cart[15 * ncart + i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L5(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_50 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  1.8750000000000000 * cart[2 * ncart + i];
-        tmp +=  3.7500000000000000 * cart[7 * ncart + i];
-        tmp +=  1.8750000000000000 * cart[16 * ncart + i];
-        tmp += -5.0000000000000000 * cart[9 * ncart + i];
-        tmp += -5.0000000000000000 * cart[18 * ncart + i];
-        tmp += cart[20 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_51c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.4841229182759271 * cart[i];
-        tmp +=  0.9682458365518543 * cart[3 * ncart + i];
-        tmp +=  0.4841229182759271 * cart[10 * ncart + i];
-        tmp += -5.8094750193111251 * cart[5 * ncart + i];
-        tmp += -5.8094750193111251 * cart[12 * ncart + i];
-        tmp +=  3.8729833462074170 * cart[14 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_51s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.4841229182759271 * cart[ncart + i];
-        tmp +=  0.9682458365518543 * cart[6 * ncart + i];
-        tmp +=  0.4841229182759271 * cart[15 * ncart + i];
-        tmp += -5.8094750193111251 * cart[8 * ncart + i];
-        tmp += -5.8094750193111251 * cart[17 * ncart + i];
-        tmp +=  3.8729833462074170 * cart[19 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_52c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.5617376914898995 * cart[2 * ncart + i];
-        tmp +=  2.5617376914898995 * cart[16 * ncart + i];
-        tmp +=  5.1234753829797990 * cart[9 * ncart + i];
-        tmp += -5.1234753829797990 * cart[18 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_52s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -5.1234753829797990 * cart[4 * ncart + i];
-        tmp += -5.1234753829797990 * cart[11 * ncart + i];
-        tmp +=  10.2469507659595980 * cart[13 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_53c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.5229125165837972 * cart[i];
-        tmp +=  1.0458250331675945 * cart[3 * ncart + i];
-        tmp +=  1.5687375497513916 * cart[10 * ncart + i];
-        tmp +=  4.1833001326703778 * cart[5 * ncart + i];
-        tmp += -12.5499003980111326 * cart[12 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_53s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.5687375497513916 * cart[ncart + i];
-        tmp += -1.0458250331675945 * cart[6 * ncart + i];
-        tmp +=  0.5229125165837972 * cart[15 * ncart + i];
-        tmp +=  12.5499003980111326 * cart[8 * ncart + i];
-        tmp += -4.1833001326703778 * cart[17 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-    // R_54c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.2185299186623562 * cart[2 * ncart + i];
-        tmp += -13.3111795119741370 * cart[7 * ncart + i];
-        tmp +=  2.2185299186623562 * cart[16 * ncart + i];
-        output[i] += tmp * vector[7];
-
-    }
-    // R_54s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  8.8741196746494246 * cart[4 * ncart + i];
-        tmp += -8.8741196746494246 * cart[11 * ncart + i];
-        output[i] += tmp * vector[8];
-
-    }
-
-    // R_55c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.7015607600201140 * cart[i];
-        tmp += -7.0156076002011405 * cart[3 * ncart + i];
-        tmp +=  3.5078038001005702 * cart[10 * ncart + i];
-        output[i] += tmp * vector[9];
-
-    }
-    // R_55s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  3.5078038001005702 * cart[ncart + i];
-        tmp += -7.0156076002011405 * cart[6 * ncart + i];
-        tmp +=  0.7015607600201140 * cart[15 * ncart + i];
-        output[i] += tmp * vector[10];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // R_60 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[i]  = -0.3125000000000000 * cart[i];
-        spherical[i] += -0.9375000000000000 * cart[3 * ncart + i];
-        spherical[i] += -0.9375000000000000 * cart[10 * ncart + i];
-        spherical[i] += -0.3125000000000000 * cart[21 * ncart + i];
-        spherical[i] +=  5.6250000000000000 * cart[5 * ncart + i];
-        spherical[i] +=  11.2500000000000000 * cart[12 * ncart + i];
-        spherical[i] +=  5.6250000000000000 * cart[23 * ncart + i];
-        spherical[i] += -7.5000000000000000 * cart[14 * ncart + i];
-        spherical[i] += -7.5000000000000000 * cart[25 * ncart + i];
-        spherical[i] += cart[27 * ncart + i];
-
-    }
-
-    // R_61c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[nspherical + i]  =  2.8641098093473998 * cart[2 * ncart + i];
-        spherical[nspherical + i] +=  5.7282196186947996 * cart[7 * ncart + i];
-        spherical[nspherical + i] +=  2.8641098093473998 * cart[16 * ncart + i];
-        spherical[nspherical + i] += -11.4564392373895991 * cart[9 * ncart + i];
-        spherical[nspherical + i] += -11.4564392373895991 * cart[18 * ncart + i];
-        spherical[nspherical + i] +=  4.5825756949558398 * cart[20 * ncart + i];
-
-    }
-    // R_61s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[2 * nspherical + i]  =  2.8641098093473998 * cart[4 * ncart + i];
-        spherical[2 * nspherical + i] +=  5.7282196186947996 * cart[11 * ncart + i];
-        spherical[2 * nspherical + i] +=  2.8641098093473998 * cart[22 * ncart + i];
-        spherical[2 * nspherical + i] += -11.4564392373895991 * cart[13 * ncart + i];
-        spherical[2 * nspherical + i] += -11.4564392373895991 * cart[24 * ncart + i];
-        spherical[2 * nspherical + i] +=  4.5825756949558398 * cart[26 * ncart + i];
-
-    }
-
-    // R_62c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[3 * nspherical + i]  =  0.4528555233184199 * cart[i];
-        spherical[3 * nspherical + i] +=  0.4528555233184199 * cart[3 * ncart + i];
-        spherical[3 * nspherical + i] += -0.4528555233184199 * cart[10 * ncart + i];
-        spherical[3 * nspherical + i] += -0.4528555233184199 * cart[21 * ncart + i];
-        spherical[3 * nspherical + i] += -7.2456883730947190 * cart[5 * ncart + i];
-        spherical[3 * nspherical + i] +=  7.2456883730947190 * cart[23 * ncart + i];
-        spherical[3 * nspherical + i] +=  7.2456883730947190 * cart[14 * ncart + i];
-        spherical[3 * nspherical + i] += -7.2456883730947190 * cart[25 * ncart + i];
-
-    }
-    // R_62s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[4 * nspherical + i]  =  0.9057110466368399 * cart[ncart + i];
-        spherical[4 * nspherical + i] +=  1.8114220932736798 * cart[6 * ncart + i];
-        spherical[4 * nspherical + i] +=  0.9057110466368399 * cart[15 * ncart + i];
-        spherical[4 * nspherical + i] += -14.4913767461894381 * cart[8 * ncart + i];
-        spherical[4 * nspherical + i] += -14.4913767461894381 * cart[17 * ncart + i];
-        spherical[4 * nspherical + i] +=  14.4913767461894381 * cart[19 * ncart + i];
-
-    }
-
-    // R_63c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[5 * nspherical + i]  = -2.7171331399105196 * cart[2 * ncart + i];
-        spherical[5 * nspherical + i] +=  5.4342662798210393 * cart[7 * ncart + i];
-        spherical[5 * nspherical + i] +=  8.1513994197315593 * cart[16 * ncart + i];
-        spherical[5 * nspherical + i] +=  7.2456883730947190 * cart[9 * ncart + i];
-        spherical[5 * nspherical + i] += -21.7370651192841571 * cart[18 * ncart + i];
-
-    }
-    // R_63s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[6 * nspherical + i]  = -8.1513994197315593 * cart[4 * ncart + i];
-        spherical[6 * nspherical + i] += -5.4342662798210393 * cart[11 * ncart + i];
-        spherical[6 * nspherical + i] +=  2.7171331399105196 * cart[22 * ncart + i];
-        spherical[6 * nspherical + i] +=  21.7370651192841571 * cart[13 * ncart + i];
-        spherical[6 * nspherical + i] += -7.2456883730947190 * cart[24 * ncart + i];
-
-    }
-
-    // R_64c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[7 * nspherical + i]  = -0.4960783708246108 * cart[i];
-        spherical[7 * nspherical + i] +=  2.4803918541230536 * cart[3 * ncart + i];
-        spherical[7 * nspherical + i] +=  2.4803918541230536 * cart[10 * ncart + i];
-        spherical[7 * nspherical + i] += -0.4960783708246108 * cart[21 * ncart + i];
-        spherical[7 * nspherical + i] +=  4.9607837082461073 * cart[5 * ncart + i];
-        spherical[7 * nspherical + i] += -29.7647022494766453 * cart[12 * ncart + i];
-        spherical[7 * nspherical + i] +=  4.9607837082461073 * cart[23 * ncart + i];
-
-    }
-    // R_64s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[8 * nspherical + i]  = -1.9843134832984430 * cart[ncart + i];
-        spherical[8 * nspherical + i] +=  1.9843134832984430 * cart[15 * ncart + i];
-        spherical[8 * nspherical + i] +=  19.8431348329844290 * cart[8 * ncart + i];
-        spherical[8 * nspherical + i] += -19.8431348329844290 * cart[17 * ncart + i];
-
-    }
-
-    // R_65c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[9 * nspherical + i]  =  2.3268138086232857 * cart[2 * ncart + i];
-        spherical[9 * nspherical + i] += -23.2681380862328560 * cart[7 * ncart + i];
-        spherical[9 * nspherical + i] +=  11.6340690431164280 * cart[16 * ncart + i];
-
-    }
-    // R_65s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[10 * nspherical + i]  =  11.6340690431164280 * cart[4 * ncart + i];
-        spherical[10 * nspherical + i] += -23.2681380862328560 * cart[11 * ncart + i];
-        spherical[10 * nspherical + i] +=  2.3268138086232857 * cart[22 * ncart + i];
-
-    }
-
-    // R_66c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[11 * nspherical + i]  =  0.6716932893813962 * cart[i];
-        spherical[11 * nspherical + i] += -10.0753993407209421 * cart[3 * ncart + i];
-        spherical[11 * nspherical + i] +=  10.0753993407209421 * cart[10 * ncart + i];
-        spherical[11 * nspherical + i] += -0.6716932893813962 * cart[21 * ncart + i];
-
-    }
-    // R_66s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        spherical[12 * nspherical + i]  =  4.0301597362883772 * cart[ncart + i];
-        spherical[12 * nspherical + i] += -13.4338657876279228 * cart[6 * ncart + i];
-        spherical[12 * nspherical + i] +=  4.0301597362883772 * cart[15 * ncart + i];
-
-    }
-
-}
-void gg_gaussian_cart_to_spherical_sum_L6(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical) {
-    ASSUME_ALIGNED(cart, 64);
-    // temps
-    double tmp;
-    // R_60 Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.3125000000000000 * cart[i];
-        tmp += -0.9375000000000000 * cart[3 * ncart + i];
-        tmp += -0.9375000000000000 * cart[10 * ncart + i];
-        tmp += -0.3125000000000000 * cart[21 * ncart + i];
-        tmp +=  5.6250000000000000 * cart[5 * ncart + i];
-        tmp +=  11.2500000000000000 * cart[12 * ncart + i];
-        tmp +=  5.6250000000000000 * cart[23 * ncart + i];
-        tmp += -7.5000000000000000 * cart[14 * ncart + i];
-        tmp += -7.5000000000000000 * cart[25 * ncart + i];
-        tmp += cart[27 * ncart + i];
-        output[i] += tmp * vector[0];
-
-    }
-
-    // R_61c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.8641098093473998 * cart[2 * ncart + i];
-        tmp +=  5.7282196186947996 * cart[7 * ncart + i];
-        tmp +=  2.8641098093473998 * cart[16 * ncart + i];
-        tmp += -11.4564392373895991 * cart[9 * ncart + i];
-        tmp += -11.4564392373895991 * cart[18 * ncart + i];
-        tmp +=  4.5825756949558398 * cart[20 * ncart + i];
-        output[i] += tmp * vector[1];
-
-    }
-    // R_61s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.8641098093473998 * cart[4 * ncart + i];
-        tmp +=  5.7282196186947996 * cart[11 * ncart + i];
-        tmp +=  2.8641098093473998 * cart[22 * ncart + i];
-        tmp += -11.4564392373895991 * cart[13 * ncart + i];
-        tmp += -11.4564392373895991 * cart[24 * ncart + i];
-        tmp +=  4.5825756949558398 * cart[26 * ncart + i];
-        output[i] += tmp * vector[2];
-
-    }
-
-    // R_62c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.4528555233184199 * cart[i];
-        tmp +=  0.4528555233184199 * cart[3 * ncart + i];
-        tmp += -0.4528555233184199 * cart[10 * ncart + i];
-        tmp += -0.4528555233184199 * cart[21 * ncart + i];
-        tmp += -7.2456883730947190 * cart[5 * ncart + i];
-        tmp +=  7.2456883730947190 * cart[23 * ncart + i];
-        tmp +=  7.2456883730947190 * cart[14 * ncart + i];
-        tmp += -7.2456883730947190 * cart[25 * ncart + i];
-        output[i] += tmp * vector[3];
-
-    }
-    // R_62s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.9057110466368399 * cart[ncart + i];
-        tmp +=  1.8114220932736798 * cart[6 * ncart + i];
-        tmp +=  0.9057110466368399 * cart[15 * ncart + i];
-        tmp += -14.4913767461894381 * cart[8 * ncart + i];
-        tmp += -14.4913767461894381 * cart[17 * ncart + i];
-        tmp +=  14.4913767461894381 * cart[19 * ncart + i];
-        output[i] += tmp * vector[4];
-
-    }
-
-    // R_63c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -2.7171331399105196 * cart[2 * ncart + i];
-        tmp +=  5.4342662798210393 * cart[7 * ncart + i];
-        tmp +=  8.1513994197315593 * cart[16 * ncart + i];
-        tmp +=  7.2456883730947190 * cart[9 * ncart + i];
-        tmp += -21.7370651192841571 * cart[18 * ncart + i];
-        output[i] += tmp * vector[5];
-
-    }
-    // R_63s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -8.1513994197315593 * cart[4 * ncart + i];
-        tmp += -5.4342662798210393 * cart[11 * ncart + i];
-        tmp +=  2.7171331399105196 * cart[22 * ncart + i];
-        tmp +=  21.7370651192841571 * cart[13 * ncart + i];
-        tmp += -7.2456883730947190 * cart[24 * ncart + i];
-        output[i] += tmp * vector[6];
-
-    }
-
-    // R_64c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -0.4960783708246108 * cart[i];
-        tmp +=  2.4803918541230536 * cart[3 * ncart + i];
-        tmp +=  2.4803918541230536 * cart[10 * ncart + i];
-        tmp += -0.4960783708246108 * cart[21 * ncart + i];
-        tmp +=  4.9607837082461073 * cart[5 * ncart + i];
-        tmp += -29.7647022494766453 * cart[12 * ncart + i];
-        tmp +=  4.9607837082461073 * cart[23 * ncart + i];
-        output[i] += tmp * vector[7];
-
-    }
-    // R_64s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  = -1.9843134832984430 * cart[ncart + i];
-        tmp +=  1.9843134832984430 * cart[15 * ncart + i];
-        tmp +=  19.8431348329844290 * cart[8 * ncart + i];
-        tmp += -19.8431348329844290 * cart[17 * ncart + i];
-        output[i] += tmp * vector[8];
-
-    }
-
-    // R_65c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  2.3268138086232857 * cart[2 * ncart + i];
-        tmp += -23.2681380862328560 * cart[7 * ncart + i];
-        tmp +=  11.6340690431164280 * cart[16 * ncart + i];
-        output[i] += tmp * vector[9];
-
-    }
-    // R_65s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  11.6340690431164280 * cart[4 * ncart + i];
-        tmp += -23.2681380862328560 * cart[11 * ncart + i];
-        tmp +=  2.3268138086232857 * cart[22 * ncart + i];
-        output[i] += tmp * vector[10];
-
-    }
-
-    // R_66c Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  0.6716932893813962 * cart[i];
-        tmp += -10.0753993407209421 * cart[3 * ncart + i];
-        tmp +=  10.0753993407209421 * cart[10 * ncart + i];
-        tmp += -0.6716932893813962 * cart[21 * ncart + i];
-        output[i] += tmp * vector[11];
-
-    }
-    // R_66s Transform
-    for (unsigned long i = 0; i < size; i++) {
-        tmp  =  4.0301597362883772 * cart[ncart + i];
-        tmp += -13.4338657876279228 * cart[6 * ncart + i];
-        tmp +=  4.0301597362883772 * cart[15 * ncart + i];
-        output[i] += tmp * vector[12];
-
-    }
-
-}
-void gg_cca_cart_copy_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (0, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L0(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (0, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_cca_cart_copy_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (1, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L1(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (1, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_cca_cart_copy_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (2, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L2(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (2, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_cca_cart_copy_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (3, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 3, 0)
-    inp_shift = 6 * ncart_input;
-    out_shift = 6 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 1)
-    inp_shift = 7 * ncart_input;
-    out_shift = 7 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 2)
-    inp_shift = 8 * ncart_input;
-    out_shift = 8 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 3)
-    inp_shift = 9 * ncart_input;
-    out_shift = 9 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L3(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (3, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 3, 0)
-    in_shift = 6 * ncart_input;
-    coef = vector[6];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 1)
-    in_shift = 7 * ncart_input;
-    coef = vector[7];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 2)
-    in_shift = 8 * ncart_input;
-    coef = vector[8];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 3)
-    in_shift = 9 * ncart_input;
-    coef = vector[9];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_cca_cart_copy_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (4, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 3, 0)
-    inp_shift = 6 * ncart_input;
-    out_shift = 6 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 2, 1)
-    inp_shift = 7 * ncart_input;
-    out_shift = 7 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 2)
-    inp_shift = 8 * ncart_input;
-    out_shift = 8 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 3)
-    inp_shift = 9 * ncart_input;
-    out_shift = 9 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 4, 0)
-    inp_shift = 10 * ncart_input;
-    out_shift = 10 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 3, 1)
-    inp_shift = 11 * ncart_input;
-    out_shift = 11 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 2)
-    inp_shift = 12 * ncart_input;
-    out_shift = 12 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 3)
-    inp_shift = 13 * ncart_input;
-    out_shift = 13 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 4)
-    inp_shift = 14 * ncart_input;
-    out_shift = 14 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L4(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (4, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 3, 0)
-    in_shift = 6 * ncart_input;
-    coef = vector[6];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 2, 1)
-    in_shift = 7 * ncart_input;
-    coef = vector[7];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 2)
-    in_shift = 8 * ncart_input;
-    coef = vector[8];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 3)
-    in_shift = 9 * ncart_input;
-    coef = vector[9];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 4, 0)
-    in_shift = 10 * ncart_input;
-    coef = vector[10];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 3, 1)
-    in_shift = 11 * ncart_input;
-    coef = vector[11];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 2)
-    in_shift = 12 * ncart_input;
-    coef = vector[12];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 3)
-    in_shift = 13 * ncart_input;
-    coef = vector[13];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 4)
-    in_shift = 14 * ncart_input;
-    coef = vector[14];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_cca_cart_copy_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (5, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (4, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (4, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 3, 0)
-    inp_shift = 6 * ncart_input;
-    out_shift = 6 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 2, 1)
-    inp_shift = 7 * ncart_input;
-    out_shift = 7 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 1, 2)
-    inp_shift = 8 * ncart_input;
-    out_shift = 8 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 0, 3)
-    inp_shift = 9 * ncart_input;
-    out_shift = 9 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 4, 0)
-    inp_shift = 10 * ncart_input;
-    out_shift = 10 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 3, 1)
-    inp_shift = 11 * ncart_input;
-    out_shift = 11 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 2, 2)
-    inp_shift = 12 * ncart_input;
-    out_shift = 12 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 3)
-    inp_shift = 13 * ncart_input;
-    out_shift = 13 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 4)
-    inp_shift = 14 * ncart_input;
-    out_shift = 14 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 5, 0)
-    inp_shift = 15 * ncart_input;
-    out_shift = 15 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 4, 1)
-    inp_shift = 16 * ncart_input;
-    out_shift = 16 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 3, 2)
-    inp_shift = 17 * ncart_input;
-    out_shift = 17 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 3)
-    inp_shift = 18 * ncart_input;
-    out_shift = 18 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 4)
-    inp_shift = 19 * ncart_input;
-    out_shift = 19 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 5)
-    inp_shift = 20 * ncart_input;
-    out_shift = 20 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L5(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (5, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (4, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (4, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 3, 0)
-    in_shift = 6 * ncart_input;
-    coef = vector[6];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 2, 1)
-    in_shift = 7 * ncart_input;
-    coef = vector[7];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 1, 2)
-    in_shift = 8 * ncart_input;
-    coef = vector[8];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 0, 3)
-    in_shift = 9 * ncart_input;
-    coef = vector[9];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 4, 0)
-    in_shift = 10 * ncart_input;
-    coef = vector[10];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 3, 1)
-    in_shift = 11 * ncart_input;
-    coef = vector[11];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 2, 2)
-    in_shift = 12 * ncart_input;
-    coef = vector[12];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 3)
-    in_shift = 13 * ncart_input;
-    coef = vector[13];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 4)
-    in_shift = 14 * ncart_input;
-    coef = vector[14];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 5, 0)
-    in_shift = 15 * ncart_input;
-    coef = vector[15];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 4, 1)
-    in_shift = 16 * ncart_input;
-    coef = vector[16];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 3, 2)
-    in_shift = 17 * ncart_input;
-    coef = vector[17];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 3)
-    in_shift = 18 * ncart_input;
-    coef = vector[18];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 4)
-    in_shift = 19 * ncart_input;
-    coef = vector[19];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 5)
-    in_shift = 20 * ncart_input;
-    coef = vector[20];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_cca_cart_copy_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (6, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (5, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (5, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (4, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (4, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (4, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 3, 0)
-    inp_shift = 6 * ncart_input;
-    out_shift = 6 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 2, 1)
-    inp_shift = 7 * ncart_input;
-    out_shift = 7 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 1, 2)
-    inp_shift = 8 * ncart_input;
-    out_shift = 8 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 0, 3)
-    inp_shift = 9 * ncart_input;
-    out_shift = 9 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 4, 0)
-    inp_shift = 10 * ncart_input;
-    out_shift = 10 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 3, 1)
-    inp_shift = 11 * ncart_input;
-    out_shift = 11 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 2, 2)
-    inp_shift = 12 * ncart_input;
-    out_shift = 12 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 1, 3)
-    inp_shift = 13 * ncart_input;
-    out_shift = 13 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 0, 4)
-    inp_shift = 14 * ncart_input;
-    out_shift = 14 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 5, 0)
-    inp_shift = 15 * ncart_input;
-    out_shift = 15 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 4, 1)
-    inp_shift = 16 * ncart_input;
-    out_shift = 16 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 3, 2)
-    inp_shift = 17 * ncart_input;
-    out_shift = 17 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 2, 3)
-    inp_shift = 18 * ncart_input;
-    out_shift = 18 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 4)
-    inp_shift = 19 * ncart_input;
-    out_shift = 19 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 5)
-    inp_shift = 20 * ncart_input;
-    out_shift = 20 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 6, 0)
-    inp_shift = 21 * ncart_input;
-    out_shift = 21 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 5, 1)
-    inp_shift = 22 * ncart_input;
-    out_shift = 22 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 4, 2)
-    inp_shift = 23 * ncart_input;
-    out_shift = 23 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 3, 3)
-    inp_shift = 24 * ncart_input;
-    out_shift = 24 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 4)
-    inp_shift = 25 * ncart_input;
-    out_shift = 25 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 5)
-    inp_shift = 26 * ncart_input;
-    out_shift = 26 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 6)
-    inp_shift = 27 * ncart_input;
-    out_shift = 27 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_cca_cart_sum_L6(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (6, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (5, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (5, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (4, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (4, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (4, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 3, 0)
-    in_shift = 6 * ncart_input;
-    coef = vector[6];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 2, 1)
-    in_shift = 7 * ncart_input;
-    coef = vector[7];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 1, 2)
-    in_shift = 8 * ncart_input;
-    coef = vector[8];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 0, 3)
-    in_shift = 9 * ncart_input;
-    coef = vector[9];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 4, 0)
-    in_shift = 10 * ncart_input;
-    coef = vector[10];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 3, 1)
-    in_shift = 11 * ncart_input;
-    coef = vector[11];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 2, 2)
-    in_shift = 12 * ncart_input;
-    coef = vector[12];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 1, 3)
-    in_shift = 13 * ncart_input;
-    coef = vector[13];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 0, 4)
-    in_shift = 14 * ncart_input;
-    coef = vector[14];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 5, 0)
-    in_shift = 15 * ncart_input;
-    coef = vector[15];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 4, 1)
-    in_shift = 16 * ncart_input;
-    coef = vector[16];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 3, 2)
-    in_shift = 17 * ncart_input;
-    coef = vector[17];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 2, 3)
-    in_shift = 18 * ncart_input;
-    coef = vector[18];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 4)
-    in_shift = 19 * ncart_input;
-    coef = vector[19];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 5)
-    in_shift = 20 * ncart_input;
-    coef = vector[20];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 6, 0)
-    in_shift = 21 * ncart_input;
-    coef = vector[21];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 5, 1)
-    in_shift = 22 * ncart_input;
-    coef = vector[22];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 4, 2)
-    in_shift = 23 * ncart_input;
-    coef = vector[23];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 3, 3)
-    in_shift = 24 * ncart_input;
-    coef = vector[24];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 4)
-    in_shift = 25 * ncart_input;
-    coef = vector[25];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 5)
-    in_shift = 26 * ncart_input;
-    coef = vector[26];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 6)
-    in_shift = 27 * ncart_input;
-    coef = vector[27];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_molden_cart_copy_L0(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (0, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_molden_cart_sum_L0(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (0, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_molden_cart_copy_L1(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (1, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_molden_cart_sum_L1(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (1, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_molden_cart_copy_L2(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (2, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_molden_cart_sum_L2(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (2, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_molden_cart_copy_L3(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (3, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 9 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 6 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 3, 0)
-    inp_shift = 6 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 1)
-    inp_shift = 7 * ncart_input;
-    out_shift = 8 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 2)
-    inp_shift = 8 * ncart_input;
-    out_shift = 7 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 3)
-    inp_shift = 9 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_molden_cart_sum_L3(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (3, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[9];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[6];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 3, 0)
-    in_shift = 6 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 1)
-    in_shift = 7 * ncart_input;
-    coef = vector[8];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 2)
-    in_shift = 8 * ncart_input;
-    coef = vector[7];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 3)
-    in_shift = 9 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_molden_cart_copy_L4(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long inp_shift;
-    unsigned long out_shift;
-
-    // Copy (4, 0, 0)
-    inp_shift = 0 * ncart_input;
-    out_shift = 0 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 1, 0)
-    inp_shift = 1 * ncart_input;
-    out_shift = 3 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (3, 0, 1)
-    inp_shift = 2 * ncart_input;
-    out_shift = 4 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 2, 0)
-    inp_shift = 3 * ncart_input;
-    out_shift = 9 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 1, 1)
-    inp_shift = 4 * ncart_input;
-    out_shift = 12 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (2, 0, 2)
-    inp_shift = 5 * ncart_input;
-    out_shift = 10 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 3, 0)
-    inp_shift = 6 * ncart_input;
-    out_shift = 5 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 2, 1)
-    inp_shift = 7 * ncart_input;
-    out_shift = 13 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 1, 2)
-    inp_shift = 8 * ncart_input;
-    out_shift = 14 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (1, 0, 3)
-    inp_shift = 9 * ncart_input;
-    out_shift = 7 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 4, 0)
-    inp_shift = 10 * ncart_input;
-    out_shift = 1 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 3, 1)
-    inp_shift = 11 * ncart_input;
-    out_shift = 6 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 2, 2)
-    inp_shift = 12 * ncart_input;
-    out_shift = 11 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 1, 3)
-    inp_shift = 13 * ncart_input;
-    out_shift = 8 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-
-    // Copy (0, 0, 4)
-    inp_shift = 14 * ncart_input;
-    out_shift = 2 * ncart_out;
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[out_shift + i] = cart_input[inp_shift + i];
-    }
-}
-void gg_molden_cart_sum_L4(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-
-    ASSUME_ALIGNED(cart_input, 64);
-    unsigned long in_shift;
-    unsigned long out_shift;
-    double coef;
-
-    // Copy (4, 0, 0)
-    in_shift = 0 * ncart_input;
-    coef = vector[0];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 1, 0)
-    in_shift = 1 * ncart_input;
-    coef = vector[3];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (3, 0, 1)
-    in_shift = 2 * ncart_input;
-    coef = vector[4];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 2, 0)
-    in_shift = 3 * ncart_input;
-    coef = vector[9];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 1, 1)
-    in_shift = 4 * ncart_input;
-    coef = vector[12];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (2, 0, 2)
-    in_shift = 5 * ncart_input;
-    coef = vector[10];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 3, 0)
-    in_shift = 6 * ncart_input;
-    coef = vector[5];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 2, 1)
-    in_shift = 7 * ncart_input;
-    coef = vector[13];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 1, 2)
-    in_shift = 8 * ncart_input;
-    coef = vector[14];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (1, 0, 3)
-    in_shift = 9 * ncart_input;
-    coef = vector[7];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 4, 0)
-    in_shift = 10 * ncart_input;
-    coef = vector[1];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 3, 1)
-    in_shift = 11 * ncart_input;
-    coef = vector[6];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 2, 2)
-    in_shift = 12 * ncart_input;
-    coef = vector[11];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 1, 3)
-    in_shift = 13 * ncart_input;
-    coef = vector[8];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-
-    // Copy (0, 0, 4)
-    in_shift = 14 * ncart_input;
-    coef = vector[2];
-    for (unsigned long i = 0; i < size; i++) {
-        cart_out[i] += coef * cart_input[in_shift + i];
-    }
-}
-void gg_molden_cart_copy_L5(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-}
-void gg_molden_cart_sum_L5(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-}
-void gg_molden_cart_copy_L6(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-}
-void gg_molden_cart_sum_L6(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out) {
-}
-void gg_naive_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output) {
-    ASSUME_ALIGNED(input, 64);
-    for (unsigned long i = 0; i < n; i++) {
-        for (unsigned long j = 0; j < m; j++) {
-            output[j * n + i] = input[i * m + j];
-        }
-    }
-}
-void gg_fast_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output) {
-
-    // Temps
-    #ifdef _MSC_VER
-    __declspec(align(64)) double tmp[64];
-    #else
-    double tmp[64] __attribute__((aligned(64)));
-    #endif
-    ASSUME_ALIGNED(input, 64);
-    // Sizing
-    unsigned long nblocks = n / 8;
-    nblocks += (n % 8) ? 1 : 0;
-    unsigned long mblocks = m / 8;
-    mblocks += (m % 8) ? 1 : 0;
-    // Outer blocks
-    for (unsigned long nb = 0; nb < nblocks; nb++) {
-        const unsigned long nstart = nb * 8;
-        unsigned long nremain = ((nstart + 8) > n) ? (n - nstart) : 8;
-        for (unsigned long mb = 0; mb < mblocks; mb++) {
-            const unsigned long mstart = mb * 8;
-            unsigned long mremain = ((mstart + 8) > m) ? (m - mstart) : 8;
-            // Copy data to inner block
-            for (unsigned long l = 0; l < nremain; l++) {
-                const unsigned long start = (nstart + l) * m + mstart;
-                for (unsigned long k = 0; k < mremain; k++) {
-                    tmp[k * 8 + l] = input[start + k];
-                }
-            }
-            // Copy data to inner block
-            for (unsigned long k = 0; k < mremain; k++) {
-                const unsigned long start = (mstart + k) * n + nstart;
-                for (unsigned long l = 0; l < nremain; l++) {
-                    output[start + l] = tmp[k * 8 + l];
-                }
-            }
-        }
-    }
-}
-void block_copy(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, unsigned long is, double* PRAGMA_RESTRICT output, unsigned long os, const int trans) {
-
-    ASSUME_ALIGNED(input, 64);
-    for (unsigned long i = 0; i < n; i++) {
-        const unsigned long out_shift = i * os;
-        const unsigned long inp_shift = i * is;
-
-        for (unsigned long j = 0; j < m; j++) {
-            output[out_shift + j] = input[inp_shift + j];
-        }
-    }
-}
-void block_matrix_vector(unsigned long n, unsigned long m, const double* vector, const double* PRAGMA_RESTRICT input, unsigned long is, double* PRAGMA_RESTRICT output) {
-
-    ASSUME_ALIGNED(input, 64);
-    for (unsigned long i = 0; i < n; i++) {
-        const unsigned long inp_shift = i * is;
-        const double coef = vector[i];
-
-        for (unsigned long j = 0; j < m; j++) {
-            output[j] += coef * input[inp_shift + j];
-        }
-    }
-}
\ No newline at end of file
diff --git a/third_party/gauxc/external/gau2grid/src/CMakeLists.txt b/third_party/gauxc/external/gau2grid/src/CMakeLists.txt
deleted file mode 100644
index 2be6f95..0000000
--- a/third_party/gauxc/external/gau2grid/src/CMakeLists.txt
+++ /dev/null
@@ -1,184 +0,0 @@
-cmake_minimum_required(VERSION 3.1 FATAL_ERROR)
-
-project(gau2grid
-        VERSION 2.0.5
-        LANGUAGES C)
-set(gau2grid_AUTHORS      "Daniel G. A. Smith")
-set(gau2grid_DESCRIPTION  "Fast computation of a gaussian and its derivative on a grid")
-set(gau2grid_URL          "https://github.com/dgasmith/gau2grid")
-set(gau2grid_LICENSE      "BSD 3-clause")
-
-list(APPEND CMAKE_MODULE_PATH ${PROJECT_SOURCE_DIR}/cmake)
-
-
-#############################  Options: Build How?  #############################
-include(psi4OptionsTools)
-option_with_default(MAX_AM "The maximum gaussian angular momentum to compile" 8)
-option_with_default(CMAKE_BUILD_TYPE "Build type (Release or Debug)" Release)
-if(CMAKE_CXX_COMPILER_ID MATCHES Intel)
-option_with_flags(ENABLE_XHOST "Enables processor-specific optimization (with MSVC, it enables AVX2 instructions)" ON
-                  "-xHost" "-march=native" "/arch:AVX2")
-else()
-option_with_flags(ENABLE_XHOST "Enables processor-specific optimization (with MSVC, it enables AVX2 instructions)" ON
-                  "-march=native" "-xHost" "/arch:AVX2")
-endif()
-option_with_default(BUILD_FPIC "Libraries will be compiled with position independent code" ON)
-option_with_print(BUILD_SHARED_LIBS "Build final library as shared, not static" ON)
-option_with_default(ENABLE_GENERIC "Enables mostly static linking of system libraries for shared library" OFF)
-option_with_default(DISABLE_PRAGMA "Disable certain pragma optimizations, appends _GG_NO_PRAGMA to compile flags" OFF )
-
-# Warnings
-if((${BUILD_SHARED_LIBS}) AND NOT ${BUILD_FPIC})
-    message(FATAL_ERROR "BUILD_SHARED_LIBS ON and BUILD_FPIC OFF are incompatible, as shared library requires position independent code")
-endif()
-
-# Install
-option_with_default(CMAKE_INSTALL_LIBDIR "Directory to which libraries installed" lib)
-option_with_default(PYMOD_INSTALL_LIBDIR "Location within CMAKE_INSTALL_LIBDIR to which python modules are installed
-                                          Must start with: / . Used to imitate python install: /python3.6/site-packages ." /)
-option_with_print(INSTALL_PYMOD "Additionally installs as independent python module in PYMOD_INSTALL_LIBDIR" OFF)
-option_with_default(NATIVE_PYTHON_INSTALL "For INSTALL_PYMOD=ON, install in Python manner to PYTHON_EXECUTABLE's site-packages rather than Linux manner to prefix. Overrides CMAKE_INSTALL_PREFIX, CMAKE_INSTALL_LIBDIR, PYMOD_INSTALL_LIBDIR. Only Py module installed." OFF)
-option_with_print(NATIVE_PYTHON_INSTALL_WITH_LIB "Same as NATIVE_PYTHON_INSTALL except installs library, too, _without_ overriding CMAKE_INSTALL_* options." OFF)
-
-########################  Process & Validate Options  ##########################
-include(autocmake_safeguards)
-include(custom_color_messages)
-include(custom_static_library)
-
-if(CMAKE_INSTALL_PREFIX_INITIALIZED_TO_DEFAULT)
-    set(CMAKE_INSTALL_PREFIX "/usr/local/gau2grid" CACHE PATH "Install path" FORCE)
-endif()
-message(STATUS "gau2grid install: ${CMAKE_INSTALL_PREFIX}")
-
-#  <<  Python  >>
-set(Python_ADDITIONAL_VERSIONS 3.9 3.8 3.7 3.6 3.5)  # adjust with CMake minimum FindPythonInterp
-find_package(PythonLibsNew 3.6 REQUIRED)
-message(STATUS "${Cyan}Found Python ${PYTHON_VERSION_MAJOR}.${PYTHON_VERSION_MINOR}${ColourReset}: ${PYTHON_EXECUTABLE} (found version ${PYTHON_VERSION_STRING})")
-
-
-################################  Main Project  ################################
-add_custom_command(
-    OUTPUT  gau2grid/gau2grid.h gau2grid_orbital.c gau2grid_phi.c gau2grid_deriv1.c gau2grid_deriv2.c gau2grid_deriv3.c gau2grid_transform.c gau2grid_helper.c
-    COMMAND ${PYTHON_EXECUTABLE} -c "import sys; \
-                                     sys.path.append('${PROJECT_SOURCE_DIR}'); \
-                                     import gau2grid as gg; \
-                                     gg.c_gen.generate_c_gau2grid(${MAX_AM}, path='${CMAKE_CURRENT_BINARY_DIR}')"
-    DEPENDS gau2grid/c_generator.py
-            gau2grid/c_generator.py
-            gau2grid/codegen.py
-            gau2grid/c_pragma.py
-            gau2grid/c_util_generator.py
-            gau2grid/c_wrapper.py
-            gau2grid/docs_generator.py
-            gau2grid/order.py
-            gau2grid/python_reference.py
-            gau2grid/RSH.py
-            gau2grid/utility.py
-    VERBATIM)
-
-set(sources_list ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_phi.c
-                 ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_orbital.c
-                 ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_deriv1.c
-                 ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_deriv2.c
-                 ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_deriv3.c
-                 ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_transform.c
-                 ${CMAKE_CURRENT_BINARY_DIR}/gau2grid_helper.c)
-
-add_library(gg ${sources_list})
-if ("${CMAKE_C_COMPILER_ID}" STREQUAL "PGI")
-    set_target_properties(gg PROPERTIES COMPILE_FLAGS "-c11")
-else()
-    set_target_properties(gg PROPERTIES COMPILE_FLAGS "-std=c11")
-endif()
-set_target_properties(gg PROPERTIES POSITION_INDEPENDENT_CODE ${BUILD_FPIC}
-                                    SOVERSION 2)  # bump whenever interface has changes or removals
-
-if( DISABLE_PRAGMA )
-  target_compile_definitions( gg PRIVATE $<BUILD_INTERFACE:__GG_NO_PRAGMA> )
-endif()
-
-find_package(StandardMathLibraryC)
-target_link_libraries(gg PRIVATE ${STANDARD_MATH_LIBRARY})
-
-if(${BUILD_SHARED_LIBS})
-    target_link_libraries(gg PRIVATE ${LIBC_INTERJECT})
-endif()
-
-
-###################################  Install  ##################################
-include(GNUInstallDirs)
-include(CMakePackageConfigHelpers)
-
-set(PN ${PROJECT_NAME})
-
-# Alias to allow for consistent manipulation as a subproject
-add_library( ${PN}::gg ALIAS gg )
-
-target_include_directories(gg PUBLIC
-                           $<BUILD_INTERFACE:${PROJECT_BINARY_DIR}>
-                           $<INSTALL_INTERFACE:${CMAKE_INSTALL_INCLUDEDIR}>)
-
-# GNUInstallDirs "DATADIR" wrong here; CMake search path wants "share".
-set(CMAKECONFIG_INSTALL_DIR "share/cmake/${PN}")
-configure_package_config_file(cmake/${PN}Config.cmake.in
-                              "${CMAKE_CURRENT_BINARY_DIR}/${PN}Config.cmake"
-                              INSTALL_DESTINATION ${CMAKECONFIG_INSTALL_DIR})
-write_basic_package_version_file(${CMAKE_CURRENT_BINARY_DIR}/${PN}ConfigVersion.cmake
-                                 VERSION ${${PN}_VERSION}
-                                 COMPATIBILITY SameMajorVersion)
-
-# Install our files
-if(${NATIVE_PYTHON_INSTALL_WITH_LIB} OR (NOT(${INSTALL_PYMOD} AND ${NATIVE_PYTHON_INSTALL})))
-    install(FILES ${CMAKE_CURRENT_BINARY_DIR}/gau2grid/gau2grid.h
-                  ${CMAKE_CURRENT_BINARY_DIR}/gau2grid/gau2grid_pragma.h
-                  DESTINATION ${CMAKE_INSTALL_INCLUDEDIR}/${PN})
-
-    install(TARGETS gg
-            EXPORT "${PN}Targets"
-            ARCHIVE DESTINATION ${CMAKE_INSTALL_LIBDIR}
-            LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR})
-
-    install(FILES ${CMAKE_CURRENT_BINARY_DIR}/${PN}Config.cmake
-                  ${CMAKE_CURRENT_BINARY_DIR}/${PN}ConfigVersion.cmake
-            DESTINATION ${CMAKECONFIG_INSTALL_DIR})
-    install(EXPORT "${PN}Targets"
-            NAMESPACE "${PN}::"
-            DESTINATION ${CMAKECONFIG_INSTALL_DIR})
-    export(EXPORT "${PN}Targets"
-           NAMESPACE "${PN}::"
-           FILE "${PROJECT_BINARY_DIR}/${PN}Targets.cmake")
-endif()
-
-if(${INSTALL_PYMOD})
-    if(${NATIVE_PYTHON_INSTALL})
-        execute_process(COMMAND ${PYTHON_EXECUTABLE} -c
-                        "import sys; print(sys.prefix);"
-                        OUTPUT_VARIABLE CMAKE_INSTALL_PREFIX
-                        OUTPUT_STRIP_TRAILING_WHITESPACE)
-        execute_process(COMMAND ${PYTHON_EXECUTABLE} -c
-                        "from distutils import sysconfig as s; import os; import sys; cmake_install_prefix = sys.prefix; prefix_lib = s.get_config_var('LIBDIR'); print(prefix_lib.replace(os.path.commonpath([prefix_lib, cmake_install_prefix]), '').strip('/'));"
-                        OUTPUT_VARIABLE CMAKE_INSTALL_LIBDIR
-                        OUTPUT_STRIP_TRAILING_WHITESPACE)
-        execute_process(COMMAND ${PYTHON_EXECUTABLE} -c
-                        "from distutils import sysconfig as s; import os; prefix_lib = s.get_config_var('LIBDIR'); spdir = s.get_python_lib(plat_specific=True); print(spdir.replace(os.path.commonpath([prefix_lib, spdir]), ''));"
-                        OUTPUT_VARIABLE PYMOD_INSTALL_LIBDIR
-                        OUTPUT_STRIP_TRAILING_WHITESPACE)
-    endif()
-
-    execute_process(COMMAND ${PYTHON_EXECUTABLE} -c
-                    "from numpy import distutils; print(distutils.misc_util.get_shared_lib_extension(is_python_ext=False))"
-                    OUTPUT_VARIABLE PYLIB_EXTENSION
-                    OUTPUT_STRIP_TRAILING_WHITESPACE)
-
-    install(DIRECTORY gau2grid
-            DESTINATION ${CMAKE_INSTALL_LIBDIR}${PYMOD_INSTALL_LIBDIR}
-            USE_SOURCE_PERMISSIONS
-            FILES_MATCHING PATTERN "*.py")
-
-    install(FILES $<TARGET_FILE:gg>
-            DESTINATION ${CMAKE_INSTALL_LIBDIR}${PYMOD_INSTALL_LIBDIR}/gau2grid
-            RENAME "gg${PYLIB_EXTENSION}")
-
-    install(FILES ${CMAKE_CURRENT_SOURCE_DIR}/LICENSE
-            DESTINATION ${CMAKE_INSTALL_LIBDIR}${PYMOD_INSTALL_LIBDIR}/gau2grid)
-endif()
diff --git a/third_party/gauxc/external/gau2grid/src/LICENSE b/third_party/gauxc/external/gau2grid/src/LICENSE
deleted file mode 100644
index 3eba99f..0000000
--- a/third_party/gauxc/external/gau2grid/src/LICENSE
+++ /dev/null
@@ -1,29 +0,0 @@
-BSD 3-Clause License
-
-Copyright (c) 2017, Daniel Smith
-All rights reserved.
-
-Redistribution and use in source and binary forms, with or without
-modification, are permitted provided that the following conditions are met:
-
-* Redistributions of source code must retain the above copyright notice, this
-  list of conditions and the following disclaimer.
-
-* Redistributions in binary form must reproduce the above copyright notice,
-  this list of conditions and the following disclaimer in the documentation
-  and/or other materials provided with the distribution.
-
-* Neither the name of the copyright holder nor the names of its
-  contributors may be used to endorse or promote products derived from
-  this software without specific prior written permission.
-
-THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
diff --git a/third_party/gauxc/external/gau2grid/src/MANIFEST.in b/third_party/gauxc/external/gau2grid/src/MANIFEST.in
deleted file mode 100644
index d90c871..0000000
--- a/third_party/gauxc/external/gau2grid/src/MANIFEST.in
+++ /dev/null
@@ -1,9 +0,0 @@
-recursive-include gau2grid *.py
-
-include setup.py
-include README.md
-include LICENSE
-include MANIFEST.in
-
-include versioneer.py
-include gau2grid/_version.py
diff --git a/third_party/gauxc/external/gau2grid/src/README.md b/third_party/gauxc/external/gau2grid/src/README.md
deleted file mode 100644
index 756d429..0000000
--- a/third_party/gauxc/external/gau2grid/src/README.md
+++ /dev/null
@@ -1,95 +0,0 @@
-<p align="center">
-<a href="https://travis-ci.org/dgasmith/gau2grid">
-  <img src="https://travis-ci.org/dgasmith/gau2grid.svg?branch=master" alt="Travis CI"/>
-</a>
-
-<a href="https://ci.appveyor.com/project/MolSSI/gau2grid">
-  <img src="https://ci.appveyor.com/api/projects/status/d3l5nid8a2dww8dc?svg=true" alt="Appveyor"/>
-</a>
-
-<a href="https://codecov.io/gh/dgasmith/gau2grid">
-  <img src="https://codecov.io/gh/dgasmith/gau2grid/branch/master/graph/badge.svg" alt="Codecov" />
-</a>
-
-<a href="https://anaconda.org/psi4/gau2grid">
-  <img src="https://anaconda.org/psi4/gau2grid/badges/version.svg" />
-</a>
-
-<a href='https://gau2grid.readthedocs.io/en/latest/?badge=latest'>
-    <img src='https://readthedocs.org/projects/gau2grid/badge/?version=latest' alt='Documentation Status' />
-</a>
-</p>
-
-# gau2grid
-A collocation code for computing gaussians on a grid of the form:
-```
-out_Lp = x^l y^m z^n \sum_i coeff_i e^(exponent_i * (|center - p|)^2)
-```
-Where the returned matrix dimension are the angular momentum (L) by number of requested points (p).
-
-```python
-import gau2grid
-import numpy as np
-
-# Build coordinates along the Z axis
->>> xyz = np.zeros((3, 5))
->>> xyz[2] = np.arange(5)
-
-# Compute a 's' gaussian with a scaling and exponent of one at the origin
->>> ret = gau2grid.collocation(xyz, 0, [1], [1], [0, 0, 0])
->>> print(ret["PHI"])
-[[  1.00000e+00   3.67879e-01   1.83156e-02   1.23409e-04   1.12535e-07]]
-
-# Compute a 'p' gaussian with a scaling and exponent of one at the origin
->>> ret = gau2grid.collocation(xyz, 1, [1], [1], [0, 0, 0], spherical=False)
->>> print(ret["PHI"])
-[[  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]
- [  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]
- [  0.00000e+00   3.67879e-01   3.66312e-02   3.70229e-04   4.50140e-07]]
-
-# Note that the X and Y components are zero as they are orthogonal to our Z vector.
-```
-
-The returned matrix can be in either cartesian or regular solid harmonics. There are currently
-three algorithms in which to compute these collocation matrices:
- - Optimize C: A autogenerated C library that optimizes for cache,
-    vectorization, and sparsity. Fastest, requires compilation, found at
-    `gau2grid.collocation`.
-- Optimized/Generated NumPy: A exploratory tool to
-    examine the sparsity in the gaussians. No compilation required, found at
-    `gau2grid.np_gen.collocation`.
-- NumPy Reference: A simple NumPy-based loop
-    code. No compilation required, found at `gau2grid.ref.collocation`.
-
-See the [documentation](https://gau2grid.readthedocs.io/en/latest/?badge=latest) for more information!
-
-## Building Gau2Grid
-The C library is built with CMake and has C no required dependancies other than
-the standard library. A CMake and build example can found below:
-
-```bash
-cmake -H. -Bobjdir
-cd objdir; make -j2
-```
-
-Several common CMake options are as follow:
- - `-DPYTHON_EXECUTABLE` - Path to the desired Python executable
- - `-DMAX_AM` - Maximum angular momentum to compile to, default 6
- - `-DCMAKE_INSTALL_PREFIX` - Installation directory
-
-## Python installation
-The gau2grid program (without the optimized C library) can be installed using
-the canonical `setup.py` script,
-```
-python setup.py install
-```
-
-# Authors
-This code was inspired by a number of folks and quite a few provided excellent advice.
-
- - Daniel G. A. Smith - Code author
- - Rob M. Parrish - Author of the Psi4 section which contains the original equations
- - Lori A. Burns - CMake, building, and library linking
- - Andy C. Simmonett - RSH coefficients
- - Ben Pritchard - Generator and vectorization recommendations
-
diff --git a/third_party/gauxc/external/gau2grid/src/appveyor.yml b/third_party/gauxc/external/gau2grid/src/appveyor.yml
deleted file mode 100644
index adac81d..0000000
--- a/third_party/gauxc/external/gau2grid/src/appveyor.yml
+++ /dev/null
@@ -1,34 +0,0 @@
-image: Visual Studio 2017
-clone_depth: 5
-
-install:
-  - call "C:\Program Files (x86)\Microsoft Visual Studio\2017\Community\VC\Auxiliary\Build\vcvars64.bat"
-  - C:\Miniconda36-x64\Scripts\activate base
-  - conda install --yes numpy pytest
-  - conda list
-
-before_build:
-  - set SOURCE_FOLDER=%APPVEYOR_BUILD_FOLDER%
-  - set BUILD_FOLDER=%SOURCE_FOLDER%\build
-  - set INSTALL_FOLDER=%SOURCE_FOLDER%\install
-  - mkdir %BUILD_FOLDER% & cd %BUILD_FOLDER%
-  - cmake -A x64
-          -DCMAKE_C_FLAGS="/wd4018 /wd4101 /wd4996"
-          -DCMAKE_WINDOWS_EXPORT_ALL_SYMBOLS=true
-          -DCMAKE_INSTALL_PREFIX=%INSTALL_FOLDER%
-          -DINSTALL_PYMOD=ON
-          ..
-
-build_script:
-  - cmake --build .
-
-after_build:
-  - cmake --build . --target install
-
-before_test:
-  - cd ..
-  - set PYTHONPATH=%INSTALL_FOLDER%\lib
-
-test_script:
-  - set GAU2GRID_FORCE_C_TEST=1
-  - pytest -rws -v %INSTALL_FOLDER%
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/FindPythonLibsNew.cmake b/third_party/gauxc/external/gau2grid/src/cmake/FindPythonLibsNew.cmake
deleted file mode 100644
index dc44a9d..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/FindPythonLibsNew.cmake
+++ /dev/null
@@ -1,194 +0,0 @@
-# - Find python libraries
-# This module finds the libraries corresponding to the Python interpeter
-# FindPythonInterp provides.
-# This code sets the following variables:
-#
-#  PYTHONLIBS_FOUND           - have the Python libs been found
-#  PYTHON_PREFIX              - path to the Python installation
-#  PYTHON_LIBRARIES           - path to the python library
-#  PYTHON_INCLUDE_DIRS        - path to where Python.h is found
-#  PYTHON_MODULE_EXTENSION    - lib extension, e.g. '.so' or '.pyd'
-#  PYTHON_MODULE_PREFIX       - lib name prefix: usually an empty string
-#  PYTHON_SITE_PACKAGES       - path to installation site-packages
-#  PYTHON_IS_DEBUG            - whether the Python interpreter is a debug build
-#
-# Thanks to talljimbo for the patch adding the 'LDVERSION' config
-# variable usage.
-
-#=============================================================================
-# Copyright 2001-2009 Kitware, Inc.
-# Copyright 2012 Continuum Analytics, Inc.
-#
-# All rights reserved.
-#
-# Redistribution and use in source and binary forms, with or without
-# modification, are permitted provided that the following conditions
-# are met:
-#
-# * Redistributions of source code must retain the above copyright
-# notice, this list of conditions and the following disclaimer.
-#
-# * Redistributions in binary form must reproduce the above copyright
-# notice, this list of conditions and the following disclaimer in the
-# documentation and/or other materials provided with the distribution.
-#
-# * Neither the names of Kitware, Inc., the Insight Software Consortium,
-# nor the names of their contributors may be used to endorse or promote
-# products derived from this software without specific prior written
-# permission.
-#
-# THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS
-# "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT
-# LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-# # A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-# HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-# SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
-# LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-# DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-# THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
-# (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-# OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-#=============================================================================
-
-if(PYTHONLIBS_FOUND)
-    return()
-endif()
-
-# Use the Python interpreter to find the libs.
-if(PythonLibsNew_FIND_REQUIRED)
-    find_package(PythonInterp ${PythonLibsNew_FIND_VERSION} REQUIRED)
-else()
-    find_package(PythonInterp ${PythonLibsNew_FIND_VERSION})
-endif()
-
-if(NOT PYTHONINTERP_FOUND)
-    set(PYTHONLIBS_FOUND FALSE)
-    return()
-endif()
-
-# According to http://stackoverflow.com/questions/646518/python-how-to-detect-debug-interpreter
-# testing whether sys has the gettotalrefcount function is a reliable, cross-platform
-# way to detect a CPython debug interpreter.
-#
-# The library suffix is from the config var LDVERSION sometimes, otherwise
-# VERSION. VERSION will typically be like "2.7" on unix, and "27" on windows.
-execute_process(COMMAND "${PYTHON_EXECUTABLE}" "-c"
-    "from distutils import sysconfig as s;import sys;import struct;
-print('.'.join(str(v) for v in sys.version_info));
-print(sys.prefix);
-print(s.get_python_inc(plat_specific=True));
-print(s.get_python_lib(plat_specific=True));
-print(s.get_config_var('SO'));
-print(hasattr(sys, 'gettotalrefcount')+0);
-print(struct.calcsize('@P'));
-print(s.get_config_var('LDVERSION') or s.get_config_var('VERSION'));
-print(s.get_config_var('LIBDIR') or '');
-print(s.get_config_var('MULTIARCH') or '');
-"
-    RESULT_VARIABLE _PYTHON_SUCCESS
-    OUTPUT_VARIABLE _PYTHON_VALUES
-    ERROR_VARIABLE _PYTHON_ERROR_VALUE)
-
-if(NOT _PYTHON_SUCCESS MATCHES 0)
-    if(PythonLibsNew_FIND_REQUIRED)
-        message(FATAL_ERROR
-            "Python config failure:\n${_PYTHON_ERROR_VALUE}")
-    endif()
-    set(PYTHONLIBS_FOUND FALSE)
-    return()
-endif()
-
-# Convert the process output into a list
-string(REGEX REPLACE ";" "\\\\;" _PYTHON_VALUES ${_PYTHON_VALUES})
-string(REGEX REPLACE "\n" ";" _PYTHON_VALUES ${_PYTHON_VALUES})
-list(GET _PYTHON_VALUES 0 _PYTHON_VERSION_LIST)
-list(GET _PYTHON_VALUES 1 PYTHON_PREFIX)
-list(GET _PYTHON_VALUES 2 PYTHON_INCLUDE_DIR)
-list(GET _PYTHON_VALUES 3 PYTHON_SITE_PACKAGES)
-list(GET _PYTHON_VALUES 4 PYTHON_MODULE_EXTENSION)
-list(GET _PYTHON_VALUES 5 PYTHON_IS_DEBUG)
-list(GET _PYTHON_VALUES 6 PYTHON_SIZEOF_VOID_P)
-list(GET _PYTHON_VALUES 7 PYTHON_LIBRARY_SUFFIX)
-list(GET _PYTHON_VALUES 8 PYTHON_LIBDIR)
-list(GET _PYTHON_VALUES 9 PYTHON_MULTIARCH)
-
-# Make sure the Python has the same pointer-size as the chosen compiler
-# Skip if CMAKE_SIZEOF_VOID_P is not defined
-if(CMAKE_SIZEOF_VOID_P AND (NOT "${PYTHON_SIZEOF_VOID_P}" STREQUAL "${CMAKE_SIZEOF_VOID_P}"))
-    if(PythonLibsNew_FIND_REQUIRED)
-        math(EXPR _PYTHON_BITS "${PYTHON_SIZEOF_VOID_P} * 8")
-        math(EXPR _CMAKE_BITS "${CMAKE_SIZEOF_VOID_P} * 8")
-        message(FATAL_ERROR
-            "Python config failure: Python is ${_PYTHON_BITS}-bit, "
-            "chosen compiler is  ${_CMAKE_BITS}-bit")
-    endif()
-    set(PYTHONLIBS_FOUND FALSE)
-    return()
-endif()
-
-# The built-in FindPython didn't always give the version numbers
-string(REGEX REPLACE "\\." ";" _PYTHON_VERSION_LIST ${_PYTHON_VERSION_LIST})
-list(GET _PYTHON_VERSION_LIST 0 PYTHON_VERSION_MAJOR)
-list(GET _PYTHON_VERSION_LIST 1 PYTHON_VERSION_MINOR)
-list(GET _PYTHON_VERSION_LIST 2 PYTHON_VERSION_PATCH)
-
-# Make sure all directory separators are '/'
-string(REGEX REPLACE "\\\\" "/" PYTHON_PREFIX ${PYTHON_PREFIX})
-string(REGEX REPLACE "\\\\" "/" PYTHON_INCLUDE_DIR ${PYTHON_INCLUDE_DIR})
-string(REGEX REPLACE "\\\\" "/" PYTHON_SITE_PACKAGES ${PYTHON_SITE_PACKAGES})
-
-if(CMAKE_HOST_WIN32)
-    set(PYTHON_LIBRARY
-        "${PYTHON_PREFIX}/libs/Python${PYTHON_LIBRARY_SUFFIX}.lib")
-
-    # when run in a venv, PYTHON_PREFIX points to it. But the libraries remain in the
-    # original python installation. They may be found relative to PYTHON_INCLUDE_DIR.
-    if(NOT EXISTS "${PYTHON_LIBRARY}")
-        get_filename_component(_PYTHON_ROOT ${PYTHON_INCLUDE_DIR} DIRECTORY)
-        set(PYTHON_LIBRARY
-            "${_PYTHON_ROOT}/libs/Python${PYTHON_LIBRARY_SUFFIX}.lib")
-    endif()
-
-    # raise an error if the python libs are still not found.
-    if(NOT EXISTS "${PYTHON_LIBRARY}")
-        message(FATAL_ERROR "Python libraries not found")
-    endif()
-
-else()
-    if(PYTHON_MULTIARCH)
-        set(_PYTHON_LIBS_SEARCH "${PYTHON_LIBDIR}/${PYTHON_MULTIARCH}" "${PYTHON_LIBDIR}")
-    else()
-        set(_PYTHON_LIBS_SEARCH "${PYTHON_LIBDIR}")
-    endif()
-    #message(STATUS "Searching for Python libs in ${_PYTHON_LIBS_SEARCH}")
-    # Probably this needs to be more involved. It would be nice if the config
-    # information the python interpreter itself gave us were more complete.
-    find_library(PYTHON_LIBRARY
-        NAMES "python${PYTHON_LIBRARY_SUFFIX}"
-        PATHS ${_PYTHON_LIBS_SEARCH}
-        NO_DEFAULT_PATH)
-
-    # If all else fails, just set the name/version and let the linker figure out the path.
-    if(NOT PYTHON_LIBRARY)
-        set(PYTHON_LIBRARY python${PYTHON_LIBRARY_SUFFIX})
-    endif()
-endif()
-
-MARK_AS_ADVANCED(
-  PYTHON_LIBRARY
-  PYTHON_INCLUDE_DIR
-)
-
-# We use PYTHON_INCLUDE_DIR, PYTHON_LIBRARY and PYTHON_DEBUG_LIBRARY for the
-# cache entries because they are meant to specify the location of a single
-# library. We now set the variables listed by the documentation for this
-# module.
-SET(PYTHON_INCLUDE_DIRS "${PYTHON_INCLUDE_DIR}")
-SET(PYTHON_LIBRARIES "${PYTHON_LIBRARY}")
-SET(PYTHON_DEBUG_LIBRARIES "${PYTHON_DEBUG_LIBRARY}")
-
-find_package_message(PYTHON
-    "Found PythonLibs: ${PYTHON_LIBRARY}"
-    "${PYTHON_EXECUTABLE}${PYTHON_VERSION}")
-
-set(PYTHONLIBS_FOUND TRUE)
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/FindStandardMathLibraryC.cmake b/third_party/gauxc/external/gau2grid/src/cmake/FindStandardMathLibraryC.cmake
deleted file mode 100644
index 72310b3..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/FindStandardMathLibraryC.cmake
+++ /dev/null
@@ -1,54 +0,0 @@
-# * downloaded Nov 2016 from https://android.googlesource.com/platform/external/eigen/+/master/cmake/FindStandardMathLibrary.cmake
-# * changed CXX to C
-# * note that full path to libm *not* detected
-
-# - Try to find how to link to the standard math library, if anything at all is needed to do.
-# On most platforms this is automatic, but for example it's not automatic on QNX.
-#
-# Once done this will define
-#
-#  STANDARD_MATH_LIBRARY_FOUND - we found how to successfully link to the standard math library
-#  STANDARD_MATH_LIBRARY - the name of the standard library that one has to link to.
-#                            -- this will be left empty if it's automatic (most platforms).
-#                            -- this will be set to "m" on platforms where one must explicitly
-#                               pass the "-lm" linker flag.
-#
-# Copyright (c) 2010 Benoit Jacob <jacob.benoit.1@gmail.com>
-# Redistribution and use is allowed according to the terms of the 2-clause BSD license.
-include(CheckCSourceCompiles)
-# a little test program for c++ math functions.
-# notice the std:: is required on some platforms such as QNX
-set(find_standard_math_library_test_program
-"#include<math.h>
-int main() { sin(0.0); log(0.0f); }")
-# C++ test program
-# "#include<cmath>
-# int main() { std::sin(0.0); std::log(0.0f); }")
-# first try compiling/linking the test program without any linker flags
-set(CMAKE_REQUIRED_FLAGS "")
-set(CMAKE_REQUIRED_LIBRARIES "")
-CHECK_C_SOURCE_COMPILES(
-  "${find_standard_math_library_test_program}"
-  standard_math_library_linked_to_automatically
-)
-if(standard_math_library_linked_to_automatically)
-  # the test program linked successfully without any linker flag.
-  set(STANDARD_MATH_LIBRARY "")
-  set(STANDARD_MATH_LIBRARY_FOUND TRUE)
-else()
-  # the test program did not link successfully without any linker flag.
-  # This is a very uncommon case that so far we only saw on QNX. The next try is the
-  # standard name 'm' for the standard math library.
-  set(CMAKE_REQUIRED_LIBRARIES "m")
-  CHECK_C_SOURCE_COMPILES(
-    "${find_standard_math_library_test_program}"
-    standard_math_library_linked_to_as_m)
-  if(standard_math_library_linked_to_as_m)
-    # the test program linked successfully when linking to the 'm' library
-    set(STANDARD_MATH_LIBRARY "m")
-    set(STANDARD_MATH_LIBRARY_FOUND TRUE)
-  else()
-    # the test program still doesn't link successfully
-    set(STANDARD_MATH_LIBRARY_FOUND FALSE)
-  endif()
-endif()
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/autocmake_safeguards.cmake b/third_party/gauxc/external/gau2grid/src/cmake/autocmake_safeguards.cmake
deleted file mode 100644
index 7c0a2a9..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/autocmake_safeguards.cmake
+++ /dev/null
@@ -1,26 +0,0 @@
-# Downloaded from
-#   https://github.com/coderefinery/autocmake/blob/master/modules/safeguards.cmake
-# * changed text of in-source message
-
-#.rst:
-#
-# Provides safeguards against in-source builds and bad build types.
-#
-# Variables used::
-#
-#   PROJECT_SOURCE_DIR
-#   PROJECT_BINARY_DIR
-#   CMAKE_BUILD_TYPE
-
-if(${PROJECT_SOURCE_DIR} STREQUAL ${PROJECT_BINARY_DIR})
-    message(FATAL_ERROR "In-source builds not allowed. Please run CMake from top directory and specify a build directory (e.g., cmake -H. -Bbuild).")
-endif()
-
-string(TOLOWER "${CMAKE_BUILD_TYPE}" cmake_build_type_tolower)
-string(TOUPPER "${CMAKE_BUILD_TYPE}" cmake_build_type_toupper)
-
-if(NOT cmake_build_type_tolower STREQUAL "debug" AND
-   NOT cmake_build_type_tolower STREQUAL "release" AND
-   NOT cmake_build_type_tolower STREQUAL "relwithdebinfo")
-    message(FATAL_ERROR "Unknown build type \"${CMAKE_BUILD_TYPE}\". Allowed values are Debug, Release, RelWithDebInfo (case-insensitive).")
-endif()
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/custom_color_messages.cmake b/third_party/gauxc/external/gau2grid/src/cmake/custom_color_messages.cmake
deleted file mode 100644
index 7daf7e6..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/custom_color_messages.cmake
+++ /dev/null
@@ -1,38 +0,0 @@
-# http://stackoverflow.com/a/19578320
-
-if(NOT WIN32)
-  string(ASCII 27 Esc)
-  set(ColourReset "${Esc}[m")
-  set(ColourBold  "${Esc}[1m")
-  set(Red         "${Esc}[31m")
-  set(Green       "${Esc}[32m")
-  set(Yellow      "${Esc}[33m")
-  set(Blue        "${Esc}[34m")
-  set(Magenta     "${Esc}[35m")
-  set(Cyan        "${Esc}[36m")
-  set(White       "${Esc}[37m")
-  set(BoldRed     "${Esc}[1;31m")
-  set(BoldGreen   "${Esc}[1;32m")
-  set(BoldYellow  "${Esc}[1;33m")
-  set(BoldBlue    "${Esc}[1;34m")
-  set(BoldMagenta "${Esc}[1;35m")
-  set(BoldCyan    "${Esc}[1;36m")
-  set(BoldWhite   "${Esc}[1;37m")
-endif()
-
-#message("This is normal")
-#message("${Red}This is Red${ColourReset}")
-#message("${Green}This is Green${ColourReset}")
-#message("${Yellow}This is Yellow${ColourReset}")
-#message("${Blue}This is Blue${ColourReset}")
-#message("${Magenta}This is Magenta${ColourReset}")
-#message("${Cyan}This is Cyan${ColourReset}")
-#message("${White}This is White${ColourReset}")
-#message("${BoldRed}This is BoldRed${ColourReset}")
-#message("${BoldGreen}This is BoldGreen${ColourReset}")
-#message("${BoldYellow}This is BoldYellow${ColourReset}")
-#message("${BoldBlue}This is BoldBlue${ColourReset}")
-#message("${BoldMagenta}This is BoldMagenta${ColourReset}")
-#message("${BoldCyan}This is BoldCyan${ColourReset}")
-#message("${BoldWhite}This is BoldWhite\n\n${ColourReset}")
-
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/custom_static_library.cmake b/third_party/gauxc/external/gau2grid/src/cmake/custom_static_library.cmake
deleted file mode 100644
index d52f98b..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/custom_static_library.cmake
+++ /dev/null
@@ -1,56 +0,0 @@
-# Downloaded from
-#   https://github.com/PCMSolver/pcmsolver/blob/release/1.Y/cmake/custom/static_library.cmake
-# * suppressed STATIC_LIBRARY_ONLY
-# * moved option up
-# * corrected CXX block matches statements from C --> CXX compiler
-
-#.rst:
-#
-# Enables creation of static library.
-# If the shared library is created, make it as static as possible.
-#
-# Variables modified (provided the corresponding language is enabled)::
-#
-#   CMAKE_Fortran_FLAGS
-#   CMAKE_C_FLAGS
-#   CMAKE_CXX_FLAGS
-#
-# autocmake.cfg configuration::
-#
-#   docopt: --static Create only the static library [default: False].
-#   define: '-DSTATIC_LIBRARY_ONLY=%s' % arguments['--static']
-
-if(ENABLE_GENERIC)
-    if(DEFINED CMAKE_Fortran_COMPILER_ID)
-        if(CMAKE_Fortran_COMPILER_ID MATCHES GNU)
-            set(CMAKE_Fortran_FLAGS "${CMAKE_Fortran_FLAGS} -static-libgfortran")
-        endif()
-        if(CMAKE_Fortran_COMPILER_ID MATCHES Intel)
-            set(CMAKE_Fortran_FLAGS "${CMAKE_Fortran_FLAGS} -static-libgcc -static-intel")
-        endif()
-    endif()
-
-    if(DEFINED CMAKE_C_COMPILER_ID)
-        if(CMAKE_C_COMPILER_ID MATCHES GNU)
-            set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -static-libgcc -fpic")
-        endif()
-        if(CMAKE_C_COMPILER_ID MATCHES Intel)
-            set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -static-libgcc -static-intel -wd10237")
-        endif()
-        if(CMAKE_C_COMPILER_ID MATCHES Clang)
-            set(CMAKE_C_FLAGS "${CMAKE_C_FLAGS} -fpic")
-        endif()
-    endif()
-
-    if(DEFINED CMAKE_CXX_COMPILER_ID)
-        if(CMAKE_CXX_COMPILER_ID MATCHES GNU)
-            set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -static-libstdc++ -static-libgcc")
-        endif()
-        if(CMAKE_CXX_COMPILER_ID MATCHES Intel)
-            set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -Wl,--as-needed -static-libstdc++ -static-libgcc -static-intel -wd10237")
-        endif()
-        if(CMAKE_CXX_COMPILER_ID MATCHES Clang)
-            set(CMAKE_CXX_FLAGS "${CMAKE_CXX_FLAGS} -static-libstdc++")
-        endif()
-    endif()
-endif()
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/gau2gridConfig.cmake.in b/third_party/gauxc/external/gau2grid/src/cmake/gau2gridConfig.cmake.in
deleted file mode 100644
index fb43424..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/gau2gridConfig.cmake.in
+++ /dev/null
@@ -1,73 +0,0 @@
-# gau2gridConfig.cmake
-# --------------------
-#
-# GAU2GRID cmake module.
-# This module sets the following variables in your project::
-#
-#   gau2grid_FOUND - true if gau2grid and all required components found on the system
-#   gau2grid_VERSION - gau2grid version in format Major.Minor.Release
-#   gau2grid_INCLUDE_DIRS - Directory where gau2grid header is located.
-#   gau2grid_INCLUDE_DIR - same as DIRS
-#   gau2grid_LIBRARIES - gau2grid library to link against.
-#   gau2grid_LIBRARY - same as LIBRARIES
-#
-#
-# Available components:
-#
-#   shared - search for only shared library
-#   static - search for only static library
-#
-#
-# Exported targets::
-#
-# If gau2grid is found, this module defines the following :prop_tgt:`IMPORTED`
-# target. Target is shared _or_ static, so, for both, use separate, not
-# overlapping, installations. ::
-#
-#   gau2grid::gg - the main gau2grid library with header attached.
-#
-#
-# Suggested usage::
-#
-#   find_package(gau2grid)
-#   find_package(gau2grid 1.0.1 EXACT CONFIG REQUIRED)
-#
-#
-# The following variables can be set to guide the search for this package::
-#
-#   gau2grid_DIR - CMake variable, set to directory containing this Config file
-#   CMAKE_PREFIX_PATH - CMake variable, set to root directory of this package
-##   PATH - environment variable, set to bin directory of this package
-#   CMAKE_DISABLE_FIND_PACKAGE_gau2grid - CMake variable, disables
-#     find_package(gau2grid) when not REQUIRED, perhaps to force internal build
-
-@PACKAGE_INIT@
-
-set(PN gau2grid)
-
-if(@BUILD_SHARED_LIBS@)
-    set(${PN}_shared_FOUND 1)
-else()
-    set(${PN}_static_FOUND 1)
-endif()
-
-check_required_components(${PN})
-
-#-----------------------------------------------------------------------------
-# Don't include targets if this file is being picked up by another
-# project which has already built this as a subproject
-#-----------------------------------------------------------------------------
-if(NOT TARGET ${PN}::gg)
-    include("${CMAKE_CURRENT_LIST_DIR}/${PN}Targets.cmake")
-
-    get_property(_loc TARGET ${PN}::gg PROPERTY LOCATION)
-    set(${PN}_LIBRARY ${_loc})
-    get_property(_ill TARGET ${PN}::gg PROPERTY INTERFACE_LINK_LIBRARIES)
-    set(${PN}_LIBRARIES ${_ill})
-
-    get_property(_id TARGET ${PN}::gg PROPERTY INCLUDE_DIRECTORIES)
-    set(${PN}_INCLUDE_DIR ${_id})
-    get_property(_iid TARGET ${PN}::gg PROPERTY INTERFACE_INCLUDE_DIRECTORIES)
-    set(${PN}_INCLUDE_DIRS ${_iid})
-endif()
-
diff --git a/third_party/gauxc/external/gau2grid/src/cmake/psi4OptionsTools.cmake b/third_party/gauxc/external/gau2grid/src/cmake/psi4OptionsTools.cmake
deleted file mode 100644
index eb3e58e..0000000
--- a/third_party/gauxc/external/gau2grid/src/cmake/psi4OptionsTools.cmake
+++ /dev/null
@@ -1,230 +0,0 @@
-###This file contains functions used throughout the Psi4 build.  Like source
-###code, the build system should be factored and common code extracted out into
-###functions/macros.  If you find repetitive code throughout the build scripts
-###this is the place to add it (make sure you document it too).
-
-#Macro for printing an option in a consistent manner
-#
-#Syntax: print_option(<option to print> <was specified>)
-#
-macro(print_option variable default)
-if(NOT DEFINED ${variable} OR "${${variable}}" STREQUAL "")
-message(STATUS "Setting (unspecified) option ${variable}: ${default}")
-else()
-message(STATUS "Setting option ${variable}: ${${variable}}")
-endif()
-endmacro()
-
-# Wraps an option with default ON/OFF. Adds nice messaging to option()
-#
-#Syntax: option_with_print(<option name> <description> <default value>)
-#
-macro(option_with_print variable msge default)
-print_option(${variable} ${default})
-option(${variable} ${msge} ${default})
-endmacro(option_with_print)
-
-#Wraps an option with a default other than ON/OFF and prints it
-#NOTE: Can't combine with above b/c CMake handles ON/OFF options specially
-#NOTE2: CMAKE_BUILD_TYPE (and other CMake variables) are always defined so need
-#       to further check for if they are the NULL string.  This is also why we
-#       need the force
-#
-#Syntax: option_with_default(<option name> <description> <default value>)
-#
-macro(option_with_default variable msge default)
-print_option(${variable} ${default})
-if(NOT DEFINED ${variable} OR "${${variable}}" STREQUAL "")
-set(${variable} ${default} CACHE STRING ${msge} FORCE)
-endif()
-endmacro(option_with_default)
-
-# Common guts to adding a Psi4 library irrespective of bin vs. lib home
-#
-# Syntax psi4_add_module(<lib or bin> <library name> <CMake list of sources> <dependencies>)
-#
-macro(psi4_add_module binlib libname sources)
-
-    set(current_sources ${${sources}};)
-    list(SORT current_sources)
-
-    add_library(${libname} STATIC ${current_sources})
-    set_target_properties(${libname} PROPERTIES POSITION_INDEPENDENT_CODE ${BUILD_FPIC})
-
-    # library modules get their headers installed
-    if((${binlib} MATCHES lib) OR (${binlib} MATCHES binlib))
-        install(DIRECTORY ${CMAKE_CURRENT_SOURCE_DIR}
-                DESTINATION ${CMAKE_INSTALL_PREFIX}/${CMAKE_INSTALL_INCLUDEDIR}/psi4
-                FILES_MATCHING PATTERN "*.h" PATTERN "*.hpp" PATTERN "*.i")
-    endif()
-
-    # binary modules explicitly compiled into psi4.so
-    if((${binlib} MATCHES bin) OR (${binlib} MATCHES binlib))
-        set_property(GLOBAL APPEND PROPERTY BINLIST ${libname})
-    endif()
-
-    set(depend_name "${ARGN}")
-    foreach(name_i IN LISTS depend_name)
-        target_link_libraries(${libname} PRIVATE ${name_i})
-    endforeach()
-    target_link_libraries(${libname} PRIVATE pybind11::module)
-    target_link_libraries(${libname} PRIVATE tgt::lapack)
-endmacro()
-
-include(CheckCCompilerFlag)
-include(CheckCXXCompilerFlag)
-if(CMAKE_Fortran_COMPILER)
-    include(CheckFortranCompilerFlag)  # CMake >= 3.3, so local copy in cmake/
-endif()
-
-#The guts of the next two functions, use the wrappers please
-#
-#Syntax: add_C_or_CXX_flags(<True for C, False for CXX>)
-#
-# Note: resist adding -Werror to the check_X_compiler_flag calls,
-#   as (i) the flag for Intel is actually -diag-error warn, (ii)
-#   Intel ifort doesn't define -Werror, and (iii) passing it
-#   changes REQUIRED_DEFINITIONS.
-macro(add_C_or_CXX_flags is_C)
-set(CMAKE_REQUIRED_QUIET_SAVE ${CMAKE_REQUIRED_QUIET})
-   set(CMAKE_REQUIRED_QUIET ON)
-   set(flags_to_try "${ARGN}")
-   foreach(flag_i IN LISTS flags_to_try ITEMS -brillig)
-      if(${flag_i} STREQUAL "-brillig")
-         message(WARNING "Option unfulfilled as none of ${flags_to_try} valid")
-         break()
-      endif()
-      unset(test_option CACHE)
-      if(${is_C} EQUAL 0)
-          CHECK_C_COMPILER_FLAG("${flag_i}" test_option)
-          set(description_to_print CMAKE_C_FLAGS)
-      elseif(${is_C} EQUAL 1)
-          CHECK_CXX_COMPILER_FLAG("${flag_i}" test_option)
-          set(description_to_print CMAKE_CXX_FLAGS)
-      elseif(${is_C} EQUAL 2)
-          CHECK_Fortran_COMPILER_FLAG("${flag_i}" test_option)
-          set(description_to_print CMAKE_Fortran_FLAGS)
-      endif()
-      set(msg_base "Performing Test ${description_to_print} [${flag_i}] -")
-      if(${test_option})
-        set(${description_to_print} "${${description_to_print}} ${flag_i}")
-        if(NOT CMAKE_REQUIRED_QUIET_SAVE)
-           message(STATUS  "${msg_base} Success, Appending")
-        endif()
-        break()
-      else()
-        if(NOT CMAKE_REQUIRED_QUIET_SAVE)
-           message(STATUS "${msg_base} Failed")
-        endif()
-      endif()
-   endforeach()
-   set(CMAKE_REQUIRED_QUIET ${CMAKE_REQUIRED_QUIET_SAVE})
-endmacro()
-
-
-
-#Checks if C flags are valid, if so adds them to CMAKE_C_FLAGS
-#Input should be a list of flags to try.  If two flags are to be tried together
-#enclose them in quotes, e.g. "-L/path/to/dir -lmylib" is tried as a single
-#flag, whereas "-L/path/to/dir" "-lmylib" is tried as two separate flags.
-#The first list item to succeed is added to CMAKE_C_FLAGS, then try loop
-#breaks. Warning issued if no flags in list succeed.
-#
-#
-#Syntax: add_C_flags(<flags to add>)
-#
-macro(add_C_flags)
-   add_C_or_CXX_flags(0 ${ARGN})
-endmacro()
-
-#Checks if CXX flags are valid, if so adds them to CMAKE_CXX_FLAGS
-#See add_C_flags for more info on syntax
-#
-#Syntax: add_CXX_flags(<flags to add>)
-#
-macro(add_CXX_flags)
-    add_C_or_CXX_flags(1 ${ARGN})
-endmacro()
-
-#Checks if Fortran flags are valid, if so adds them to CMAKE_Fortran_FLAGS
-#See add_C_flags for more info on syntax
-#
-#Syntax: add_Fortran_flags(<flags to add>)
-#
-macro(add_Fortran_flags)
-    add_C_or_CXX_flags(2 ${ARGN})
-endmacro()
-
-#Macro for adding flags common to both C and CXX, if the compiler supports them
-#
-#Syntax: add_flags(<flags to add>)
-#
-macro(add_flags FLAGS)
-    get_property(languages GLOBAL PROPERTY ENABLED_LANGUAGES)
-    list(FIND languages "C" _index_c)
-    list(FIND languages "CXX" _index_cxx)
-    list(FIND languages "Fortran" _index_fortran)
-    if (${_index_c} GREATER -1)
-        add_C_flags(${FLAGS})
-    endif()
-    if (${_index_cxx} GREATER -1)
-        add_CXX_flags(${FLAGS})
-    endif()
-    if (${_index_fortran} GREATER -1)
-        add_Fortran_flags(${FLAGS})
-    endif()
-endmacro()
-
-#Defines an option that if enabled turns on some compiler flags
-#
-#Syntax: option_with_flags(<option> <description> <default value> <flags>)
-#
-macro(option_with_flags option msg default)
-    print_option(${option} ${default})
-    option(${option} ${msg} ${default})
-    if(${${option}})
-       add_flags("${ARGN}")
-    endif()
-endmacro()
-
-#Macro so I don't have to look at a ton of if statements for adding each plugin
-#
-#Syntax: optional_plugin(<plugin name>)
-#
-macro(optional_plugin plugin_name)
-string(TOUPPER ${plugin_name} PLUGIN_NAME)
-if(${ENABLE_${PLUGIN_NAME}})
-   find_package(${plugin_name} REQUIRED)
-   set_property(GLOBAL APPEND PROPERTY PSI4_MODULES ${${PLUGIN_NAME}_LIBRARIES})
-   add_definitions(-DENABLE_${PLUGIN_NAME})
-else()
-   add_library(${plugin_name} INTERFACE)
-endif()
-endmacro(optional_plugin plugin_name test_names)
-
-#Macro for adding a skeleton plugin
-macro(add_skeleton_plugin PLUG TEMPLATE TESTLABELS)
-    set(CCSD "${CMAKE_CURRENT_SOURCE_DIR}")
-    set(CCBD "${CMAKE_CURRENT_BINARY_DIR}")
-    set(PSIEXE ${STAGED_INSTALL_PREFIX}/${CMAKE_INSTALL_BINDIR}/psi4)
-    set(DIR_2_PASS ${CMAKE_PREFIX_PATH} ${STAGED_INSTALL_PREFIX})
-
-    add_custom_target(plugin_${PLUG}
-        ALL
-        DEPENDS psi4-core
-        COMMAND ${CMAKE_COMMAND} -E remove_directory ${CCBD}/${PLUG}
-        COMMAND ${PSIEXE} --plugin-name ${PLUG} --plugin-template ${TEMPLATE}
-        COMMAND ${CMAKE_COMMAND} -E chdir "${CCBD}/${PLUG}" cmake -C ${STAGED_INSTALL_PREFIX}/share/cmake/psi4/psi4PluginCache.cmake "-DCMAKE_PREFIX_PATH=${DIR_2_PASS}" .
-        COMMAND ${CMAKE_COMMAND} -E chdir "${CCBD}/${PLUG}" ${CMAKE_MAKE_PROGRAM}
-        COMMAND ${CMAKE_COMMAND} -E create_symlink ${CCBD}/${PLUG}/input.dat ${CCSD}/input.dat
-        COMMAND ${CMAKE_COMMAND} -E create_symlink "${PLUG}/${PLUG}.so" "${PLUG}.so"
-        COMMAND ${CMAKE_COMMAND} -E create_symlink "${PLUG}/__init__.py" "__init__.py"
-        COMMAND ${CMAKE_COMMAND} -E create_symlink "${PLUG}/pymodule.py" "pymodule.py"
-        COMMENT "Build ${PLUG} example plugin"
-        VERBATIM)
-
-    include(TestingMacros)
-    add_regression_test(${PLUG} "${TESTLABELS}")
-endmacro()
-
-
diff --git a/third_party/gauxc/external/gau2grid/src/devtools/README.md b/third_party/gauxc/external/gau2grid/src/devtools/README.md
deleted file mode 100644
index 97134ce..0000000
--- a/third_party/gauxc/external/gau2grid/src/devtools/README.md
+++ /dev/null
@@ -1,16 +0,0 @@
-# Development, testing, and deployment tools
-
-This directory contains a collection of tools for running Continuous Integration (CI) tests, 
-conda installation, and other development tools not directly related to the coding process.
-
-
-## Manifest
-
-### Continuous Integration
-
-You should test your code, but do not feel compelled to use these specific programs. You also may not need Unix and 
-Windows testing if you only plan to deploy on specific platforms. These are just to help you get started
-
-* `travis-ci`: Linux and OSX based testing through [Travis-CI](https://about.travis-ci.com/) 
-  * `before_install.sh`: Pip/Miniconda installation script for Travis
-
diff --git a/third_party/gauxc/external/gau2grid/src/devtools/conda-envs/base.yaml b/third_party/gauxc/external/gau2grid/src/devtools/conda-envs/base.yaml
deleted file mode 100644
index 4073312..0000000
--- a/third_party/gauxc/external/gau2grid/src/devtools/conda-envs/base.yaml
+++ /dev/null
@@ -1,14 +0,0 @@
-name: qcarchive
-channels:
-  - defaults
-  - conda-forge
-dependencies:
-  - python
-  - numpy
-  - cmake
-
-# Test depends
-  - pytest
-  - pytest-cov
-  - codecov
-
diff --git a/third_party/gauxc/external/gau2grid/src/devtools/scripts/conda_env.py b/third_party/gauxc/external/gau2grid/src/devtools/scripts/conda_env.py
deleted file mode 100644
index b9aa8c1..0000000
--- a/third_party/gauxc/external/gau2grid/src/devtools/scripts/conda_env.py
+++ /dev/null
@@ -1,50 +0,0 @@
-import argparse
-import json
-import os
-import shutil
-import subprocess as sp
-
-# Args
-parser = argparse.ArgumentParser(
-    description="Creates a conda environment from file for a given Python version."
-)
-parser.add_argument(
-    "-n", "--name", type=str, nargs=1, help="The name of the created Python environment"
-)
-parser.add_argument(
-    "-p",
-    "--python",
-    type=str,
-    nargs=1,
-    help="The version of the created Python environment",
-)
-parser.add_argument(
-    "conda_file", nargs="*", help="The file for the created Python environment"
-)
-
-args = parser.parse_args()
-
-with open(args.conda_file[0], "r") as handle:
-    script = handle.read()
-
-tmp_file = "tmp_env.yaml"
-script = script.replace("- python", "- python {}*".format(args.python[0]))
-
-with open(tmp_file, "w") as handle:
-    handle.write(script)
-
-# Figure out conda path
-if "CONDA_EXE" in os.environ:
-    conda_path = os.environ["CONDA_EXE"]
-else:
-    conda_path = shutil.which("conda")
-
-print("CONDA ENV NAME  {}".format(args.name[0]))
-print("PYTHON VERSION  {}".format(args.python[0]))
-print("CONDA FILE NAME {}".format(args.conda_file[0]))
-print("CONDA path      {}".format(conda_path))
-
-sp.call(
-    "{} env create -n {} -f {}".format(conda_path, args.name[0], tmp_file), shell=True
-)
-os.unlink(tmp_file)
diff --git a/third_party/gauxc/external/gau2grid/src/docs/Makefile b/third_party/gauxc/external/gau2grid/src/docs/Makefile
deleted file mode 100644
index 720c04b..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/Makefile
+++ /dev/null
@@ -1,20 +0,0 @@
-# Minimal makefile for Sphinx documentation
-#
-
-# You can set these variables from the command line.
-SPHINXOPTS    =
-SPHINXBUILD   = sphinx-build
-SPHINXPROJ    = gau2grid
-SOURCEDIR     = source
-BUILDDIR      = build
-
-# Put it first so that "make" without argument is like "make help".
-help:
-	@$(SPHINXBUILD) -M help "$(SOURCEDIR)" "$(BUILDDIR)" $(SPHINXOPTS) $(O)
-
-.PHONY: help Makefile
-
-# Catch-all target: route all unknown targets to Sphinx using the new
-# "make mode" option.  $(O) is meant as a shortcut for $(SPHINXOPTS).
-%: Makefile
-	@$(SPHINXBUILD) -M $@ "$(SOURCEDIR)" "$(BUILDDIR)" $(SPHINXOPTS) $(O)
\ No newline at end of file
diff --git a/third_party/gauxc/external/gau2grid/src/docs/requirements.yml b/third_party/gauxc/external/gau2grid/src/docs/requirements.yml
deleted file mode 100644
index d03afe7..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/requirements.yml
+++ /dev/null
@@ -1,8 +0,0 @@
-name: qcfractal-docs
-channels:
-    - defaults
-dependencies:
-    - python=3
-    - numpy
-    - sphinx
-    - sphinx_rtd_theme
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/c_api.rst b/third_party/gauxc/external/gau2grid/src/docs/source/c_api.rst
deleted file mode 100644
index 0e5ac4f..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/c_api.rst
+++ /dev/null
@@ -1,194 +0,0 @@
-API Reference
-=============
-
-Helper Functions
-++++++++++++++++
-
-A collection of function ment to provide information and the gau2grid library.
-
-.. c:function:: int gg_max_L();
-
-    Returns the maximum compiled angular momentum
-
-.. c:function:: int gg_ncomponents(const int L, const int spherical)
-
-    Returns the number of components for a given angular momentum.
-
-    :param L: The angular momentum of the basis function.
-    :param spherical: Boolean that returns spherical (1) or cartesian (0) basis representations.
-
-The following enums are also specified:
-
- - ``GG_SPHERICAL_CCA`` - CCA spherical output.
- - ``GG_SPHERICAL_GAUSSIAN`` - Gaussian spherical output.
- - ``GG_CARTESIAN_CCA`` - CCA cartesian output.
- - ``GG_CARTESIAN_MOLDEN`` - Molden cartesian output.
-
-Transpose Functions
-+++++++++++++++++++
-
-Transposes matrices if input or output order is incorrect.
-
-.. c:function:: void gg_naive_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output)
-
-    Transposes a matrix using a simple for loop.
-
-    :param n: The number of rows in the input matrix.
-    :param m: The number of rows in the output matrix.
-    :param input: The ``(n x m)`` input matrix.
-    :param output: The ``(m x n)`` output matrix.
-
-
-.. c:function:: void gg_fast_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output)
-
-    Transposes a matrix using a small on-cache temporary array. Is usually faster than :c:func:`~gg_naive_transpose`.
-
-    :param n: The number of rows in the input matrix.
-    :param m: The number of rows in the output matrix.
-    :param input: The ``(n x m)`` input matrix.
-    :param output: The ``(m x n)`` output matrix.
-
-Orbital Functions
-+++++++++++++++++
-
-Computes orbitals on a grid.
-
-
-.. c:function:: void gg_orbitals(int L, const double* PRAGMA_RESTRICT C, const unsigned long norbitals, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT orbital_out)
-
-    Computes orbital a section on a grid. This function performs the following
-    contraction inplace.
-
-    .. math::
-
-        C_{im} \phi_{m p} \rightarrow ret_{i p}
-
-    This is often more efficient than generating :math:`\phi_{m p}` and then
-    contracting with the orbitals C as there is greater cache locality.
-
-    :param L: The angular momentum of the basis function.
-    :param C: A ``(norbitals, ncomponents)`` matrix of orbital coefficients.
-    :param norbitals: The number of orbs to compute.
-    :param npoints: The number of grid points to compute.
-    :param xyz: A ``(npoints, 3)`` or (npoints, n) array of the xyz coordinates.
-    :param xyz_stride: The stride of the xyz input array. 1 for ``xx..., yy..., zz...`` style input, 3 for ``xyz, xyz, xyz, ...`` style input.
-    :param nprim: The number of primitives (exponents and coefficients) in the basis set
-    :param coeffs: A ``(nprim, )`` array of coefficients (:math:`c`).
-    :param exponents: A ``(nprim, )`` array of exponents (:math:`\alpha`).
-    :param center: A ``(3, )`` array of x, y, z coordinate of the basis center.
-    :param order: Enum that specifies the output order.
-    :param orbital_out: ``(norbitals, npoints)`` array of orbitals on the grid.
-
-Collocation Functions
-+++++++++++++++++++++
-
-Creates collocation matrices between a gaussian function and a set of grid points.
-
-
-.. c:function:: void gg_collocation(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out)
-
-    Computes the collocation array:
-
-    .. math::
-
-        \phi_{m p} = Y_\ell^m \sum_i c_i e^{-\alpha_i |\phi_{\rm center} - p| ^2}
-
-    :param L: The angular momentum of the basis function.
-    :param npoints: The number of grid points to compute.
-    :param xyz: A ``(npoints, 3)`` or (npoints, n) array of the xyz coordinates.
-    :param xyz_stride: The stride of the xyz input array. 1 for ``xx..., yy..., zz...`` style input, 3 for ``xyz, xyz, xyz, ...`` style input.
-    :param nprim: The number of primitives (exponents and coefficients) in the basis set
-    :param coeffs: A ``(nprim, )`` array of coefficients (:math:`c`).
-    :param exponents: A ``(nprim, )`` array of exponents (:math:`\alpha`).
-    :param center: A ``(3, )`` array of x, y, z coordinate of the basis center.
-    :param order: Enum that specifies the output order.
-    :param phi_out: ``(ncomponents, npoints)`` collocation array.
-
-.. c:function:: void gg_collocation_deriv1(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out)
-
-    Computes the collocation array and the corresponding first cartesian derivatives:
-
-    .. math::
-
-        \phi_{m p} = Y_\ell^m \sum_i c_i e^{-\alpha_i |\phi_{\rm center} - p| ^2}
-
-    :param L: The angular momentum of the basis function.
-    :param npoints: The number of grid points to compute.
-    :param xyz: A ``(npoints, 3)`` or (npoints, n) array of the xyz coordinates.
-    :param xyz_stride: The stride of the xyz input array. 1 for ``xx..., yy..., zz...`` style input, 3 for ``xyz, xyz, xyz, ...`` style input.
-    :param nprim: The number of primitives (exponents and coefficients) in the basis set
-    :param coeffs: A ``(nprim, )`` array of coefficients (:math:`c`).
-    :param exponents: A ``(nprim, )`` array of exponents (:math:`\alpha`).
-    :param center: A ``(3, )`` array of x, y, z coordinate of the basis center.
-    :param order: Enum that specifies the output order.
-    :param phi_out: ``(ncomponents, npoints)`` collocation array.
-    :param phi_x_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``x``.
-    :param phi_y_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``y``.
-    :param phi_z_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``z``.
-
-
-.. c:function:: void gg_collocation_deriv2(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out)
-
-    Computes the collocation array and the corresponding first and second cartesian derivatives:
-
-    .. math::
-
-        \phi_{m p} = Y_\ell^m \sum_i c_i e^{-\alpha_i |\phi_{\rm center} - p| ^2}
-
-    :param L: The angular momentum of the basis function.
-    :param npoints: The number of grid points to compute.
-    :param xyz: A ``(npoints, 3)`` or (npoints, n) array of the xyz coordinates.
-    :param xyz_stride: The stride of the xyz input array. 1 for ``xx..., yy..., zz...`` style input, 3 for ``xyz, xyz, xyz, ...`` style input.
-    :param nprim: The number of primitives (exponents and coefficients) in the basis set
-    :param coeffs: A ``(nprim, )`` array of coefficients (:math:`c`).
-    :param exponents: A ``(nprim, )`` array of exponents (:math:`\alpha`).
-    :param center: A ``(3, )`` array of x, y, z coordinate of the basis center.
-    :param order: Enum that specifies the output order.
-    :param phi_out: ``(ncomponents, npoints)`` collocation array.
-    :param phi_x_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``x``.
-    :param phi_y_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``y``.
-    :param phi_z_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``z``.
-    :param phi_xx_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xx``.
-    :param phi_xy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xy``.
-    :param phi_xz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xz``.
-    :param phi_yy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yy``.
-    :param phi_yz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yz``.
-    :param phi_zz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``zz``.
-
-.. c:function:: void gg_collocation_deriv3(int L, const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_out, double* PRAGMA_RESTRICT phi_x_out, double* PRAGMA_RESTRICT phi_y_out, double* PRAGMA_RESTRICT phi_z_out, double* PRAGMA_RESTRICT phi_xx_out, double* PRAGMA_RESTRICT phi_xy_out, double* PRAGMA_RESTRICT phi_xz_out, double* PRAGMA_RESTRICT phi_yy_out, double* PRAGMA_RESTRICT phi_yz_out, double* PRAGMA_RESTRICT phi_zz_out, double* PRAGMA_RESTRICT phi_xxx_out, double* PRAGMA_RESTRICT phi_xxy_out, double* PRAGMA_RESTRICT phi_xxz_out, double* PRAGMA_RESTRICT phi_xyy_out, double* PRAGMA_RESTRICT phi_xyz_out, double* PRAGMA_RESTRICT phi_xzz_out, double* PRAGMA_RESTRICT phi_yyy_out, double* PRAGMA_RESTRICT phi_yyz_out, double* PRAGMA_RESTRICT phi_yzz_out, double* PRAGMA_RESTRICT phi_zzz_out)
-
-    Computes the collocation array and the corresponding first, second, and third cartesian derivatives:
-
-    .. math::
-
-        \phi_{m p} = Y_\ell^m \sum_i c_i e^{-\alpha_i |\phi_{\rm center} - p| ^2}
-
-    :param L: The angular momentum of the basis function.
-    :param npoints: The number of grid points to compute.
-    :param xyz: A ``(npoints, 3)`` or (npoints, n) array of the xyz coordinates.
-    :param xyz_stride: The stride of the xyz input array. 1 for ``xx..., yy..., zz...`` style input, 3 for ``xyz, xyz, xyz, ...`` style input.
-    :param nprim: The number of primitives (exponents and coefficients) in the basis set
-    :param coeffs: A ``(nprim, )`` array of coefficients (:math:`c`).
-    :param exponents: A ``(nprim, )`` array of exponents (:math:`\alpha`).
-    :param center: A ``(3, )`` array of x, y, z coordinate of the basis center.
-    :param order: Enum that specifies the output order.
-    :param phi_out: ``(ncomponents, npoints)`` collocation array.
-    :param phi_x_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``x``.
-    :param phi_y_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``y``.
-    :param phi_z_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``z``.
-    :param phi_xx_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xx``.
-    :param phi_xy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xy``.
-    :param phi_xz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xz``.
-    :param phi_yy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yy``.
-    :param phi_yz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yz``.
-    :param phi_zz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``zz``.
-    :param phi_xxx_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xxx``.
-    :param phi_xxy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xxy``.
-    :param phi_xxz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xxz``.
-    :param phi_xyy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xyy``.
-    :param phi_xyz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xyz``.
-    :param phi_xzz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``xzz``.
-    :param phi_yyy_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yyy``.
-    :param phi_yyz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yyz``.
-    :param phi_yzz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``yzz``.
-    :param phi_zzz_out: ``(ncomponents, npoints)`` collocation derivative with respect to ``zzz``.
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/c_example.rst b/third_party/gauxc/external/gau2grid/src/docs/source/c_example.rst
deleted file mode 100644
index 9c93609..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/c_example.rst
+++ /dev/null
@@ -1,136 +0,0 @@
-Collocation Example
-===================
-
-Single Basis Functions
-----------------------
-
-A collocation grid between a single basis and a Cartesian grid can be computed
-with the :c:func:`~gg_collocation` function. For example, we will use a grid
-starting at the origin along the ``z`` axis and a ``S`` shell at the origin:
-
-.. code-block:: C
-
-  #include <stdio.h>
-  #include "gau2grid.h"
-
-  int main() {
-      // Generate grid
-      long int npoints = 5;
-      double xyz[15] = {0, 0, 0, 0, 0, // x components
-                        0, 0, 0, 0, 0}; // y components
-                        0, 1, 2, 3, 4}; // z components
-      long int xyz_stride = 1; // This is a contiguous format
-
-      // Gaussian data
-      int nprim = 1;
-      double coef[1] = {1};
-      double exp[1] = {1};
-      double center[3] = {0, 0, 0};
-      int order = GG_CARTESIAN_CCA; // Use cartesian components
-
-      double s_output[5] = {0};
-      gg_collocation(0,                                // The angular momentum
-                     npoints, xyz, xyz_stride,          // Grid data
-                     nprim, coef, exp, center, order,  // Gaussian data
-                     s_output);                        // Output
-
-      // Print output to stdout
-      for (int i = 0; i < npoints; i += 1) {
-          printf("%lf  ", s_output[i]);
-      }
-      printf("\n");
-  }
-
-The resulting output should be:
-
-.. code-block:: bash
-
-  1.000000  0.367879  0.018316  0.000123  0.000000
-
-For higher angular momentum functions that output size should ``ncomponents x
-npoints`` in size. Where each component is on a unique row or the ``X``
-component starts at position ``0``, the ``Y`` component starts at position
-``5``, and the ``Z`` component starts at position ``10`` as out grid is of
-length ``5``. See :ref:`Gaussian Component Orders <gpo_order>` for more details or order output.
-
-The xyz input shape can either be organized contiguously in each dimension like
-the above or packed in a xyz, xyz, ... fashion. If the ``xyz_stride`` is not 1,
-the shape refers to the strides per row. For example, if the data is packed as
-xyzw, xyzw, ... (where w could be a DFT grid weight) the ``xyz_stride`` should
-be 4.
-
-.. code-block:: C
-
-      long int xyz_stride = 3;
-      double xyz[15] = {0, 0, 0,
-                        0, 0, 1,
-                        0, 0, 2,
-                        0, 0, 3,
-                        0, 0, 4}; // xyz, xyz, ... format
-
-
-      gg_collocation(0,                                // The angular momentum
-                     npoints, xyz, xyz_stride,          // Grid data
-                     nprim, coef, exp, center, order,  // Gaussian data
-                     s_output);                        // Output
-
-Multiple Basis Functions
-------------------------
-
-Often collocation matrices are computed for multiple basis functions at once.
-The below is an example of usage:
-
-.. code-block:: C
-
-  #include <stdio.h>
-  #include "gau2grid.h"
-
-  int main() {
-      // Generate grid
-      long int npoints = 5;
-      double xyz[15] = {0, 0, 0, 0, 0, // x components
-                        0, 0, 0, 0, 0}; // y components
-                        0, 1, 2, 3, 4}; // z components
-      long int xyz_stride = 1;
-
-      // Gaussian data
-      int nprim = 1;
-      double coef[1] = {1};
-      double exp[1] = {1};
-      double center[3] = {0, 0, 0};
-      int order = GG_SPHERICAL_CCA; // Use cartesian components
-
-      // Size ncomponents * npoints, (1 + 3 + 5) * 5
-      double output[45] = {0};
-      int row = 0;
-      for (int L = 0; L < 3; L++) {
-          gg_collocation(L,                                 // The angular momentum
-                         npoints, xyz, xyz_stride            // Grid data
-                         nprim, coef, exp, center, order,   // Gaussian data
-                         output + (row * npoints));         // Output, shift pointer
-
-          row += gg_ncomponents(L, spherical); // Increment rows skipped
-      }
-
-      // Print out by row
-      for (int i = 0; i < row; i += 1) {
-          for (int j = 0; j < npoints; j += 1) {
-              printf("%lf  ", output[i * npoints + j]);
-          }
-          printf("\n");
-      }
-  }
-
-The resulting output should be:
-
-.. code-block:: bash
-
-  1.000000  0.367879  0.018316  0.000123  0.000000 // S
-  0.000000  0.367879  0.036631  0.000370  0.000000 // P_0
-  0.000000  0.000000  0.000000  0.000000  0.000000 // P^+_0
-  0.000000  0.000000  0.000000  0.000000  0.000000 // P^-_0
-  0.000000  0.367879  0.073263  0.001111  0.000002 // D_0
-  0.000000  0.000000  0.000000  0.000000  0.000000 // D^+_1
-  0.000000  0.000000  0.000000  0.000000  0.000000 // D^-_1
-  0.000000  0.000000  0.000000  0.000000  0.000000 // D^+_2
-  0.000000  0.000000  0.000000  0.000000  0.000000 // D^-_2
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/c_install.rst b/third_party/gauxc/external/gau2grid/src/docs/source/c_install.rst
deleted file mode 100644
index 57b7f1e..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/c_install.rst
+++ /dev/null
@@ -1,52 +0,0 @@
-C installation
-==============
-
-You can install gau2grid with ``conda`` or by installing from source.
-
-Conda
------
-
-You can update gau2grid using `conda <https://www.anaconda.com/download/>`_::
-
-    conda install gau2grid -c psi4
-
-This installs the gau2grid library.
-
-
-Install from Source
--------------------
-
-Gau2grid uses the CMake build system to compile and configure options. To begin, clone the repository:
-
-.. code-block:: bash
-
-    git clone https://github.com/dgasmith/gau2grid.git
-    cd gau2grid
-
-A basic CMake build can then be executed with:
-
-.. code-block:: bash
-
-    cmake -H. -Bobjdir
-    cd objdir
-    make
-    make install
-
-CMake Options
--------------
-Gau2grid can be compiled with the following CMake options:
-
- - ``CMAKE_INSTALL_PREFIX`` - The path to install the library to (default, ``/usr/local``)
- - ``CMAKE_INSTALL_LIBDIR`` - Directory to which libraries installed
- - ``MAX_AM`` - The maximum gaussian angular momentum to compile (default, ``8``)
- - ``CMAKE_BUILD_TYPE`` - Build type (Release or Debug) (default, ``Release``)
- - ``ENABLE_XHOST`` - Enables processor-specific optimization (default, ``ON``)
- - ``BUILD_FPIC`` - Libraries will be compiled with position independent code (default, ``ON``)
- - ``BUILD_SHARED_LIBS`` - Build final library as shared, not static (default, ``ON``)
- - ``ENABLE_GENERIC`` - Enables mostly static linking of system libraries for shared library (default, ``OFF``)
-
-CMake options should be prefixed with ``-D``, for example:
-
-.. code-block:: bash
-
-    cmake -H. -Bobjdir -DCMAKE_INSTALL_PREFIX=~/installs
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/conf.py b/third_party/gauxc/external/gau2grid/src/docs/source/conf.py
deleted file mode 100644
index 20b60f2..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/conf.py
+++ /dev/null
@@ -1,171 +0,0 @@
-# -*- coding: utf-8 -*-
-#
-# Configuration file for the Sphinx documentation builder.
-#
-# This file does only contain a selection of the most common options. For a
-# full list see the documentation:
-# http://www.sphinx-doc.org/en/master/config
-
-# -- Path setup --------------------------------------------------------------
-
-# If extensions (or modules to document with autodoc) are in another directory,
-# add these directories to sys.path here. If the directory is relative to the
-# documentation root, use os.path.abspath to make it absolute, like shown here.
-#
-import os
-import sys
-
-# sys.path.insert(0, os.path.abspath('.'))
-
-sys.path.insert(0, os.path.abspath("../.."))
-import gau2grid
-
-# -- Project information -----------------------------------------------------
-
-project = "gau2grid"
-copyright = "2018, Daniel G. A. Smith"
-author = "Daniel G. A. Smith"
-
-# The short X.Y version
-version = gau2grid.__version__
-# The full version, including alpha/beta/rc tags
-release = gau2grid.__version__
-
-
-# -- General configuration ---------------------------------------------------
-
-# If your documentation needs a minimal Sphinx version, state it here.
-#
-# needs_sphinx = '1.0'
-
-# Add any Sphinx extension module names here, as strings. They can be
-# extensions coming with Sphinx (named 'sphinx.ext.*') or your custom
-# ones.
-extensions = [
-    "sphinx.ext.autodoc",
-    "sphinx.ext.autosummary",
-    "sphinx.ext.mathjax",
-    "sphinx.ext.viewcode",
-    "sphinx.ext.napoleon",
-]
-
-# Add any paths that contain templates here, relative to this directory.
-templates_path = ["_templates"]
-
-# The suffix(es) of source filenames.
-# You can specify multiple suffix as a list of string:
-#
-# source_suffix = ['.rst', '.md']
-source_suffix = ".rst"
-
-# The master toctree document.
-master_doc = "index"
-
-# The language for content autogenerated by Sphinx. Refer to documentation
-# for a list of supported languages.
-#
-# This is also used if you do content translation via gettext catalogs.
-# Usually you set "language" from the command line for these cases.
-language = None
-
-# List of patterns, relative to source directory, that match files and
-# directories to ignore when looking for source files.
-# This pattern also affects html_static_path and html_extra_path .
-exclude_patterns = []
-
-# The name of the Pygments (syntax highlighting) style to use.
-pygments_style = "default"
-
-
-# -- Options for HTML output -------------------------------------------------
-
-# The theme to use for HTML and HTML Help pages.  See the documentation for
-# a list of builtin themes.
-#
-html_theme = "sphinx_rtd_theme"
-
-# Theme options are theme-specific and customize the look and feel of a theme
-# further.  For a list of options available for each theme, see the
-# documentation.
-#
-# html_theme_options = {}
-
-# Add any paths that contain custom static files (such as style sheets) here,
-# relative to this directory. They are copied after the builtin static files,
-# so a file named "default.css" will overwrite the builtin "default.css".
-html_static_path = ["_static"]
-
-# Custom sidebar templates, must be a dictionary that maps document names
-# to template names.
-#
-# The default sidebars (for documents that don't match any pattern) are
-# defined by theme itself.  Builtin themes are using these templates by
-# default: ``['localtoc.html', 'relations.html', 'sourcelink.html',
-# 'searchbox.html']``.
-#
-# html_sidebars = {}
-
-
-# -- Options for HTMLHelp output ---------------------------------------------
-
-# Output file base name for HTML help builder.
-htmlhelp_basename = "gau2griddoc"
-
-
-# -- Options for LaTeX output ------------------------------------------------
-
-latex_elements = {
-    # The paper size ('letterpaper' or 'a4paper').
-    #
-    # 'papersize': 'letterpaper',
-    # The font size ('10pt', '11pt' or '12pt').
-    #
-    # 'pointsize': '10pt',
-    # Additional stuff for the LaTeX preamble.
-    #
-    # 'preamble': '',
-    # Latex figure (float) alignment
-    #
-    # 'figure_align': 'htbp',
-}
-
-# Grouping the document tree into LaTeX files. List of tuples
-# (source start file, target name, title,
-#  author, documentclass [howto, manual, or own class]).
-latex_documents = [
-    (
-        master_doc,
-        "gau2grid.tex",
-        "gau2grid Documentation",
-        "Daniel G. A. Smith",
-        "manual",
-    ),
-]
-
-
-# -- Options for manual page output ------------------------------------------
-
-# One entry per manual page. List of tuples
-# (source start file, name, description, authors, manual section).
-man_pages = [(master_doc, "gau2grid", "gau2grid Documentation", [author], 1)]
-
-
-# -- Options for Texinfo output ----------------------------------------------
-
-# Grouping the document tree into Texinfo files. List of tuples
-# (source start file, target name, title, author,
-#  dir menu entry, description, category)
-texinfo_documents = [
-    (
-        master_doc,
-        "gau2grid",
-        "gau2grid Documentation",
-        author,
-        "gau2grid",
-        "One line description of project.",
-        "Miscellaneous",
-    ),
-]
-
-
-# -- Extension configuration -------------------------------------------------
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/index.rst b/third_party/gauxc/external/gau2grid/src/docs/source/index.rst
deleted file mode 100644
index 2f31e41..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/index.rst
+++ /dev/null
@@ -1,94 +0,0 @@
-.. gau2grid documentation master file, created by
-   sphinx-quickstart on Sat Sep  1 17:41:02 2018.
-   You can adapt this file completely to your liking, but it should at least
-   contain the root `toctree` directive.
-
-========
-gau2grid
-========
-
-*gau2grid is a python-generated C library for vectorized computation of grid to gaussian collocation matrices*
-
-The core of gau2grid is generating the collocation matrices between a real
-space grid and a gaussian basis set expanded to a given angular momenta.
-Where a simple gaussian can be represented with the cartesian form as:
-
-.. math::
-
-    \phi({\bf r}) = x^l y^m z^n e^{-\alpha r^2}
-
-where for a given angular momenta :math:`\ell`, a gaussian basis has all
-possible combinations of :math:`l, m, n` that satisfy :math:`l + m + n =
-\ell`. These gaussians can also take a `spherical harmonic <https://en.wikipedia.org/wiki/Spherical_harmonics>`_ form of:
-
-.. math::
-
-    \phi({\bf r}) = Y_\ell^m (\hat{\bf r}) e^{-\alpha r^2}
-
-where :math:`m` ranges from :math:`+\ell` to :math:`-\ell`. The spherical
-form offers a more compact representation at higher angular momenta, but is
-more difficult to work with when examining cartesian derivates.
-
-In quantum chemistry, an individual basis is often represented as a sum of
-several gaussian with different exponents and coefficients together:
-
-.. math::
-
-    \phi({\bf r}) = Y_\ell^m (\hat{\bf r}) \sum_i c_i e^{-\alpha_i r^2}
-
-Collocation matrices between a single basis set and multiple grid points can
-then be represented as follows:
-
-.. math::
-
-    \phi_{m p} = Y_\ell^m (\widehat{{\bf r}_p -{\bf r}_{\rm center}}) \sum_i c_i e^{-\alpha_i ({\bf r}_{\rm center} - {\bf r}_p) ^2}
-
-where the basis is evaluated at every point :math:`p` for every
-component of the basis i.e. basis function :math:`m`. The
-:math:`\phi_{m p}` matrices are the primary focus on the gau2grid
-library.
-
-
-Index
------
-
-**Getting Started**
-
-* :doc:`py_install`
-* :doc:`c_install`
-* :doc:`order`
-
-.. toctree::
-   :maxdepth: 1
-   :hidden:
-   :caption: Getting Started
-
-   py_install
-   c_install
-   order
-
-**Python Interface**
-
-* :doc:`py_example`
-* :doc:`py_api`
-
-.. toctree::
-   :maxdepth: 1
-   :hidden:
-   :caption: Python API
-
-   py_api
-   py_example
-
-**C Interface**
-
-* :doc:`c_example`
-* :doc:`c_api`
-
-.. toctree::
-   :maxdepth: 1
-   :hidden:
-   :caption: C API
-
-   c_api
-   c_example
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/order.rst b/third_party/gauxc/external/gau2grid/src/docs/source/order.rst
deleted file mode 100644
index fab2353..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/order.rst
+++ /dev/null
@@ -1,73 +0,0 @@
-.. _gpo_order:
-
-Gaussian Component Orders
-=========================
-
-The order of the individual components can vary between use cases. gau2grid can
-produce any resulting order that a user requires. The ``C`` version of the code
-must be compiled to a given order. The currently supported orders are as
-follows.
-
-
-Cartesian Order
----------------
-
-gau2grid currently supports both the ``cca`` and ``molden`` orders. The number
-of components per angular momentum can be computed as:
-
-.. math::
-
-    N_{\rm cartesian} = (\ell + 1) (\ell + 2) / 2
-
-Row Order
-+++++++++
-
-The ``cca`` order iterates over the upper triangular hyper diagonal and has the
-following pattern:
-
- - ``S`` (:math:`\ell = 0`): `1`
- - ``P`` (:math:`\ell = 1`): ``X``, ``Y``, ``Z``
- - ``D`` (:math:`\ell = 2`): ``XX``, ``XY``, ``XZ``, ``YY``, ``YZ``, ``ZZ``
- - ``F`` (:math:`\ell = 3`): ``XXX``, ``XXY``, ``XXZ``, ``XYY``, ``XYZ``, ``XZZ``, ``YYY``, ``YYZ``, ``YZZ``, ``ZZZ``
-
-Molden Order
-++++++++++++
-
-The ``molden`` order is primarily found in a Molden format and only has a
-determined values for :math:`0 \leq \ell < 4`.
-
- - ``S`` (:math:`\ell = 0`): `1`
- - ``P`` (:math:`\ell = 1`): ``X``, ``Y``, ``Z``
- - ``D`` (:math:`\ell = 2`): ``XX``, ``YY``, ``ZZ``, ``XY``, ``XZ``, ``YZ``
- - ``F`` (:math:`\ell = 3`): ``XXX``, ``YYY``, ``ZZZ``, ``XYY``, ``XXY``, ``XXZ``, ``XZZ``, ``YZZ``, ``YYZ``, ``XYZ``
-
-
-
-Spherical Order
----------------
-
-gau2grid currently supports both the ``CCA`` and ``gaussian`` orders. The numnber
-of components per angular momentum can be computed as:
-
-.. math::
-
-     N_{\rm spherical} = 2\ell + 1
-
-
-CCA Order
-+++++++++
-
-An industry standard order known as the Common Component Architecture:
-
- - ``S`` (:math:`\ell = 0`): :math:`Y_0^0`
- - ``P`` (:math:`\ell = 1`): :math:`Y_1^{-1}`, :math:`Y_1^{0}`, :math:`Y_1^{+1}`,
- - ``D`` (:math:`\ell = 2`): :math:`Y_2^{-2}`, :math:`Y_2^{-1}`, :math:`Y_2^{0}`, :math:`Y_2^{+1}`, :math:`Y_2^{+2}`
-
-Gaussian Order
-++++++++++++++
-
-The ``gaussian`` order as used by the Gaussian program:
-
- - ``S`` (:math:`\ell = 0`): :math:`Y_0^0`
- - ``P`` (:math:`\ell = 1`): :math:`Y_1^{0}`, :math:`Y_1^{+1}`, :math:`Y_1^{-1}`,
- - ``D`` (:math:`\ell = 2`): :math:`Y_2^{0}`, :math:`Y_2^{+1}`, :math:`Y_2^{-1}`, :math:`Y_2^{+2}`, :math:`Y_2^{-2}`
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/py_api.rst b/third_party/gauxc/external/gau2grid/src/docs/source/py_api.rst
deleted file mode 100644
index a795217..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/py_api.rst
+++ /dev/null
@@ -1,11 +0,0 @@
-API Reference
-=============
-
-.. autofunction:: gau2grid.collocation
-
-.. autofunction:: gau2grid.collocation_basis
-
-.. autofunction:: gau2grid.orbital
-
-.. autofunction:: gau2grid.orbital_basis
-
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/py_example.rst b/third_party/gauxc/external/gau2grid/src/docs/source/py_example.rst
deleted file mode 100644
index d747d5f..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/py_example.rst
+++ /dev/null
@@ -1,92 +0,0 @@
-Collocation Example
-===================
-
-Single Collocation
-------------------
-
-A collocation grid between a single basis and a Cartesian grid can be computed
-with the :func:`~gau2grid.collocation` function. For example, we will use a grid
-starting at the origin along the ``z`` axis:
-
-.. code-block:: python
-
-    >>> import gau2grid
-    >>> import numpy as np
-    >>> xyz = np.zeros((3, 5))
-    >>> xyz[2] = np.arange(5)
-
-We can then create a gaussian with only a single coefficient and exponent of 1
-centered on the origin:
-
-.. code-block:: python
-
-    >>> L = 0
-    >>> coef = [1]
-    >>> exp = [1]
-    >>> center = [0, 0, 0]
-
-The collocation grid can then be computed as:
-
-.. code-block:: python
-
-    >>> ret = gau2grid.collocation(xyz, L, coef, exp, center)
-    >>> ret["PHI"]
-    [[  1.00000e+00   3.67879e-01   1.83156e-02   1.23409e-04   1.12535e-07]]
-
-The ``p`` gaussian can be also be computed. Note that since our grid points are
-along the ``z`` axis, the ``x`` and ``y`` components are orthogonal and thus
-zero. 
-
-.. code-block:: python
-
-    >>> L = 1
-    >>> ret = gau2grid.collocation(xyz, L, coef, exp, center, spherical=False, grad=1)
-    >>> ret["PHI"]
-    [[  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]  # P_x
-     [  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]  # P_y
-     [  0.00000e+00   3.67879e-01   3.66312e-02   3.70229e-04   4.50140e-07]] # P_z
-
-As the previous execution used ``grad=1``, the ``X``, ``Y``, and ``Z``
-cartesian gradients are also available and can be accessed as:
-
-.. code-block:: python
-
-    >>> ret["PHI_Z"]
-    [[  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]
-     [  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]
-     [  1.00000e+00  -3.67879e-01  -1.28209e-01  -2.09797e-03  -3.48859e-06]]
-
-Basis Collocation
------------------
-
-Often it is beneficial to compute the collocation matrix between several basis
-functions and a set of grid points at once the
-:func:`~gau2grid.collocation_basis` helper function provides this
-functionality. To begin, a set of basis sets can be constructed with the
-following form:
-
-.. code-block:: python
-
-    >>> basis = [{
-        'center': [0., 0., 0.],
-        'exp': [38, 6, 1],
-        'coef': [0.4, 0.6, 0.7],
-        'am': 0
-    }, {
-        'center': [0., 0., 0.],
-        'exp': [0.3],
-        'coef': [0.3],
-        'am': 1
-    }]
-
-Execution of this basis results in a collocation matrix where basis results are
-vertically stacked on top of each other:
-
-.. code-block:: python
-
-    >>> ret = gau2grid.collocation_basis(xyz, basis, spherical=False)
-    >>> ret["PHI"]
-    [[  1.70000e+00   2.59003e-01   1.28209e-02   8.63869e-05   7.87746e-08]  # S
-     [  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]  # P_x
-     [  0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00   0.00000e+00]  # P_y
-     [  0.00000e+00   2.22245e-01   1.80717e-01   6.04850e-02   9.87570e-03]] # P_z
diff --git a/third_party/gauxc/external/gau2grid/src/docs/source/py_install.rst b/third_party/gauxc/external/gau2grid/src/docs/source/py_install.rst
deleted file mode 100644
index 9b37ade..0000000
--- a/third_party/gauxc/external/gau2grid/src/docs/source/py_install.rst
+++ /dev/null
@@ -1,33 +0,0 @@
-Python installation
-===================
-
-You can install gau2grid with ``conda`` or by installing from source.
-
-Conda
------
-
-You can update gau2grid using `conda <https://www.anaconda.com/download/>`_::
-
-    conda install pygau2grid -c psi4
-
-This installs gau2grid and the NumPy dependancy.
-
-
-Install from Source
--------------------
-
-To install gau2grid from source, clone the repository from `github
-<https://github.com/dgasmith/gau2grid>`_::
-
-    git clone https://github.com/dgasmith/gau2grid.git
-    cd gau2grid
-    python setup.py install
-
-
-Test
-----
-
-Test gau2grid with ``py.test``::
-
-    cd gau2grid
-    py.test
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/RSH.py b/third_party/gauxc/external/gau2grid/src/gau2grid/RSH.py
deleted file mode 100644
index 19cb357..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/RSH.py
+++ /dev/null
@@ -1,366 +0,0 @@
-"""
-Cartesian to regular solid harmonics conversion code.
-"""
-
-import decimal
-import os
-import pickle
-import platform
-
-import numpy as np
-
-from . import order, utility
-
-_MAX_AM = 17
-_DECIMAL_PREC = 60
-_saved_rsh_coefs = {}
-_saved_factorials = {}
-
-
-def _factorial(n):
-    decimal.getcontext().prec = _DECIMAL_PREC
-    if n in _saved_factorials:
-        return _saved_factorials[n]
-
-    if n == 0:
-        return decimal.Decimal("1.0")
-    else:
-        return n * _factorial(n - 1)
-
-
-class RSH_Memoize(object):
-    """
-    Simple memoize class for RSH_coefs which is quite expensive
-    """
-
-    def __init__(self, func):
-        self.func = func
-        self.mem = {}
-
-    def __call__(self, AM, **kwargs):
-        # Bypass Memoize for testing
-        if kwargs.get("force_call", False):
-            return self.func(AM)
-
-        if AM not in self.mem:
-            self.mem[AM] = self.func(AM)
-
-        return self.mem[AM]
-
-
-@RSH_Memoize
-def _cart_to_RSH_coeffs_gen(l):
-    """
-    Generates a coefficients [ coef, x power, y power, z power ] for each component of
-    a regular solid harmonic (in terms of raw Cartesians) with angular momentum l.
-
-    See eq. 23 of ACS, F. C. Pickard, H. F. Schaefer and B. R. Brooks, JCP, 140, 184101 (2014)
-
-    Returns coeffs with order 0, +1, -1, +2, -2, ...
-    """
-
-    # Arbitrary precision math with 50 decimal places
-    decimal.getcontext().prec = _DECIMAL_PREC
-
-    terms = []
-    for m in range(l + 1):
-        thisterm = {}
-        p1 = ((_factorial(l - m)) / (_factorial(l + m))).sqrt() * (
-            (_factorial(m)) / (2**l)
-        )
-        if m:
-            p1 *= decimal.Decimal("2.0").sqrt()
-
-        # Loop over cartesian components
-        for lz in range(l + 1):
-            for ly in range(l - lz + 1):
-                lx = l - ly - lz
-                xyz = lx, ly, lz
-                j = int((lx + ly - m) / 2)
-                if (lx + ly - m) % 2 == 1 or j < 0:
-                    continue
-
-                # P2
-                p2 = decimal.Decimal(0.0)
-                for i in range(int((l - m) / 2) + 1):
-                    if i >= j:
-                        p2 += (
-                            (-1) ** i
-                            * _factorial(2 * l - 2 * i)
-                            / (
-                                _factorial(l - i)
-                                * _factorial(i - j)
-                                * _factorial(l - m - 2 * i)
-                            )
-                        )
-
-                # P3
-                p3 = decimal.Decimal(0.0)
-                for k in range(j + 1):
-                    if (j >= k) and (lx >= 2 * k) and (m + 2 * k >= lx):
-                        p3 += (-1) ** k / (
-                            _factorial(j - k)
-                            * _factorial(k)
-                            * _factorial(lx - 2 * k)
-                            * _factorial(m - lx + 2 * k)
-                        )
-
-                p = p1 * p2 * p3
-
-                # Add in part if not already present
-                if xyz not in thisterm:
-                    thisterm[xyz] = [decimal.Decimal(0.0), decimal.Decimal(0.0)]
-
-                # Add the two components
-                if (m - lx) % 2:
-                    # imaginary
-                    sign = decimal.Decimal(-1.0) ** decimal.Decimal((m - lx - 1) / 2.0)
-                    thisterm[xyz][1] += sign * p
-                else:
-                    # real
-                    sign = decimal.Decimal(-1.0) ** decimal.Decimal((m - lx) / 2.0)
-                    thisterm[xyz][0] += sign * p
-
-        tmp_R = []
-        tmp_I = []
-        for k, v in thisterm.items():
-            if abs(v[0]) > 0:
-                tmp_R.append((k, v[0]))
-            if abs(v[1]) > 0:
-                tmp_I.append((k, v[1]))
-
-        if m == 0:
-            # name_R = "R_%d%d" % (l, m)
-            terms.append(tmp_R)
-        else:
-            # name_R = "R_%d%dc" % (l, m)
-            # name_I = "R_%d%ds" % (l, m)
-            terms.append(tmp_R)
-            terms.append(tmp_I)
-            # terms[name_R] = tmp_R
-            # terms[name_I] = tmp_I
-
-        # for k, v in terms.items():
-        #     print(k, v)
-
-    return terms
-
-
-def cart_to_RSH_coeffs(L, order="gaussian", force_call=False):
-    """
-    Allows coefficients either to be generated or pulled from disk
-
-    Allowed orders:
-        "gaussian":
-            R_0, R^+_1, R^-_1, ..., R^+_l, R^-_l
-        "CCA":
-            R^-_(l), R^-_(l-1), ..., R_0, ..., R^+_(l-1), R^+_l
-    """
-
-    # Gen the coefficients (may be memoized)
-    data = _cart_to_RSH_coeffs_gen(L, force_call=force_call)
-
-    if order.lower() == "gaussian":
-        return data
-    elif order.lower() == "cca":
-        ret = []
-
-        # Add negative
-        for l in range(L):
-            ret.append(data[2 + l * 2])
-
-        # Reverse so we get (-L, 0) not (0, L)
-        ret.reverse()
-
-        # Add in zero
-        ret.append(data[0])
-
-        # Add positive
-        for l in range(L):
-            ret.append(data[1 + l * 2])
-
-        return ret
-
-    else:
-        raise KeyError("Order '%s' not understood" % order)
-
-
-def cart_to_spherical_transform(data, L, cartesian_order, spherical_order):
-    """
-    Transforms a cartesian x points matrix into a spherical x points matrix.
-    """
-
-    cartesian_order = {
-        x[1:]: x[0] for x in order.cartesian_order_factory(L, cartesian_order)
-    }
-    RSH_coefs = cart_to_RSH_coeffs(L, order=spherical_order)
-
-    nspherical = len(RSH_coefs)
-    ret = np.zeros((nspherical, data.shape[1]))
-
-    idx = 0
-    for spherical in RSH_coefs:
-        for cart_index, scale in spherical:
-            ret[idx] += float(scale) * data[cartesian_order[cart_index]]
-        idx += 1
-
-    return ret
-
-
-def transformation_c_generator(
-    cg, L, cartesian_order, spherical_order, function_name="", prefix=None, align=32
-):
-    """
-    Builds a conversion from cartesian to spherical coordinates in C
-    """
-
-    if function_name == "":
-        if prefix:
-            function_name = "gg_%s_cart_to_spherical_L%d" % (prefix, L)
-        else:
-            function_name = "gg_cart_to_spherical_L%d" % L
-
-    cartesian_order = {
-        x[1:]: x[0] for x in order.cartesian_order_factory(L, cartesian_order)
-    }
-    RSH_coefs = cart_to_RSH_coeffs(L, order=spherical_order)
-
-    signature = (
-        "void %s(const unsigned long size, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT spherical, const unsigned long nspherical)"
-        % function_name
-    )
-
-    # Start function
-    cg.start_c_block(signature)
-    cg.write("ASSUME_ALIGNED(cart, %d)" % align)
-
-    cg.write("// R_%d0 Transform" % L)
-    _c_spherical_trans(cg, 0, RSH_coefs, cartesian_order)
-    cg.blankline()
-
-    for l in range(L):
-        cg.write("// R_%d%dc Transform" % (L, l + 1))
-        sidx = 2 * l + 1
-        _c_spherical_trans(cg, sidx, RSH_coefs, cartesian_order)
-
-        sidx = 2 * l + 2
-        cg.write("// R_%d%ds Transform" % (L, l + 1))
-        _c_spherical_trans(cg, sidx, RSH_coefs, cartesian_order)
-        cg.blankline()
-
-    # End function
-    cg.close_c_block()
-    return signature
-
-
-def _c_spherical_trans(cg, sidx, RSH_coefs, cartesian_order):
-    # cg.write("#pragma clang loop vectorize(assume_safety)")
-    cg.start_c_block("for (unsigned long i = 0; i < size; i++)")
-
-    # Figure out where we are summing to
-    if sidx == 0:
-        lhs = "spherical[i]"
-    elif sidx == 1:
-        lhs = "spherical[nspherical + i]"
-    else:
-        lhs = "spherical[%d * nspherical + i]" % sidx
-
-    op = " ="
-    for cart_index, scale in RSH_coefs[sidx]:
-        # Figure out car idx
-        idx = cartesian_order[cart_index]
-        if idx == 0:
-            rhs = "cart[i]"
-        elif idx == 1:
-            rhs = "cart[ncart + i]"
-        else:
-            rhs = "cart[%d * ncart + i]" % idx
-
-        # Scales
-        if scale != 1.0:
-            cg.write("%s %s % .16f * %s" % (lhs, op, scale, rhs))
-        else:
-            cg.write("%s %s %s" % (lhs, op, rhs))
-        op = "+="
-    cg.blankline()
-
-    cg.close_c_block()
-
-
-def transformation_c_generator_sum(
-    cg, L, cartesian_order, spherical_order, function_name="", prefix=None, align=32
-):
-    """
-    Builds a conversion from cartesian to spherical coordinates in C
-    """
-
-    if function_name == "":
-        if prefix:
-            function_name = "gg_%s_cart_to_spherical_sum_L%d" % (prefix, L)
-        else:
-            function_name = "gg_cart_to_spherical_sum_L%d" % L
-
-    cartesian_order = {
-        x[1:]: x[0] for x in order.cartesian_order_factory(L, cartesian_order)
-    }
-    RSH_coefs = cart_to_RSH_coeffs(L, order=spherical_order)
-
-    signature = (
-        "void %s(const unsigned long size, const double* vector, const double* PRAGMA_RESTRICT cart, const unsigned long ncart, double* PRAGMA_RESTRICT output, const unsigned long nspherical)"
-        % function_name
-    )
-
-    # Start function
-    cg.start_c_block(signature)
-    cg.write("ASSUME_ALIGNED(cart, %d)" % align)
-
-    cg.write("// temps")
-    cg.write("double tmp")
-
-    cg.write("// R_%d0 Transform" % L)
-    _c_spherical_trans_vector_sum(cg, 0, RSH_coefs, cartesian_order)
-    cg.blankline()
-
-    for l in range(L):
-        cg.write("// R_%d%dc Transform" % (L, l + 1))
-        sidx = 2 * l + 1
-        _c_spherical_trans_vector_sum(cg, sidx, RSH_coefs, cartesian_order)
-
-        sidx = 2 * l + 2
-        cg.write("// R_%d%ds Transform" % (L, l + 1))
-        _c_spherical_trans_vector_sum(cg, sidx, RSH_coefs, cartesian_order)
-        cg.blankline()
-
-    # End function
-    cg.close_c_block()
-    return signature
-
-
-def _c_spherical_trans_vector_sum(cg, sidx, RSH_coefs, cartesian_order):
-    # cg.write("#pragma clang loop vectorize(assume_safety)")
-    cg.start_c_block("for (unsigned long i = 0; i < size; i++)")
-
-    lhs = "tmp"
-
-    op = " ="
-    for cart_index, scale in RSH_coefs[sidx]:
-        # Figure out car idx
-        idx = cartesian_order[cart_index]
-        if idx == 0:
-            rhs = "cart[i]"
-        elif idx == 1:
-            rhs = "cart[ncart + i]"
-        else:
-            rhs = "cart[%d * ncart + i]" % idx
-
-        # Scales
-        if scale != 1.0:
-            cg.write("%s %s % .16f * %s" % (lhs, op, scale, rhs))
-        else:
-            cg.write("%s %s %s" % (lhs, op, rhs))
-        op = "+="
-
-    cg.write("output[i] += tmp * vector[%s]" % sidx)
-    cg.blankline()
-
-    cg.close_c_block()
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/__init__.py b/third_party/gauxc/external/gau2grid/src/gau2grid/__init__.py
deleted file mode 100644
index e1121f2..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/__init__.py
+++ /dev/null
@@ -1,30 +0,0 @@
-"""
-Gau2grid base init
-"""
-
-from . import RSH, codegen, order
-from . import c_generator as c_gen
-from . import python_reference as ref
-
-# Handle versioneer
-from ._version import get_versions
-
-# Pull in code from the c wrapper
-from .c_wrapper import (
-    c_compiled,
-    cgg_path,
-    collocation,
-    collocation_basis,
-    get_cgg_shared_object,
-    ncomponents,
-    orbital,
-    orbital_basis,
-)
-
-# Pull in tests
-from .extras import test
-
-versions = get_versions()
-__version__ = versions["version"]
-__git_revision__ = versions["full-revisionid"]
-del get_versions, versions
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/_version.py b/third_party/gauxc/external/gau2grid/src/gau2grid/_version.py
deleted file mode 100644
index 2299d64..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/_version.py
+++ /dev/null
@@ -1,555 +0,0 @@
-# This file helps to compute a version number in source trees obtained from
-# git-archive tarball (such as those provided by githubs download-from-tag
-# feature). Distribution tarballs (built by setup.py sdist) and build
-# directories (produced by setup.py build) will contain a much shorter file
-# that just contains the computed version number.
-
-# This file is released into the public domain. Generated by
-# versioneer-0.18 (https://github.com/warner/python-versioneer)
-"""Git implementation of _version.py."""
-
-import errno
-import os
-import re
-import subprocess
-import sys
-
-
-def get_keywords():
-    """Get the keywords needed to look up the version information."""
-    # these strings will be replaced by git during git-archive.
-    # setup.py/versioneer.py will grep for the variable names, so they must
-    # each be defined on a line of their own. _version.py will just call
-    # get_keywords().
-    git_refnames = "$Format:%d$"
-    git_full = "$Format:%H$"
-    git_date = "$Format:%ci$"
-    keywords = {"refnames": git_refnames, "full": git_full, "date": git_date}
-    return keywords
-
-
-class VersioneerConfig:
-    """Container for Versioneer configuration parameters."""
-
-
-def get_config():
-    """Create, populate and return the VersioneerConfig() object."""
-    # these strings are filled in when 'setup.py versioneer' creates
-    # _version.py
-    cfg = VersioneerConfig()
-    cfg.VCS = "git"
-    cfg.style = "pep440"
-    cfg.tag_prefix = ""
-    cfg.parentdir_prefix = "None"
-    cfg.versionfile_source = "gau2grid/_version.py"
-    cfg.verbose = False
-    return cfg
-
-
-class NotThisMethod(Exception):
-    """Exception raised if a method is not valid for the current scenario."""
-
-
-LONG_VERSION_PY = {}
-HANDLERS = {}
-
-
-def register_vcs_handler(vcs, method):  # decorator
-    """Decorator to mark a method as the handler for a particular VCS."""
-
-    def decorate(f):
-        """Store f in HANDLERS[vcs][method]."""
-        if vcs not in HANDLERS:
-            HANDLERS[vcs] = {}
-        HANDLERS[vcs][method] = f
-        return f
-
-    return decorate
-
-
-def run_command(commands, args, cwd=None, verbose=False, hide_stderr=False, env=None):
-    """Call the given command(s)."""
-    assert isinstance(commands, list)
-    p = None
-    for c in commands:
-        try:
-            dispcmd = str([c] + args)
-            # remember shell=False, so use git.cmd on windows, not just git
-            p = subprocess.Popen(
-                [c] + args,
-                cwd=cwd,
-                env=env,
-                stdout=subprocess.PIPE,
-                stderr=(subprocess.PIPE if hide_stderr else None),
-            )
-            break
-        except EnvironmentError:
-            e = sys.exc_info()[1]
-            if e.errno == errno.ENOENT:
-                continue
-            if verbose:
-                print("unable to run %s" % dispcmd)
-                print(e)
-            return None, None
-    else:
-        if verbose:
-            print("unable to find command, tried %s" % (commands,))
-        return None, None
-    stdout = p.communicate()[0].strip()
-    if sys.version_info[0] >= 3:
-        stdout = stdout.decode()
-    if p.returncode != 0:
-        if verbose:
-            print("unable to run %s (error)" % dispcmd)
-            print("stdout was %s" % stdout)
-        return None, p.returncode
-    return stdout, p.returncode
-
-
-def versions_from_parentdir(parentdir_prefix, root, verbose):
-    """Try to determine the version from the parent directory name.
-
-    Source tarballs conventionally unpack into a directory that includes both
-    the project name and a version string. We will also support searching up
-    two directory levels for an appropriately named parent directory
-    """
-    rootdirs = []
-
-    for i in range(3):
-        dirname = os.path.basename(root)
-        if dirname.startswith(parentdir_prefix):
-            return {
-                "version": dirname[len(parentdir_prefix) :],
-                "full-revisionid": None,
-                "dirty": False,
-                "error": None,
-                "date": None,
-            }
-        else:
-            rootdirs.append(root)
-            root = os.path.dirname(root)  # up a level
-
-    if verbose:
-        print(
-            "Tried directories %s but none started with prefix %s"
-            % (str(rootdirs), parentdir_prefix)
-        )
-    raise NotThisMethod("rootdir doesn't start with parentdir_prefix")
-
-
-@register_vcs_handler("git", "get_keywords")
-def git_get_keywords(versionfile_abs):
-    """Extract version information from the given file."""
-    # the code embedded in _version.py can just fetch the value of these
-    # keywords. When used from setup.py, we don't want to import _version.py,
-    # so we do it with a regexp instead. This function is not used from
-    # _version.py.
-    keywords = {}
-    try:
-        f = open(versionfile_abs, "r")
-        for line in f.readlines():
-            if line.strip().startswith("git_refnames ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["refnames"] = mo.group(1)
-            if line.strip().startswith("git_full ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["full"] = mo.group(1)
-            if line.strip().startswith("git_date ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["date"] = mo.group(1)
-        f.close()
-    except EnvironmentError:
-        pass
-    return keywords
-
-
-@register_vcs_handler("git", "keywords")
-def git_versions_from_keywords(keywords, tag_prefix, verbose):
-    """Get version information from git keywords."""
-    if not keywords:
-        raise NotThisMethod("no keywords at all, weird")
-    date = keywords.get("date")
-    if date is not None:
-        # git-2.2.0 added "%cI", which expands to an ISO-8601 -compliant
-        # datestamp. However we prefer "%ci" (which expands to an "ISO-8601
-        # -like" string, which we must then edit to make compliant), because
-        # it's been around since git-1.5.3, and it's too difficult to
-        # discover which version we're using, or to work around using an
-        # older one.
-        date = date.strip().replace(" ", "T", 1).replace(" ", "", 1)
-    refnames = keywords["refnames"].strip()
-    if refnames.startswith("$Format"):
-        if verbose:
-            print("keywords are unexpanded, not using")
-        raise NotThisMethod("unexpanded keywords, not a git-archive tarball")
-    refs = set([r.strip() for r in refnames.strip("()").split(",")])
-    # starting in git-1.8.3, tags are listed as "tag: foo-1.0" instead of
-    # just "foo-1.0". If we see a "tag: " prefix, prefer those.
-    TAG = "tag: "
-    tags = set([r[len(TAG) :] for r in refs if r.startswith(TAG)])
-    if not tags:
-        # Either we're using git < 1.8.3, or there really are no tags. We use
-        # a heuristic: assume all version tags have a digit. The old git %d
-        # expansion behaves like git log --decorate=short and strips out the
-        # refs/heads/ and refs/tags/ prefixes that would let us distinguish
-        # between branches and tags. By ignoring refnames without digits, we
-        # filter out many common branch names like "release" and
-        # "stabilization", as well as "HEAD" and "master".
-        tags = set([r for r in refs if re.search(r"\d", r)])
-        if verbose:
-            print("discarding '%s', no digits" % ",".join(refs - tags))
-    if verbose:
-        print("likely tags: %s" % ",".join(sorted(tags)))
-    for ref in sorted(tags):
-        # sorting will prefer e.g. "2.0" over "2.0rc1"
-        if ref.startswith(tag_prefix):
-            r = ref[len(tag_prefix) :]
-            if verbose:
-                print("picking %s" % r)
-            return {
-                "version": r,
-                "full-revisionid": keywords["full"].strip(),
-                "dirty": False,
-                "error": None,
-                "date": date,
-            }
-    # no suitable tags, so version is "0+unknown", but full hex is still there
-    if verbose:
-        print("no suitable tags, using unknown + full revision id")
-    return {
-        "version": "0+unknown",
-        "full-revisionid": keywords["full"].strip(),
-        "dirty": False,
-        "error": "no suitable tags",
-        "date": None,
-    }
-
-
-@register_vcs_handler("git", "pieces_from_vcs")
-def git_pieces_from_vcs(tag_prefix, root, verbose, run_command=run_command):
-    """Get version from 'git describe' in the root of the source tree.
-
-    This only gets called if the git-archive 'subst' keywords were *not*
-    expanded, and _version.py hasn't already been rewritten with a short
-    version string, meaning we're inside a checked out source tree.
-    """
-    GITS = ["git"]
-    if sys.platform == "win32":
-        GITS = ["git.cmd", "git.exe"]
-
-    out, rc = run_command(GITS, ["rev-parse", "--git-dir"], cwd=root, hide_stderr=True)
-    if rc != 0:
-        if verbose:
-            print("Directory %s not under git control" % root)
-        raise NotThisMethod("'git rev-parse --git-dir' returned error")
-
-    # if there is a tag matching tag_prefix, this yields TAG-NUM-gHEX[-dirty]
-    # if there isn't one, this yields HEX[-dirty] (no NUM)
-    describe_out, rc = run_command(
-        GITS,
-        [
-            "describe",
-            "--tags",
-            "--dirty",
-            "--always",
-            "--long",
-            "--match",
-            "%s*" % tag_prefix,
-        ],
-        cwd=root,
-    )
-    # --long was added in git-1.5.5
-    if describe_out is None:
-        raise NotThisMethod("'git describe' failed")
-    describe_out = describe_out.strip()
-    full_out, rc = run_command(GITS, ["rev-parse", "HEAD"], cwd=root)
-    if full_out is None:
-        raise NotThisMethod("'git rev-parse' failed")
-    full_out = full_out.strip()
-
-    pieces = {}
-    pieces["long"] = full_out
-    pieces["short"] = full_out[:7]  # maybe improved later
-    pieces["error"] = None
-
-    # parse describe_out. It will be like TAG-NUM-gHEX[-dirty] or HEX[-dirty]
-    # TAG might have hyphens.
-    git_describe = describe_out
-
-    # look for -dirty suffix
-    dirty = git_describe.endswith("-dirty")
-    pieces["dirty"] = dirty
-    if dirty:
-        git_describe = git_describe[: git_describe.rindex("-dirty")]
-
-    # now we have TAG-NUM-gHEX or HEX
-
-    if "-" in git_describe:
-        # TAG-NUM-gHEX
-        mo = re.search(r"^(.+)-(\d+)-g([0-9a-f]+)$", git_describe)
-        if not mo:
-            # unparseable. Maybe git-describe is misbehaving?
-            pieces["error"] = "unable to parse git-describe output: '%s'" % describe_out
-            return pieces
-
-        # tag
-        full_tag = mo.group(1)
-        if not full_tag.startswith(tag_prefix):
-            if verbose:
-                fmt = "tag '%s' doesn't start with prefix '%s'"
-                print(fmt % (full_tag, tag_prefix))
-            pieces["error"] = "tag '%s' doesn't start with prefix '%s'" % (
-                full_tag,
-                tag_prefix,
-            )
-            return pieces
-        pieces["closest-tag"] = full_tag[len(tag_prefix) :]
-
-        # distance: number of commits since tag
-        pieces["distance"] = int(mo.group(2))
-
-        # commit: short hex revision ID
-        pieces["short"] = mo.group(3)
-
-    else:
-        # HEX: no tags
-        pieces["closest-tag"] = None
-        count_out, rc = run_command(GITS, ["rev-list", "HEAD", "--count"], cwd=root)
-        pieces["distance"] = int(count_out)  # total number of commits
-
-    # commit date: see ISO-8601 comment in git_versions_from_keywords()
-    date = run_command(GITS, ["show", "-s", "--format=%ci", "HEAD"], cwd=root)[
-        0
-    ].strip()
-    pieces["date"] = date.strip().replace(" ", "T", 1).replace(" ", "", 1)
-
-    return pieces
-
-
-def plus_or_dot(pieces):
-    """Return a + if we don't already have one, else return a ."""
-    if "+" in pieces.get("closest-tag", ""):
-        return "."
-    return "+"
-
-
-def render_pep440(pieces):
-    """Build up version string, with post-release "local version identifier".
-
-    Our goal: TAG[+DISTANCE.gHEX[.dirty]] . Note that if you
-    get a tagged build and then dirty it, you'll get TAG+0.gHEX.dirty
-
-    Exceptions:
-    1: no tags. git_describe was just HEX. 0+untagged.DISTANCE.gHEX[.dirty]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += plus_or_dot(pieces)
-            rendered += "%d.g%s" % (pieces["distance"], pieces["short"])
-            if pieces["dirty"]:
-                rendered += ".dirty"
-    else:
-        # exception #1
-        rendered = "0+untagged.%d.g%s" % (pieces["distance"], pieces["short"])
-        if pieces["dirty"]:
-            rendered += ".dirty"
-    return rendered
-
-
-def render_pep440_pre(pieces):
-    """TAG[.post.devDISTANCE] -- No -dirty.
-
-    Exceptions:
-    1: no tags. 0.post.devDISTANCE
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"]:
-            rendered += ".post.dev%d" % pieces["distance"]
-    else:
-        # exception #1
-        rendered = "0.post.dev%d" % pieces["distance"]
-    return rendered
-
-
-def render_pep440_post(pieces):
-    """TAG[.postDISTANCE[.dev0]+gHEX] .
-
-    The ".dev0" means dirty. Note that .dev0 sorts backwards
-    (a dirty tree will appear "older" than the corresponding clean one),
-    but you shouldn't be releasing software with -dirty anyways.
-
-    Exceptions:
-    1: no tags. 0.postDISTANCE[.dev0]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += ".post%d" % pieces["distance"]
-            if pieces["dirty"]:
-                rendered += ".dev0"
-            rendered += plus_or_dot(pieces)
-            rendered += "g%s" % pieces["short"]
-    else:
-        # exception #1
-        rendered = "0.post%d" % pieces["distance"]
-        if pieces["dirty"]:
-            rendered += ".dev0"
-        rendered += "+g%s" % pieces["short"]
-    return rendered
-
-
-def render_pep440_old(pieces):
-    """TAG[.postDISTANCE[.dev0]] .
-
-    The ".dev0" means dirty.
-
-    Eexceptions:
-    1: no tags. 0.postDISTANCE[.dev0]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += ".post%d" % pieces["distance"]
-            if pieces["dirty"]:
-                rendered += ".dev0"
-    else:
-        # exception #1
-        rendered = "0.post%d" % pieces["distance"]
-        if pieces["dirty"]:
-            rendered += ".dev0"
-    return rendered
-
-
-def render_git_describe(pieces):
-    """TAG[-DISTANCE-gHEX][-dirty].
-
-    Like 'git describe --tags --dirty --always'.
-
-    Exceptions:
-    1: no tags. HEX[-dirty]  (note: no 'g' prefix)
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"]:
-            rendered += "-%d-g%s" % (pieces["distance"], pieces["short"])
-    else:
-        # exception #1
-        rendered = pieces["short"]
-    if pieces["dirty"]:
-        rendered += "-dirty"
-    return rendered
-
-
-def render_git_describe_long(pieces):
-    """TAG-DISTANCE-gHEX[-dirty].
-
-    Like 'git describe --tags --dirty --always -long'.
-    The distance/hash is unconditional.
-
-    Exceptions:
-    1: no tags. HEX[-dirty]  (note: no 'g' prefix)
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        rendered += "-%d-g%s" % (pieces["distance"], pieces["short"])
-    else:
-        # exception #1
-        rendered = pieces["short"]
-    if pieces["dirty"]:
-        rendered += "-dirty"
-    return rendered
-
-
-def render(pieces, style):
-    """Render the given version pieces into the requested style."""
-    if pieces["error"]:
-        return {
-            "version": "unknown",
-            "full-revisionid": pieces.get("long"),
-            "dirty": None,
-            "error": pieces["error"],
-            "date": None,
-        }
-
-    if not style or style == "default":
-        style = "pep440"  # the default
-
-    if style == "pep440":
-        rendered = render_pep440(pieces)
-    elif style == "pep440-pre":
-        rendered = render_pep440_pre(pieces)
-    elif style == "pep440-post":
-        rendered = render_pep440_post(pieces)
-    elif style == "pep440-old":
-        rendered = render_pep440_old(pieces)
-    elif style == "git-describe":
-        rendered = render_git_describe(pieces)
-    elif style == "git-describe-long":
-        rendered = render_git_describe_long(pieces)
-    else:
-        raise ValueError("unknown style '%s'" % style)
-
-    return {
-        "version": rendered,
-        "full-revisionid": pieces["long"],
-        "dirty": pieces["dirty"],
-        "error": None,
-        "date": pieces.get("date"),
-    }
-
-
-def get_versions():
-    """Get version information or return default if unable to do so."""
-    # I am in _version.py, which lives at ROOT/VERSIONFILE_SOURCE. If we have
-    # __file__, we can work backwards from there to the root. Some
-    # py2exe/bbfreeze/non-CPython implementations don't do __file__, in which
-    # case we can only use expanded keywords.
-
-    cfg = get_config()
-    verbose = cfg.verbose
-
-    try:
-        return git_versions_from_keywords(get_keywords(), cfg.tag_prefix, verbose)
-    except NotThisMethod:
-        pass
-
-    try:
-        root = os.path.realpath(__file__)
-        # versionfile_source is the relative path from the top of the source
-        # tree (where the .git directory might live) to this file. Invert
-        # this to find the root from __file__.
-        for i in cfg.versionfile_source.split("/"):
-            root = os.path.dirname(root)
-    except NameError:
-        return {
-            "version": "0+unknown",
-            "full-revisionid": None,
-            "dirty": None,
-            "error": "unable to find root of source tree",
-            "date": None,
-        }
-
-    try:
-        pieces = git_pieces_from_vcs(cfg.tag_prefix, root, verbose)
-        return render(pieces, cfg.style)
-    except NotThisMethod:
-        pass
-
-    try:
-        if cfg.parentdir_prefix:
-            return versions_from_parentdir(cfg.parentdir_prefix, root, verbose)
-    except NotThisMethod:
-        pass
-
-    return {
-        "version": "0+unknown",
-        "full-revisionid": None,
-        "dirty": None,
-        "error": "unable to compute version",
-        "date": None,
-    }
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/c_generator.py b/third_party/gauxc/external/gau2grid/src/gau2grid/c_generator.py
deleted file mode 100644
index 834fb1c..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/c_generator.py
+++ /dev/null
@@ -1,2001 +0,0 @@
-"""
-The C generator for gau2grid collocation functions
-"""
-
-import os
-
-from . import RSH, c_pragma, codegen, order, utility
-from . import c_util_generator as c_util
-
-_grad_indices = ["x", "y", "z"]
-_hess_indices = ["xx", "xy", "xz", "yy", "yz", "zz"]
-_der3_indices = ["xxx, xxy, xxz, xyy, xyz, xzz, yyy, yyz, yzz, zzz"]
-
-
-def transformer_loops(L):
-    return [
-        ("order == GG_SPHERICAL_CCA", "gg_cca_cart_to_spherical_L%d" % L),
-        ("order == GG_SPHERICAL_GAUSSIAN", "gg_gaussian_cart_to_spherical_L%d" % L),
-        ("order == GG_CARTESIAN_CCA", "gg_cca_cart_copy_L%d" % L),
-        ("order == GG_CARTESIAN_MOLDEN", "gg_molden_cart_copy_L%d" % L),
-    ]
-
-
-def transformer_sum_loops(L):
-    return [
-        ("order == GG_SPHERICAL_CCA", "gg_cca_cart_to_spherical_sum_L%d" % L),
-        ("order == GG_SPHERICAL_GAUSSIAN", "gg_gaussian_cart_to_spherical_sum_L%d" % L),
-        ("order == GG_CARTESIAN_CCA", "gg_cca_cart_sum_L%d" % L),
-        ("order == GG_CARTESIAN_MOLDEN", "gg_molden_cart_sum_L%d" % L),
-    ]
-
-
-ALIGN_SIZE = 64
-
-
-def generate_c_gau2grid(max_L, path=".", inner_block="auto", do_cf=True):
-    """
-    Creates the C files for the gau2grid program.
-
-    Parameters
-    ----------
-    max_L : int
-        The maximum angular momentum compiled for.
-    path : str, optional
-        The path to write the files to.
-    do_cf : bool, option
-        Apply clang-format to the generated files or not.
-
-    Returns
-    -------
-    None
-
-    """
-
-    # We now always compute internally in CCA
-    cartesian_order = "cca"
-
-    # Build the codegen objects for each file
-    gg_header = codegen.CodeGen(cgen=True)
-    gg_utility_header = codegen.CodeGen(cgen=True)
-    gg_orbital = codegen.CodeGen(cgen=True)
-    gg_phi = codegen.CodeGen(cgen=True)
-    gg_grad = codegen.CodeGen(cgen=True)
-    gg_hess = codegen.CodeGen(cgen=True)
-    gg_der3 = codegen.CodeGen(cgen=True)
-    gg_transform = codegen.CodeGen(cgen=True)
-    gg_helper = codegen.CodeGen(cgen=True)
-    gg_pragma = codegen.CodeGen(cgen=True)
-
-    # Add license to header only
-    c_util.write_license(gg_header)
-
-    # Add general header comments
-    for cgs in [
-        gg_header,
-        gg_utility_header,
-        gg_orbital,
-        gg_phi,
-        gg_grad,
-        gg_hess,
-        gg_der3,
-        gg_transform,
-        gg_helper,
-        gg_pragma,
-    ]:
-        cgs.write("/*", endl="")
-        cgs.write(" * This is a Gau2Grid automatically generated C file.", endl="")
-        cgs.write(" *", endl="")
-        cgs.write(" * More details can found at the following repo:", endl="")
-        cgs.write(" *   https://github.com/dgasmith/gau2grid", endl="")
-        cgs.write(" */", endl="")
-        cgs.blankline()
-
-    # Write out the pragma header
-    c_pragma.build_pragma_header(gg_pragma)
-
-    # gg_helper.write("#include <stdio.h>")
-
-    # Add utility headers
-    for cgs in [gg_orbital, gg_phi, gg_grad, gg_hess, gg_der3, gg_transform, gg_helper]:
-        cgs.write("#include <math.h>")
-        # cgs.write("#include <stdio.h>")
-        cgs.write("#if defined(__clang__) && defined(_MSC_VER)")
-        cgs.write("#include <malloc.h>")
-        cgs.write("#elif defined __clang__")
-        cgs.write("#include <mm_malloc.h>")
-        cgs.write("#elif defined _MSC_VER")
-        cgs.write("#include <malloc.h>")
-        cgs.write("#else")
-        cgs.write("#include <stdlib.h>")
-        cgs.write("#endif")
-        cgs.blankline()
-        cgs.write('#include "gau2grid/gau2grid.h"')
-        cgs.write('#include "gau2grid/gau2grid_utility.h"')
-        cgs.write('#include "gau2grid/gau2grid_pragma.h"')
-        cgs.blankline()
-
-    # Header guards
-    gg_header.write("#ifdef __cplusplus")
-    gg_header.write('extern "C" {', endl="")
-    gg_header.write("#endif")
-    gg_header.blankline()
-    gg_header.write("#ifndef GAU2GRID_GUARD_H")
-    gg_header.write("#define GAU2GRID_GUARD_H")
-    gg_header.blankline()
-
-    gg_header.write('#include "gau2grid/gau2grid_pragma.h"')
-    gg_header.blankline()
-
-    gg_header.write("// Order definitions")
-    gg_header.write("#define GG_SPHERICAL_CCA 300")
-    gg_header.write("#define GG_SPHERICAL_GAUSSIAN 301")
-
-    gg_header.write("#define GG_CARTESIAN_CCA 400")
-    gg_header.write("#define GG_CARTESIAN_MOLDEN 401")
-
-    # Add any information needed
-    gg_helper.write("// Information helpers")
-    gg_header.write("// Information helpers")
-
-    # Maximum angular momentum
-    gg_helper.write("int gg_max_L() { return %d; }" % max_L, endl="")
-    gg_helper.blankline()
-
-    gg_header.write("int gg_max_L()")
-    gg_header.blankline()
-
-    # Ncomponents
-    gg_helper.start_c_block("int gg_ncomponents(const int L, const int spherical)")
-    gg_helper.write("if (spherical) {", endl="")
-    gg_helper.write("return 2 * L + 1")
-    gg_helper.write("} else {", endl="")
-    gg_helper.write("return (L + 2) * (L + 1) / 2")
-    gg_helper.write("}", endl="")
-    gg_helper.close_c_block()
-    gg_helper.blankline()
-
-    gg_header.write("int gg_ncomponents(const int L, const int spherical)")
-    gg_header.blankline()
-
-    # Build out the spherical transformer
-
-    gg_utility_header.write("// Spherical transformers")
-
-    for order in ["cca", "gaussian"]:
-        for L in range(max_L + 1):
-            sig = RSH.transformation_c_generator(
-                gg_transform, L, cartesian_order, order, align=ALIGN_SIZE, prefix=order
-            )
-            gg_utility_header.write(sig)
-            gg_utility_header.blankline()
-
-            sig = RSH.transformation_c_generator_sum(
-                gg_transform, L, cartesian_order, order, align=ALIGN_SIZE, prefix=order
-            )
-            gg_utility_header.write(sig)
-            gg_utility_header.blankline()
-
-    for order in ["cca", "molden"]:
-        for L in range(max_L + 1):
-            sig = c_util.cartesian_copy_c_generator(
-                gg_transform, L, cartesian_order, order, align=ALIGN_SIZE, prefix=order
-            )
-            gg_utility_header.write(sig)
-            gg_utility_header.blankline()
-
-            sig = c_util.cartesian_sum_c_generator(
-                gg_transform, L, cartesian_order, order, align=ALIGN_SIZE, prefix=order
-            )
-            gg_utility_header.write(sig)
-            gg_utility_header.blankline()
-
-    gg_utility_header.blankline()
-
-    # Fast transformers
-    gg_header.write("// Fast transposers")
-    trans_sig = c_util.naive_transpose(gg_transform, align=ALIGN_SIZE)
-    gg_header.write(trans_sig)
-    fast_trans_sig = c_util.fast_transpose(gg_transform, 8, align=ALIGN_SIZE)
-    gg_header.write(fast_trans_sig)
-    gg_header.blankline()
-
-    # Fast copiers
-    gg_header.write("// Fast segment copiers")
-    block_sig = c_util.block_copy(gg_transform, align=ALIGN_SIZE)
-    gg_header.write(block_sig)
-    gg_header.blankline()
-
-    # Summers
-    gg_utility_header.write("// Fast matrix vector block sum")
-    block_sig = c_util.block_matrix_vector(gg_transform, align=ALIGN_SIZE)
-    gg_utility_header.write(block_sig)
-    gg_header.blankline()
-
-    # Loop over phi, grad, hess and build blocks for each
-    gg_helper.write("// Collocation selector functions")
-    helper_sigs = []
-    for name, grad, cg in [
-        ("Orbital", 0, gg_orbital),
-        ("Phi", 0, gg_phi),
-        ("Phi grad", 1, gg_grad),
-        ("Phi Hess", 2, gg_hess),
-        ("Phi Der3", 3, gg_der3),
-    ]:
-        cg.blankline()
-        gg_utility_header.write("// %s computers" % name)
-        cg.blankline()
-
-        # Write out the phi builders
-        sig_store = []
-        for L in range(max_L + 1):
-            sig = shell_c_generator(
-                cg,
-                L,
-                grad=grad,
-                cartesian_order=cartesian_order,
-                inner_block=inner_block,
-                orbital=(name == "Orbital"),
-            )
-            sig_store.append(sig)
-            cg.blankline()
-
-            # Write out the header data
-            gg_utility_header.write(sig)
-            gg_utility_header.blankline()
-
-        if name == "Orbital":
-            gg_header.write("// Orbitals on a grid")
-        elif name == "Phi":
-            gg_header.write("// Collocation matrix functions")
-
-        # Write out the convenience functions
-        func_name, conv_sig = sig_store[0].split("(")
-        if "deriv" in func_name:
-            func_name = func_name.replace("L0_", "")
-        else:
-            func_name = func_name.replace("_L0", "")
-        func_name += "(int L, "
-        func_name += conv_sig
-        helper_sigs.append(_make_call(func_name).split("(")[0])
-
-        gg_header.write(func_name)
-        gg_header.blankline()
-
-        gg_helper.start_c_block(func_name)
-        gg_helper.write("// Chooses the correct function for a given L")
-
-        # Write out if's to choose the right L
-        L = 0
-        gg_helper.write("if (L == 0) {", endl="")
-        for sig in sig_store:
-            if L != 0:
-                gg_helper.write("} else if (L == %d) {" % L, endl="")
-
-            sig = _make_call(sig)
-            gg_helper.write("    " + sig)
-            L += 1
-
-        # Handle exception
-        gg_helper.write("} else {", endl="")
-        # gg_helper.write('    printf("Requested angular momentum exceeded compiled of %d\\n")' % max_L)
-        gg_helper.write("    exit(0)")
-        gg_helper.write("}", endl="")
-        gg_helper.close_c_block()
-        # print(func_name)
-
-    # Finish header guard
-    gg_header.write("#ifdef __cplusplus")
-    gg_header.write("}", endl="")
-    gg_header.write("#endif")
-    gg_header.write("#endif /* GAU2GRID_GUARD_H */")
-
-    # Create header directory if not present
-    header_path = os.path.join(path, "gau2grid")
-    if not os.path.isdir(header_path):
-        os.mkdir(header_path)
-
-    # Write out the CG's to files
-    gg_header.repr(filename=os.path.join(header_path, "gau2grid.h"), clang_format=do_cf)
-    gg_utility_header.repr(
-        filename=os.path.join(header_path, "gau2grid_utility.h"), clang_format=do_cf
-    )
-    gg_orbital.repr(
-        filename=os.path.join(path, "gau2grid_orbital.c"), clang_format=do_cf
-    )
-    gg_phi.repr(filename=os.path.join(path, "gau2grid_phi.c"), clang_format=do_cf)
-    gg_grad.repr(filename=os.path.join(path, "gau2grid_deriv1.c"), clang_format=do_cf)
-    gg_hess.repr(filename=os.path.join(path, "gau2grid_deriv2.c"), clang_format=do_cf)
-    gg_der3.repr(filename=os.path.join(path, "gau2grid_deriv3.c"), clang_format=do_cf)
-    gg_transform.repr(
-        filename=os.path.join(path, "gau2grid_transform.c"), clang_format=do_cf
-    )
-    gg_helper.repr(filename=os.path.join(path, "gau2grid_helper.c"), clang_format=do_cf)
-    gg_pragma.repr(filename=os.path.join(header_path, "gau2grid_pragma.h"))
-
-
-def shell_c_generator(
-    cg,
-    L,
-    function_name="",
-    grad=0,
-    cartesian_order="row",
-    inner_block="auto",
-    orbital=False,
-):
-    # Grab the line start
-    cg_line_start = len(cg.data)
-    deriv_indices = utility.get_deriv_indices(grad)
-
-    if (grad != 0) and orbital:
-        raise KeyError("Orbital builds are only available for grad=0.")
-    # Parse Keywords
-    if function_name == "":
-        if orbital:
-            function_name = "gg_orbitals_L%d" % L
-        elif grad == 0:
-            function_name = "gg_collocation_L%d" % L
-        else:
-            function_name = "gg_collocation_L%d_deriv%d" % (L, grad)
-
-    if grad > 3:
-        raise TypeError("Only grad <=3 is supported")
-
-    # Set a few parameters for custom loops
-    L_needs_out = False
-
-    # Precompute temps
-    ncart = int((L + 1) * (L + 2) / 2)
-    nspherical = L * 2 + 1
-
-    # Do we do multiple loops for each tmp or just one at a time?
-    paritioned_loops = False
-    if (grad == 1) and (L >= 7):
-        paritioned_loops = True
-    elif (grad == 2) and (L >= 3):
-        paritioned_loops = True
-    elif (grad == 3) and (L >= 2):
-        paritioned_loops = True
-
-    # Handle inner block, everything should fit into ~50% of L1
-    # L1 is roughly 64K for data so lets say 32k max or 4096 doubles
-    if inner_block == "auto":
-        cache_limit_doubles = 4096
-
-        # Basic temps + grad temps
-        basic_lines = 5 + grad
-
-        if paritioned_loops:
-            # If we run partitioned loops we need this many lines
-            nlines = basic_lines + ncart
-        else:
-            # If we run a single loop we need this many lines
-            nlines = basic_lines + ncart * (1 + len(deriv_indices))
-
-        # This could be bad when we hit AVX-512 (soon)
-        inner_block = 32
-
-        if nlines * inner_block > cache_limit_doubles:
-            print(
-                "WARNING: For L=%2d and grad=%d assumed 16,384B L1 cache limit will be exceeded. This may impact performance."
-                % (L, grad)
-            )
-
-    elif isinstance(inner_block, int):
-        pass
-    else:
-        raise ValueError("Inner block of name %s not understood" % str(inner_block))
-
-    # Build function signature
-    func_sig = ""
-    if orbital:
-        func_sig = "const double* PRAGMA_RESTRICT C, const unsigned long norbitals, "
-
-    func_sig += "const unsigned long npoints, const double* PRAGMA_RESTRICT xyz, const unsigned long xyz_stride, const int nprim, const double* PRAGMA_RESTRICT coeffs, const double* PRAGMA_RESTRICT exponents, const double* PRAGMA_RESTRICT center, const int order, double* PRAGMA_RESTRICT phi_out"
-
-    if orbital:
-        func_sig = func_sig.replace("phi_out", "orbital_out")
-
-    # Add extra output vals for derivs
-    for deriv in deriv_indices:
-        func_sig += ", double* PRAGMA_RESTRICT phi_%s_out" % deriv
-
-    func_sig = "void %s(%s)" % (function_name, func_sig)
-    cg.start_c_block(func_sig)
-    cg.blankline()
-
-    # Figure out spacing
-    cg.write("// Sizing")
-    cg.write("unsigned long nblocks = npoints / %d" % inner_block)
-    cg.write("nblocks += (npoints %% %d) ? 1 : 0" % inner_block)
-    cg.write("const unsigned long ncart = %d" % ncart)
-    cg.write("const unsigned long nspherical = %d" % nspherical)
-    cg.write("unsigned long nout")
-
-    cg.blankline()
-    # cg.write("const unsigned long nout")
-    cg.start_c_block(
-        "if ((order == GG_SPHERICAL_CCA) || (order == GG_SPHERICAL_GAUSSIAN))"
-    )
-    cg.write("nout = nspherical")
-    cg.write("} else {", endl="")
-    cg.write("nout = ncart")
-    cg.close_c_block()
-    cg.blankline()
-
-    # Build temporaries
-    S_cache_tmps = ["xc", "yc", "zc", "R2", "S0", "tmp1"]
-    if grad > 0:
-        S_cache_tmps.append("S1")
-    if grad > 1:
-        S_cache_tmps.append("S2")
-    if grad > 2:
-        S_cache_tmps.append("S3")
-
-    block_malloc_name = "cache_data"
-    block_malloc_sizes = [(name, inner_block) for name in S_cache_tmps]
-    S_tmps = [block_malloc_name]
-
-    # Allocate as single block on heap
-    cg.write("// Allocate S temporaries, single block to stay on cache")
-    _block_malloc(cg, block_malloc_name, block_malloc_sizes)
-
-    cg.blankline()
-
-    # Hold the expn1 and expn2 arrays
-    cg.write("// Allocate exponential temporaries")
-    exp_tmps = ["expn1"]
-    if grad > 0:
-        exp_tmps += ["expn2"]
-    for tname in exp_tmps:
-        cg.write(_malloc(tname, "nprim"))
-    S_tmps.extend(exp_tmps)
-    cg.blankline()
-
-    # Figure out powers needed
-    power_tmps = []
-    if (L > 1) and paritioned_loops:
-        cg.write("// Allocate power temporaries")
-        power_tmps = ["xc_pow", "yc_pow", "zc_pow"]
-
-        for tname in power_tmps:
-            cg.write(_malloc(tname, inner_block * (L - 1)))
-            cg.write("ASSUME_ALIGNED(%s, %d)" % (tname, ALIGN_SIZE))
-
-        cg.blankline()
-
-    # Determine output tmps
-    inner_tmps = []
-    if L >= L_needs_out:
-        cg.write("// Allocate output temporaries")
-
-        inner_tmps = ["phi_tmp"]
-        if paritioned_loops is False:
-            for deriv in deriv_indices:
-                inner_tmps.append("phi_%s_tmp" % deriv)
-
-        # Malloc temps
-        for tname in inner_tmps:
-            cg.write(_malloc(tname, inner_block * ncart))
-            cg.write("ASSUME_ALIGNED(%s, %d)" % (tname, ALIGN_SIZE))
-    cg.blankline()
-
-    # Any declerations needed
-    cg.write("// Declare doubles")
-    cg.write("const double center_x = center[0]")
-    cg.write("const double center_y = center[1]")
-    cg.write("const double center_z = center[2]")
-    cg.write("double A")
-    if grad > 0:
-        cg.write("double " + ", ".join("A%s" % grad.upper() for grad in _grad_indices))
-    if grad > 1:
-        cg.write("double " + ", ".join("A%s" % hess.upper() for hess in _hess_indices))
-    if grad > 2:
-        cg.write("double " + ", ".join("A%s" % der3.upper() for der3 in _der3_indices))
-    cg.blankline()
-
-    cg.write("// Build negative exponents")
-    cg.start_c_block("for (unsigned long i = 0; i < nprim; i++)")
-    cg.write("expn1[i] = -1.0 * exponents[i]")
-    if grad > 0:
-        cg.write("expn2[i] = -2.0 * exponents[i]")
-    cg.close_c_block()
-    cg.blankline()
-
-    # Start outer loop
-    cg.write("// Start outer block loop")
-    cg.start_c_block("for (unsigned long block = 0; block < nblocks; block++)")
-    cg.blankline()
-
-    # Move data into inner buffers and compute R
-    cg.blankline()
-    cg.write("// Copy data into inner temps")
-    cg.write("const unsigned long start = block * %d" % inner_block)
-    cg.write(
-        "const unsigned long remain = ((start + %d) > npoints) ? (npoints - start) : %d"
-        % (inner_block, inner_block)
-    )
-    cg.blankline()
-
-    ### Build xc, yz, zc, R2, and S0
-
-    # Two different loop options
-    cg.write("// Handle non-AM dependant temps")
-    cg.start_c_block(
-        "if (xyz_stride == 1)",
-    )
-
-    # Contigous data blocks
-    cg.write("const double* PRAGMA_RESTRICT x = xyz + start")
-    cg.write("const double* PRAGMA_RESTRICT y = xyz + npoints + start")
-    cg.write("const double* PRAGMA_RESTRICT z = xyz + 2 * npoints + start")
-
-    cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-    cg.write("xc[i] = x[i] - center_x")
-    cg.write("yc[i] = y[i] - center_y")
-    cg.write("zc[i] = z[i] - center_z")
-
-    cg.blankline()
-    cg.write("// Distance")
-    cg.write("R2[i] = xc[i] * xc[i]")
-    cg.write("R2[i] += yc[i] * yc[i]")
-    cg.write("R2[i] += zc[i] * zc[i]")
-
-    cg.blankline()
-    cg.write("// Zero out S tmps")
-    cg.write("S0[i] = 0.0")
-    if grad > 0:
-        cg.write("S1[i] = 0.0")
-    if grad > 1:
-        cg.write("S2[i] = 0.0")
-    if grad > 2:
-        cg.write("S3[i] = 0.0")
-
-    cg.close_c_block()
-    cg.write("} else {", endl="")
-
-    # XYZ stripped blocks
-    cg.write("unsigned int start_shift = start * xyz_stride")
-    cg.blankline()
-
-    cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-    cg.write("xc[i] = xyz[start_shift + i * xyz_stride] - center_x")
-    cg.write("yc[i] = xyz[start_shift + i * xyz_stride + 1] - center_y")
-    cg.write("zc[i] = xyz[start_shift + i * xyz_stride + 2] - center_z")
-
-    cg.blankline()
-    cg.write("// Distance")
-    cg.write("R2[i] = xc[i] * xc[i]")
-    cg.write("R2[i] += yc[i] * yc[i]")
-    cg.write("R2[i] += zc[i] * zc[i]")
-
-    cg.blankline()
-    cg.write("// Zero out S tmps")
-    cg.write("S0[i] = 0.0")
-    if grad > 0:
-        cg.write("S1[i] = 0.0")
-    if grad > 1:
-        cg.write("S2[i] = 0.0")
-    if grad > 2:
-        cg.write("S3[i] = 0.0")
-
-    cg.close_c_block()
-
-    cg.close_c_block()
-    cg.blankline()
-
-    # Start inner loop
-    cg.write("// Start exponential block loop")
-    cg.start_c_block("for (unsigned long n = 0; n < nprim; n++)")
-
-    # Build R2
-    cg.write("const double coef = coeffs[n]")
-    cg.write("const double alpha_n1 = expn1[n]")
-    if grad > 0:
-        cg.write("const double alpha_n2 = expn2[n]")
-
-    # Build out thoese gaussian derivs
-    cg.blankline()
-    cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-    cg.write("const double width = alpha_n1 * R2[i]")
-    cg.write("const double T1 = coef * exp(width)")
-    cg.write("S0[i] += T1")
-    if grad > 0:
-        cg.write("const double T2 = alpha_n2 * T1")
-        cg.write("S1[i] += T2")
-    if grad > 1:
-        cg.write("const double T3 = alpha_n2 * T2")
-        cg.write("S2[i] += T3")
-    if grad > 2:
-        cg.write("const double T4 = alpha_n2 * T3")
-        cg.write("S3[i] += T4")
-
-    cg.close_c_block()
-    cg.blankline()
-
-    # Close off
-    cg.close_c_block()
-    cg.blankline()
-
-    # Grab the inner line start
-    inner_line_start = len(cg.data)
-    inner_line_stop = inner_line_start + 1
-
-    # Combine blocks
-    if orbital:
-        cg.write("// Combine blocks")
-        cg.write("PRAGMA_VECTORIZE", endl="")
-        cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-
-        # Build out required S
-        _S_tmps(cg, L, grad, inner_block)
-
-        # Build out required power temps if needed
-        _power_tmps(cg, L, inner_block)
-
-        # Contract temps with powers
-        _c_am_full_build(cg, L, cartesian_order, grad, inner_block)
-
-        cg.blankline()
-
-        # End inner loop
-        cg.close_c_block()
-
-        # Grab the inner line stop
-        inner_line_stop = len(cg.data)
-
-        # Spherical/Cartesian copy out
-        _tmp_to_out_orbital_sum(cg, L, inner_block)
-
-    elif L == 0:
-        cg.write("// Combine blocks")
-        cg.write("PRAGMA_VECTORIZE", endl="")
-        cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-
-        # Build out required S
-        _S_tmps(cg, L, grad, inner_block)
-
-        # Nothing else to be done. Copy it back to outs
-        cg.write("phi_out[start + i] = S0[i]")
-
-        if grad > 0:
-            cg.blankline()
-            cg.write("// Gradient AM=0 Component=0")
-            cg.write("phi_x_out[start + i] = SX")
-            cg.write("phi_y_out[start + i] = SY")
-            cg.write("phi_z_out[start + i] = SZ")
-
-        if grad > 1:
-            cg.blankline()
-            cg.write("// Hessian AM=0 Component=0")
-            cg.write("phi_xx_out[start + i] = SXX")
-            cg.write("phi_yy_out[start + i] = SYY")
-            cg.write("phi_zz_out[start + i] = SZZ")
-            cg.write("phi_xy_out[start + i] = SXY")
-            cg.write("phi_xz_out[start + i] = SXZ")
-            cg.write("phi_yz_out[start + i] = SYZ")
-
-        if grad > 2:
-            cg.blankline()
-            cg.write("// Der3 AM=0 Component=0")
-            cg.write("phi_xxx_out[start + i] = SXXX")
-            cg.write("phi_xxy_out[start + i] = SXXY")
-            cg.write("phi_xxz_out[start + i] = SXXZ")
-            cg.write("phi_xyy_out[start + i] = SXYY")
-            cg.write("phi_xyz_out[start + i] = SXYZ")
-            cg.write("phi_xzz_out[start + i] = SXZZ")
-            cg.write("phi_yyy_out[start + i] = SYYY")
-            cg.write("phi_yyz_out[start + i] = SYYZ")
-            cg.write("phi_yzz_out[start + i] = SYZZ")
-            cg.write("phi_zzz_out[start + i] = SZZZ")
-
-        cg.close_c_block()
-
-        # Grab the inner line stop
-        inner_line_stop = len(cg.data)
-
-    elif paritioned_loops:
-        cg.write("// Build powers")
-        cg.write("PRAGMA_VECTORIZE", endl="")
-        cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-        _power_tmps(cg, L, inner_block, array=True)
-        cg.close_c_block()
-
-        for dind in ["A"] + deriv_indices:
-            _c_am_single_build(
-                cg, L, cartesian_order, grad, inner_block, dind, array=True
-            )
-
-            dind = dind.lower()
-            if dind == "a":
-                dind = ""
-            else:
-                dind = "_" + dind
-
-            # Transform
-            for num, (criterion, fnc) in enumerate(transformer_loops(L)):
-                if num == 0:
-                    cg.start_c_block("if (%s)" % criterion)
-                else:
-                    cg.write("} else if (%s) {" % criterion, endl="")
-
-                cg.write(
-                    "%s(remain, phi_tmp, %d, (phi%s_out + start), npoints)"
-                    % (fnc, inner_block, dind)
-                )
-
-            # Spherical CCA
-            cg.close_c_block()
-
-            cg.blankline()
-
-        # Grab the inner line stop
-        inner_line_stop = len(cg.data)
-
-    else:
-        cg.write("// Combine blocks")
-        cg.write("PRAGMA_VECTORIZE", endl="")
-        cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-
-        # Build out required S
-        _S_tmps(cg, L, grad, inner_block)
-
-        # Build out required power temps if needed
-        _power_tmps(cg, L, inner_block)
-
-        # Contract temps with powers
-        _c_am_full_build(cg, L, cartesian_order, grad, inner_block)
-
-        cg.blankline()
-
-        # End inner loop
-        cg.close_c_block()
-
-        # Grab the inner line stop
-        inner_line_stop = len(cg.data)
-
-        # Spherical/Cartesian copy out
-        _tmp_to_out_copy(cg, L, deriv_indices, inner_block)
-
-    # End outer loop
-    cg.close_c_block()
-
-    # Free up those arrays
-    cg.blankline()
-    for name, flist in [("S", S_tmps), ("Power", power_tmps), ("inner", inner_tmps)]:
-        if len(flist) == 0:
-            continue
-
-        cg.write("// Free %s temporaries" % name)
-        for tname in flist:
-            cg.write("ALIGNED_FREE(%s)" % tname)
-        cg.blankline()
-
-    # End function
-    cg.close_c_block()
-
-    # Clean up data, there are a few things easier to post-process
-
-    # Remove any "[0 + i]"
-    for x in range(cg_line_start, inner_line_stop):
-        cg.data[x] = cg.data[x].replace("[0 + ", "[")
-
-    if paritioned_loops is False:
-        # Remove any "A = 1" just for the inner block
-        rep_data = {}
-        pos = inner_line_start
-        while pos < inner_line_stop:
-            line = cg.data[pos]
-            #    print(line)
-
-            # If we hit a Density line its an individual angular momentum, need to reset dict
-            if ("Density" in line) or ("// Combine" in line):
-                rep_data = {}
-                pos += 1
-                continue
-
-            # Skip comments and blanklines
-            if ("=" not in line) or ("//" in line) or ("double" in line):
-                pos += 1
-                continue
-
-            # Find a single
-            if (
-                (" = " in line)
-                and ("*" not in line)
-                and ("+" not in line)
-                and ("/" not in line)
-            ):
-                key, data = line.replace(";", "").split(" = ")
-                rep_data[key.strip()] = data.strip()
-                cg.data.pop(pos)
-                inner_line_stop -= 1
-                continue
-
-            for k, v in rep_data.items():
-                tmp = line.split("= ")[1]
-                if k + ";" in tmp:
-                    cg.data[pos] = line.replace(k + ";", v + ";")
-                elif k + " " in tmp:
-                    cg.data[pos] = line.replace(k + " ", v + " ")
-            pos += 1
-
-    # Remove any " * 1"
-    for x in range(cg_line_start, inner_line_stop):
-        cg.data[x] = cg.data[x].replace(" * 1;", ";")
-        cg.data[x] = cg.data[x].replace(" * 1.0;", ";")
-        cg.data[x] = cg.data[x].replace("= 1 * ", "= ")
-        cg.data[x] = cg.data[x].replace("= 1.0 * ", "= ")
-
-    return func_sig
-
-
-def _make_call(string):
-    for rep in [
-        "double* ",
-        "bool ",
-        "int ",
-        "unsigned long ",
-        "void ",
-        "PRAGMA_RESTRICT ",
-    ]:
-        string = string.replace("const " + rep, "")
-        string = string.replace(rep, "")
-    return string
-
-
-def _malloc(name, size, dtype="double"):
-    # return "%s*  %s = (%s*)malloc(%s * sizeof(%s))" % (dtype, name, dtype, str(size), dtype)
-    return "%s* PRAGMA_RESTRICT %s = (%s*)ALIGNED_MALLOC(%d, %s * sizeof(%s))" % (
-        dtype,
-        name,
-        dtype,
-        ALIGN_SIZE,
-        str(size),
-        dtype,
-    )
-
-
-def _block_malloc(cg, block_name, mallocs, dtype="double"):
-    tot_size = sum(x[1] for x in mallocs)
-    cg.write(_malloc(block_name, tot_size))
-    current_shift = 0
-    for name, size in mallocs:
-        cg.write(
-            "%s* PRAGMA_RESTRICT %s = %s + %d"
-            % (dtype, name, block_name, current_shift)
-        )
-        cg.write("ASSUME_ALIGNED(%s, %d)" % (name, ALIGN_SIZE))
-        current_shift += size
-
-
-def _c_am_single_build(cg, L, cartesian_order, grad, shift, specific_deriv, array=True):
-    """
-    Builds a unrolled angular momentum function
-    """
-
-    specific_deriv = specific_deriv.upper()
-    cg.write("// Combine %s blocks" % specific_deriv)
-    cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-
-    if specific_deriv == "X":
-        cg.write("const double SX = S1[i] * xc[i]")
-    elif specific_deriv == "Y":
-        cg.write("const double SY = S1[i] * yc[i]")
-    elif specific_deriv == "Z":
-        cg.write("const double SZ = S1[i] * zc[i]")
-    elif specific_deriv == "XY":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SXY = S2[i] * xc[i] * yc[i]")
-    elif specific_deriv == "XZ":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SXZ = S2[i] * xc[i] * zc[i]")
-    elif specific_deriv == "YZ":
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SYZ = S2[i] * yc[i] * zc[i]")
-    elif specific_deriv == "XX":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SXX = S2[i] * xc[i] * xc[i] + S1[i]")
-    elif specific_deriv == "YY":
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SYY = S2[i] * yc[i] * yc[i] + S1[i]")
-    elif specific_deriv == "ZZ":
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SZZ = S2[i] * zc[i] * zc[i] + S1[i]")
-    elif specific_deriv == "XYZ":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SXY = S2[i] * xc[i] * yc[i]")
-        cg.write("const double SXZ = S2[i] * xc[i] * zc[i]")
-        cg.write("const double SYZ = S2[i] * yc[i] * zc[i]")
-        cg.write("const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i]")
-    elif specific_deriv == "XXY":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SXY = S2[i] * xc[i] * yc[i]")
-        cg.write("const double SXX = S2[i] * xc[i] * xc[i] + S1[i]")
-        cg.write("const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + S2[i] * yc[i]")
-    elif specific_deriv == "XXZ":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SXZ = S2[i] * xc[i] * zc[i]")
-        cg.write("const double SXX = S2[i] * xc[i] * xc[i] + S1[i]")
-        cg.write("const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + S2[i] * zc[i]")
-    elif specific_deriv == "XYY":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SXY = S2[i] * xc[i] * yc[i]")
-        cg.write("const double SYY = S2[i] * yc[i] * yc[i] + S1[i]")
-        cg.write("const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + S2[i] * xc[i]")
-    elif specific_deriv == "XZZ":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SXZ = S2[i] * xc[i] * zc[i]")
-        cg.write("const double SZZ = S2[i] * zc[i] * zc[i] + S1[i]")
-        cg.write("const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + S2[i] * xc[i]")
-    elif specific_deriv == "YYZ":
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SYZ = S2[i] * yc[i] * zc[i]")
-        cg.write("const double SYY = S2[i] * yc[i] * yc[i] + S1[i]")
-        cg.write("const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + S2[i] * zc[i]")
-    elif specific_deriv == "YZZ":
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SYZ = S2[i] * yc[i] * zc[i]")
-        cg.write("const double SZZ = S2[i] * zc[i] * zc[i] + S1[i]")
-        cg.write("const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + S2[i] * yc[i]")
-    elif specific_deriv == "XXX":
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SXX = S2[i] * xc[i] * xc[i] + S1[i]")
-        cg.write(
-            "const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i]"
-        )
-    elif specific_deriv == "YYY":
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SYY = S2[i] * yc[i] * yc[i] + S1[i]")
-        cg.write(
-            "const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i]"
-        )
-    elif specific_deriv == "ZZZ":
-        cg.write("const double SZ = S1[i] * zc[i]")
-        cg.write("const double SZZ = S2[i] * zc[i] * zc[i] + S1[i]")
-        cg.write(
-            "const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i]"
-        )
-    elif specific_deriv == "A":
-        pass
-    else:
-        raise KeyError("Specific deriv %s not understood." % specific_deriv)
-    cg.blankline()
-
-    # Generator
-    for idx, l, m, n in order.cartesian_order_factory(L, cartesian_order):
-        l = l + 2
-        m = m + 2
-        n = n + 2
-        ld1 = l - 1
-        ld2 = l - 2
-        ld3 = l - 3
-        md1 = m - 1
-        md2 = m - 2
-        md3 = m - 3
-        nd1 = n - 1
-        nd2 = n - 2
-        nd3 = n - 3
-
-        # Set grads back to zero
-        x_grad, y_grad, z_grad = False, False, False
-        shift_idx = idx * shift
-
-        name = "X" * ld2 + "Y" * md2 + "Z" * nd2
-        if name == "":
-            name = "0"
-
-        # Gradient
-        AX = _build_xyz_pow("AX", ld2, ld1, m, n, shift, array=array, rhs_only=True)
-        x_grad = AX is not None
-        AY = _build_xyz_pow("AY", md2, l, md1, n, shift, array=array, rhs_only=True)
-        y_grad = AY is not None
-        AZ = _build_xyz_pow("AZ", nd2, l, m, nd1, shift, array=array, rhs_only=True)
-        z_grad = AZ is not None
-
-        if specific_deriv == "A":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * S0[i]" % (shift_idx, rhs))
-
-            # Keep lines together
-            continue
-
-        # Gradients
-        if specific_deriv == "X":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SX" % (shift_idx, rhs))
-
-            if x_grad:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AX))
-
-        if specific_deriv == "Y":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SY" % (shift_idx, rhs))
-
-            if y_grad:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AY))
-
-        if specific_deriv == "Z":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SZ" % (shift_idx, rhs))
-
-            if z_grad:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AZ))
-
-        # Hessian
-        if specific_deriv == "XX":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXX" % (shift_idx, rhs))
-
-            # Cross term, need to write it out if specific deriv
-            if x_grad:
-                rhs = _build_xyz_pow(
-                    "AX", ld2, ld1, m, n, shift, array=array, scale=2.0, rhs_only=True
-                )
-                cg.write("phi_tmp[%d + i] += %s * SX" % (shift_idx, rhs))
-
-            AXX = _build_xyz_pow(
-                "AXX", ld2 * (ld2 - 1), ld2, m, n, shift, array=array, rhs_only=True
-            )
-            if AXX is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXX))
-
-        # YY
-        if specific_deriv == "YY":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SYY" % (shift_idx, rhs))
-            if y_grad:
-                rhs = _build_xyz_pow(
-                    "AY", md2, l, md1, n, shift, array=array, scale=2.0, rhs_only=True
-                )
-                cg.write("phi_tmp[%d + i] += %s * SY" % (shift_idx, rhs))
-
-            AYY = _build_xyz_pow(
-                "AYY", md2 * (md2 - 1), l, md2, n, shift, array=array, rhs_only=True
-            )
-            if AYY is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AYY))
-
-        # ZZ
-        if specific_deriv == "ZZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SZZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = _build_xyz_pow(
-                    "AZ", nd2, l, m, nd1, shift, array=array, scale=2.0, rhs_only=True
-                )
-                cg.write("phi_tmp[%d + i] += %s * SZ" % (shift_idx, rhs))
-
-            AZZ = _build_xyz_pow(
-                "AZZ", nd2 * (nd2 - 1), l, m, nd2, shift, array=array, rhs_only=True
-            )
-            if AZZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AZZ))
-
-        # XY
-        if specific_deriv == "XY":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXY" % (shift_idx, rhs))
-
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SX" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SY" % (shift_idx, rhs))
-
-            AXY = _build_xyz_pow(
-                "AXY", ld2 * md2, ld1, md1, n, shift, array=array, rhs_only=True
-            )
-            if AXY is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXY))
-
-        # XZ
-        if specific_deriv == "XZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SX" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SZ" % (shift_idx, rhs))
-
-            AXZ = _build_xyz_pow(
-                "AXZ", ld2 * nd2, ld1, m, nd1, shift, array=array, rhs_only=True
-            )
-            if AXZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXZ))
-
-        # YZ
-        if specific_deriv == "YZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SYZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SY" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SZ" % (shift_idx, rhs))
-
-            AYZ = _build_xyz_pow(
-                "AYZ", md2 * nd2, l, md1, nd1, shift, array=array, rhs_only=True
-            )
-            if AYZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AYZ))
-
-        # XYZ
-        if specific_deriv == "XYZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXYZ" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SYZ" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SXZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SXY" % (shift_idx, rhs))
-
-            AXY = _build_xyz_pow(
-                "AXY", ld2 * md2, ld1, md1, n, shift, array=array, rhs_only=True
-            )
-            if AXY is not None:
-                cg.write("phi_tmp[%d + i] += %s * SZ" % (shift_idx, AXY))
-            AXZ = _build_xyz_pow(
-                "AXZ", ld2 * nd2, ld1, m, nd1, shift, array=array, rhs_only=True
-            )
-            if AXZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * SY" % (shift_idx, AXZ))
-            AYZ = _build_xyz_pow(
-                "AYZ", md2 * nd2, l, md1, nd1, shift, array=array, rhs_only=True
-            )
-            if AYZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * SX" % (shift_idx, AYZ))
-
-            AXYZ = _build_xyz_pow(
-                "AXYZ",
-                ld2 * md2 * md2,
-                ld1,
-                md1,
-                nd1,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AXYZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXYZ))
-        # XXY
-        if specific_deriv == "XXY":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXXY" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SXY" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SXX" % (shift_idx, rhs))
-
-            AXX = _build_xyz_pow(
-                "AXX", ld2 * (ld2 - 1), ld2, m, n, shift, array=array, rhs_only=True
-            )
-            if AXX is not None:
-                cg.write("phi_tmp[%d + i] += %s * SY" % (shift_idx, AXX))
-            AXY = _build_xyz_pow(
-                "AXY", ld2 * md2, ld1, md1, n, shift, array=array, rhs_only=True
-            )
-            if AXY is not None:
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SX" % (shift_idx, AXY))
-
-            AXXY = _build_xyz_pow(
-                "AXXY",
-                ld2 * (ld2 - 1) * md2,
-                ld2,
-                md1,
-                n,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AXXY is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXXY))
-        # XXZ
-        if specific_deriv == "XXZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXXZ" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SXZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SXX" % (shift_idx, rhs))
-
-            AXX = _build_xyz_pow(
-                "AXX", ld2 * (ld2 - 1), ld2, m, n, shift, array=array, rhs_only=True
-            )
-            if AXX is not None:
-                cg.write("phi_tmp[%d + i] += %s * SZ" % (shift_idx, AXX))
-            AXZ = _build_xyz_pow(
-                "AXZ", ld2 * nd2, ld1, m, nd1, shift, array=array, rhs_only=True
-            )
-            if AXZ is not None:
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SX" % (shift_idx, AXZ))
-
-            AXXZ = _build_xyz_pow(
-                "AXXZ",
-                ld2 * (ld2 - 1) * nd2,
-                ld2,
-                m,
-                nd1,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AXXZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXXZ))
-        # XYY
-        if specific_deriv == "XYY":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXYY" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SXY" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SYY" % (shift_idx, rhs))
-
-            AYY = _build_xyz_pow(
-                "AYY", md2 * (md2 - 1), l, md2, n, shift, array=array, rhs_only=True
-            )
-            if AYY is not None:
-                cg.write("phi_tmp[%d + i] += %s * SX" % (shift_idx, AYY))
-            AXY = _build_xyz_pow(
-                "AXY", ld2 * md2, ld1, md1, n, shift, array=array, rhs_only=True
-            )
-            if AXY is not None:
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SY" % (shift_idx, AXY))
-
-            AXYY = _build_xyz_pow(
-                "AXYY",
-                md2 * (md2 - 1) * ld2,
-                ld1,
-                md2,
-                n,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AXYY is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXYY))
-        # XZZ
-        if specific_deriv == "XZZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXZZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SXZ" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SZZ" % (shift_idx, rhs))
-
-            AZZ = _build_xyz_pow(
-                "AZZ", nd2 * (nd2 - 1), l, m, nd2, shift, array=array, rhs_only=True
-            )
-            if AZZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * SX" % (shift_idx, AZZ))
-            AXZ = _build_xyz_pow(
-                "AXZ", ld2 * nd2, ld1, m, nd1, shift, array=array, rhs_only=True
-            )
-            if AXZ is not None:
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SZ" % (shift_idx, AXZ))
-
-            AXZZ = _build_xyz_pow(
-                "AXZZ",
-                nd2 * (nd2 - 1) * ld2,
-                ld1,
-                m,
-                nd2,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AXZZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXZZ))
-        # YYZ
-        if specific_deriv == "YYZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SYYZ" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SYZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SYY" % (shift_idx, rhs))
-
-            AYY = _build_xyz_pow(
-                "AYY", md2 * (md2 - 1), l, md2, n, shift, array=array, rhs_only=True
-            )
-            if AYY is not None:
-                cg.write("phi_tmp[%d + i] += %s * SZ" % (shift_idx, AYY))
-            AYZ = _build_xyz_pow(
-                "AYZ", md2 * nd2, l, md1, nd1, shift, array=array, rhs_only=True
-            )
-            if AYZ is not None:
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SY" % (shift_idx, AYZ))
-
-            AYYZ = _build_xyz_pow(
-                "AYYZ",
-                md2 * (md2 - 1) * nd2,
-                l,
-                md2,
-                nd1,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AYYZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AYYZ))
-        # YZZ
-        if specific_deriv == "YZZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SYZZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SYZ" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += %s * SZZ" % (shift_idx, rhs))
-
-            AZZ = _build_xyz_pow(
-                "AZZ", nd2 * (nd2 - 1), l, m, nd2, shift, array=array, rhs_only=True
-            )
-            if AZZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * SY" % (shift_idx, AZZ))
-            AYZ = _build_xyz_pow(
-                "AYZ", md2 * nd2, l, md1, nd1, shift, array=array, rhs_only=True
-            )
-            if AYZ is not None:
-                cg.write("phi_tmp[%d + i] += 2.0 * %s * SZ" % (shift_idx, AYZ))
-
-            AYZZ = _build_xyz_pow(
-                "AYZZ",
-                nd2 * (nd2 - 1) * md2,
-                l,
-                md1,
-                nd2,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AYZZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AYZZ))
-        # XXX
-        if specific_deriv == "XXX":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SXXX" % (shift_idx, rhs))
-            if x_grad:
-                rhs = AX.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 3.0 * %s * SXX" % (shift_idx, rhs))
-
-            AXX = _build_xyz_pow(
-                "AXX", ld2 * (ld2 - 1), ld2, m, n, shift, array=array, rhs_only=True
-            )
-            if AXX is not None:
-                cg.write("phi_tmp[%d + i] += 3.0 * %s * SX" % (shift_idx, AXX))
-
-            AXXX = _build_xyz_pow(
-                "AXXX",
-                ld2 * (ld2 - 1) * (ld2 - 2),
-                ld3,
-                m,
-                n,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AXXX is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AXXX))
-        # YYY
-        if specific_deriv == "YYY":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SYYY" % (shift_idx, rhs))
-            if y_grad:
-                rhs = AY.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 3.0 * %s * SYY" % (shift_idx, rhs))
-
-            AYY = _build_xyz_pow(
-                "AYY", md2 * (md2 - 1), l, md2, n, shift, array=array, rhs_only=True
-            )
-            if AYY is not None:
-                cg.write("phi_tmp[%d + i] += 3.0 * %s * SY" % (shift_idx, AYY))
-
-            AYYY = _build_xyz_pow(
-                "AYYY",
-                md2 * (md2 - 1) * (md2 - 2),
-                l,
-                md3,
-                n,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AYYY is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AYYY))
-        # ZZZ
-        if specific_deriv == "ZZZ":
-            rhs = _build_xyz_pow("A", 1.0, l, m, n, shift, array=array, rhs_only=True)
-            cg.write("phi_tmp[%d + i] = %s * SZZZ" % (shift_idx, rhs))
-            if z_grad:
-                rhs = AZ.split(" = ")[-1]
-                cg.write("phi_tmp[%d + i] += 3.0 * %s * SZZ" % (shift_idx, rhs))
-
-            AZZ = _build_xyz_pow(
-                "AZZ", nd2 * (nd2 - 1), l, m, nd2, shift, array=array, rhs_only=True
-            )
-            if AZZ is not None:
-                cg.write("phi_tmp[%d + i] += 3.0 * %s * SZ" % (shift_idx, AZZ))
-
-            AZZZ = _build_xyz_pow(
-                "AZZZ",
-                nd2 * (nd2 - 1) * (nd2 - 2),
-                l,
-                m,
-                nd3,
-                shift,
-                array=array,
-                rhs_only=True,
-            )
-            if AZZZ is not None:
-                cg.write("phi_tmp[%d + i] += %s * S0[i]" % (shift_idx, AZZZ))
-
-        idx += 1
-        cg.blankline()
-
-    cg.close_c_block()
-    cg.blankline()
-
-
-def _c_am_full_build(cg, L, cartesian_order, grad, shift):
-    """
-    Builds a unrolled angular momentum function
-    """
-
-    # Generator
-    for idx, l, m, n in order.cartesian_order_factory(L, cartesian_order):
-        l = l + 2
-        m = m + 2
-        n = n + 2
-        ld1 = l - 1
-        ld2 = l - 2
-        ld3 = l - 3
-        md1 = m - 1
-        md2 = m - 2
-        md3 = m - 3
-        nd1 = n - 1
-        nd2 = n - 2
-        nd3 = n - 3
-
-        # Set grads back to zero
-        x_grad, y_grad, z_grad = False, False, False
-        shift_idx = idx * shift
-
-        name = "X" * ld2 + "Y" * md2 + "Z" * nd2
-        if name == "":
-            name = "0"
-
-        # Density
-        cg.blankline()
-        cg.write("// Density AM=%d Component=%s" % (L, name))
-
-        cg.write(_build_xyz_pow("A", 1.0, l, m, n, shift))
-        cg.write("phi_tmp[%d + i] = S0[i] * A" % shift_idx)
-
-        if grad == 0:
-            continue
-        cg.blankline()
-        cg.write("// Gradient AM=%d Component=%s" % (L, name))
-
-        # Gradient
-        cg.write("phi_x_tmp[%d + i] = SX * A" % shift_idx)
-        cg.write("phi_y_tmp[%d + i] = SY * A" % shift_idx)
-        cg.write("phi_z_tmp[%d + i] = SZ * A" % shift_idx)
-
-        AX = _build_xyz_pow("AX", ld2, ld1, m, n, shift)
-        if AX is not None:
-            x_grad = True
-            cg.write(AX)
-            cg.write("phi_x_tmp[%d + i] += S0[i] * AX" % shift_idx)
-
-        AY = _build_xyz_pow("AY", md2, l, md1, n, shift)
-        if AY is not None:
-            y_grad = True
-            cg.write(AY)
-            cg.write("phi_y_tmp[%d + i] += S0[i] * AY" % shift_idx)
-
-        AZ = _build_xyz_pow("AZ", nd2, l, m, nd1, shift)
-        if AZ is not None:
-            z_grad = True
-            cg.write(AZ)
-            cg.write("phi_z_tmp[%d + i] += S0[i] * AZ" % shift_idx)
-
-        # Hessian temporaries
-        if grad == 1:
-            continue
-
-        cg.blankline()
-        cg.write("// Hessian AM=%d Component=%s" % (L, name))
-
-        # S Hess
-        # We will build S Hess, grad 1, grad 2, A Hess
-
-        # XX
-        cg.write("phi_xx_tmp[%d + i] = SXX * A" % shift_idx)
-        if x_grad:
-            cg.write("phi_xx_tmp[%d + i] += SX * AX" % shift_idx)
-            cg.write("phi_xx_tmp[%d + i] += SX * AX" % shift_idx)
-
-        AXX = _build_xyz_pow("AXX", ld2 * (ld2 - 1), ld2, m, n, shift)
-        if AXX is not None:
-            rhs = AXX.split(" = ")[-1]
-            cg.write("phi_xx_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        # YY
-        cg.write("phi_yy_tmp[%d + i] = SYY * A" % shift_idx)
-        if y_grad:
-            cg.write("phi_yy_tmp[%d + i] += SY * AY" % shift_idx)
-            cg.write("phi_yy_tmp[%d + i] += SY * AY" % shift_idx)
-        AYY = _build_xyz_pow("AYY", md2 * (md2 - 1), l, md2, n, shift)
-        if AYY is not None:
-            rhs = AYY.split(" = ")[-1]
-            cg.write("phi_yy_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        # ZZ
-        cg.write("phi_zz_tmp[%d + i] = SZZ * A" % shift_idx)
-        if z_grad:
-            cg.write("phi_zz_tmp[%d + i] += SZ * AZ" % shift_idx)
-            cg.write("phi_zz_tmp[%d + i] += SZ * AZ" % shift_idx)
-        AZZ = _build_xyz_pow("AZZ", nd2 * (nd2 - 1), l, m, nd2, shift)
-        if AZZ is not None:
-            rhs = AZZ.split(" = ")[-1]
-            cg.write("phi_zz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        # XY
-        cg.write("phi_xy_tmp[%d + i] = SXY * A" % shift_idx)
-
-        if y_grad:
-            cg.write("phi_xy_tmp[%d + i] += SX * AY" % shift_idx)
-        if x_grad:
-            cg.write("phi_xy_tmp[%d + i] += SY * AX" % shift_idx)
-
-        AXY = _build_xyz_pow("AXY", ld2 * md2, ld1, md1, n, shift)
-        if AXY is not None:
-            rhs = AXY.split(" = ")[-1]
-            cg.write("phi_xy_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        # XZ
-        cg.write("phi_xz_tmp[%d + i] = SXZ * A" % shift_idx)
-        if z_grad:
-            cg.write("phi_xz_tmp[%d + i] += SX * AZ" % shift_idx)
-        if x_grad:
-            cg.write("phi_xz_tmp[%d + i] += SZ * AX" % shift_idx)
-        AXZ = _build_xyz_pow("AXZ", ld2 * nd2, ld1, m, nd1, shift)
-        if AXZ is not None:
-            rhs = AXZ.split(" = ")[-1]
-            cg.write("phi_xz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        # YZ
-        cg.write("phi_yz_tmp[%d + i] = SYZ * A" % shift_idx)
-        if z_grad:
-            cg.write("phi_yz_tmp[%d + i] += SY * AZ" % shift_idx)
-        if y_grad:
-            cg.write("phi_yz_tmp[%d + i] += SZ * AY" % shift_idx)
-        AYZ = _build_xyz_pow("AYZ", md2 * nd2, l, md1, nd1, shift)
-        if AYZ is not None:
-            rhs = AYZ.split(" = ")[-1]
-            cg.write("phi_yz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        if grad == 2:
-            continue
-
-        # XYZ
-        cg.write("phi_xyz_tmp[%d + i] = SXYZ * A" % shift_idx)
-        if x_grad:
-            cg.write("phi_xyz_tmp[%d + i] += SYZ * AX" % shift_idx)
-        if y_grad:
-            cg.write("phi_xyz_tmp[%d + i] += SXZ * AY" % shift_idx)
-        if z_grad:
-            cg.write("phi_xyz_tmp[%d + i] += SXY * AZ" % shift_idx)
-        AXY = _build_xyz_pow("AXY", ld2 * md2, ld1, md1, n, shift)
-        if AXY is not None:
-            rhs = AXY.split(" = ")[-1]
-            cg.write("phi_xyz_tmp[%d + i] += %s * SZ" % (shift_idx, rhs))
-        AXZ = _build_xyz_pow("AXZ", ld2 * nd2, ld1, m, nd1, shift)
-        if AXZ is not None:
-            rhs = AXZ.split(" = ")[-1]
-            cg.write("phi_xyz_tmp[%d + i] += %s * SY" % (shift_idx, rhs))
-        AYZ = _build_xyz_pow("AYZ", md2 * nd2, l, md1, nd1, shift)
-        if AYZ is not None:
-            rhs = AYZ.split(" = ")[-1]
-            cg.write("phi_xyz_tmp[%d + i] += %s * SX" % (shift_idx, rhs))
-        AXYZ = _build_xyz_pow("AXYZ", ld2 * md2 * nd2, ld1, md1, nd1, shift)
-        if AXYZ is not None:
-            rhs = AXYZ.split(" = ")[-1]
-            cg.write("phi_xyz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # XXY
-        cg.write("phi_xxy_tmp[%d + i] = SXXY * A" % shift_idx)
-        if x_grad:
-            cg.write("phi_xxy_tmp[%d + i] += 2.0 * SXY * AX" % shift_idx)
-        if y_grad:
-            cg.write("phi_xxy_tmp[%d + i] += SXX * AY" % shift_idx)
-        AXY = _build_xyz_pow("AXY", ld2 * md2, ld1, md1, n, shift)
-        if AXY is not None:
-            rhs = AXY.split(" = ")[-1]
-            cg.write("phi_xxy_tmp[%d + i] += 2.0 * %s * SX" % (shift_idx, rhs))
-        AXX = _build_xyz_pow("AXX", ld2 * (ld2 - 1), ld2, m, n, shift)
-        if AXX is not None:
-            rhs = AXX.split(" = ")[-1]
-            cg.write("phi_xxy_tmp[%d + i] += %s * SY" % (shift_idx, rhs))
-        AXXY = _build_xyz_pow("AXXY", ld2 * (ld2 - 1) * md2, ld2, md1, n, shift)
-        if AXXY is not None:
-            rhs = AXXY.split(" = ")[-1]
-            cg.write("phi_xxy_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # XXZ
-        cg.write("phi_xxz_tmp[%d + i] = SXXZ * A" % shift_idx)
-        if x_grad:
-            cg.write("phi_xxz_tmp[%d + i] += 2.0 * SXZ * AX" % shift_idx)
-        if z_grad:
-            cg.write("phi_xxz_tmp[%d + i] += SXX * AZ" % shift_idx)
-        AXZ = _build_xyz_pow("AXZ", ld2 * nd2, ld1, m, nd1, shift)
-        if AXZ is not None:
-            rhs = AXZ.split(" = ")[-1]
-            cg.write("phi_xxz_tmp[%d + i] += 2.0 * %s * SX" % (shift_idx, rhs))
-        AXX = _build_xyz_pow("AXX", ld2 * (ld2 - 1), ld2, m, n, shift)
-        if AXX is not None:
-            rhs = AXX.split(" = ")[-1]
-            cg.write("phi_xxz_tmp[%d + i] += %s * SZ" % (shift_idx, rhs))
-        AXXZ = _build_xyz_pow("AXXZ", ld2 * (ld2 - 1) * nd2, ld2, m, nd1, shift)
-        if AXXZ is not None:
-            rhs = AXXZ.split(" = ")[-1]
-            cg.write("phi_xxz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # XYY
-        cg.write("phi_xyy_tmp[%d + i] = SXYY * A" % shift_idx)
-        if y_grad:
-            cg.write("phi_xyy_tmp[%d + i] += 2.0 * SXY * AY" % shift_idx)
-        if x_grad:
-            cg.write("phi_xyy_tmp[%d + i] += SYY * AX" % shift_idx)
-        AXY = _build_xyz_pow("AXY", ld2 * md2, ld1, md1, n, shift)
-        if AXY is not None:
-            rhs = AXY.split(" = ")[-1]
-            cg.write("phi_xyy_tmp[%d + i] += 2.0 * %s * SY" % (shift_idx, rhs))
-        AYY = _build_xyz_pow("AYY", md2 * (md2 - 1), l, md2, n, shift)
-        if AYY is not None:
-            rhs = AYY.split(" = ")[-1]
-            cg.write("phi_xyy_tmp[%d + i] += %s * SX" % (shift_idx, rhs))
-        AXYY = _build_xyz_pow("AXYY", md2 * (md2 - 1) * ld2, ld1, md2, n, shift)
-        if AXYY is not None:
-            rhs = AXYY.split(" = ")[-1]
-            cg.write("phi_xyy_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # XZZ
-        cg.write("phi_xzz_tmp[%d + i] = SXZZ * A" % shift_idx)
-        if z_grad:
-            cg.write("phi_xzz_tmp[%d + i] += 2.0 * SXZ * AZ" % shift_idx)
-        if x_grad:
-            cg.write("phi_xzz_tmp[%d + i] += SZZ * AX" % shift_idx)
-        AXZ = _build_xyz_pow("AXZ", ld2 * nd2, ld1, m, nd1, shift)
-        if AXZ is not None:
-            rhs = AXZ.split(" = ")[-1]
-            cg.write("phi_xzz_tmp[%d + i] += 2.0 * %s * SZ" % (shift_idx, rhs))
-        AZZ = _build_xyz_pow("AZZ", nd2 * (nd2 - 1), l, m, nd2, shift)
-        if AZZ is not None:
-            rhs = AZZ.split(" = ")[-1]
-            cg.write("phi_xzz_tmp[%d + i] += %s * SX" % (shift_idx, rhs))
-        AXZZ = _build_xyz_pow("AXZZ", nd2 * (nd2 - 1) * ld2, ld1, m, nd2, shift)
-        if AXZZ is not None:
-            rhs = AXZZ.split(" = ")[-1]
-            cg.write("phi_xzz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # YYZ
-        cg.write("phi_yyz_tmp[%d + i] = SYYZ * A" % shift_idx)
-        if y_grad:
-            cg.write("phi_yyz_tmp[%d + i] += 2.0 * SYZ * AY" % shift_idx)
-        if z_grad:
-            cg.write("phi_yyz_tmp[%d + i] += SYY * AZ" % shift_idx)
-        AYZ = _build_xyz_pow("AYZ", md2 * nd2, l, md1, nd1, shift)
-        if AYZ is not None:
-            rhs = AYZ.split(" = ")[-1]
-            cg.write("phi_yyz_tmp[%d + i] += 2.0 * %s * SY" % (shift_idx, rhs))
-        AYY = _build_xyz_pow("AYY", md2 * (md2 - 1), l, md2, n, shift)
-        if AYY is not None:
-            rhs = AYY.split(" = ")[-1]
-            cg.write("phi_yyz_tmp[%d + i] += %s * SZ" % (shift_idx, rhs))
-        AYYZ = _build_xyz_pow("AYYZ", md2 * (md2 - 1) * nd2, l, md2, nd1, shift)
-        if AYYZ is not None:
-            rhs = AYYZ.split(" = ")[-1]
-            cg.write("phi_yyz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # YZZ
-        cg.write("phi_yzz_tmp[%d + i] = SYZZ * A" % shift_idx)
-        if z_grad:
-            cg.write("phi_yzz_tmp[%d + i] += 2.0 * SYZ * AZ" % shift_idx)
-        if y_grad:
-            cg.write("phi_yzz_tmp[%d + i] += SZZ * AY" % shift_idx)
-        AYZ = _build_xyz_pow("AYZ", md2 * nd2, l, md1, nd1, shift)
-        if AYZ is not None:
-            rhs = AYZ.split(" = ")[-1]
-            cg.write("phi_yzz_tmp[%d + i] += 2.0 * %s * SZ" % (shift_idx, rhs))
-        AZZ = _build_xyz_pow("AZZ", nd2 * (nd2 - 1), l, m, nd2, shift)
-        if AZZ is not None:
-            rhs = AZZ.split(" = ")[-1]
-            cg.write("phi_yzz_tmp[%d + i] += %s * SY" % (shift_idx, rhs))
-        AYZZ = _build_xyz_pow("AYZZ", nd2 * (nd2 - 1) * md2, l, md1, nd2, shift)
-        if AYZZ is not None:
-            rhs = AYZZ.split(" = ")[-1]
-            cg.write("phi_yzz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # XXX
-        cg.write("phi_xxx_tmp[%d + i] = SXXX * A" % shift_idx)
-        if x_grad:
-            cg.write("phi_xxx_tmp[%d + i] += 3.0 * SXX * AX" % shift_idx)
-        AXX = _build_xyz_pow("AXX", ld2 * (ld2 - 1), ld2, m, n, shift)
-        if AXX is not None:
-            rhs = AXX.split(" = ")[-1]
-            cg.write("phi_xxx_tmp[%d + i] += 3.0 * %s * SX" % (shift_idx, rhs))
-        AXXX = _build_xyz_pow("AXXX", ld2 * (ld2 - 1) * (ld2 - 2), ld3, m, n, shift)
-        if AXXX is not None:
-            rhs = AXXX.split(" = ")[-1]
-            cg.write("phi_xxx_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # YYY
-        cg.write("phi_yyy_tmp[%d + i] = SYYY * A" % shift_idx)
-        if y_grad:
-            cg.write("phi_yyy_tmp[%d + i] += 3.0 * SYY * AY" % shift_idx)
-        AYY = _build_xyz_pow("AYY", md2 * (md2 - 1), l, md2, n, shift)
-        if AYY is not None:
-            rhs = AYY.split(" = ")[-1]
-            cg.write("phi_yyy_tmp[%d + i] += 3.0 * %s * SY" % (shift_idx, rhs))
-        AYYY = _build_xyz_pow("AYYY", md2 * (md2 - 1) * (md2 - 2), l, md3, n, shift)
-        if AYYY is not None:
-            rhs = AYYY.split(" = ")[-1]
-            cg.write("phi_yyy_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-        # ZZZ
-        cg.write("phi_zzz_tmp[%d + i] = SZZZ * A" % shift_idx)
-        if z_grad:
-            cg.write("phi_zzz_tmp[%d + i] += 3.0 * SZZ * AZ" % shift_idx)
-        AZZ = _build_xyz_pow("AZZ", nd2 * (nd2 - 1), l, m, nd2, shift)
-        if AZZ is not None:
-            rhs = AZZ.split(" = ")[-1]
-            cg.write("phi_zzz_tmp[%d + i] += 3.0 * %s * SZ" % (shift_idx, rhs))
-        AZZZ = _build_xyz_pow("AZZZ", nd2 * (nd2 - 1) * (nd2 - 2), l, m, nd3, shift)
-        if AZZZ is not None:
-            rhs = AZZZ.split(" = ")[-1]
-            cg.write("phi_zzz_tmp[%d + i] += %s * S0[i]" % (shift_idx, rhs))
-
-        idx += 1
-        cg.blankline()
-
-
-def _build_xyz_pow(
-    name, pref, l, m, n, inner_loop, shift=2, array=False, scale=1.0, rhs_only=False
-):
-    """
-    Builds an individual row contraction line.
-
-    name = pref * xc_pow[n] yc_pow[m] * zc_pow[n]
-    """
-    l = l - shift
-    m = m - shift
-    n = n - shift
-
-    if (pref <= 0) or (l < 0) or (n < 0) or (m < 0):
-        return None
-
-    if rhs_only:
-        ret = ""
-    else:
-        ret = name + " ="
-
-    mul = " "
-    if (pref * scale) != 1.0:
-        # Basically always an int
-        ret += " %2.1f" % (float(pref) * scale)
-        mul = " * "
-
-    # Handle x
-    if l == 1:
-        # If the power is one, we can just use xc
-        ret += mul + "xc[i]"
-        mul = " * "
-    elif l > 1:
-        # If the power is greater than 1 we need to use (xc_pow - 2) as we start at 2
-        if array:
-            ret += mul + "xc_pow[%d + i]" % ((l - 2) * inner_loop)
-        else:
-            ret += mul + "xc_pow%d" % l
-        mul = " * "
-
-    # Handle y
-    if m == 1:
-        ret += mul + "yc[i]"
-        mul = " * "
-    elif m > 1:
-        if array:
-            ret += mul + "yc_pow[%d + i]" % ((m - 2) * inner_loop)
-        else:
-            ret += mul + "yc_pow%d" % m
-        mul = " * "
-
-    # Handle z
-    if n == 1:
-        ret += mul + "zc[i]"
-        mul = " * "
-    elif n > 1:
-        if array:
-            ret += mul + "zc_pow[%d + i]" % ((n - 2) * inner_loop)
-        else:
-            ret += mul + "zc_pow%d" % n
-        mul = " * "
-
-    if rhs_only:
-        ret = ret.strip()
-
-    if mul == " ":
-        ret += " 1"
-
-    return ret
-
-
-def _S_tmps(cg, L, grad, inner_block):
-    """
-    Builds out the S power temporaries if needed
-    """
-    if grad > 0:
-        cg.write("// Gaussian derivs (gradients)")
-        cg.write("const double SX = S1[i] * xc[i]")
-        cg.write("const double SY = S1[i] * yc[i]")
-        cg.write("const double SZ = S1[i] * zc[i]")
-    if grad > 1:
-        cg.blankline()
-        cg.write("// Gaussians derivs (Hessians)")
-        cg.write("const double SXY = S2[i] * xc[i] * yc[i]")
-        cg.write("const double SXZ = S2[i] * xc[i] * zc[i]")
-        cg.write("const double SYZ = S2[i] * yc[i] * zc[i]")
-        cg.write("const double SXX = S2[i] * xc[i] * xc[i] + S1[i]")
-        cg.write("const double SYY = S2[i] * yc[i] * yc[i] + S1[i]")
-        cg.write("const double SZZ = S2[i] * zc[i] * zc[i] + S1[i]")
-    if grad > 2:
-        cg.blankline()
-        cg.write("// Gaussians 3rd derivs)")
-        cg.write(
-            "const double SXXX = S3[i] * xc[i] * xc[i] * xc[i] + 3 * xc[i] * S2[i]"
-        )
-        cg.write("const double SXXY = S3[i] * xc[i] * xc[i] * yc[i] + yc[i] * S2[i]")
-        cg.write("const double SXXZ = S3[i] * xc[i] * xc[i] * zc[i] + zc[i] * S2[i]")
-        cg.write("const double SXYY = S3[i] * xc[i] * yc[i] * yc[i] + xc[i] * S2[i]")
-        cg.write("const double SXYZ = S3[i] * xc[i] * yc[i] * zc[i]")
-        cg.write("const double SXZZ = S3[i] * xc[i] * zc[i] * zc[i] + xc[i] * S2[i]")
-        cg.write(
-            "const double SYYY = S3[i] * yc[i] * yc[i] * yc[i] + 3 * yc[i] * S2[i]"
-        )
-        cg.write("const double SYYZ = S3[i] * yc[i] * yc[i] * zc[i] + zc[i] * S2[i]")
-        cg.write("const double SYZZ = S3[i] * yc[i] * zc[i] * zc[i] + yc[i] * S2[i]")
-        cg.write(
-            "const double SZZZ = S3[i] * zc[i] * zc[i] * zc[i] + 3 * zc[i] * S2[i]"
-        )
-
-
-def _power_tmps(cg, L, inner_block, array=False):
-    if L < 2:
-        return
-
-    # L == 2
-    # cg.write("PRAGMA_VECTORIZE", endl="")
-    # cg.start_c_block("for (unsigned long i = 0; i < remain; i++)")
-    if array:
-        # Build out those power derivs
-        cg.blankline()
-        cg.write("// Cartesian derivs")
-        cg.write("xc_pow[i] = xc[i] * xc[i]")
-        cg.write("yc_pow[i] = yc[i] * yc[i]")
-        cg.write("zc_pow[i] = zc[i] * zc[i]")
-
-        if L == 2:
-            cg.blankline()
-
-        for l in range(1, (L - 1)):
-            cg.write(
-                "xc_pow[%d + i] = xc_pow[%d + i] * xc[i]"
-                % (inner_block * l, inner_block * (l - 1))
-            )
-            cg.write(
-                "yc_pow[%d + i] = yc_pow[%d + i] * yc[i]"
-                % (inner_block * l, inner_block * (l - 1))
-            )
-            cg.write(
-                "zc_pow[%d + i] = zc_pow[%d + i] * zc[i]"
-                % (inner_block * l, inner_block * (l - 1))
-            )
-
-    else:
-        # Build out those power derivs
-        cg.blankline()
-        cg.write("// Cartesian derivs")
-        cg.write("const double xc_pow2 = xc[i] * xc[i]")
-        cg.write("const double yc_pow2 = yc[i] * yc[i]")
-        cg.write("const double zc_pow2 = zc[i] * zc[i]")
-
-        cg.blankline()
-
-        for l in range(2, L):
-            cg.write("const double xc_pow%d = xc_pow%d * xc[i]" % (l + 1, l))
-            cg.write("const double yc_pow%d = yc_pow%d * yc[i]" % (l + 1, l))
-            cg.write("const double zc_pow%d = zc_pow%d * zc[i]" % (l + 1, l))
-            cg.blankline()
-
-
-def _tmp_to_out_copy(cg, L, deriv_indices, inner_block):
-    # Start spherical switch
-    cg.blankline()
-    cg.write("// Copy data back into outer temps")
-
-    for num, (criterion, fnc) in enumerate(transformer_loops(L)):
-        if num == 0:
-            cg.start_c_block("if (%s)" % criterion)
-        else:
-            cg.write("} else if (%s) {" % criterion, endl="")
-
-        cg.write("// Phi, transform data to outer temps")
-        cg.write(
-            "%s(remain, phi_tmp, %d, (phi_out + start), npoints)" % (fnc, inner_block)
-        )
-
-        for dnum, deriv in enumerate(deriv_indices):
-            # Write out pretty headers
-            if dnum == 0:
-                cg.blankline()
-                cg.write("// Gradient, transform data to outer temps")
-            if dnum == 3:
-                cg.blankline()
-                cg.write("// Hessian, transform data to outer temps")
-
-            cg.write(
-                "%s(remain, phi_%s_tmp, %d, (phi_%s_out + start), npoints)"
-                % (fnc, deriv, inner_block, deriv)
-            )
-
-    cg.close_c_block()
-
-    cg.blankline()
-
-
-def _tmp_to_out_orbital_sum(cg, L, inner_block):
-    # Start spherical switch
-    cg.blankline()
-    cg.write("// Copy data back into outer temps")
-
-    for num, (criterion, fnc) in enumerate(transformer_sum_loops(L)):
-        if num == 0:
-            cg.start_c_block("if (%s)" % criterion)
-        else:
-            cg.write("} else if (%s) {" % criterion, endl="")
-
-        cg.write("// Phi, transform data to outer temps")
-        cg.start_c_block("for (unsigned long i = 0; i < norbitals; i++)")
-        cg.write(
-            "%s(remain, (C + i * nout), phi_tmp, %d, (orbital_out + npoints * i + start), npoints)"
-            % (fnc, inner_block)
-        )
-        cg.close_c_block()
-
-    cg.close_c_block()
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/c_pragma.py b/third_party/gauxc/external/gau2grid/src/gau2grid/c_pragma.py
deleted file mode 100644
index 4347a1e..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/c_pragma.py
+++ /dev/null
@@ -1,105 +0,0 @@
-"""
-Builds static pragma's for different copmilers
-"""
-
-_pragma_data = """
-
-// ISOC11 does not seem to be well implemented across platforms and compilers
-// This is a collection of macros to change pragmas and function calls as needed for compat.
-
-#pragma once
-
-
-#if defined(__GG_NO_PRAGMA)
-    // Turn everything off if there are issues
-
-    #define ALIGNED_MALLOC(alignment, size)                  malloc(size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE
-    #define PRAGMA_RESTRICT
-
-#elif defined(__ICC) || defined(__INTEL_COMPILER)
-    // pragmas for Intel
-
-    #define ALIGNED_MALLOC(alignment, size)                  _mm_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _mm_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)                       __assume_aligned(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("vector")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif defined(__clang__) && defined(_MSC_VER)
-    // pragmas for MSVC
-
-    #define ALIGNED_MALLOC(alignment, size)                  _aligned_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _aligned_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 __pragma(loop(ivdep))
-    #define PRAGMA_RESTRICT                                  __restrict
-
-#elif defined(__clang__)
-    // pragmas for Clang.
-    // Do this before GCC because clang also defines __GNUC__
-
-    #define ALIGNED_MALLOC(alignment, size)                  _mm_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _mm_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("clang loop vectorize(enable)")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif (defined(__GNUC__) || defined(__GNUG__)) && defined(__APPLE__)
-    // pragmas for GCC on Darwin (weird aligned alloc not found on Darwin)
-
-    #define ALIGNED_MALLOC(alignment, size)                  malloc(size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("GCC ivdep")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif defined(__GNUC__) || defined(__GNUG__)
-    // pragmas for GCC
-
-    #define ALIGNED_MALLOC(alignment, size)                  aligned_alloc(alignment, size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("GCC ivdep")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-#elif defined(_MSC_VER)
-    // pragmas for MSVC
-
-    #define ALIGNED_MALLOC(alignment, size)                  _aligned_malloc(size, alignment)
-    #define ALIGNED_FREE(ptr)                                _aligned_free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 __pragma(loop(ivdep))
-    #define PRAGMA_RESTRICT                                  __restrict
-
-
-#elif defined(__PGI)
-    // pragmas for PGI
-
-    #define ALIGNED_MALLOC(alignment, size)                  aligned_alloc(alignment, size)
-    #define ALIGNED_FREE(ptr)                                free(ptr)
-    #define ASSUME_ALIGNED(ptr, width)
-
-    #define PRAGMA_VECTORIZE                                 _Pragma("ivdep")
-    #define PRAGMA_RESTRICT                                  __restrict__
-
-
-#endif
-"""
-
-
-def build_pragma_header(cg):
-    """
-    Adds PRAGMA_VECTORIZE header to assist with different compilers
-    """
-    for line in _pragma_data.splitlines():
-        cg.write(line, endl="")
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/c_util_generator.py b/third_party/gauxc/external/gau2grid/src/gau2grid/c_util_generator.py
deleted file mode 100644
index f299e24..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/c_util_generator.py
+++ /dev/null
@@ -1,536 +0,0 @@
-"""
-Builds c utility routines
-"""
-
-from . import utility
-from .order import cartesian_order_factory
-
-
-def write_license(cg):
-    license_text = """BSD 3-Clause License
-
-    Copyright (c) 2017, Daniel Smith
-    All rights reserved.
-
-    Redistribution and use in source and binary forms, with or without
-    modification, are permitted provided that the following conditions are met:
-
-    * Redistributions of source code must retain the above copyright notice, this
-      list of conditions and the following disclaimer.
-
-    * Redistributions in binary form must reproduce the above copyright notice,
-      this list of conditions and the following disclaimer in the documentation
-      and/or other materials provided with the distribution.
-
-    * Neither the name of the copyright holder nor the names of its
-      contributors may be used to endorse or promote products derived from
-      this software without specific prior written permission.
-
-    THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
-    AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
-    IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
-    DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT HOLDER OR CONTRIBUTORS BE LIABLE
-    FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
-    DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
-    SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
-    CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
-    OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-    OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE."""
-
-    # Write out header
-    cg.write("/*", endl="")
-    for line in license_text.splitlines():
-        line = line.strip()
-        cg.write(" * " + line, endl="")
-
-    cg.write(" */", endl="")
-    cg.blankline()
-
-
-### Pybind11 binders
-
-
-def pybind11_func(cg, name, grad, call_name, max_L):
-    """
-    A function that builds the PyBind11 wrappers for the different pybind11 funcs.
-    """
-
-    # Figure out what we need to add per deriv
-    deriv_indices = utility.get_deriv_indices(grad)
-
-    # Write out wrapper functions
-    sig = (
-        """void %s(int L, py::array_t<double> arr_xyz, py::array_t<double> arr_coeffs,
-py::array_t<double> arr_exponents, py::array_t<double> arr_center, bool spherical,
-py::array_t<double> arr_out"""
-        % name
-    )
-
-    # Pad out deriv outputs
-    for cart in deriv_indices:
-        sig += ", py::array_t<double> arr_%s_out" % cart
-
-    sig += ")"
-    cg.start_c_block(sig)
-    cg.blankline()
-
-    # Grab the pointers
-    cg.write("// Grab array pointers")
-    cg.write("auto xyz = arr_xyz.unchecked<2>()")
-    cg.write("auto coeffs = arr_coeffs.unchecked<1>()")
-    cg.write("auto exponents = arr_exponents.unchecked<1>()")
-    cg.write("auto center = arr_center.unchecked<1>()")
-    cg.write("auto out = arr_out.mutable_unchecked<2>()")
-
-    # Pad out deriv pointers
-    for cart in deriv_indices:
-        cg.write("auto out_%s = arr_%s_out.mutable_unchecked<2>()" % (cart, cart))
-
-    cg.blankline()
-
-    # Run through checks
-    cg.write("// XYZ is of size 3")
-    cg.start_c_block("if (L > %d)" % max_L)
-    cg.write(
-        '    throw std::invalid_argument("Exceeded compiled angular momentum of %d. Please recompile with a higher angular momentum.\\n")'
-        % max_L
-    )
-    cg.close_c_block()
-
-    cg.write("// XYZ is of size 3")
-    cg.start_c_block("if (arr_xyz.shape(0) != 3)")
-    cg.write('    throw std::length_error("Length of XYZ array must be (3, n).\\n")')
-    cg.close_c_block()
-    cg.blankline()
-
-    cg.write("// Coeff matches exponent shape")
-    cg.start_c_block("if (coeffs.shape(0) != exponents.shape(0))")
-    cg.write(
-        '    throw std::length_error("Length of coefficients and exponents must match.\\n")'
-    )
-    cg.close_c_block()
-    cg.blankline()
-
-    cg.write("// Center is of size 3")
-    cg.start_c_block("if (center.shape(0) != 3)")
-    cg.write(
-        '    throw std::length_error("Length of center vector must be 3 (X, Y, Z).\\n")'
-    )
-    cg.close_c_block()
-    cg.blankline()
-
-    cg.write("// Make sure output length matches")
-    cg.write("unsigned long nsize")
-    cg.start_c_block("if (spherical)")
-    cg.write("    nsize = 2 * L + 1")
-    cg.write("} else {", endl="")
-    cg.write("    nsize = ((L + 2) * (L + 1)) / 2")
-    cg.close_c_block()
-    cg.blankline()
-
-    cg.start_c_block("if (out.shape(0) != nsize)")
-    cg.write(
-        '    throw std::length_error("Size of the output array does not match the angular momentum.\\n")'
-    )
-    cg.close_c_block()
-
-    for cart in deriv_indices:
-        cg.start_c_block("if (out_%s.shape(0) != nsize)" % cart)
-        cg.write(
-            '    throw std::length_error("Size of the output %s array does not match the angular momentum.\\n")'
-            % cart.upper()
-        )
-        cg.close_c_block()
-    cg.blankline()
-
-    cg.write("// Ensure lengths match")
-    cg.start_c_block("if (out.shape(1) != arr_xyz.shape(1))")
-    cg.write(
-        '    throw std::length_error("Size of the output array and XYZ array must be the same.\\n")'
-    )
-    cg.close_c_block()
-
-    # Pad out deriv length checkers
-    for cart in deriv_indices:
-        cg.start_c_block("if (out_%s.shape(1) != arr_xyz.shape(1))" % cart)
-        cg.write(
-            '    throw std::length_error("Size of the output %s array and XYZ array must be the same.\\n")'
-            % cart.upper()
-        )
-        cg.close_c_block()
-    cg.blankline()
-
-    cg.write("// Call the GG helper function")
-    call_func = call_name + "(L, xyz.shape(1)"
-    call_func += ", xyz.data(0, 0), xyz.data(1, 0), xyz.data(2, 0)"
-    call_func += ", coeffs.shape(0), coeffs.data(0), exponents.data(0)"
-    call_func += ", center.data(0)"
-    call_func += ", spherical"
-    call_func += ", out.mutable_data(0, 0)"
-    for cart in deriv_indices:
-        call_func += ", out_%s.mutable_data(0, 0)" % cart
-    call_func += ")"
-
-    cg.write(call_func)
-
-    cg.close_c_block()
-
-
-def pybind11_transpose(cg, func_name, wrapper_name):
-    """
-    Wraps the transpose functions in pybind11
-    """
-
-    sig = "void %s(py::array_t<double> arr_input" % wrapper_name
-    sig += ", py::array_t<double> arr_output)"
-
-    cg.start_c_block(sig)
-    cg.write("auto input = arr_input.unchecked<2>()")
-    cg.write("auto output = arr_output.mutable_unchecked<2>()")
-    cg.write("unsigned long n = input.shape(0)")
-    cg.write("unsigned long m = input.shape(1)")
-    cg.blankline()
-
-    cg.write("// Check shapes")
-    cg.start_c_block("if (input.shape(0) != output.shape(1))")
-    cg.write(
-        '    throw std::length_error("Input tranpose shape 0 does not match output transpose shape 1.\\n")'
-    )
-    cg.close_c_block()
-    cg.blankline()
-
-    cg.start_c_block("if (input.shape(1) != output.shape(0))")
-    cg.write(
-        '    throw std::length_error("Input tranpose shape 1 does not match output transpose shape 0.\\n")'
-    )
-    cg.close_c_block()
-    cg.blankline()
-
-    cg.write("%s(n, m, input.data(0, 0), output.mutable_data(0, 0))" % func_name)
-
-    cg.close_c_block()
-
-
-### Tranposers
-
-
-def naive_transpose(cg, align=32):
-    """
-    A completely naive tranpose to swap data
-    """
-
-    sig = "void gg_naive_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output)"
-    cg.start_c_block(sig)
-
-    cg.write("ASSUME_ALIGNED(%s, %d)" % ("input", align))
-    cg.start_c_block("for (unsigned long i = 0; i < n; i++)")
-
-    # Inner block
-    cg.start_c_block("for (unsigned long j = 0; j < m; j++)")
-    cg.write("output[j * n + i] = input[i * m + j]")
-    cg.close_c_block()
-
-    # Outer block
-    cg.close_c_block()
-
-    cg.close_c_block()
-    return sig
-
-
-def fast_transpose(cg, inner_block, align=32):
-    """
-    Builds a fast transpose using an internal blocking scheme in an attempt to vectorize IO from/to DRAM
-    """
-
-    sig = "void gg_fast_transpose(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, double* PRAGMA_RESTRICT output)"
-    cg.start_c_block(sig)
-    cg.blankline()
-
-    cg.write("// Temps")
-    cg.write("#ifdef _MSC_VER")
-    cg.write("__declspec(align(64)) double tmp[%d]" % (inner_block * inner_block))
-    cg.write("#else")
-    cg.write(
-        "double tmp[%d] __attribute__((aligned(64)))" % (inner_block * inner_block)
-    )
-    cg.write("#endif")
-    cg.write("ASSUME_ALIGNED(%s, %d)" % ("input", align))
-    cg.write("// Sizing")
-    cg.write("unsigned long nblocks = n / %d" % inner_block)
-    cg.write("nblocks += (n %% %d) ? 1 : 0" % inner_block)
-
-    cg.write("unsigned long mblocks = m / %d" % inner_block)
-    cg.write("mblocks += (m %% %d) ? 1 : 0" % inner_block)
-    # cg.write('printf("Blocks: %ld %ld\\n", nblocks, mblocks)')
-
-    cg.write("// Outer blocks")
-    cg.start_c_block("for (unsigned long nb = 0; nb < nblocks; nb++)")
-    cg.write("const unsigned long nstart = nb * %d" % inner_block)
-    cg.write(
-        "unsigned long nremain = ((nstart + %d) > n) ? (n - nstart) : %d"
-        % (inner_block, inner_block)
-    )
-
-    cg.start_c_block("for (unsigned long mb = 0; mb < mblocks; mb++)")
-    cg.write("const unsigned long mstart = mb * %d" % inner_block)
-    cg.write(
-        "unsigned long mremain = ((mstart + %d) > m) ? (m - mstart) : %d"
-        % (inner_block, inner_block)
-    )
-
-    # cg.start_c_block("if ((nremain == 0) & (mremain > 0))")
-    # cg.write("nremain++;")
-    # cg.close_c_block()
-
-    # cg.start_c_block("if ((mremain == 0) & (nremain > 0))")
-    # cg.write("mremain++;")
-    # cg.close_c_block()
-    # cg.write('printf("(n,m)%ld %ld | %ld %ld\\n", nb, mb, nremain, mremain)')
-
-    # Pull block
-    cg.write("// Copy data to inner block")
-    # cg.write('printf("%ld %ld | %ld\\n ", mstart, nstart, start)')
-    cg.start_c_block("for (unsigned long l = 0; l < nremain; l++)")
-    cg.write("const unsigned long start = (nstart + l) * m + mstart")
-    # cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long k = 0; k < mremain; k++)")
-
-    # cg.write("tmp[l * %d + k] = input[start + k]" % inner_block)
-    cg.write("tmp[k * %d + l] = input[start + k]" % inner_block)
-
-    # cg.write('printf("(%ld %ld %lf) ", l * 2+ k, start +k, input[start + k])')
-    # cg.write('printf("%%lf ", tmp[k * %d + l])' % inner_block)
-    cg.close_c_block()
-    cg.close_c_block()
-    # cg.write('printf("\\n--\\n")')
-    # cg.start_c_block("for (unsigned long k = 0; k < 4; k++)")
-    # cg.write('printf("%lf ", tmp[k])')
-    # cg.close_c_block()
-    # cg.write('printf("\\n--\\n")')
-
-    # Tranpose block
-    # cg.write("// Transpose inner block")
-    # cg.start_c_block("for (unsigned long k = 0; k < %d; k++)" % inner_block)
-    # cg.start_c_block("for (unsigned long l = k; l < %d; l++)" % inner_block)
-    # # cg.write('printf("%ld %ld \\n", k, l)')
-    # cg.write("const double itmp = tmp[l * %d + k]" % inner_block)
-    # cg.write("tmp[l * %d + k] = tmp[k * %d + l]" % (inner_block, inner_block))
-    # cg.write("tmp[k * %d + l] = itmp" % (inner_block))
-    # cg.close_c_block()
-    # cg.close_c_block()
-    # cg.write('printf("--\\n")')
-    # cg.start_c_block("for (unsigned long k = 0; k < 4; k++)")
-    # cg.write('printf("%lf ", tmp[k])')
-    # cg.close_c_block()
-    # cg.write('printf("\\n--\\n")')
-
-    # Push block
-    cg.write("// Copy data to inner block")
-    cg.start_c_block("for (unsigned long k = 0; k < mremain; k++)")
-    cg.write("const unsigned long start = (mstart + k) * n + nstart")
-    # cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long l = 0; l < nremain; l++)")
-    # cg.write('printf("(k,l) %ld %ld | %ld\\n", k, l, start+l)')
-
-    cg.write("output[start + l] = tmp[k * %d + l]" % inner_block)
-    cg.close_c_block()
-    cg.close_c_block()
-    # cg.write('printf("--------\\n")')
-
-    # cg.start_c_block("for (unsigned long k = 0; k < %d; k++)" % inner_block)
-    # cg.start_c_block("for (unsigned long l = 0; l < %d; l++)" % inner_block)
-    # cg.write("tmp[k * %d + l] = 0.0" % inner_block)
-    # cg.close_c_block()
-    # cg.close_c_block()
-
-    # Outer block
-    cg.close_c_block()
-    cg.close_c_block()
-
-    cg.close_c_block()
-
-    return sig
-
-
-### Data copiers
-
-
-def cartesian_copy_c_generator(
-    cg,
-    L,
-    cartesian_order_inner,
-    cartesian_order_outer,
-    function_name="",
-    prefix=None,
-    align=32,
-):
-    """
-    Builds a conversion from cartesian to spherical coordinates in C
-    """
-
-    if function_name == "":
-        if prefix:
-            function_name = "gg_%s_cart_copy_L%d" % (prefix, L)
-        else:
-            function_name = "gg_cart_copy_L%d" % L
-
-    signature = (
-        "void %s(const unsigned long size, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out)"
-        % function_name
-    )
-
-    try:
-        cartesian_input = {
-            x[1:]: x[0] for x in cartesian_order_factory(L, cartesian_order_inner)
-        }
-        cartesian_output = {
-            x[1:]: x[0] for x in cartesian_order_factory(L, cartesian_order_outer)
-        }
-    except KeyError:
-        cg.start_c_block(signature)
-        cg.close_c_block()
-
-        return signature
-
-    cg.start_c_block(signature)
-    cg.blankline()
-    cg.write("ASSUME_ALIGNED(%s, %d)" % ("cart_input", align))
-    cg.write("unsigned long inp_shift")
-    cg.write("unsigned long out_shift")
-
-    for label, order in cartesian_input.items():
-        cg.blankline()
-        cg.write("// Copy %s" % str(label))
-
-        cg.write("inp_shift = %d * ncart_input" % order)
-        cg.write("out_shift = %d * ncart_out" % cartesian_output[label])
-
-        cg.start_c_block("for (unsigned long i = 0; i < size; i++)")
-        cg.write("cart_out[out_shift + i] = cart_input[inp_shift + i]")
-        cg.close_c_block()
-
-    cg.close_c_block()
-
-    return signature
-
-
-def cartesian_sum_c_generator(
-    cg,
-    L,
-    cartesian_order_inner,
-    cartesian_order_outer,
-    function_name="",
-    prefix=None,
-    align=32,
-):
-    """
-    Builds a conversion from cartesian to spherical coordinates in C
-    """
-
-    if function_name == "":
-        if prefix:
-            function_name = "gg_%s_cart_sum_L%d" % (prefix, L)
-        else:
-            function_name = "gg_cart_sum_L%d" % L
-
-    signature = (
-        "void %s(const unsigned long size, const double* PRAGMA_RESTRICT vector, const double* PRAGMA_RESTRICT cart_input, const unsigned long ncart_input, double* PRAGMA_RESTRICT cart_out, const unsigned long ncart_out)"
-        % function_name
-    )
-
-    try:
-        cartesian_input = {
-            x[1:]: x[0] for x in cartesian_order_factory(L, cartesian_order_inner)
-        }
-        cartesian_output = {
-            x[1:]: x[0] for x in cartesian_order_factory(L, cartesian_order_outer)
-        }
-    except KeyError:
-        cg.start_c_block(signature)
-        cg.close_c_block()
-
-        return signature
-
-    cg.start_c_block(signature)
-    cg.blankline()
-    cg.write("ASSUME_ALIGNED(%s, %d)" % ("cart_input", align))
-    cg.write("unsigned long in_shift")
-    cg.write("unsigned long out_shift")
-    cg.write("double coef")
-
-    for label, order in cartesian_input.items():
-        cg.blankline()
-        cg.write("// Copy %s" % str(label))
-
-        shift = cartesian_output[label]
-        cg.write("in_shift = %d * ncart_input" % order)
-        cg.write("coef = vector[%d]" % cartesian_output[label])
-
-        cg.start_c_block("for (unsigned long i = 0; i < size; i++)")
-        cg.write("cart_out[i] += coef * cart_input[in_shift + i]")
-        cg.close_c_block()
-
-    cg.close_c_block()
-
-    return signature
-
-
-def block_copy(cg, align=32):
-    """
-    Copies a small block of data back to a larger array.
-    """
-
-    sig = "void block_copy(unsigned long n, unsigned long m, const double* PRAGMA_RESTRICT input, unsigned long is, double* PRAGMA_RESTRICT output, unsigned long os, const int trans)"
-    # nout, nremain
-
-    cg.start_c_block(sig)
-    cg.blankline()
-    cg.write("ASSUME_ALIGNED(%s, %d)" % ("input", align))
-    cg.start_c_block("for (unsigned long i = 0; i < n; i++)")
-    cg.write("const unsigned long out_shift = i * os")
-    cg.write("const unsigned long inp_shift = i * is")
-
-    # Inner copy over block
-    cg.blankline()
-    # cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long j = 0; j < m; j++)")
-    # cg.write("output[is * j + i] = input[i * is + j]")
-    cg.write("output[out_shift + j] = input[inp_shift + j]")
-    cg.close_c_block()
-
-    # Close i loop
-    cg.close_c_block()
-
-    # Close func
-    cg.close_c_block()
-    return sig
-
-
-def block_matrix_vector(cg, align=32):
-    """
-    Sums a vector_i input_ij -> output_j
-    """
-
-    sig = "void block_matrix_vector(unsigned long n, unsigned long m, const double* vector, const double* PRAGMA_RESTRICT input, unsigned long is, double* PRAGMA_RESTRICT output)"
-    # nout, nremain
-
-    cg.start_c_block(sig)
-    cg.blankline()
-    cg.write("ASSUME_ALIGNED(%s, %d)" % ("input", align))
-    cg.start_c_block("for (unsigned long i = 0; i < n; i++)")
-    cg.write("const unsigned long inp_shift = i * is")
-    cg.write("const double coef = vector[i]")
-
-    # Inner copy over block
-    cg.blankline()
-    # cg.write("PRAGMA_VECTORIZE", endl="")
-    cg.start_c_block("for (unsigned long j = 0; j < m; j++)")
-    cg.write("output[j] += coef * input[inp_shift + j]")
-    cg.close_c_block()
-
-    # Close i loop
-    cg.close_c_block()
-
-    # Close func
-    cg.close_c_block()
-    return sig
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/c_wrapper.py b/third_party/gauxc/external/gau2grid/src/gau2grid/c_wrapper.py
deleted file mode 100644
index 46b5b37..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/c_wrapper.py
+++ /dev/null
@@ -1,460 +0,0 @@
-"""
-A Python wrapper for the compiled GG functions.
-"""
-
-import ctypes
-import ctypes.util
-import os
-
-import numpy as np
-
-from . import docs_generator, utility
-
-# Attempt to load the compiled C code
-__lib_found = False
-__libgg_path = None
-cgg = None
-
-# First check the local folder
-try:
-    abs_path = os.path.dirname(os.path.abspath(__file__))
-    cgg = np.ctypeslib.load_library("gg", abs_path)
-    __libgg_path = os.path.join(abs_path, cgg._name)
-    __lib_found = True
-except OSError:
-    try:
-        cgg = np.ctypeslib.load_library("libgg", abs_path)
-        __libgg_path = os.path.join(abs_path, cgg._name)
-        __lib_found = True
-    except OSError:
-        cgg = None
-
-__order_enum = {
-    "spherical": {
-        "cca": 300,
-        "gaussian": 301,
-    },
-    "cartesian": {
-        "cca": 400,
-        "molden": 401,
-    },
-}
-
-
-def _build_collocation_ctype(nout, orbital=False):
-    """
-    Builds the ctypes signatures for the libgg C lib
-    """
-    ret = [
-        # L, npoints
-        ctypes.c_int,
-        ctypes.c_ulong,
-        # XYZ, stride
-        np.ctypeslib.ndpointer(dtype=np.double, ndim=1, flags=("C", "A")),
-        ctypes.c_ulong,
-        # Gaussian, nprim, coef, exp, center
-        ctypes.c_int,
-        np.ctypeslib.ndpointer(dtype=np.double, ndim=1, flags=("C", "A")),  # coef
-        np.ctypeslib.ndpointer(dtype=np.double, ndim=1, flags=("C", "A")),  # exp
-        np.ctypeslib.ndpointer(
-            dtype=np.double, shape=(3,), ndim=1, flags=("C", "A")
-        ),  # center
-        # Spherical
-        ctypes.c_int,
-    ]
-    if orbital:
-        ret.insert(1, ctypes.c_ulong)  # norbs
-        ret.insert(
-            1, np.ctypeslib.ndpointer(dtype=np.double, ndim=2, flags=("C", "A"))
-        )  # orbs
-
-    # Pushback output
-    for n in range(nout):
-        ret.append(
-            np.ctypeslib.ndpointer(dtype=np.double, ndim=2, flags=("W", "C", "A"))
-        )
-
-    return tuple(ret)
-
-
-# Bind the C object
-if cgg is not None:
-    # Helpers
-    cgg.gg_ncomponents.argtypes = (ctypes.c_int, ctypes.c_int)
-    cgg.gg_ncomponents.restype = ctypes.c_int
-
-    # Transposes
-    cgg.gg_naive_transpose.restype = None
-    cgg.gg_naive_transpose.argtypes = (
-        ctypes.c_ulong,
-        ctypes.c_ulong,
-        np.ctypeslib.ndpointer(),
-        np.ctypeslib.ndpointer(),
-    )
-
-    cgg.gg_fast_transpose.restype = None
-    cgg.gg_fast_transpose.argtypes = (
-        ctypes.c_ulong,
-        ctypes.c_ulong,
-        np.ctypeslib.ndpointer(),
-        np.ctypeslib.ndpointer(),
-    )
-
-    # Collocation generators
-    cgg.gg_orbitals.restype = None
-    cgg.gg_orbitals.argtypes = _build_collocation_ctype(1, orbital=True)
-
-    cgg.gg_collocation.restype = None
-    cgg.gg_collocation.argtypes = _build_collocation_ctype(1)
-
-    cgg.gg_collocation.restype = None
-    cgg.gg_collocation_deriv1.argtypes = _build_collocation_ctype(4)
-
-    cgg.gg_collocation.restype = None
-    cgg.gg_collocation_deriv2.argtypes = _build_collocation_ctype(10)
-
-    cgg.gg_collocation.restype = None
-    cgg.gg_collocation_deriv3.argtypes = _build_collocation_ctype(20)
-
-
-def c_compiled():
-    """
-    Checks if the c code has been compiled or not.
-    """
-    return __lib_found
-
-
-def _validate_c_import():
-    """
-    Throws an error if libgg is not found.
-    """
-    if c_compiled() is False:
-        raise ImportError(
-            "Compiled libgg not found. Please compile gau2grid before calling these\n"
-            "  functions. Alternatively, use the NumPy-based collocation functions found at\n"
-            "  gau2grid.ref.collocation or gau2grid.ref.collocation_basis. It should\n"
-            "  be noted that these functions are dramatically slower (4-20x).\n"
-        )
-
-
-def cgg_path():
-    """
-    Returns the path to the found libgg.so/dylib/dll object.
-    """
-    _validate_c_import()
-    return __libgg_path
-
-
-def get_cgg_shared_object():
-    """
-    Returns the compiled C shared object.
-    """
-    _validate_c_import()
-
-    return cgg
-
-
-def max_L():
-    """
-    Return the maximum compiled angular momentum.
-    """
-
-    return cgg.gg_max_L()
-
-
-def ncomponents(L, spherical=True):
-    """
-    Computes the number of components for spherical and cartesian gaussians of a given L
-
-    Parameters
-    ----------
-    L : int
-        The angular momentum of the basis function
-    spherical : bool, optional
-        Spherical (True) or Cartesian (False) number of components
-
-    Returns
-    -------
-    int
-        The number of components in the gaussian.
-    """
-
-    return cgg.gg_ncomponents(L, spherical)
-
-
-def _wrapper_checks(L, xyz, spherical, spherical_order, cartesian_order):
-    if L > cgg.gg_max_L():
-        raise ValueError(
-            "LibGG was only compiled to AM=%d, requested AM=%d." % (cgg.max_L(), L)
-        )
-
-    # Check XYZ
-    if xyz.shape[0] != 3:
-        raise ValueError("XYZ array must be of shape (3, N), found %s" % str(xyz.shape))
-
-    # Validate the input
-    try:
-        if spherical:
-            order_name = spherical_order
-            order_enum = __order_enum["spherical"][spherical_order]
-        else:
-            order_name = cartesian_order
-            order_enum = __order_enum["cartesian"][cartesian_order]
-    except KeyError:
-        raise KeyError(
-            "Order Spherical=%s:%s not understood." % (spherical, order_name)
-        )
-
-    return order_enum
-
-
-def collocation_basis(
-    xyz,
-    basis,
-    grad=0,
-    spherical=True,
-    out=None,
-    cartesian_order="cca",
-    spherical_order="cca",
-):
-    return utility.wrap_basis_collocation(
-        collocation,
-        xyz,
-        basis,
-        grad,
-        spherical=spherical,
-        out=out,
-        cartesian_order=cartesian_order,
-        spherical_order=spherical_order,
-    )
-
-
-# Write common docs
-collocation_basis.__doc__ = docs_generator.build_collocation_basis_docs(
-    "This function uses a optimized C library as a backend."
-)
-
-
-def orbital_basis(
-    orbs,
-    xyz,
-    basis,
-    spherical=True,
-    out=None,
-    cartesian_order="cca",
-    spherical_order="cca",
-):
-    return utility.wrap_basis_orbital(
-        orbital,
-        orbs,
-        xyz,
-        basis,
-        spherical=spherical,
-        out=out,
-        cartesian_order=cartesian_order,
-        spherical_order=spherical_order,
-    )
-
-
-orbital_basis.__doc__ = docs_generator.build_orbital_basis_docs(
-    "This function uses a optimized C library as a backend."
-)
-
-
-def collocation(
-    xyz,
-    L,
-    coeffs,
-    exponents,
-    center,
-    grad=0,
-    spherical=True,
-    out=None,
-    cartesian_order="cca",
-    spherical_order="cca",
-):
-    # Validates we loaded correctly
-    _validate_c_import()
-
-    order_enum = _wrapper_checks(L, xyz, spherical, spherical_order, cartesian_order)
-
-    # Check gaussian
-    coeffs = np.asarray(coeffs, dtype=np.double)
-    exponents = np.asarray(exponents, dtype=np.double)
-    center = np.asarray(center, dtype=np.double)
-    if coeffs.shape[0] != exponents.shape[0]:
-        raise ValueError(
-            "Coefficients (N=%d) and exponents (N=%d) must have the same shape."
-            % (coeffs.shape[0], exponents.shape[0])
-        )
-
-    # Find the output shape
-    npoints = xyz.shape[1]
-    if spherical:
-        nvals = utility.nspherical(L)
-    else:
-        nvals = utility.ncartesian(L)
-
-    # Build the outputs
-    out = utility.validate_coll_output(grad, (nvals, npoints), out)
-
-    # Select the correct function
-    if grad == 0:
-        cgg.gg_collocation(
-            L,
-            npoints,
-            xyz.ravel(),
-            1,
-            coeffs.shape[0],
-            coeffs,
-            exponents,
-            center,
-            order_enum,
-            out["PHI"],
-        )
-    elif grad == 1:
-        cgg.gg_collocation_deriv1(
-            L,
-            npoints,
-            xyz.ravel(),
-            1,
-            coeffs.shape[0],
-            coeffs,
-            exponents,
-            center,
-            order_enum,
-            out["PHI"],
-            out["PHI_X"],
-            out["PHI_Y"],
-            out["PHI_Z"],
-        )
-    elif grad == 2:
-        cgg.gg_collocation_deriv2(
-            L,
-            npoints,
-            xyz.ravel(),
-            1,
-            coeffs.shape[0],
-            coeffs,
-            exponents,
-            center,
-            order_enum,
-            out["PHI"],
-            out["PHI_X"],
-            out["PHI_Y"],
-            out["PHI_Z"],
-            out["PHI_XX"],
-            out["PHI_XY"],
-            out["PHI_XZ"],
-            out["PHI_YY"],
-            out["PHI_YZ"],
-            out["PHI_ZZ"],
-        )
-    elif grad == 3:
-        cgg.gg_collocation_deriv3(
-            L,
-            npoints,
-            xyz.ravel(),
-            1,
-            coeffs.shape[0],
-            coeffs,
-            exponents,
-            center,
-            order_enum,
-            out["PHI"],
-            out["PHI_X"],
-            out["PHI_Y"],
-            out["PHI_Z"],
-            out["PHI_XX"],
-            out["PHI_XY"],
-            out["PHI_XZ"],
-            out["PHI_YY"],
-            out["PHI_YZ"],
-            out["PHI_ZZ"],
-            out["PHI_XXX"],
-            out["PHI_XXY"],
-            out["PHI_XXZ"],
-            out["PHI_XYY"],
-            out["PHI_XYZ"],
-            out["PHI_XZZ"],
-            out["PHI_YYY"],
-            out["PHI_YYZ"],
-            out["PHI_YZZ"],
-            out["PHI_ZZZ"],
-        )
-    else:
-        raise ValueError("Only up to grad=3 is supported.")
-
-    return out
-
-
-collocation.__doc__ = docs_generator.build_collocation_docs(
-    "This function uses a optimized C library as a backend."
-)
-
-
-def orbital(
-    orbs,
-    xyz,
-    L,
-    coeffs,
-    exponents,
-    center,
-    spherical=True,
-    out=None,
-    cartesian_order="cca",
-    spherical_order="cca",
-):
-    # Validates we loaded correctly
-    _validate_c_import()
-
-    order_enum = _wrapper_checks(L, xyz, spherical, spherical_order, cartesian_order)
-
-    # Check gaussian
-    orbs = np.asarray(orbs, dtype=np.double)
-    coeffs = np.asarray(coeffs, dtype=np.double)
-    exponents = np.asarray(exponents, dtype=np.double)
-    center = np.asarray(center, dtype=np.double)
-    if coeffs.shape[0] != exponents.shape[0]:
-        raise ValueError(
-            "Coefficients (N=%d) and exponents (N=%d) must have the same shape."
-            % (coeffs.shape[0], exponents.shape[0])
-        )
-
-    # Find the output shape
-    npoints = xyz.shape[1]
-    if spherical:
-        nvals = utility.nspherical(L)
-    else:
-        nvals = utility.ncartesian(L)
-
-    if nvals != orbs.shape[1]:
-        raise ValueError("Orbital block, must be equal to the shell size.")
-
-    # Build the outputs
-    if out is not None:
-        out = {"PHI": out}
-    out = utility.validate_coll_output(0, (orbs.shape[0], npoints), out)["PHI"]
-
-    # Select the correct function
-    cgg.gg_orbitals(
-        L,
-        orbs,
-        orbs.shape[0],
-        npoints,
-        xyz.ravel(),
-        1,
-        coeffs.shape[0],
-        coeffs,
-        exponents,
-        center,
-        order_enum,
-        out,
-    )
-
-    return out
-
-
-orbital.__doc__ = docs_generator.build_orbital_docs(
-    "This function uses a optimized C library as a backend."
-)
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/codegen.py b/third_party/gauxc/external/gau2grid/src/gau2grid/codegen.py
deleted file mode 100644
index 03facde..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/codegen.py
+++ /dev/null
@@ -1,127 +0,0 @@
-"""
-Contains a simple codegen helper
-"""
-
-
-class CodeGen(object):
-    def __init__(self, indent="    ", cgen=False):
-        self.indent_lvl = 0
-        self.indent_tab = indent
-        self.data = []
-        self.cgen = cgen
-
-    def indent(self, lvl=1):
-        """
-        Indents the code one or more levels
-        """
-
-        self.indent_lvl += lvl
-
-    def dedent(self, lvl=1):
-        """
-        Dedents the code one or more levels
-        """
-
-        self.indent_lvl -= lvl
-        if self.indent_lvl < 0:
-            last_lines = "\n".join(self.data[-4:])
-            raise ValueError("Indent level is negative! Last lines:\n\n%s" % last_lines)
-
-    def write(self, line, endl=None):
-        """
-        Write a line with the current indent
-        """
-        shift = self.indent_lvl * self.indent_tab
-        if self.cgen and (endl is None) and ("//" not in line) and ("#" not in line):
-            endl = ";"
-        if endl is None:
-            endl = ""
-
-        self.data.append(shift + line + endl)
-
-    def blankline(self):
-        """
-        Inserts a blankline
-        """
-        self.data.append("")
-
-    def repr(self, filename=None, combine="\n", clang_format=False):
-        """
-        Combine the data into a single string, optionally write to file, and format.
-        """
-        tmp = combine.join(self.data)
-        if clang_format:
-            if self.cgen is False:
-                raise KeyError("clang_format is only valid for c generation.")
-            try:
-                tmp = run_clang_format(tmp)
-            except (OSError, AttributeError) as e:
-                print(str(e))
-
-        if filename is not None:
-            with open(filename, "w") as outfile:
-                outfile.write(tmp)
-        return tmp
-
-    def start_c_block(self, line=None):
-        """
-        Opens a C block with open brackets and indention
-        """
-
-        if self.cgen is False:
-            raise KeyError("Start c block only valid for c generation.")
-
-        if line is None:
-            self.write("{", endl="")
-        else:
-            self.write(line + " {", endl="")
-
-        self.indent()
-
-    def close_c_block(self):
-        """
-        Ends a c block with a dedent and close line
-        """
-        if self.cgen is False:
-            raise KeyError("Start c block only valid for c generation.")
-
-        self.dedent()
-        self.write("}", endl="")
-
-
-def run_clang_format(text):
-    import os
-    import shutil
-    import subprocess as sp
-
-    cf_path = None
-    try:
-        cf_path = shutil.which("clang-format")
-    except AttributeError:
-        # Python 3.2 or less
-        for path in os.environ["PATH"].split(":"):
-            path = os.path.join(path, "clang-format")
-            if os.path.exists(path):
-                cf_path = path
-                break
-
-    if cf_path is None:
-        return text
-
-    fname = "codegen.cf.tmp"
-
-    with open(fname, "w") as cfile:
-        cfile.write(text)
-
-    # Run and check output code
-    retcode = sp.call(
-        [cf_path, "-i", fname], stdin=sp.PIPE, stdout=sp.PIPE, stderr=sp.PIPE
-    )
-    if retcode:
-        raise OSError("Clang-format failed, skipping.")
-
-    with open(fname, "r") as cfile:
-        text = cfile.read()
-
-    os.unlink(fname)
-    return text
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/docs_generator.py b/third_party/gauxc/external/gau2grid/src/gau2grid/docs_generator.py
deleted file mode 100644
index 63a4103..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/docs_generator.py
+++ /dev/null
@@ -1,198 +0,0 @@
-"""
-Contains several docstrings as there are several duplicate functions
-"""
-
-__doc_header = r"""
-
-    .. math::
-
-        \phi_{m p} = Y_\ell^m \sum_i c_i e^{ -\alpha_{i} | \phi_{\rm center} - p | ^2}
-
-    Where for a given angular momentum :math:`\ell`, components :math:`m` range from :math:`+\ell` to :math:`-\ell`
-    for each grid point :math:`p`.
-
-"""
-
-__basis_str = """
-    basis : list of dicts
-        Each dict should contain the following keys (L, coeffs, exponents, center).
-
-        L : int
-            The angular momentum of the gaussian
-        coeffs : array_like
-            The coefficients of the gaussian
-        exponents : array_like
-            The exponents of the gaussian
-        center : array_like
-            The cartesian center of the gaussian"""
-
-__doc_notes = ""
-# __doc_notes = """
-#     Notes
-#     -----
-#     For cartesian output the "row" order is used:
-#     L_0 = .
-#     L_1 = X, Y, Z
-#     L_2 = XX, XY, XZ, YY, YZ, ZZ.
-#     ...
-
-#     For spherical harmonics a 0-based ordering is used:
-#     L_0 = R_00
-#     L_1 = R_10, R_11c, R_11s
-#     L_2 = R_20, R_21c, R_21s, R_22c, R_22s
-#     ...
-# """
-
-
-def build_collocation_docs(insert=""):
-    doc_header = (
-        "    Computes the collocation matrix for a given gaussian basis of the form:"
-    )
-    doc_header += __doc_header
-
-    param_data = """
-
-    Parameters
-    ----------
-    xyz : array_like
-        The ``(3, N)`` cartesian points to compute the grid on
-    L : int
-        The angular momentum of the gaussian
-    coeffs : array_like
-        The coefficients of the gaussian
-    exponents : array_like
-        The exponents of the gaussian
-    center : array_like
-        The cartesian center of the gaussian
-    grad : int, optional (default: 0)
-        Can return cartesian gradient and Hessian per point if requested.
-    spherical : bool, optional (default: True)
-        Transform the resulting cartesian gaussian to spherical
-    out : dict, optional
-        A dictionary of output NumPy arrays to write the data to.
-    %s
-    Returns
-    -------
-    dict of array_like
-        Returns a dictionary containing the requested arrays (``PHI``, ``PHI_X``, ``PHI_XX``, etc).
-        Where each matrix is of shape ``(ngaussian_basis x npoints)``
-    """
-
-    ret = doc_header
-    if insert == "":
-        ret += "\n"
-    else:
-        ret += "    " + insert
-
-    ret += param_data % __doc_notes
-    return ret
-
-
-def build_orbital_docs(insert=""):
-    doc_header = "    Computes a array of a given orbital on a grid for a given gaussian basis of the form:"
-    doc_header += __doc_header
-
-    param_data = """
-
-    Parameters
-    ----------
-    orbitals : array_like
-        The ``(norb, nval)`` section of orbitals.
-    xyz : array_like
-        The ``(3, N)`` cartesian points to compute the grid on
-    L : int
-        The angular momentum of the gaussian
-    coeffs : array_like
-        The coefficients of the gaussian
-    exponents : array_like
-        The exponents of the gaussian
-    center : array_like
-        The cartesian center of the gaussian
-    spherical : bool, optional (default: True)
-        Transform the resulting cartesian gaussian to spherical
-    out : dict, optional
-        A dictionary of output NumPy arrays to write the data to.
-    %s
-
-    Returns
-    -------
-    array_like
-        Returns a ``(norb, N)`` array of the orbitals on a grid.
-    """
-
-    ret = doc_header
-    if insert == "":
-        ret += "\n"
-    else:
-        ret += "    " + insert
-
-    ret += param_data % __doc_notes
-    return ret
-
-
-def build_collocation_basis_docs(insert=""):
-    doc_header = (
-        "    Computes the collocation matrix for a given gaussian basis of the form:"
-    )
-    doc_header += __doc_header
-
-    param_data = """
-
-    xyz : array_like
-        The ``(3, N)`` cartesian points to compute the grid on
-    %s
-    grad : int, default=0
-        Can return cartesian gradient and Hessian per point if requested.
-    spherical : bool, default=True
-        Transform the resulting cartesian gaussian to spherical
-    out : dict, optional
-        A dictionary of output NumPy arrays to write the data to.
-    %s
-
-    Returns
-    -------
-    dict of array_like
-        Returns a dictionary containing the requested arrays (``PHI``, ``PHI_X``, ``PHI_XX``, etc).
-        Where each matrix is of shape (ngaussian_basis x npoints)
-    """
-
-    ret = doc_header
-    if insert == "":
-        ret += "\n"
-    else:
-        ret += "    " + insert
-
-    ret += param_data % (__basis_str, __doc_notes)
-    return ret
-
-
-def build_orbital_basis_docs(insert=""):
-    doc_header = "    Computes a array of a given orbital on a grid for a given gaussian basis of the form:"
-    doc_header += "    " + __doc_header
-
-    param_data = """
-
-    orbital : array_line
-        A ``(norb, nao)`` orbital array aligned to the orbitals basis
-    xyz : array_like
-        The (3, N) cartesian points to compute the grid on
-    %s
-    spherical : bool, default=True
-        Transform the resulting cartesian gaussian to spherical
-    out : dict, optional
-        A dictionary of output NumPy arrays to write the data to.
-    %s
-    Returns
-    -------
-    array_like
-        Returns a ``(norb, N)`` array of the orbitals on a grid.
-    """
-
-    ret = doc_header
-    # if insert == "":
-    #     ret += "\n"
-    # else:
-    #     ret += "    " + insert
-
-    ret += param_data % (__basis_str, __doc_notes)
-    return ret
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/extras.py b/third_party/gauxc/external/gau2grid/src/gau2grid/extras.py
deleted file mode 100644
index 82a00e9..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/extras.py
+++ /dev/null
@@ -1,25 +0,0 @@
-"""
-Additional functionality not directly related to gau2grid.
-"""
-
-import os
-
-
-# Testing
-def test():
-    """
-    Runs a smoke test suite through pytest.
-    """
-
-    try:
-        import pytest
-    except ImportError:
-        raise RuntimeError(
-            "Testing module `pytest` is not installed. Run `conda install pytest`"
-        )
-
-    abs_test_dir = os.path.sep.join(
-        [os.path.abspath(os.path.dirname(__file__)), "tests"]
-    )
-    retcode = pytest.main(["-rws", "-v", "--capture=sys", abs_test_dir])
-    return retcode
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/order.py b/third_party/gauxc/external/gau2grid/src/gau2grid/order.py
deleted file mode 100644
index c664b79..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/order.py
+++ /dev/null
@@ -1,127 +0,0 @@
-"""
-Contains the different possible cartesian and spherical ordering codes.
-"""
-
-
-def row_cartesian_order(L):
-    """Row major cartesian order for a given orbital angular momentum.
-
-    0: [""],
-    1: ["X", "Y", "Z"],
-    2: ["XX", "YY", "ZZ", "XY", "XZ", "YZ"],
-    ...
-
-    Parameters
-    ----------
-    L : int
-        Angular momentum of the shell.
-
-    Yields
-    ------
-    tuple
-        A tuple describing a component of a shell. (index, lx, ly, lz)
-    """
-    idx = -1
-    for i in range(L + 1):
-        l = L - i
-        for j in range(i + 1):
-            m = i - j
-            n = j
-            idx += 1
-            yield (idx, l, m, n)
-
-
-def molden_cartesian_order(L):
-    """Molden cartesian order for a given orbital angular momentum.
-
-    0: [""]
-    1: ["X", "Y", "Z"]
-    2: ["XX", "YY", "ZZ", "XY", "XZ", "YZ"]
-    ...
-
-    Parameters
-    ----------
-    L : int
-        Angular momentum of the shell.
-
-    Yields
-    ------
-    tuple
-        A tuple describing a component of a shell. (index, lx, ly, lz)
-    """
-    # http://www.cmbi.ru.nl/molden/molden_format.html
-    if L == 0:
-        data = [(0, 0, 0, 0)]
-    elif L == 1:
-        data = [(0, 1, 0, 0), (1, 0, 1, 0), (2, 0, 0, 1)]
-    elif L == 2:
-        data = [
-            (0, 2, 0, 0),
-            (1, 0, 2, 0),
-            (2, 0, 0, 2),
-            (3, 1, 1, 0),
-            (4, 1, 0, 1),
-            (5, 0, 1, 1),
-        ]
-    elif L == 3:
-        data = [
-            (0, 3, 0, 0),
-            (1, 0, 3, 0),
-            (2, 0, 0, 3),
-            (3, 1, 2, 0),
-            (4, 2, 1, 0),
-            (5, 2, 0, 1),
-            (6, 1, 0, 2),
-            (7, 0, 1, 2),
-            (8, 0, 2, 1),
-            (9, 1, 1, 1),
-        ]
-    elif L == 4:
-        data = [
-            (0, 4, 0, 0),
-            (1, 0, 4, 0),
-            (2, 0, 0, 4),
-            (3, 3, 1, 0),
-            (4, 3, 0, 1),
-            (5, 1, 3, 0),
-            (6, 0, 3, 1),
-            (7, 1, 0, 3),
-            (8, 0, 1, 3),
-            (9, 2, 2, 0),
-            (10, 2, 0, 2),
-            (11, 0, 2, 2),
-            (12, 2, 1, 1),
-            (13, 1, 2, 1),
-            (14, 1, 1, 2),
-        ]
-    else:
-        raise KeyError("Molden ordering only goes to 4 (G)")
-
-    for x in data:
-        yield x
-
-
-def cartesian_order_factory(L, order="row"):
-    """Creates a iterator which will yield individual components of a shell of a given angular momentum.
-
-    Parameters
-    ----------
-    L : int
-        Angular momentum of the shell.
-    order : str, optional
-        The type of order to consider. Options: ["row", "cca", "molden"]
-
-    Returns
-    -------
-    iterator
-        An iterator which will yield a single component of a orbital shell as tuple of (index, lx, ly, lz).
-
-    """
-    if order.lower() in ["row", "cca"]:
-        return row_cartesian_order(L)
-    elif order.lower() in ["molden"]:
-        return molden_cartesian_order(L)
-    # if order.lower() in ["libint"]:
-    #     return libint_cartesian_order(L)
-    else:
-        raise KeyError("Cartesian order '%s' not understood" % order)
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/python_reference.py b/third_party/gauxc/external/gau2grid/src/gau2grid/python_reference.py
deleted file mode 100644
index 8316797..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/python_reference.py
+++ /dev/null
@@ -1,220 +0,0 @@
-"""
-Python reference for the collocation matrix and transformation code.
-"""
-
-import numpy as np
-
-from . import RSH, docs_generator, order, utility
-
-
-def collocation_basis(
-    xyz,
-    basis,
-    grad=0,
-    spherical=True,
-    out=None,
-    cartesian_order="row",
-    spherical_order="cca",
-):
-    return utility.wrap_basis_collocation(
-        collocation, xyz, basis, grad, spherical, out, cartesian_order, spherical_order
-    )
-
-
-collocation_basis.__doc__ = docs_generator.build_collocation_basis_docs(
-    "This function uses a reference NumPy expression as a backed."
-)
-
-
-def collocation(
-    xyz,
-    L,
-    coeffs,
-    exponents,
-    center,
-    grad=0,
-    spherical=True,
-    cartesian_order="row",
-    spherical_order="cca",
-    out=None,
-):
-    if grad > 3:
-        raise ValueError(
-            "Only up to 3rd derivatives of the points (grad = 3) is supported."
-        )
-
-    # Unpack the shell data
-    nprim = len(coeffs)
-    npoints = xyz.shape[1]
-
-    # First compute the diff distance in each cartesian
-    xc = xyz[0] - center[0]
-    yc = xyz[1] - center[1]
-    zc = xyz[2] - center[2]
-    R2 = xc * xc + yc * yc + zc * zc
-
-    # Build up the derivates in each direction
-    V1 = np.zeros(npoints)
-    V2 = np.zeros(npoints)
-    V3 = np.zeros(npoints)
-    V4 = np.zeros(npoints)
-    for K in range(nprim):
-        T1 = coeffs[K] * np.exp(-exponents[K] * R2)
-        T2 = -2.0 * exponents[K] * T1
-        T3 = -2.0 * exponents[K] * T2
-        T4 = -2.0 * exponents[K] * T3
-        V1 += T1
-        V2 += T2
-        V3 += T3
-        V4 += T4
-
-    S = V1.copy()
-    SX = V2 * xc
-    SY = V2 * yc
-    SZ = V2 * zc
-    SXY = V3 * xc * yc
-    SXZ = V3 * xc * zc
-    SYZ = V3 * yc * zc
-    SXX = V3 * xc * xc + V2
-    SYY = V3 * yc * yc + V2
-    SZZ = V3 * zc * zc + V2
-    SXXX = V4 * xc * xc * xc + 3 * V3 * xc
-    SXXY = V4 * xc * xc * yc + V3 * yc
-    SXXZ = V4 * xc * xc * zc + V3 * zc
-    SXYY = V4 * xc * yc * yc + V3 * xc
-    SXYZ = V4 * xc * yc * zc
-    SXZZ = V4 * xc * zc * zc + V3 * xc
-    SYYY = V4 * yc * yc * yc + 3 * V3 * yc
-    SYYZ = V4 * yc * yc * zc + V3 * zc
-    SYZZ = V4 * yc * zc * zc + V3 * yc
-    SZZZ = V4 * zc * zc * zc + 3 * V3 * zc
-
-    # SX, SY, SZ, SXX, SXZ, SXZ, SYY, SYZ, SZZ
-
-    # Power matrix for higher angular momenta
-    xc_pow = np.zeros((L + 3, npoints))
-    yc_pow = np.zeros((L + 3, npoints))
-    zc_pow = np.zeros((L + 3, npoints))
-
-    xc_pow[0] = 0.0
-    yc_pow[0] = 0.0
-    zc_pow[0] = 0.0
-    xc_pow[1] = 0.0
-    yc_pow[1] = 0.0
-    zc_pow[1] = 0.0
-    xc_pow[2] = 1.0
-    yc_pow[2] = 1.0
-    zc_pow[2] = 1.0
-
-    for LL in range(3, L + 3):
-        xc_pow[LL] = xc_pow[LL - 1] * xc
-        yc_pow[LL] = yc_pow[LL - 1] * yc
-        zc_pow[LL] = zc_pow[LL - 1] * zc
-
-    # Allocate data
-    ncart = utility.ncartesian(L)
-    nsph = utility.nspherical(L)
-    if spherical:
-        keys = utility.get_output_keys(grad)
-        out = utility.validate_coll_output(grad, (nsph, npoints), out)
-        tmps = {k: np.zeros((ncart, npoints)) for k in keys}
-    else:
-        out = utility.validate_coll_output(grad, (ncart, npoints), out)
-        tmps = out
-
-    # Loop over grid ordering data and compute by row
-    for idx, l, m, n in order.cartesian_order_factory(L, cartesian_order):
-        # build a few indices
-        l = l + 2
-        m = m + 2
-        n = n + 2
-
-        ld1 = l - 1
-        ld2 = l - 2
-        ld3 = l - 3
-        md1 = m - 1
-        md2 = m - 2
-        md3 = m - 3
-        nd1 = n - 1
-        nd2 = n - 2
-        nd3 = n - 3
-
-        A = xc_pow[l] * yc_pow[m] * zc_pow[n]
-        AX = ld2 * xc_pow[ld1] * yc_pow[m] * zc_pow[n]
-        AY = md2 * xc_pow[l] * yc_pow[md1] * zc_pow[n]
-        AZ = nd2 * xc_pow[l] * yc_pow[m] * zc_pow[nd1]
-
-        tmps["PHI"][idx] = S * A
-        if grad > 0:
-            tmps["PHI_X"][idx] = S * AX + SX * A
-            tmps["PHI_Y"][idx] = S * AY + SY * A
-            tmps["PHI_Z"][idx] = S * AZ + SZ * A
-        if grad > 1:
-            AXY = ld2 * md2 * xc_pow[ld1] * yc_pow[md1] * zc_pow[n]
-            AXZ = ld2 * nd2 * xc_pow[ld1] * yc_pow[m] * zc_pow[nd1]
-            AYZ = md2 * nd2 * xc_pow[l] * yc_pow[md1] * zc_pow[nd1]
-            AXX = ld2 * (ld2 - 1) * xc_pow[ld2] * yc_pow[m] * zc_pow[n]
-            AYY = md2 * (md2 - 1) * xc_pow[l] * yc_pow[md2] * zc_pow[n]
-            AZZ = nd2 * (nd2 - 1) * xc_pow[l] * yc_pow[m] * zc_pow[nd2]
-            tmps["PHI_XX"][idx] = SXX * A + SX * AX + SX * AX + S * AXX
-            tmps["PHI_YY"][idx] = SYY * A + SY * AY + SY * AY + S * AYY
-            tmps["PHI_ZZ"][idx] = SZZ * A + SZ * AZ + SZ * AZ + S * AZZ
-            tmps["PHI_XY"][idx] = SXY * A + SX * AY + SY * AX + S * AXY
-            tmps["PHI_XZ"][idx] = SXZ * A + SX * AZ + SZ * AX + S * AXZ
-            tmps["PHI_YZ"][idx] = SYZ * A + SY * AZ + SZ * AY + S * AYZ
-        if grad > 2:
-            AXYZ = ld2 * md2 * nd2 * xc_pow[ld1] * yc_pow[md1] * zc_pow[nd1]
-            AXXY = ld2 * (ld2 - 1) * md2 * xc_pow[ld2] * yc_pow[md1] * zc_pow[n]
-            AXXZ = ld2 * (ld2 - 1) * nd2 * xc_pow[ld2] * yc_pow[m] * zc_pow[nd1]
-            AXYY = md2 * (md2 - 1) * ld2 * xc_pow[ld1] * yc_pow[md2] * zc_pow[n]
-            AXZZ = nd2 * (nd2 - 1) * ld2 * xc_pow[ld1] * yc_pow[m] * zc_pow[nd2]
-            AYYZ = md2 * (md2 - 1) * nd2 * xc_pow[l] * yc_pow[md2] * zc_pow[nd1]
-            AYZZ = nd2 * (nd2 - 1) * md2 * xc_pow[l] * yc_pow[md1] * zc_pow[nd2]
-            AXXX = ld2 * (ld2 - 1) * (ld2 - 2) * xc_pow[ld3] * yc_pow[m] * zc_pow[n]
-            AYYY = md2 * (md2 - 1) * (md2 - 2) * xc_pow[l] * yc_pow[md3] * zc_pow[n]
-            AZZZ = nd2 * (nd2 - 1) * (nd2 - 2) * xc_pow[l] * yc_pow[m] * zc_pow[nd3]
-            tmps["PHI_XYZ"][idx] = (
-                SXYZ * A
-                + AX * SYZ
-                + AY * SXZ
-                + AZ * SXY
-                + AXY * SZ
-                + AXZ * SY
-                + AYZ * SX
-                + AXYZ * S
-            )
-            tmps["PHI_XXY"][idx] = (
-                SXXY * A + 2 * AX * SXY + AY * SXX + AXX * SY + 2 * AXY * SX + AXXY * S
-            )
-            tmps["PHI_XXZ"][idx] = (
-                SXXZ * A + 2 * AX * SXZ + AZ * SXX + AXX * SZ + 2 * AXZ * SX + AXXZ * S
-            )
-            tmps["PHI_XYY"][idx] = (
-                SXYY * A + 2 * AY * SXY + AX * SYY + AYY * SX + 2 * AXY * SY + AXYY * S
-            )
-            tmps["PHI_XZZ"][idx] = (
-                SXZZ * A + 2 * AZ * SXZ + AX * SZZ + AZZ * SX + 2 * AXZ * SZ + AXZZ * S
-            )
-            tmps["PHI_YYZ"][idx] = (
-                SYYZ * A + 2 * AY * SYZ + AZ * SYY + AYY * SZ + 2 * AYZ * SY + AYYZ * S
-            )
-            tmps["PHI_YZZ"][idx] = (
-                SYZZ * A + 2 * AZ * SYZ + AY * SZZ + AZZ * SY + 2 * AYZ * SZ + AYZZ * S
-            )
-            tmps["PHI_XXX"][idx] = SXXX * A + 3 * AX * SXX + 3 * AXX * SX + AXXX * S
-            tmps["PHI_YYY"][idx] = SYYY * A + 3 * AY * SYY + 3 * AYY * SY + AYYY * S
-            tmps["PHI_ZZZ"][idx] = SZZZ * A + 3 * AZ * SZZ + 3 * AZZ * SZ + AZZZ * S
-
-    # Transform results back to spherical
-    if spherical:
-        for k, v in out.items():
-            out[k][:] = RSH.cart_to_spherical_transform(
-                tmps[k], L, cartesian_order, spherical_order
-            )
-
-    return out
-
-
-collocation.__doc__ = docs_generator.build_collocation_docs(
-    "This function uses a reference NumPy expression as a backed."
-)
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/__init__.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/__init__.py
deleted file mode 100644
index e69de29..0000000
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/ref_basis.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/ref_basis.py
deleted file mode 100644
index 30cce2f..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/ref_basis.py
+++ /dev/null
@@ -1,1025 +0,0 @@
-test_basis = {
-    "single-1s": [
-        {"center": [0.0, 0.0, 0.0], "exp": [38.36, 1.0e-1], "coef": [2.5, 1.5], "am": 0}
-    ],
-    "single-1p": [
-        {"center": [0.0, 0.0, 0.0], "exp": [38.36, 1.0e-1], "coef": [2.5, 1.5], "am": 1}
-    ],
-    "single-1d": [
-        {"center": [0.0, 0.0, 0.0], "exp": [38.36, 1.0e-1], "coef": [2.5, 1.5], "am": 2}
-    ],
-    "single-2s": [
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [38.36, 1.0e-1],
-            "coef": [2.5, 1.5],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 1.0],
-            "exp": [40.36, 10.77, 5.24],
-            "coef": [0.44135347600549724, 0.6934968471367846, 0.6641842253258472],
-            "am": 0,
-        },
-    ],
-    "cc-pVDZ": [
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [38.36, 5.77, 1.24],
-            "coef": [0.44135347600549724, 0.6934968471367846, 0.6641842253258472],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.2976],
-            "coef": [0.28716716940915],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.275],
-            "coef": [1.9312025173106264],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [6665.0, 1000.0, 228.0, 64.71, 21.06, 7.495, 2.797, 0.5215],
-            "coef": [
-                0.3635842998065758,
-                0.6749857928202053,
-                1.1316199409548326,
-                1.6530092121132332,
-                1.9238206437042997,
-                1.4472783162053624,
-                0.43916312920743356,
-                0.0066458036681944005,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [6665.0, 1000.0, 228.0, 64.71, 21.06, 7.495, 2.797, 0.5215],
-            "coef": [
-                -0.15417974831696596,
-                -0.29378537353969814,
-                -0.48089580383835073,
-                -0.7614343161217384,
-                -0.9001038922786649,
-                -0.9726113518152741,
-                -0.3940419460353377,
-                0.47839442486908734,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1596],
-            "coef": [0.17996363533080056],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [9.439, 2.002, 0.5456],
-            "coef": [1.3437371094962303, 1.0631680878797416, 0.5082318338362495],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1517],
-            "coef": [0.13494974363929313],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.55],
-            "coef": [0.5781548361892291],
-            "am": 2,
-        },
-    ],
-    "cc-pVTZ": [
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [234.0, 35.16, 7.989, 2.212],
-            "coef": [
-                0.3109111498784228,
-                0.5665439094158013,
-                0.8686186270728533,
-                0.9912097091412122,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.6669],
-            "coef": [0.5259635285661938],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.2089],
-            "coef": [0.22022363267224998],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [3.044],
-            "coef": [5.731204405620397],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.758],
-            "coef": [1.0081533438537973],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.965],
-            "coef": [5.367770348245947],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [8236.0, 1235.0, 280.8, 79.27, 25.59, 8.997, 3.319, 0.3643],
-            "coef": [
-                0.3342267437290266,
-                0.623074641610101,
-                1.053105907175737,
-                1.583163134228532,
-                1.9450988312081643,
-                1.6429469100201448,
-                0.6196591260874036,
-                -0.003066727596880071,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [8236.0, 1235.0, 280.8, 79.27, 25.59, 8.997, 3.319, 0.3643],
-            "coef": [
-                -0.12101010978210466,
-                -0.2265691065646341,
-                -0.38575328973148,
-                -0.5967016835701715,
-                -0.7858351261554027,
-                -0.8165330321269189,
-                -0.5188700867627601,
-                0.3477346660092945,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.9059],
-            "coef": [0.6617901318396681],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1285],
-            "coef": [0.15296336817449552],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [18.71, 4.133, 1.2],
-            "coef": [2.1868515589384936, 2.050312341280497, 1.4599445297103084],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.3827],
-            "coef": [0.42905519588435137],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1209],
-            "coef": [0.10161854305479753],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.097],
-            "coef": [1.9354014159719681],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.318],
-            "coef": [0.22164447815916097],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.761],
-            "coef": [0.7962875534181346],
-            "am": 3,
-        },
-    ],
-    "cc-pVQZ": [
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [528.5, 79.31, 18.05, 5.085],
-            "coef": [
-                0.46145452827470973,
-                0.8538653991195814,
-                1.4030592847322472,
-                1.9271042712608932,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.609],
-            "coef": [1.0181860095745041],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.5363],
-            "coef": [0.4466485618439204],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.1833],
-            "coef": [0.1996558045893794],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [5.994],
-            "coef": [13.36860252829213],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.745],
-            "coef": [2.858803973154869],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.56],
-            "coef": [0.6905181870838725],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [4.299],
-            "coef": [21.125280546621475],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.223],
-            "coef": [2.341023406708012],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [2.68],
-            "coef": [13.528752018633634],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [33980.0, 5089.0, 1157.0, 326.6, 106.1, 38.11, 14.75, 6.035, 2.53],
-            "coef": [
-                0.1634507261062438,
-                0.3044212243332817,
-                0.5257838689933758,
-                0.8468983407346078,
-                1.255764373372071,
-                1.6186445796014381,
-                1.6508946063126861,
-                1.1035299844183581,
-                0.31248567483708534,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [33980.0, 5089.0, 1157.0, 326.6, 106.1, 38.11, 14.75, 6.035, 2.53],
-            "coef": [
-                -0.0993718990834113,
-                -0.19012697709862444,
-                -0.32543340763752193,
-                -0.5336611751361328,
-                -0.7952977918754661,
-                -1.094938007810732,
-                -1.213813200515633,
-                -1.1385061171713298,
-                -0.49474883373545114,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.7355],
-            "coef": [0.5660399709765215],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.2905],
-            "coef": [0.28201336769754937],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1111],
-            "coef": [0.13714994457481866],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [34.51, 7.915, 2.368],
-            "coef": [3.778018950380443, 4.028726502872025, 3.515465074138135],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.8132],
-            "coef": [1.1007452000846343],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.289],
-            "coef": [0.30203856019464964],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1007],
-            "coef": [0.08085873190604055],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.848],
-            "coef": [4.821008511624612],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.649],
-            "coef": [0.7723918375207073],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.228],
-            "coef": [0.12382132254845869],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.419],
-            "coef": [3.235302098757608],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.485],
-            "coef": [0.2889837095091748],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.011],
-            "coef": [1.1468354346860716],
-            "am": 4,
-        },
-    ],
-    "cc-pV5Z": [
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1145.0, 171.7, 39.07, 11.04],
-            "coef": [
-                0.7380918729709687,
-                1.372859543128198,
-                2.326160936595324,
-                3.5151818682868052,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [3.566],
-            "coef": [1.8494649122166864],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.24],
-            "coef": [0.8374836865202823],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.4473],
-            "coef": [0.3898156455349628],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.164],
-            "coef": [0.1836720098211005],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [10.153],
-            "coef": [25.833489349067868],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [3.627],
-            "coef": [7.134680544947165],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.296],
-            "coef": [1.9710440934087394],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.463],
-            "coef": [0.5443977563568185],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [7.666],
-            "coef": [58.13061026837216],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [2.647],
-            "coef": [9.04125781450112],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.914],
-            "coef": [1.4062589475390226],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [5.411],
-            "coef": [65.73987909846028],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.707],
-            "coef": [4.903202978939761],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [3.43],
-            "coef": [32.998504307791954],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [
-                96770.0,
-                14500.0,
-                3300.0,
-                935.8,
-                306.2,
-                111.3,
-                43.9,
-                18.4,
-                8.054,
-                3.637,
-            ],
-            "coef": [
-                0.10338463441967911,
-                0.1892300196831466,
-                0.3281677404717669,
-                0.5334399987570182,
-                0.8197924312886748,
-                1.1700100552197732,
-                1.4976131976071616,
-                1.6087382497487723,
-                1.2929161931856408,
-                0.5834828223937455,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [
-                96770.0,
-                14500.0,
-                3300.0,
-                935.8,
-                306.2,
-                111.3,
-                43.9,
-                18.4,
-                8.054,
-                3.637,
-            ],
-            "coef": [
-                -0.06224855727073559,
-                -0.12293161539609407,
-                -0.21043539452889135,
-                -0.3443764571700645,
-                -0.5293460581611003,
-                -0.7745118083970303,
-                -1.0206917127579689,
-                -1.2095549022717158,
-                -1.1588716818781568,
-                -0.861537240258568,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.656],
-            "coef": [1.0404119734216268],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.6333],
-            "coef": [0.5059611933793523],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.2545],
-            "coef": [0.2553735608723581],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1019],
-            "coef": [0.12854072059813548],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [101.8, 24.04, 7.571, 2.732],
-            "coef": [
-                3.110402641694326,
-                4.0089324328419,
-                4.293684144259667,
-                3.94378697508858,
-            ],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.085],
-            "coef": [1.578437029078211],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.4496],
-            "coef": [0.5247747931188329],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1876],
-            "coef": [0.17598721978831988],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.07606],
-            "coef": [0.05693580812460792],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [3.134],
-            "coef": [12.150179455809385],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.233],
-            "coef": [2.3746239310735566],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.485],
-            "coef": [0.4639353857697065],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.191],
-            "coef": [0.09082760213324197],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [2.006],
-            "coef": [7.0501610717932754],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.838],
-            "coef": [0.9891302676875409],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.35],
-            "coef": [0.13870992901469756],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.753],
-            "coef": [5.209975662902541],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.678],
-            "coef": [0.38222323464616065],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.259],
-            "coef": [1.568295112996155],
-            "am": 5,
-        },
-    ],
-    "cc-pV6Z": [
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [4785.0, 717.0, 163.2, 46.26, 15.1],
-            "coef": [
-                0.5492980072847908,
-                1.0362929443055922,
-                1.772863336362713,
-                2.856472519883292,
-                4.2491827504192345,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [5.437],
-            "coef": [2.5376375496458214],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [2.088],
-            "coef": [1.2379638500436236],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.8297],
-            "coef": [0.6195850210340811],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.3366],
-            "coef": [0.31495294669481405],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.1369],
-            "coef": [0.16040307081791438],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.387],
-            "coef": [0.4350896919103909],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.984],
-            "coef": [1.3969599680098106],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [2.498],
-            "coef": [4.476417969471105],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [6.342],
-            "coef": [14.345737671927447],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [16.104],
-            "coef": [45.984057577434875],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [0.747],
-            "coef": [0.9879171150357771],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.91],
-            "coef": [5.107611414746906],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [4.886],
-            "coef": [26.428834770986224],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [12.498],
-            "coef": [136.73521151333463],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [1.292],
-            "coef": [2.6199626821636093],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [3.462],
-            "coef": [24.068018833219146],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [9.276],
-            "coef": [221.06302808154655],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [2.236],
-            "coef": [10.173792440803908],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [6.586],
-            "coef": [198.4472901517673],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 0.0],
-            "exp": [4.159],
-            "coef": [76.21810687973053],
-            "am": 5,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [
-                312100.0,
-                46740.0,
-                10640.0,
-                3013.0,
-                982.8,
-                354.8,
-                138.4,
-                57.35,
-                24.92,
-                11.23,
-                5.201,
-            ],
-            "coef": [
-                0.06241238335412585,
-                0.11686178146677664,
-                0.2025229998035736,
-                0.331883845860829,
-                0.5196895195398683,
-                0.7796582369887571,
-                1.1099778347548088,
-                1.4602361505227996,
-                1.6798835992492982,
-                1.5592862930303644,
-                0.980202962125158,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [
-                312100.0,
-                46740.0,
-                10640.0,
-                3013.0,
-                982.8,
-                354.8,
-                138.4,
-                57.35,
-                24.92,
-                11.23,
-                5.201,
-            ],
-            "coef": [
-                -0.0444503166102155,
-                -0.08304266636116815,
-                -0.14418407421038154,
-                -0.23597736741135866,
-                -0.3712079960204282,
-                -0.558281868845687,
-                -0.8084366684479092,
-                -1.0904316581229672,
-                -1.3420429117438775,
-                -1.409678213661604,
-                -1.2319524419545422,
-            ],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [2.426],
-            "coef": [1.3854095902124604],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.9673],
-            "coef": [0.6951539311220889],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.4456],
-            "coef": [0.38870397229333087],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1971],
-            "coef": [0.21082643275823246],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.08635],
-            "coef": [0.11352900946035223],
-            "am": 0,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [295.2, 69.98, 22.64, 8.485, 3.459],
-            "coef": [
-                2.6695892766995146,
-                3.7811810358125713,
-                4.791716498985131,
-                5.214872146241128,
-                5.049027906679351,
-            ],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.504],
-            "coef": [2.3741047842980945],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.6783],
-            "coef": [0.8774398594810375],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.3087],
-            "coef": [0.32799020536049356],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.14],
-            "coef": [0.12206752315491183],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.06178],
-            "coef": [0.043903583313808656],
-            "am": 1,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [4.542],
-            "coef": [23.259047921955737],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.979],
-            "coef": [5.434875452050322],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.8621],
-            "coef": [1.2695076875632945],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.3756],
-            "coef": [0.29660551880241864],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.1636],
-            "coef": [0.0692676143021213],
-            "am": 2,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [2.631],
-            "coef": [12.978555477989921],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.255],
-            "coef": [2.4541597708741256],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.5988],
-            "coef": [0.46434254883930615],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.2857],
-            "coef": [0.08785216944594705],
-            "am": 3,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [2.652],
-            "coef": [16.265319726826394],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.204],
-            "coef": [1.8542072053265692],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.547],
-            "coef": [0.21178762138633953],
-            "am": 4,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [2.03],
-            "coef": [7.408090675707613],
-            "am": 5,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [0.8511],
-            "coef": [0.4393201118180626],
-            "am": 5,
-        },
-        {
-            "center": [0.0, 0.0, 3.77945227],
-            "exp": [1.491],
-            "coef": [2.0008705051325117],
-            "am": 6,
-        },
-    ],
-}
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_c_code.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_c_code.py
deleted file mode 100644
index 400af6c..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_c_code.py
+++ /dev/null
@@ -1,315 +0,0 @@
-"""
-Compare the generated C code against the NumPy reference code.
-"""
-
-import os
-import sys
-import time
-
-import numpy as np
-import pytest
-
-import gau2grid as gg
-
-np.set_printoptions(linewidth=120, suppress=True)
-
-# Import locals
-from . import ref_basis
-from . import test_helper as th
-
-# Tweakers
-npoints = int(1.0e3)
-npoints2 = int(npoints / 2)
-
-# Global points
-np.random.seed(0)
-xyzw = np.random.rand(3, npoints)
-
-# LR points
-xyzw[:, npoints2:] += 5 * np.random.rand(3, npoints2)
-
-# Make sure the C-side has been compiled
-if "GAU2GRID_FORCE_C_TEST" in os.environ:
-    skip_c_test = False
-else:
-    skip_c_test = gg.c_compiled() is False
-check_compile = pytest.mark.skipif(
-    skip_c_test, reason="Could not find the C compiled SO for gau2grid"
-)
-
-test_basis_keys = list(ref_basis.test_basis.keys())
-# test_basis_keys = ["single-1s", "single-1p", "single-1d"]
-
-test_orders = [
-    ("cartesian", "cca"),
-    ("cartesian", "molden"),
-    ("spherical", "cca"),
-    ("spherical", "gaussian")
-]  # yapf: disable
-
-
-@check_compile
-@pytest.mark.parametrize("basis_name", test_basis_keys)
-@pytest.mark.parametrize("spherical, order_name", test_orders)
-def test_generator_collocation(basis_name, spherical, order_name):
-    #
-    kwargs = {"grad": 2, "spherical": "spherical" == spherical}
-
-    if kwargs["spherical"]:
-        kwargs["spherical_order"] = order_name
-    else:
-        kwargs["cartesian_order"] = order_name
-
-    basis = ref_basis.test_basis[basis_name]
-
-    max_L = max(x["am"] for x in basis)
-    if (order_name == "molden") and (max_L > 4):
-        pytest.skip("Molden only goes to L=4.")
-
-    t = time.time()
-    gen_results = gg.collocation_basis(xyzw, basis, **kwargs)
-    gg_time = time.time() - t
-
-    t = time.time()
-    ref_results = gg.ref.collocation_basis(xyzw, basis, **kwargs)
-    ref_time = time.time() - t
-
-    # Print time with py.test -s flags
-    print("")
-    print(
-        "%s-%s time REF: %8.4f GG: %8.4f" % (basis_name, spherical, ref_time, gg_time)
-    )
-
-    # print(ref_results["PHI"])
-    # print(gen_results["PHI"])
-    th.compare_collocation_results(gen_results, ref_results)
-
-
-@check_compile
-@pytest.mark.parametrize("xyz_shape", [3, 4, 5])
-def test_generator_collocation_transposed(xyz_shape):
-    cgg = gg.get_cgg_shared_object()
-
-    # Collocation data
-    npoints = 2000
-    L = 2
-    nelem = 2 * L + 1
-    order_enum = 300
-    coeffs = np.array([2.0, 1])
-    exponents = np.array([1.0, 2])
-    center = np.array([0.0, 0, 0])
-
-    # Generate random points
-    data = np.random.rand(xyz_shape, npoints)
-    xyz = data[:3].copy()
-    xyz_t = data.transpose().copy()
-
-    out = np.zeros((nelem, npoints))
-    out_t = np.zeros((nelem, npoints))
-
-    cgg.gg_collocation(
-        L,
-        npoints,
-        xyz.ravel(),
-        1,
-        coeffs.shape[0],
-        coeffs,
-        exponents,
-        center,
-        order_enum,
-        out,
-    )
-    cgg.gg_collocation(
-        L,
-        npoints,
-        xyz_t.ravel(),
-        xyz_shape,
-        coeffs.shape[0],
-        coeffs,
-        exponents,
-        center,
-        order_enum,
-        out_t,
-    )
-    th.compare_collocation_results({"PHI": out}, {"PHI": out_t})
-
-
-@check_compile
-@pytest.mark.parametrize("basis_name", test_basis_keys)
-@pytest.mark.parametrize("spherical, order_name", test_orders)
-def test_generator_orbital(basis_name, spherical, order_name):
-    kwargs = {"grad": 0, "spherical": "spherical" == spherical}
-
-    if kwargs["spherical"]:
-        kwargs["spherical_order"] = order_name
-    else:
-        kwargs["cartesian_order"] = order_name
-
-    basis = ref_basis.test_basis[basis_name]
-
-    max_L = max(x["am"] for x in basis)
-    if (order_name == "molden") and (max_L > 4):
-        pytest.skip("Molden only goes to L=4.")
-
-    t = time.time()
-    phi = gg.collocation_basis(xyzw, basis, **kwargs)["PHI"]
-    orbs = np.random.rand(5, phi.shape[0])
-    benchmark = np.dot(orbs, phi)
-    ref_time = time.time() - t
-
-    t = time.time()
-    del kwargs["grad"]
-    ref_results = gg.orbital_basis(orbs, xyzw, basis, **kwargs)
-    gg_time = time.time() - t
-
-    # Print time with py.test -s flags
-    print("")
-    print(
-        "%s-%s time REF: %8.4f GG: %8.4f" % (basis_name, spherical, ref_time, gg_time)
-    )
-    # print(benchmark)
-    # print(ref_results)
-
-    th.compare_collocation_results({"ORBITALS": benchmark}, {"ORBITALS": ref_results})
-
-
-@check_compile
-@pytest.mark.parametrize("xyz_shape", [3, 4, 5])
-def test_generator_orbital_transposed(xyz_shape):
-    cgg = gg.get_cgg_shared_object()
-
-    # Collocation data
-    npoints = 2000
-    L = 2
-    nelem = 2 * L + 1
-    order_enum = 300
-    coeffs = np.array([2.0, 1])
-    exponents = np.array([1.0, 2])
-    center = np.array([0.0, 0, 0])
-
-    C = np.random.rand(2, nelem)
-
-    # Generate random points
-    data = np.random.rand(xyz_shape, npoints)
-    xyz = data[:3].copy()
-    xyz_t = data.transpose().copy()
-
-    out = np.zeros((nelem, npoints))
-    out_t = np.zeros((nelem, npoints))
-
-    cgg.gg_orbitals(
-        L,
-        C,
-        C.shape[0],
-        npoints,
-        xyz.ravel(),
-        1,
-        coeffs.shape[0],
-        coeffs,
-        exponents,
-        center,
-        order_enum,
-        out,
-    )
-    cgg.gg_orbitals(
-        L,
-        C,
-        C.shape[0],
-        npoints,
-        xyz_t.ravel(),
-        xyz_shape,
-        coeffs.shape[0],
-        coeffs,
-        exponents,
-        center,
-        order_enum,
-        out_t,
-    )
-    th.compare_collocation_results({"ORB": out}, {"ORB": out_t})
-
-
-@check_compile
-@pytest.mark.parametrize("grad", [0, 1, 2, 3])
-def test_generator_derivs(grad):
-    kwargs = {
-        "spherical_order": "cca",
-        "cartesian_order": "cca",
-        "spherical": False,
-        "grad": grad,
-    }
-
-    basis = ref_basis.test_basis["cc-pVDZ"]
-
-    gen_results = gg.collocation_basis(xyzw, basis, **kwargs)
-    ref_results = gg.ref.collocation_basis(xyzw, basis, **kwargs)
-
-    th.compare_collocation_results(gen_results, ref_results)
-
-
-@check_compile
-@pytest.mark.parametrize("grad", [0, 1, 2, 3])
-def test_generator_derivs_spherical(grad):
-    kwargs = {
-        "spherical_order": "cca",
-        "cartesian_order": "cca",
-        "spherical": True,
-        "grad": grad,
-    }
-
-    basis = ref_basis.test_basis["cc-pVDZ"]
-
-    gen_results = gg.collocation_basis(xyzw, basis, **kwargs)
-    ref_results = gg.ref.collocation_basis(xyzw, basis, **kwargs)
-
-    th.compare_collocation_results(gen_results, ref_results)
-
-
-@check_compile
-def test_libgg_path():
-    assert "gg" in gg.cgg_path()
-
-
-@check_compile
-@pytest.mark.parametrize(
-    "am,spherical,result",
-    [
-        (0, True, 1),
-        (0, False, 1),
-        (1, True, 3),
-        (1, False, 3),
-        (2, True, 5),
-        (2, False, 6),
-        (3, True, 7),
-        (3, False, 10),
-    ],
-)
-def test_ncomponents(am, spherical, result):
-    assert gg.ncomponents(am, spherical) == result
-
-
-@check_compile
-@pytest.mark.parametrize("spherical", [True, False])
-@pytest.mark.parametrize("am", [0, 1, 2, 3, 4])
-def test_generator_orbitals_am(spherical, am):
-    kwargs = {
-        "spherical_order": "cca",
-        "cartesian_order": "cca",
-        "spherical": spherical,
-        "grad": 0,
-    }
-
-    # Build a single orbital
-    coeffs = [0.44135347600549724, 0.6934968471367846, 0.6641842253258472, 0.0001]
-    exponents = [38.36, 5.77, 1.24, 1.0e-2]
-    center = [0.0, 0.0, 0.0]
-    L = am
-
-    ret = gg.collocation(xyzw, L, coeffs, exponents, center, **kwargs)["PHI"]
-    orb = np.random.rand(3, ret.shape[0])
-    bench = np.dot(orb, ret)
-
-    del kwargs["grad"]
-    ret = gg.orbital(orb, xyzw, L, coeffs, exponents, center, **kwargs)
-
-    # Compare the results
-    th.compare_collocation_results({"ORBITALS": bench}, {"ORBITALS": ret})
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_c_generator.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_c_generator.py
deleted file mode 100644
index a30574d..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_c_generator.py
+++ /dev/null
@@ -1,47 +0,0 @@
-"""
-Compare the generated C code against the NumPy reference code.
-"""
-
-import shutil
-import tempfile
-
-import numpy as np
-import pytest
-
-import gau2grid as gg
-
-np.set_printoptions(linewidth=120, suppress=True)
-
-# Import locals
-
-# Simply test that the code runs for now
-c_gen_tests = []
-for AM in range(4):
-    for grad in range(3):
-        c_gen_tests.append((AM, grad))
-
-
-@pytest.mark.parametrize("AM,grad", c_gen_tests)
-def test_c_collocation_codgen(AM, grad):
-    cg = gg.codegen.CodeGen(cgen=True)
-    gg.c_gen.shell_c_generator(cg, AM, grad=grad)
-
-
-@pytest.mark.parametrize("AM", list(range(4)))
-def test_c_spherical_trans_codgen(AM):
-    cg = gg.codegen.CodeGen(cgen=True)
-    gg.RSH.transformation_c_generator(cg, AM, "row", "gaussian")
-
-
-def test_library_gen():
-    temp_dir = tempfile.mkdtemp()
-    gg.c_gen.generate_c_gau2grid(4, path=temp_dir)
-    shutil.rmtree(temp_dir)
-
-
-def test_pybind11_gen():
-    cg = gg.codegen.CodeGen(cgen=True)
-    gg.c_util_generator.pybind11_func(cg, "something", 0, "somthingelse", 6)
-    gg.c_util_generator.pybind11_func(cg, "something", 1, "somthingelse", 6)
-    gg.c_util_generator.pybind11_func(cg, "something", 2, "somthingelse", 6)
-    gg.c_util_generator.pybind11_transpose(cg, "t1", "t2")
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_helper.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_helper.py
deleted file mode 100644
index da0afcd..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_helper.py
+++ /dev/null
@@ -1,44 +0,0 @@
-"""
-Contains several testing helper function
-"""
-
-import glob
-import os
-
-import numpy as np
-
-
-def compare_collocation_results(test, ref):
-    if set(test) != set(ref):
-        raise KeyError("Test and Ref results dicts do not match")
-
-    for k in ref.keys():
-        match = np.allclose(test[k], ref[k], atol=1.0e-14, rtol=1.0e-10)
-        if not match:
-            tnorm = np.linalg.norm(test[k])
-            rnorm = np.linalg.norm(ref[k])
-            raise ValueError(
-                "Test (norm=%10.9f) and Ref (norm=%10.9f) results do not match for %s"
-                % (tnorm, rnorm, k)
-            )
-
-
-def find_pygau2grid():
-    """
-    Finds a compiled pygau2grid code and attempts to run it
-    """
-    base_folder = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
-
-    # Can expand this later
-    found = False
-    search_paths = ["objdir"]
-    for path in search_paths:
-        folder = os.path.join(base_folder, path)
-        find = glob.glob(os.path.join(folder, "pygau2grid") + "*.so")
-        if len(find) == 1:
-            found = os.path.dirname(find[0])
-            break
-        elif len(find) > 1:
-            raise ImportError("Found multiple pygau2grid's. How is that possible?")
-
-    return found
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_order.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_order.py
deleted file mode 100644
index b050c6c..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_order.py
+++ /dev/null
@@ -1,97 +0,0 @@
-"""
-Tests the cartesian ordering code.
-"""
-
-import pytest
-
-import gau2grid as gg
-
-_benchmark_data = {
-    "molden": {
-        0: [""],
-        1: ["X", "Y", "Z"],
-        2: ["XX", "YY", "ZZ", "XY", "XZ", "YZ"],
-        3: ["XXX", "YYY", "ZZZ", "XYY", "XXY", "XXZ", "XZZ", "YZZ", "YYZ", "XYZ"],
-        4: [
-            "XXXX",
-            "YYYY",
-            "ZZZZ",
-            "XXXY",
-            "XXXZ",
-            "XYYY",
-            "YYYZ",
-            "XZZZ",
-            "YZZZ",
-            "XXYY",
-            "XXZZ",
-            "YYZZ",
-            "XXYZ",
-            "XYYZ",
-            "XYZZ",
-        ],
-    },
-    "row": {
-        0: [""],
-        1: ["X", "Y", "Z"],
-        2: ["XX", "XY", "XZ", "YY", "YZ", "ZZ"],
-        3: ["XXX", "XXY", "XXZ", "XYY", "XYZ", "XZZ", "YYY", "YYZ", "YZZ", "ZZZ"],
-        4: [
-            "XXXX",
-            "XXXY",
-            "XXXZ",
-            "XXYY",
-            "XXYZ",
-            "XXZZ",
-            "XYYY",
-            "XYYZ",
-            "XYZZ",
-            "XZZZ",
-            "YYYY",
-            "YYYZ",
-            "YYZZ",
-            "YZZZ",
-            "ZZZZ",
-        ],
-    },
-    "libint": {
-        0: [""],
-        1: ["X", "Y", "Z"],
-        2: ["XX", "YY", "ZZ", "XY", "YZ", "XZ"],
-        3: ["XXX", "YYY", "ZZZ", "XXY", "XXZ", "XYY", "YYZ", "XZZ", "YZZ", "XYZ"],
-        4: [
-            "XXXX",
-            "YYYY",
-            "ZZZZ",
-            "XXXY",
-            "XXXZ",
-            "XYYY",
-            "YYYZ",
-            "XZZZ",
-            "YZZZ",
-            "XXYY",
-            "XXZZ",
-            "YYZZ",
-            "XXYZ",
-            "XYYZ",
-            "XYZZ",
-        ],
-    },
-}
-
-
-@pytest.mark.parametrize("order", ["molden", "row"])
-@pytest.mark.parametrize("L", [0, 1, 2, 3, 4])
-def test_cartesian_order(order, L):
-    data = _benchmark_data[order][L]
-
-    order_list = []
-    for idx, l, m, n in gg.order.cartesian_order_factory(L, order=order):
-        order = "X" * l + "Y" * m + "Z" * n
-        assert order == data[idx]
-        order_list.append(order)
-
-    # Check all values are unique
-    assert len(order_list) == len(set(order_list))
-
-    # Check all lengths are correct
-    assert all(len(x) == L for x in order_list)
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_rsh.py b/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_rsh.py
deleted file mode 100644
index c46ced2..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/tests/test_rsh.py
+++ /dev/null
@@ -1,114 +0,0 @@
-"""
-Compare the generated NumPy code against the NumPy reference code.
-"""
-
-import platform
-from decimal import Decimal
-
-import numpy as np
-import pytest
-
-np.set_printoptions(precision=30)
-
-import gau2grid as gg
-
-_benchmark = {
-    0: [[((0, 0, 0), Decimal('1.0'))]],
-    1: [[((0, 0, 1), Decimal('1.0'))],
-        [((1, 0, 0), Decimal('1.00000000000000000000000000000000000000000000000000000000000'))],
-        [((0, 1, 0), Decimal('1.00000000000000000000000000000000000000000000000000000000000'))]],
-    2: [[((2, 0, 0), Decimal('-0.50')), ((0, 2, 0), Decimal('-0.50')), ((0, 0, 2), Decimal('1.00'))], [
-         ((1, 0, 1), Decimal('1.73205080756887729352744634150587236694280525381038062805581'))],
-        [((0, 1, 1), Decimal('1.73205080756887729352744634150587236694280525381038062805581'))],
-        [((2, 0, 0), Decimal('0.866025403784438646763723170752936183471402626905190314027905')),
-         ((0, 2, 0), Decimal('-0.866025403784438646763723170752936183471402626905190314027905'))],
-        [((1, 1, 0), Decimal('1.73205080756887729352744634150587236694280525381038062805581'))]],
-    3: [[((2, 0, 1), Decimal('-1.500')), ((0, 2, 1), Decimal('-1.500')), ((0, 0, 3), Decimal('1.000'))],
-        [((3, 0, 0), Decimal('-0.612372435695794524549321018676472847991486870164167532108173')),
-         ((1, 2, 0), Decimal('-0.612372435695794524549321018676472847991486870164167532108173')),
-         ((1, 0, 2), Decimal('2.44948974278317809819728407470589139196594748065667012843269'))],
-        [((2, 1, 0), Decimal('-0.612372435695794524549321018676472847991486870164167532108173')),
-         ((0, 3, 0), Decimal('-0.612372435695794524549321018676472847991486870164167532108173')),
-         ((0, 1, 2), Decimal('2.44948974278317809819728407470589139196594748065667012843269'))],
-        [((2, 0, 1), Decimal('1.93649167310370844258963269989119980541646085264579541329378')),
-         ((0, 2, 1), Decimal('-1.93649167310370844258963269989119980541646085264579541329378'))], [
-         ((1, 1, 1), Decimal('3.87298334620741688517926539978239961083292170529159082658757'))],
-        [((3, 0, 0), Decimal('0.790569415042094832999723386108179633429888784831304206714378')),
-         ((1, 2, 0), Decimal('-2.37170824512628449899917015832453890028966635449391262014313'))],
-        [((2, 1, 0), Decimal('2.37170824512628449899917015832453890028966635449391262014313')),
-         ((0, 3, 0), Decimal('-0.790569415042094832999723386108179633429888784831304206714378'))]],
-    4: [[((4, 0, 0), Decimal('0.37500')), ((2, 2, 0), Decimal('0.7500')), ((0, 4, 0), Decimal('0.37500')),
-         ((2, 0, 2), Decimal('-3.0000')), ((0, 2, 2), Decimal('-3.0000')), ((0, 0, 4), Decimal('1.0000'))],
-        [((3, 0, 1), Decimal('-2.37170824512628449899917015832453890028966635449391262014313')),
-         ((1, 2, 1), Decimal('-2.37170824512628449899917015832453890028966635449391262014313')),
-         ((1, 0, 3), Decimal('3.16227766016837933199889354443271853371955513932521682685750'))],
-        [((2, 1, 1), Decimal('-2.37170824512628449899917015832453890028966635449391262014313')),
-         ((0, 3, 1), Decimal('-2.37170824512628449899917015832453890028966635449391262014313')),
-         ((0, 1, 3), Decimal('3.16227766016837933199889354443271853371955513932521682685750'))],
-        [((4, 0, 0), Decimal('-0.559016994374947424102293417182819058860154589902881431067725')),
-         ((0, 4, 0), Decimal('0.559016994374947424102293417182819058860154589902881431067725')),
-         ((2, 0, 2), Decimal('3.35410196624968454461376050309691435316092753941728858640634')),
-         ((0, 2, 2), Decimal('-3.35410196624968454461376050309691435316092753941728858640634'))],
-        [((3, 1, 0), Decimal('-1.11803398874989484820458683436563811772030917980576286213545')),
-         ((1, 3, 0), Decimal('-1.11803398874989484820458683436563811772030917980576286213545')),
-         ((1, 1, 2), Decimal('6.70820393249936908922752100619382870632185507883457717281269'))],
-        [((3, 0, 1), Decimal('2.09165006633518886994543006446296872348203842324668049952799')),
-         ((1, 2, 1), Decimal('-6.27495019900556660983629019338890617044611526974004149858395'))],
-        [((2, 1, 1), Decimal('6.27495019900556660983629019338890617044611526974004149858395')),
-         ((0, 3, 1), Decimal('-2.09165006633518886994543006446296872348203842324668049952799'))],
-        [((4, 0, 0), Decimal('0.739509972887452005320916036445202131051937653849292540359963')),
-         ((2, 2, 0), Decimal('-4.43705983732471203192549621867121278631162592309575524215978')),
-         ((0, 4, 0), Decimal('0.739509972887452005320916036445202131051937653849292540359963'))],
-        [((3, 1, 0), Decimal('2.95803989154980802128366414578080852420775061539717016143986')),
-         ((1, 3, 0), Decimal('-2.95803989154980802128366414578080852420775061539717016143986'))]]
-}  # yapf: disable
-
-
-def _test_shell(bench, comp):
-    comp_line = sorted(comp)
-    bench_line = sorted(bench)
-    assert len(comp_line) == len(bench_line)
-
-    for cart in range(len(comp_line)):
-        comp_coeff = comp_line[cart]
-        bench_coeff = bench_line[cart]
-
-        # Make sure cartesian alignment
-        assert comp_coeff[0] == bench_coeff[0]
-
-        # Check coefficient using Decimal tech
-        assert comp_coeff[1].quantize(bench_coeff[1]) == bench_coeff[1]
-
-    return True
-
-
-@pytest.mark.parametrize("AM", _benchmark.keys())
-def test_RSH(AM):
-    # print("AM %d" % AM)
-
-    pkl_data = gg.RSH.cart_to_RSH_coeffs(AM)
-    bench_data = _benchmark[AM]
-
-    assert len(pkl_data) == len(bench_data)
-    for sph in range(len(pkl_data)):
-        assert _test_shell(bench_data[sph], pkl_data[sph])
-
-
-def test_RSH_order_p():
-    gaus = gg.RSH.cart_to_RSH_coeffs(1, order="gaussian")
-    cca = gg.RSH.cart_to_RSH_coeffs(1, order="cca")
-
-    assert _test_shell(gaus[0], cca[1])
-    assert _test_shell(gaus[1], cca[2])
-    assert _test_shell(gaus[2], cca[0])
-
-
-def test_RSH_order_d():
-    gaus = gg.RSH.cart_to_RSH_coeffs(2, order="gaussian")
-    cca = gg.RSH.cart_to_RSH_coeffs(2, order="cca")
-
-    assert _test_shell(gaus[0], cca[2])
-    assert _test_shell(gaus[1], cca[3])
-    assert _test_shell(gaus[2], cca[1])
-    assert _test_shell(gaus[3], cca[4])
-    assert _test_shell(gaus[4], cca[0])
diff --git a/third_party/gauxc/external/gau2grid/src/gau2grid/utility.py b/third_party/gauxc/external/gau2grid/src/gau2grid/utility.py
deleted file mode 100644
index b9f6359..0000000
--- a/third_party/gauxc/external/gau2grid/src/gau2grid/utility.py
+++ /dev/null
@@ -1,248 +0,0 @@
-"""
-Provides utility functions for the gau2grid program
-"""
-
-import numpy as np
-
-
-def get_deriv_indices(grad):
-    """
-    Returns the indices of the derivatives involved in the grid derivatives
-
-    Examples
-    --------
-    >>> get_deriv_indices(1)
-    ["x", "y", "z"]
-    """
-    if grad == 0:
-        return []
-    elif grad == 1:
-        return ["x", "y", "z"]
-    elif grad == 2:
-        return ["x", "y", "z", "xx", "xy", "xz", "yy", "yz", "zz"]
-    elif grad == 3:
-        return [
-            "x",
-            "y",
-            "z",
-            "xx",
-            "xy",
-            "xz",
-            "yy",
-            "yz",
-            "zz",
-            "xxx",
-            "xxy",
-            "xxz",
-            "xyy",
-            "xyz",
-            "xzz",
-            "yyy",
-            "yyz",
-            "yzz",
-            "zzz",
-        ]
-    else:
-        raise ValueError("Only grid derivatives up to grad=3 are supported.")
-
-
-def get_output_keys(grad):
-    """
-    Returns the output keys required for a given derivative
-
-    Examples
-    --------
-    >>> get_output_keys(1)
-    ["PHI", "PHI_X", "PHI_Y", "PHI_Z"]
-    """
-
-    phi = ["PHI"]
-
-    if grad == 0:
-        return phi
-
-    deriv_keys = ["PHI_" + x.upper() for x in get_deriv_indices(grad)]
-    return phi + deriv_keys
-
-
-def validate_coll_output(grad, shape, out):
-    """
-    Validates the a collocation output, constructs a new
-    output array if necessary
-    """
-    keys_needed = get_output_keys(grad)
-    if out is None:
-        out = {k: np.zeros(shape) for k in keys_needed}
-    else:
-        if not isinstance(out, dict):
-            raise TypeError("Output parameter must be a dictionary.")
-        missing = set(keys_needed) - set(out)
-        if len(missing):
-            raise KeyError("Missing output keys '%s'" % str(missing))
-
-        for key in keys_needed:
-            out[key] = np.asarray(out[key])
-            if out[key].shape != shape:
-                raise ValueError(
-                    "Shape of each output array must be (ntotal, npoints). Shape of key '%s' is incorrect."
-                    % key
-                )
-    return out
-
-
-def nspherical(L):
-    """
-    Computes the number of spherical functions for a given angular momentum.
-
-    Parameters
-    ----------
-    L : int
-        The input angular momentum
-
-    Returns
-    -------
-    nspherical : int
-        The number of spherical functions
-    """
-
-    return L * 2 + 1
-
-
-def ncartesian(L):
-    """
-    Computes the number of cartesian functions for a given angular momentum.
-
-    Parameters
-    ----------
-    L : int
-        The input angular momentum
-
-    Returns
-    -------
-    ncartesian : int
-        The number of cartesian functions
-    """
-
-    return int((L + 1) * (L + 2) / 2)
-
-
-def _parse_basis(basis, spherical):
-    # Check the basis
-    parsed_basis = []
-    for num, func in enumerate(basis):
-        # TODO more checks
-
-        # Either list or dict form
-        if isinstance(func, (list, tuple)):
-            if len(func) != 4:
-                raise ValueError(
-                    "Basis should have 4 components (L, coeffs, exponents, center)."
-                )
-            parsed_basis.append(func)
-
-        elif isinstance(func, dict):
-            missing = {"am", "coef", "exp", "center"} - set(func)
-            if len(missing):
-                raise KeyError("Missing function keys '%s'" % str(missing))
-
-            tmp = [func["am"], func["coef"], func["exp"], func["center"]]
-            parsed_basis.append(tmp)
-        else:
-            raise TypeError("Basis type not recognized!")
-
-    # The total number of output parameters
-    if spherical:
-        nfunc = [nspherical(func[0]) for func in parsed_basis]
-        ntotal = sum(nfunc)
-    else:
-        nfunc = [ncartesian(func[0]) for func in parsed_basis]
-        ntotal = sum(nfunc)
-
-    return parsed_basis, nfunc, ntotal
-
-
-def wrap_basis_collocation(
-    coll_function, xyz, basis, grad, spherical, out, cartesian_order, spherical_order
-):
-    """
-    Wraps collocation computers to apply to entire basis sets.
-
-    Expects the basis to take the form of:
-        [L, coeffs, exponents, center]
-    """
-
-    # A few checkers
-    if grad > 3:
-        raise IndexError("Can only compute up to 3rd derivatives of the grid (grad=3).")
-
-    parsed_basis, nfunc, ntotal = _parse_basis(basis, spherical)
-    npoints = xyz.shape[1]
-
-    # Handle output
-    out = validate_coll_output(grad, (ntotal, npoints), out)
-
-    # Loop over functions in the basis set
-    start = 0
-    for n, func in enumerate(parsed_basis):
-        # Build slice
-        nvals = nfunc[n]
-        sl = slice(start, start + nvals)
-        start += nvals
-
-        # Build temporary output views
-        tmp_out = {k: v[sl] for k, v in out.items()}
-
-        coll_function(
-            xyz,
-            *func,
-            grad=grad,
-            spherical=spherical,
-            out=tmp_out,
-            cartesian_order=cartesian_order,
-            spherical_order=spherical_order,
-        )
-
-    return out
-
-
-def wrap_basis_orbital(
-    orbital_function, orbs, xyz, basis, spherical, out, cartesian_order, spherical_order
-):
-    """
-    Wraps orbital computers to apply to entire basis sets.
-
-    Expects the basis to take the form of:
-        [L, coeffs, exponents, center]
-    """
-
-    parsed_basis, nfunc, ntotal = _parse_basis(basis, spherical)
-    npoints = xyz.shape[1]
-    norbs = orbs.shape[0]
-
-    # Handle output
-    if out is not None:
-        out = {"PHI": out}
-    out = validate_coll_output(0, (norbs, npoints), out)["PHI"]
-
-    # Loop over functions in the basis set
-    start = 0
-    for n, func in enumerate(parsed_basis):
-        # Build slice
-        nvals = nfunc[n]
-        sl = slice(start, start + nvals)
-        start += nvals
-
-        # Build temporary output views
-        tmp_orbs = np.array(orbs[:, sl])
-
-        orbital_function(
-            tmp_orbs,
-            xyz,
-            *func,
-            spherical=spherical,
-            out=out,
-            cartesian_order=cartesian_order,
-            spherical_order=spherical_order,
-        )
-
-    return out
diff --git a/third_party/gauxc/external/gau2grid/src/make_source.py b/third_party/gauxc/external/gau2grid/src/make_source.py
deleted file mode 100644
index e5f88c8..0000000
--- a/third_party/gauxc/external/gau2grid/src/make_source.py
+++ /dev/null
@@ -1,3 +0,0 @@
-import gau2grid as gg
-
-gg.c_gen.generate_c_gau2grid(2, path="build_tmp")
diff --git a/third_party/gauxc/external/gau2grid/src/readthedocs.yml b/third_party/gauxc/external/gau2grid/src/readthedocs.yml
deleted file mode 100644
index 0ef4b3e..0000000
--- a/third_party/gauxc/external/gau2grid/src/readthedocs.yml
+++ /dev/null
@@ -1,4 +0,0 @@
-conda:
-    file: docs/requirements.yml
-python:
-    version: 3
diff --git a/third_party/gauxc/external/gau2grid/src/scripts/make_release_sources.py b/third_party/gauxc/external/gau2grid/src/scripts/make_release_sources.py
deleted file mode 100644
index 6847d21..0000000
--- a/third_party/gauxc/external/gau2grid/src/scripts/make_release_sources.py
+++ /dev/null
@@ -1,41 +0,0 @@
-import os
-import shutil
-import tempfile
-import zipfile
-from pathlib import Path
-
-import gau2grid as gg
-
-am_list = [6, 8]
-
-for am in am_list:
-    folder = f"gau2grid-am{am}-{gg.__version__}"
-    zip_filename = folder + ".zip"
-    zipf = zipfile.ZipFile(zip_filename, "w", zipfile.ZIP_DEFLATED)
-
-    path = Path(folder)
-    path.mkdir(parents=True)
-    gg.c_gen.generate_c_gau2grid(am, path=path.resolve())
-
-    for filename in path.iterdir():
-        zipf.write(filename)
-
-    shutil.rmtree(path.resolve())
-
-#    with tempfile.TemporaryDirectory() as tmp:
-#        os.chdir(tmp)
-#
-#        folder = f"gau2grid-am{am}-{gg.__version__}"
-#        zip_filename = folder + '.zip'
-#        zip_path = os.path.join(tmp, zip_filename)
-#        zipf = zipfile.ZipFile(zip_path, 'w', zipfile.ZIP_DEFLATED)
-#
-#        path = Path(tmp) / folder
-#        path.mkdir(parents=True)
-#        gg.c_gen.generate_c_gau2grid(am, path=path.resolve())
-#
-#        for filename in path.iterdir():
-#            arcname = os.path.join(*str(filename).split(os.path.sep)[-2:])
-#            print(filename, arcname)
-#            zipf.write(filename, arcname=arcname)
-#
diff --git a/third_party/gauxc/external/gau2grid/src/scripts/rsh_coef_gen.py b/third_party/gauxc/external/gau2grid/src/scripts/rsh_coef_gen.py
deleted file mode 100644
index d46300e..0000000
--- a/third_party/gauxc/external/gau2grid/src/scripts/rsh_coef_gen.py
+++ /dev/null
@@ -1,30 +0,0 @@
-"""
-Builds a new RSH dictionary for gau2grid.
-"""
-
-import decimal
-import pickle
-import time
-
-import gau2grid
-import numpy as np
-
-np.set_printoptions(precision=60)
-
-t = time.time()
-rsh_dict = {}
-for AM in range(9):
-    print("AM %d" % AM)
-    data = gau2grid.RSH.cart_to_RSH_coeffs(AM, gen=True)
-    rsh_dict[AM] = data
-print(time.time() - t)
-
-with open("rsh_coeffs.pkl", "wb") as handle:
-    pickle.dump(rsh_dict, handle, protocol=2)
-
-
-with open("rsh_coeffs.pkl", "rb") as handle:
-    data = pickle.load(handle)
-
-for x in range(5):
-    print(data[x])
diff --git a/third_party/gauxc/external/gau2grid/src/scripts/time_compare.py b/third_party/gauxc/external/gau2grid/src/scripts/time_compare.py
deleted file mode 100644
index 105e7e5..0000000
--- a/third_party/gauxc/external/gau2grid/src/scripts/time_compare.py
+++ /dev/null
@@ -1,159 +0,0 @@
-import time
-
-import numpy as np
-
-np.random.seed(0)
-
-import gau2grid as gg
-
-### Options
-
-# npoints = int(5)
-npoints = int(1.0e5)
-
-L = 2
-nprim = 1
-
-spherical = False
-spherical = True
-
-do_transpose = False
-# do_transpose = True
-
-### Test
-
-xyz = np.random.rand(3, npoints)
-
-grad_inds = ["PHI_X", "PHI_Y", "PHI_Z"]
-hess_inds = ["PHI_XX", "PHI_XY", "PHI_XZ", "PHI_YY", "PHI_YZ", "PHI_ZZ"]
-
-
-def compare(test, ref, grad):
-    """
-    Compares two results
-    """
-    print("%-6s %s" % ("PHI", np.allclose(test["PHI"], ref["PHI"])))
-    if grad > 0:
-        print("--")
-        for key in grad_inds:
-            print("%-6s %s" % (key, np.allclose(test[key], ref[key])))
-    if grad > 1:
-        print("--")
-        for key in hess_inds:
-            print("%-6s %s" % (key, np.allclose(test[key], ref[key])))
-
-
-def transpose_dict(inp, out):
-    return
-
-
-# pygg.fast_transpose(inp[k], out[k])
-
-
-def build_out(nvals, npoints, grad):
-    """
-    Builds output zeros to prevent cost effecting timings
-    """
-    inds = ["PHI"]
-    if grad > 0:
-        inds += grad_inds
-    if grad > 1:
-        inds += hess_inds
-
-    return {k: np.zeros((nvals, npoints)) for k in inds}
-
-
-ncart = int((L + 1) * (L + 2) / 2)
-nsph = L * 2 + 1
-
-nvals = ncart
-if spherical:
-    nvals = nsph
-
-coefs = np.arange(nprim, dtype=np.double) + 1
-exps = np.arange(nprim, dtype=np.double) + 2
-# center = np.array([5, 5, 5])
-center = np.array([0, 0, 0], dtype=np.double)
-
-### Points
-
-# Call pyGG
-gg_out = build_out(nvals, npoints, 0)
-tran_out = build_out(npoints, nvals, 0)
-t = time.time()
-if do_transpose:
-    transpose_dict(gg_out, tran_out)
-
-gg.collocation(xyz, L, coefs, exps, center, grad=0, spherical=spherical, out=gg_out)
-# gg_out["PHI"] = gg_out["PHI"].copy().reshape(npoints, nvals).T
-ctime = time.time() - t
-
-# Call NP GG
-t = time.time()
-np_out = gg.ref.collocation(
-    xyz, L, coefs, exps, center, grad=0, spherical=spherical, cartesian_order="row"
-)
-pytime = time.time() - t
-
-# print(c_out.shape)
-# print(np_out["PHI"].shape)
-print("PHI")
-compare(gg_out, np_out, 0)
-# print(np_out["PHI"])
-# print(gg_out["PHI"])
-
-print("C time  %12.6f" % ctime)
-print("Py time %12.6f" % pytime)
-print("Ratio   %12.6f" % (pytime / ctime))
-
-### Derivatives
-
-print("\nDerivative")
-# Call pyGG
-gg_out = build_out(nvals, npoints, 1)
-tran_out = build_out(npoints, nvals, 1)
-t = time.time()
-if do_transpose:
-    transpose_dict(gg_out, tran_out)
-gg.collocation(xyz, L, coefs, exps, center, grad=1, spherical=spherical, out=gg_out)
-ctime = time.time() - t
-
-# Call NP GG
-t = time.time()
-np_out = gg.ref.collocation(
-    xyz, L, coefs, exps, center, grad=1, spherical=spherical, cartesian_order="row"
-)
-pytime = time.time() - t
-
-compare(gg_out, np_out, 1)
-
-print("C time  %12.6f" % ctime)
-print("Py time %12.6f" % pytime)
-print("Ratio   %12.6f" % (pytime / ctime))
-
-### Hessian
-
-print("\nHessian")
-gg_out = build_out(nvals, npoints, 2)
-tran_out = build_out(npoints, nvals, 2)
-t = time.time()
-gg.collocation(xyz, L, coefs, exps, center, grad=2, spherical=spherical, out=gg_out)
-if do_transpose:
-    transpose_dict(gg_out, tran_out)
-ctime = time.time() - t
-
-# Call NP GG
-t = time.time()
-np_out = gg.ref.collocation(
-    xyz, L, coefs, exps, center, grad=2, spherical=spherical, cartesian_order="row"
-)
-pytime = time.time() - t
-# print(np_out["PHI_X"])
-# print(np_out["PHI_Y"])
-# print(np_out["PHI_Z"])
-
-compare(gg_out, np_out, 2)
-
-print("C time  %12.6f" % ctime)
-print("Py time %12.6f" % pytime)
-print("Ratio   %12.6f" % (pytime / ctime))
diff --git a/third_party/gauxc/external/gau2grid/src/setup.cfg b/third_party/gauxc/external/gau2grid/src/setup.cfg
deleted file mode 100644
index b3ea2f7..0000000
--- a/third_party/gauxc/external/gau2grid/src/setup.cfg
+++ /dev/null
@@ -1,27 +0,0 @@
-# Helper file to handle all configs
-
-[coverage:run]
-# .coveragerc to control coverage.py and pytest-cov
-# Omit the test directory from test coverage
-omit =
-    */tests/*
-    gau2grid/_version.py
-
-
-[yapf]
-# YAPF, in .style.yapf files this shows up as "[style]" header
-COLUMN_LIMIT = 119
-INDENT_WIDTH = 4
-USE_TABS = False
-
-[flake8]
-# Flake8, PyFlakes, etc
-max-line-length = 119
-
-[versioneer]
-# Automatic version numbering scheme
-VCS = git
-style = pep440
-versionfile_source = gau2grid/_version.py
-versionfile_build = gau2grid/_version.py
-tag_prefix = ''
diff --git a/third_party/gauxc/external/gau2grid/src/setup.py b/third_party/gauxc/external/gau2grid/src/setup.py
deleted file mode 100644
index f609060..0000000
--- a/third_party/gauxc/external/gau2grid/src/setup.py
+++ /dev/null
@@ -1,163 +0,0 @@
-import os
-import platform
-import re
-import subprocess
-import sys
-from distutils.version import LooseVersion
-
-import versioneer
-from setuptools import Extension, find_packages, setup
-from setuptools.command.build_ext import build_ext
-
-
-class CMakeExtension(Extension):
-    def __init__(self, name, sourcedir=""):
-        Extension.__init__(self, name, sources=[])
-        self.sourcedir = os.path.abspath(sourcedir)
-
-
-class CMakeBuild(build_ext):
-    def run(self):
-        try:
-            out = subprocess.check_output(["cmake", "--version"])
-        except OSError:
-            raise RuntimeError(
-                "CMake must be installed to build the following extensions: "
-                + ", ".join(e.name for e in self.extensions)
-            )
-
-        if platform.system() == "Windows":
-            cmake_version = LooseVersion(
-                re.search(r"version\s*([\d.]+)", out.decode()).group(1)
-            )
-            if cmake_version < "3.1.0":
-                raise RuntimeError("CMake >= 3.1.0 is required on Windows")
-
-        for ext in self.extensions:
-            self.build_extension(ext)
-
-    def build_extension(self, ext):
-        global cmake_args
-        bypass_install = cmake_args.pop("-DBYPASS_INSTALL")
-
-        internal_cmake_args = ["-DPYTHON_EXECUTABLE=" + sys.executable]
-        internal_cmake_args += [k + "=" + v for k, v in cmake_args.items() if v]
-
-        cfg = "Debug" if self.debug else "Release"
-        build_args = ["--config", cfg]
-
-        if platform.system() == "Windows":
-            if sys.maxsize > 2**32:
-                cmake_args += ["-A", "x64"]
-            build_args += ["--", "/m"]
-        else:
-            internal_cmake_args += ["-DCMAKE_BUILD_TYPE=" + cfg]
-            build_args += ["--", "-j2"]
-
-        env = os.environ.copy()
-        env["CXXFLAGS"] = '{} -DVERSION_INFO=\\"{}\\"'.format(
-            env.get("CXXFLAGS", ""), self.distribution.get_version()
-        )
-        if not os.path.exists(self.build_temp):
-            os.makedirs(self.build_temp)
-        subprocess.check_call(
-            ["cmake", ext.sourcedir] + internal_cmake_args, cwd=self.build_temp, env=env
-        )
-        subprocess.check_call(
-            ["cmake", "--build", "."] + build_args, cwd=self.build_temp
-        )
-        if not bypass_install:
-            subprocess.check_call(
-                ["cmake", "--build", ".", "--target", "install"], cwd=self.build_temp
-            )
-
-
-if __name__ == "__main__":
-    # Valid CMake args
-    valid_args = {
-        "-DCMAKE_BUILD_TYPE": "Release",
-        "-DENABLE_XHOST": "ON",
-        "-DMAX_AM": "6",
-        "-DCMAKE_C_FLAGS": False,
-        "-DCMAKE_C_COMPILER": False,
-        "-DCMAKE_PREFIX_PATH": False,
-        "-DNATIVE_PYTHON_INSTALL_WITH_LIB": "OFF",
-        "-DBYPASS_INSTALL": False,
-    }
-    invalid_args = {
-        "-DBUILD_SHARED_LIBS": "ON",
-        "-DENABLE_GENERIC": "OFF",
-        "-DBUILD_FPIC": "ON",
-        "-DINSTALL_PYMOD": "ON",
-        "-DNATIVE_PYTHON_INSTALL": "ON",
-    }
-    cmake_args = valid_args.copy()
-    cmake_args.update(invalid_args)
-
-    # Parse out CMake args
-    setup_args = []
-    for arg in sys.argv:
-        if "-D" not in arg:
-            setup_args.append(arg)
-            continue
-
-        split_arg = [x.strip() for x in arg.split("=")]
-        if len(split_arg) != 2:
-            raise KeyError("CMake argument %s not understood." % arg)
-        key, value = split_arg
-
-        if key not in cmake_args:
-            raise KeyError("CMake argument %s not understood." % arg)
-
-        if key in invalid_args:
-            raise KeyError(
-                "CMake argument %s cannot be changed with Python builds." % key
-            )
-
-        cmake_args[key] = value
-
-    sys.argv = setup_args
-
-    # Build full cmdclass
-    cmdclass = versioneer.get_cmdclass()
-    cmdclass["build_ext"] = CMakeBuild
-
-    setup(
-        name="gau2grid",
-        version=versioneer.get_version(),
-        description="Fast computation of a gaussian and its derivative on a grid.",
-        author="Daniel G. A. Smith",
-        author_email="dgasmith@icloud.com",
-        url="https://github.com/dgasmith/gau2grid",
-        license="BSD-3C",
-        packages=find_packages(),
-        include_package_data=True,
-        ext_modules=[CMakeExtension("gau2grid.gg")],
-        cmdclass=cmdclass,
-        install_requires=[
-            "numpy>=1.7",
-        ],
-        extras_require={
-            "docs": [
-                "sphinx==1.2.3",  # autodoc was broken in 1.3.1
-                "sphinxcontrib-napoleon",
-                "sphinx_rtd_theme",
-                "numpydoc",
-            ],
-            "tests": [
-                "pytest",
-                "pytest-cov",
-            ],
-        },
-        tests_require=[
-            "pytest",
-            "pytest-cov",
-        ],
-        classifiers=[
-            "Development Status :: 4 - Beta",
-            "Intended Audience :: Science/Research",
-            "Programming Language :: Python :: 2.7",
-            "Programming Language :: Python :: 3",
-        ],
-        zip_safe=False,
-    )
diff --git a/third_party/gauxc/external/gau2grid/src/versioneer.py b/third_party/gauxc/external/gau2grid/src/versioneer.py
deleted file mode 100644
index eca47ed..0000000
--- a/third_party/gauxc/external/gau2grid/src/versioneer.py
+++ /dev/null
@@ -1,1882 +0,0 @@
-# Version: 0.18
-
-"""The Versioneer - like a rocketeer, but for versions.
-
-The Versioneer
-==============
-
-* like a rocketeer, but for versions!
-* https://github.com/warner/python-versioneer
-* Brian Warner
-* License: Public Domain
-* Compatible With: python2.6, 2.7, 3.2, 3.3, 3.4, 3.5, 3.6, and pypy
-* [![Latest Version]
-(https://pypip.in/version/versioneer/badge.svg?style=flat)
-](https://pypi.python.org/pypi/versioneer/)
-* [![Build Status]
-(https://travis-ci.org/warner/python-versioneer.png?branch=master)
-](https://travis-ci.org/warner/python-versioneer)
-
-This is a tool for managing a recorded version number in distutils-based
-python projects. The goal is to remove the tedious and error-prone "update
-the embedded version string" step from your release process. Making a new
-release should be as easy as recording a new tag in your version-control
-system, and maybe making new tarballs.
-
-
-## Quick Install
-
-* `pip install versioneer` to somewhere to your $PATH
-* add a `[versioneer]` section to your setup.cfg (see below)
-* run `versioneer install` in your source tree, commit the results
-
-## Version Identifiers
-
-Source trees come from a variety of places:
-
-* a version-control system checkout (mostly used by developers)
-* a nightly tarball, produced by build automation
-* a snapshot tarball, produced by a web-based VCS browser, like github's
-  "tarball from tag" feature
-* a release tarball, produced by "setup.py sdist", distributed through PyPI
-
-Within each source tree, the version identifier (either a string or a number,
-this tool is format-agnostic) can come from a variety of places:
-
-* ask the VCS tool itself, e.g. "git describe" (for checkouts), which knows
-  about recent "tags" and an absolute revision-id
-* the name of the directory into which the tarball was unpacked
-* an expanded VCS keyword ($Id$, etc)
-* a `_version.py` created by some earlier build step
-
-For released software, the version identifier is closely related to a VCS
-tag. Some projects use tag names that include more than just the version
-string (e.g. "myproject-1.2" instead of just "1.2"), in which case the tool
-needs to strip the tag prefix to extract the version identifier. For
-unreleased software (between tags), the version identifier should provide
-enough information to help developers recreate the same tree, while also
-giving them an idea of roughly how old the tree is (after version 1.2, before
-version 1.3). Many VCS systems can report a description that captures this,
-for example `git describe --tags --dirty --always` reports things like
-"0.7-1-g574ab98-dirty" to indicate that the checkout is one revision past the
-0.7 tag, has a unique revision id of "574ab98", and is "dirty" (it has
-uncommitted changes.
-
-The version identifier is used for multiple purposes:
-
-* to allow the module to self-identify its version: `myproject.__version__`
-* to choose a name and prefix for a 'setup.py sdist' tarball
-
-## Theory of Operation
-
-Versioneer works by adding a special `_version.py` file into your source
-tree, where your `__init__.py` can import it. This `_version.py` knows how to
-dynamically ask the VCS tool for version information at import time.
-
-`_version.py` also contains `$Revision$` markers, and the installation
-process marks `_version.py` to have this marker rewritten with a tag name
-during the `git archive` command. As a result, generated tarballs will
-contain enough information to get the proper version.
-
-To allow `setup.py` to compute a version too, a `versioneer.py` is added to
-the top level of your source tree, next to `setup.py` and the `setup.cfg`
-that configures it. This overrides several distutils/setuptools commands to
-compute the version when invoked, and changes `setup.py build` and `setup.py
-sdist` to replace `_version.py` with a small static file that contains just
-the generated version data.
-
-## Installation
-
-See [INSTALL.md](./INSTALL.md) for detailed installation instructions.
-
-## Version-String Flavors
-
-Code which uses Versioneer can learn about its version string at runtime by
-importing `_version` from your main `__init__.py` file and running the
-`get_versions()` function. From the "outside" (e.g. in `setup.py`), you can
-import the top-level `versioneer.py` and run `get_versions()`.
-
-Both functions return a dictionary with different flavors of version
-information:
-
-* `['version']`: A condensed version string, rendered using the selected
-  style. This is the most commonly used value for the project's version
-  string. The default "pep440" style yields strings like `0.11`,
-  `0.11+2.g1076c97`, or `0.11+2.g1076c97.dirty`. See the "Styles" section
-  below for alternative styles.
-
-* `['full-revisionid']`: detailed revision identifier. For Git, this is the
-  full SHA1 commit id, e.g. "1076c978a8d3cfc70f408fe5974aa6c092c949ac".
-
-* `['date']`: Date and time of the latest `HEAD` commit. For Git, it is the
-  commit date in ISO 8601 format. This will be None if the date is not
-  available.
-
-* `['dirty']`: a boolean, True if the tree has uncommitted changes. Note that
-  this is only accurate if run in a VCS checkout, otherwise it is likely to
-  be False or None
-
-* `['error']`: if the version string could not be computed, this will be set
-  to a string describing the problem, otherwise it will be None. It may be
-  useful to throw an exception in setup.py if this is set, to avoid e.g.
-  creating tarballs with a version string of "unknown".
-
-Some variants are more useful than others. Including `full-revisionid` in a
-bug report should allow developers to reconstruct the exact code being tested
-(or indicate the presence of local changes that should be shared with the
-developers). `version` is suitable for display in an "about" box or a CLI
-`--version` output: it can be easily compared against release notes and lists
-of bugs fixed in various releases.
-
-The installer adds the following text to your `__init__.py` to place a basic
-version in `YOURPROJECT.__version__`:
-
-    from ._version import get_versions
-    __version__ = get_versions()['version']
-    del get_versions
-
-## Styles
-
-The setup.cfg `style=` configuration controls how the VCS information is
-rendered into a version string.
-
-The default style, "pep440", produces a PEP440-compliant string, equal to the
-un-prefixed tag name for actual releases, and containing an additional "local
-version" section with more detail for in-between builds. For Git, this is
-TAG[+DISTANCE.gHEX[.dirty]] , using information from `git describe --tags
---dirty --always`. For example "0.11+2.g1076c97.dirty" indicates that the
-tree is like the "1076c97" commit but has uncommitted changes (".dirty"), and
-that this commit is two revisions ("+2") beyond the "0.11" tag. For released
-software (exactly equal to a known tag), the identifier will only contain the
-stripped tag, e.g. "0.11".
-
-Other styles are available. See [details.md](details.md) in the Versioneer
-source tree for descriptions.
-
-## Debugging
-
-Versioneer tries to avoid fatal errors: if something goes wrong, it will tend
-to return a version of "0+unknown". To investigate the problem, run `setup.py
-version`, which will run the version-lookup code in a verbose mode, and will
-display the full contents of `get_versions()` (including the `error` string,
-which may help identify what went wrong).
-
-## Known Limitations
-
-Some situations are known to cause problems for Versioneer. This details the
-most significant ones. More can be found on Github
-[issues page](https://github.com/warner/python-versioneer/issues).
-
-### Subprojects
-
-Versioneer has limited support for source trees in which `setup.py` is not in
-the root directory (e.g. `setup.py` and `.git/` are *not* siblings). The are
-two common reasons why `setup.py` might not be in the root:
-
-* Source trees which contain multiple subprojects, such as
-  [Buildbot](https://github.com/buildbot/buildbot), which contains both
-  "master" and "slave" subprojects, each with their own `setup.py`,
-  `setup.cfg`, and `tox.ini`. Projects like these produce multiple PyPI
-  distributions (and upload multiple independently-installable tarballs).
-* Source trees whose main purpose is to contain a C library, but which also
-  provide bindings to Python (and perhaps other langauges) in subdirectories.
-
-Versioneer will look for `.git` in parent directories, and most operations
-should get the right version string. However `pip` and `setuptools` have bugs
-and implementation details which frequently cause `pip install .` from a
-subproject directory to fail to find a correct version string (so it usually
-defaults to `0+unknown`).
-
-`pip install --editable .` should work correctly. `setup.py install` might
-work too.
-
-Pip-8.1.1 is known to have this problem, but hopefully it will get fixed in
-some later version.
-
-[Bug #38](https://github.com/warner/python-versioneer/issues/38) is tracking
-this issue. The discussion in
-[PR #61](https://github.com/warner/python-versioneer/pull/61) describes the
-issue from the Versioneer side in more detail.
-[pip PR#3176](https://github.com/pypa/pip/pull/3176) and
-[pip PR#3615](https://github.com/pypa/pip/pull/3615) contain work to improve
-pip to let Versioneer work correctly.
-
-Versioneer-0.16 and earlier only looked for a `.git` directory next to the
-`setup.cfg`, so subprojects were completely unsupported with those releases.
-
-### Editable installs with setuptools <= 18.5
-
-`setup.py develop` and `pip install --editable .` allow you to install a
-project into a virtualenv once, then continue editing the source code (and
-test) without re-installing after every change.
-
-"Entry-point scripts" (`setup(entry_points={"console_scripts": ..})`) are a
-convenient way to specify executable scripts that should be installed along
-with the python package.
-
-These both work as expected when using modern setuptools. When using
-setuptools-18.5 or earlier, however, certain operations will cause
-`pkg_resources.DistributionNotFound` errors when running the entrypoint
-script, which must be resolved by re-installing the package. This happens
-when the install happens with one version, then the egg_info data is
-regenerated while a different version is checked out. Many setup.py commands
-cause egg_info to be rebuilt (including `sdist`, `wheel`, and installing into
-a different virtualenv), so this can be surprising.
-
-[Bug #83](https://github.com/warner/python-versioneer/issues/83) describes
-this one, but upgrading to a newer version of setuptools should probably
-resolve it.
-
-### Unicode version strings
-
-While Versioneer works (and is continually tested) with both Python 2 and
-Python 3, it is not entirely consistent with bytes-vs-unicode distinctions.
-Newer releases probably generate unicode version strings on py2. It's not
-clear that this is wrong, but it may be surprising for applications when then
-write these strings to a network connection or include them in bytes-oriented
-APIs like cryptographic checksums.
-
-[Bug #71](https://github.com/warner/python-versioneer/issues/71) investigates
-this question.
-
-
-## Updating Versioneer
-
-To upgrade your project to a new release of Versioneer, do the following:
-
-* install the new Versioneer (`pip install -U versioneer` or equivalent)
-* edit `setup.cfg`, if necessary, to include any new configuration settings
-  indicated by the release notes. See [UPGRADING](./UPGRADING.md) for details.
-* re-run `versioneer install` in your source tree, to replace
-  `SRC/_version.py`
-* commit any changed files
-
-## Future Directions
-
-This tool is designed to make it easily extended to other version-control
-systems: all VCS-specific components are in separate directories like
-src/git/ . The top-level `versioneer.py` script is assembled from these
-components by running make-versioneer.py . In the future, make-versioneer.py
-will take a VCS name as an argument, and will construct a version of
-`versioneer.py` that is specific to the given VCS. It might also take the
-configuration arguments that are currently provided manually during
-installation by editing setup.py . Alternatively, it might go the other
-direction and include code from all supported VCS systems, reducing the
-number of intermediate scripts.
-
-
-## License
-
-To make Versioneer easier to embed, all its code is dedicated to the public
-domain. The `_version.py` that it creates is also in the public domain.
-Specifically, both are released under the Creative Commons "Public Domain
-Dedication" license (CC0-1.0), as described in
-https://creativecommons.org/publicdomain/zero/1.0/ .
-
-"""
-
-from __future__ import print_function
-
-try:
-    import configparser
-except ImportError:
-    import ConfigParser as configparser
-import errno
-import json
-import os
-import re
-import subprocess
-import sys
-
-
-class VersioneerConfig:
-    """Container for Versioneer configuration parameters."""
-
-
-def get_root():
-    """Get the project root directory.
-
-    We require that all commands are run from the project root, i.e. the
-    directory that contains setup.py, setup.cfg, and versioneer.py .
-    """
-    root = os.path.realpath(os.path.abspath(os.getcwd()))
-    setup_py = os.path.join(root, "setup.py")
-    versioneer_py = os.path.join(root, "versioneer.py")
-    if not (os.path.exists(setup_py) or os.path.exists(versioneer_py)):
-        # allow 'python path/to/setup.py COMMAND'
-        root = os.path.dirname(os.path.realpath(os.path.abspath(sys.argv[0])))
-        setup_py = os.path.join(root, "setup.py")
-        versioneer_py = os.path.join(root, "versioneer.py")
-    if not (os.path.exists(setup_py) or os.path.exists(versioneer_py)):
-        err = (
-            "Versioneer was unable to run the project root directory. "
-            "Versioneer requires setup.py to be executed from "
-            "its immediate directory (like 'python setup.py COMMAND'), "
-            "or in a way that lets it use sys.argv[0] to find the root "
-            "(like 'python path/to/setup.py COMMAND')."
-        )
-        raise VersioneerBadRootError(err)
-    try:
-        # Certain runtime workflows (setup.py install/develop in a setuptools
-        # tree) execute all dependencies in a single python process, so
-        # "versioneer" may be imported multiple times, and python's shared
-        # module-import table will cache the first one. So we can't use
-        # os.path.dirname(__file__), as that will find whichever
-        # versioneer.py was first imported, even in later projects.
-        me = os.path.realpath(os.path.abspath(__file__))
-        me_dir = os.path.normcase(os.path.splitext(me)[0])
-        vsr_dir = os.path.normcase(os.path.splitext(versioneer_py)[0])
-        if me_dir != vsr_dir:
-            print(
-                "Warning: build in %s is using versioneer.py from %s"
-                % (os.path.dirname(me), versioneer_py)
-            )
-    except NameError:
-        pass
-    return root
-
-
-def get_config_from_root(root):
-    """Read the project setup.cfg file to determine Versioneer config."""
-    # This might raise EnvironmentError (if setup.cfg is missing), or
-    # configparser.NoSectionError (if it lacks a [versioneer] section), or
-    # configparser.NoOptionError (if it lacks "VCS="). See the docstring at
-    # the top of versioneer.py for instructions on writing your setup.cfg .
-    setup_cfg = os.path.join(root, "setup.cfg")
-    parser = configparser.SafeConfigParser()
-    with open(setup_cfg, "r") as f:
-        parser.readfp(f)
-    VCS = parser.get("versioneer", "VCS")  # mandatory
-
-    def get(parser, name):
-        if parser.has_option("versioneer", name):
-            return parser.get("versioneer", name)
-        return None
-
-    cfg = VersioneerConfig()
-    cfg.VCS = VCS
-    cfg.style = get(parser, "style") or ""
-    cfg.versionfile_source = get(parser, "versionfile_source")
-    cfg.versionfile_build = get(parser, "versionfile_build")
-    cfg.tag_prefix = get(parser, "tag_prefix")
-    if cfg.tag_prefix in ("''", '""'):
-        cfg.tag_prefix = ""
-    cfg.parentdir_prefix = get(parser, "parentdir_prefix")
-    cfg.verbose = get(parser, "verbose")
-    return cfg
-
-
-class NotThisMethod(Exception):
-    """Exception raised if a method is not valid for the current scenario."""
-
-
-# these dictionaries contain VCS-specific tools
-LONG_VERSION_PY = {}
-HANDLERS = {}
-
-
-def register_vcs_handler(vcs, method):  # decorator
-    """Decorator to mark a method as the handler for a particular VCS."""
-
-    def decorate(f):
-        """Store f in HANDLERS[vcs][method]."""
-        if vcs not in HANDLERS:
-            HANDLERS[vcs] = {}
-        HANDLERS[vcs][method] = f
-        return f
-
-    return decorate
-
-
-def run_command(commands, args, cwd=None, verbose=False, hide_stderr=False, env=None):
-    """Call the given command(s)."""
-    assert isinstance(commands, list)
-    p = None
-    for c in commands:
-        try:
-            dispcmd = str([c] + args)
-            # remember shell=False, so use git.cmd on windows, not just git
-            p = subprocess.Popen(
-                [c] + args,
-                cwd=cwd,
-                env=env,
-                stdout=subprocess.PIPE,
-                stderr=(subprocess.PIPE if hide_stderr else None),
-            )
-            break
-        except EnvironmentError:
-            e = sys.exc_info()[1]
-            if e.errno == errno.ENOENT:
-                continue
-            if verbose:
-                print("unable to run %s" % dispcmd)
-                print(e)
-            return None, None
-    else:
-        if verbose:
-            print("unable to find command, tried %s" % (commands,))
-        return None, None
-    stdout = p.communicate()[0].strip()
-    if sys.version_info[0] >= 3:
-        stdout = stdout.decode()
-    if p.returncode != 0:
-        if verbose:
-            print("unable to run %s (error)" % dispcmd)
-            print("stdout was %s" % stdout)
-        return None, p.returncode
-    return stdout, p.returncode
-
-
-LONG_VERSION_PY["git"] = '''
-# This file helps to compute a version number in source trees obtained from
-# git-archive tarball (such as those provided by githubs download-from-tag
-# feature). Distribution tarballs (built by setup.py sdist) and build
-# directories (produced by setup.py build) will contain a much shorter file
-# that just contains the computed version number.
-
-# This file is released into the public domain. Generated by
-# versioneer-0.18 (https://github.com/warner/python-versioneer)
-
-"""Git implementation of _version.py."""
-
-import errno
-import os
-import re
-import subprocess
-import sys
-
-
-def get_keywords():
-    """Get the keywords needed to look up the version information."""
-    # these strings will be replaced by git during git-archive.
-    # setup.py/versioneer.py will grep for the variable names, so they must
-    # each be defined on a line of their own. _version.py will just call
-    # get_keywords().
-    git_refnames = "%(DOLLAR)sFormat:%%d%(DOLLAR)s"
-    git_full = "%(DOLLAR)sFormat:%%H%(DOLLAR)s"
-    git_date = "%(DOLLAR)sFormat:%%ci%(DOLLAR)s"
-    keywords = {"refnames": git_refnames, "full": git_full, "date": git_date}
-    return keywords
-
-
-class VersioneerConfig:
-    """Container for Versioneer configuration parameters."""
-
-
-def get_config():
-    """Create, populate and return the VersioneerConfig() object."""
-    # these strings are filled in when 'setup.py versioneer' creates
-    # _version.py
-    cfg = VersioneerConfig()
-    cfg.VCS = "git"
-    cfg.style = "%(STYLE)s"
-    cfg.tag_prefix = "%(TAG_PREFIX)s"
-    cfg.parentdir_prefix = "%(PARENTDIR_PREFIX)s"
-    cfg.versionfile_source = "%(VERSIONFILE_SOURCE)s"
-    cfg.verbose = False
-    return cfg
-
-
-class NotThisMethod(Exception):
-    """Exception raised if a method is not valid for the current scenario."""
-
-
-LONG_VERSION_PY = {}
-HANDLERS = {}
-
-
-def register_vcs_handler(vcs, method):  # decorator
-    """Decorator to mark a method as the handler for a particular VCS."""
-    def decorate(f):
-        """Store f in HANDLERS[vcs][method]."""
-        if vcs not in HANDLERS:
-            HANDLERS[vcs] = {}
-        HANDLERS[vcs][method] = f
-        return f
-    return decorate
-
-
-def run_command(commands, args, cwd=None, verbose=False, hide_stderr=False,
-                env=None):
-    """Call the given command(s)."""
-    assert isinstance(commands, list)
-    p = None
-    for c in commands:
-        try:
-            dispcmd = str([c] + args)
-            # remember shell=False, so use git.cmd on windows, not just git
-            p = subprocess.Popen([c] + args, cwd=cwd, env=env,
-                                 stdout=subprocess.PIPE,
-                                 stderr=(subprocess.PIPE if hide_stderr
-                                         else None))
-            break
-        except EnvironmentError:
-            e = sys.exc_info()[1]
-            if e.errno == errno.ENOENT:
-                continue
-            if verbose:
-                print("unable to run %%s" %% dispcmd)
-                print(e)
-            return None, None
-    else:
-        if verbose:
-            print("unable to find command, tried %%s" %% (commands,))
-        return None, None
-    stdout = p.communicate()[0].strip()
-    if sys.version_info[0] >= 3:
-        stdout = stdout.decode()
-    if p.returncode != 0:
-        if verbose:
-            print("unable to run %%s (error)" %% dispcmd)
-            print("stdout was %%s" %% stdout)
-        return None, p.returncode
-    return stdout, p.returncode
-
-
-def versions_from_parentdir(parentdir_prefix, root, verbose):
-    """Try to determine the version from the parent directory name.
-
-    Source tarballs conventionally unpack into a directory that includes both
-    the project name and a version string. We will also support searching up
-    two directory levels for an appropriately named parent directory
-    """
-    rootdirs = []
-
-    for i in range(3):
-        dirname = os.path.basename(root)
-        if dirname.startswith(parentdir_prefix):
-            return {"version": dirname[len(parentdir_prefix):],
-                    "full-revisionid": None,
-                    "dirty": False, "error": None, "date": None}
-        else:
-            rootdirs.append(root)
-            root = os.path.dirname(root)  # up a level
-
-    if verbose:
-        print("Tried directories %%s but none started with prefix %%s" %%
-              (str(rootdirs), parentdir_prefix))
-    raise NotThisMethod("rootdir doesn't start with parentdir_prefix")
-
-
-@register_vcs_handler("git", "get_keywords")
-def git_get_keywords(versionfile_abs):
-    """Extract version information from the given file."""
-    # the code embedded in _version.py can just fetch the value of these
-    # keywords. When used from setup.py, we don't want to import _version.py,
-    # so we do it with a regexp instead. This function is not used from
-    # _version.py.
-    keywords = {}
-    try:
-        f = open(versionfile_abs, "r")
-        for line in f.readlines():
-            if line.strip().startswith("git_refnames ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["refnames"] = mo.group(1)
-            if line.strip().startswith("git_full ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["full"] = mo.group(1)
-            if line.strip().startswith("git_date ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["date"] = mo.group(1)
-        f.close()
-    except EnvironmentError:
-        pass
-    return keywords
-
-
-@register_vcs_handler("git", "keywords")
-def git_versions_from_keywords(keywords, tag_prefix, verbose):
-    """Get version information from git keywords."""
-    if not keywords:
-        raise NotThisMethod("no keywords at all, weird")
-    date = keywords.get("date")
-    if date is not None:
-        # git-2.2.0 added "%%cI", which expands to an ISO-8601 -compliant
-        # datestamp. However we prefer "%%ci" (which expands to an "ISO-8601
-        # -like" string, which we must then edit to make compliant), because
-        # it's been around since git-1.5.3, and it's too difficult to
-        # discover which version we're using, or to work around using an
-        # older one.
-        date = date.strip().replace(" ", "T", 1).replace(" ", "", 1)
-    refnames = keywords["refnames"].strip()
-    if refnames.startswith("$Format"):
-        if verbose:
-            print("keywords are unexpanded, not using")
-        raise NotThisMethod("unexpanded keywords, not a git-archive tarball")
-    refs = set([r.strip() for r in refnames.strip("()").split(",")])
-    # starting in git-1.8.3, tags are listed as "tag: foo-1.0" instead of
-    # just "foo-1.0". If we see a "tag: " prefix, prefer those.
-    TAG = "tag: "
-    tags = set([r[len(TAG):] for r in refs if r.startswith(TAG)])
-    if not tags:
-        # Either we're using git < 1.8.3, or there really are no tags. We use
-        # a heuristic: assume all version tags have a digit. The old git %%d
-        # expansion behaves like git log --decorate=short and strips out the
-        # refs/heads/ and refs/tags/ prefixes that would let us distinguish
-        # between branches and tags. By ignoring refnames without digits, we
-        # filter out many common branch names like "release" and
-        # "stabilization", as well as "HEAD" and "master".
-        tags = set([r for r in refs if re.search(r'\d', r)])
-        if verbose:
-            print("discarding '%%s', no digits" %% ",".join(refs - tags))
-    if verbose:
-        print("likely tags: %%s" %% ",".join(sorted(tags)))
-    for ref in sorted(tags):
-        # sorting will prefer e.g. "2.0" over "2.0rc1"
-        if ref.startswith(tag_prefix):
-            r = ref[len(tag_prefix):]
-            if verbose:
-                print("picking %%s" %% r)
-            return {"version": r,
-                    "full-revisionid": keywords["full"].strip(),
-                    "dirty": False, "error": None,
-                    "date": date}
-    # no suitable tags, so version is "0+unknown", but full hex is still there
-    if verbose:
-        print("no suitable tags, using unknown + full revision id")
-    return {"version": "0+unknown",
-            "full-revisionid": keywords["full"].strip(),
-            "dirty": False, "error": "no suitable tags", "date": None}
-
-
-@register_vcs_handler("git", "pieces_from_vcs")
-def git_pieces_from_vcs(tag_prefix, root, verbose, run_command=run_command):
-    """Get version from 'git describe' in the root of the source tree.
-
-    This only gets called if the git-archive 'subst' keywords were *not*
-    expanded, and _version.py hasn't already been rewritten with a short
-    version string, meaning we're inside a checked out source tree.
-    """
-    GITS = ["git"]
-    if sys.platform == "win32":
-        GITS = ["git.cmd", "git.exe"]
-
-    out, rc = run_command(GITS, ["rev-parse", "--git-dir"], cwd=root,
-                          hide_stderr=True)
-    if rc != 0:
-        if verbose:
-            print("Directory %%s not under git control" %% root)
-        raise NotThisMethod("'git rev-parse --git-dir' returned error")
-
-    # if there is a tag matching tag_prefix, this yields TAG-NUM-gHEX[-dirty]
-    # if there isn't one, this yields HEX[-dirty] (no NUM)
-    describe_out, rc = run_command(GITS, ["describe", "--tags", "--dirty",
-                                          "--always", "--long",
-                                          "--match", "%%s*" %% tag_prefix],
-                                   cwd=root)
-    # --long was added in git-1.5.5
-    if describe_out is None:
-        raise NotThisMethod("'git describe' failed")
-    describe_out = describe_out.strip()
-    full_out, rc = run_command(GITS, ["rev-parse", "HEAD"], cwd=root)
-    if full_out is None:
-        raise NotThisMethod("'git rev-parse' failed")
-    full_out = full_out.strip()
-
-    pieces = {}
-    pieces["long"] = full_out
-    pieces["short"] = full_out[:7]  # maybe improved later
-    pieces["error"] = None
-
-    # parse describe_out. It will be like TAG-NUM-gHEX[-dirty] or HEX[-dirty]
-    # TAG might have hyphens.
-    git_describe = describe_out
-
-    # look for -dirty suffix
-    dirty = git_describe.endswith("-dirty")
-    pieces["dirty"] = dirty
-    if dirty:
-        git_describe = git_describe[:git_describe.rindex("-dirty")]
-
-    # now we have TAG-NUM-gHEX or HEX
-
-    if "-" in git_describe:
-        # TAG-NUM-gHEX
-        mo = re.search(r'^(.+)-(\d+)-g([0-9a-f]+)$', git_describe)
-        if not mo:
-            # unparseable. Maybe git-describe is misbehaving?
-            pieces["error"] = ("unable to parse git-describe output: '%%s'"
-                               %% describe_out)
-            return pieces
-
-        # tag
-        full_tag = mo.group(1)
-        if not full_tag.startswith(tag_prefix):
-            if verbose:
-                fmt = "tag '%%s' doesn't start with prefix '%%s'"
-                print(fmt %% (full_tag, tag_prefix))
-            pieces["error"] = ("tag '%%s' doesn't start with prefix '%%s'"
-                               %% (full_tag, tag_prefix))
-            return pieces
-        pieces["closest-tag"] = full_tag[len(tag_prefix):]
-
-        # distance: number of commits since tag
-        pieces["distance"] = int(mo.group(2))
-
-        # commit: short hex revision ID
-        pieces["short"] = mo.group(3)
-
-    else:
-        # HEX: no tags
-        pieces["closest-tag"] = None
-        count_out, rc = run_command(GITS, ["rev-list", "HEAD", "--count"],
-                                    cwd=root)
-        pieces["distance"] = int(count_out)  # total number of commits
-
-    # commit date: see ISO-8601 comment in git_versions_from_keywords()
-    date = run_command(GITS, ["show", "-s", "--format=%%ci", "HEAD"],
-                       cwd=root)[0].strip()
-    pieces["date"] = date.strip().replace(" ", "T", 1).replace(" ", "", 1)
-
-    return pieces
-
-
-def plus_or_dot(pieces):
-    """Return a + if we don't already have one, else return a ."""
-    if "+" in pieces.get("closest-tag", ""):
-        return "."
-    return "+"
-
-
-def render_pep440(pieces):
-    """Build up version string, with post-release "local version identifier".
-
-    Our goal: TAG[+DISTANCE.gHEX[.dirty]] . Note that if you
-    get a tagged build and then dirty it, you'll get TAG+0.gHEX.dirty
-
-    Exceptions:
-    1: no tags. git_describe was just HEX. 0+untagged.DISTANCE.gHEX[.dirty]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += plus_or_dot(pieces)
-            rendered += "%%d.g%%s" %% (pieces["distance"], pieces["short"])
-            if pieces["dirty"]:
-                rendered += ".dirty"
-    else:
-        # exception #1
-        rendered = "0+untagged.%%d.g%%s" %% (pieces["distance"],
-                                          pieces["short"])
-        if pieces["dirty"]:
-            rendered += ".dirty"
-    return rendered
-
-
-def render_pep440_pre(pieces):
-    """TAG[.post.devDISTANCE] -- No -dirty.
-
-    Exceptions:
-    1: no tags. 0.post.devDISTANCE
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"]:
-            rendered += ".post.dev%%d" %% pieces["distance"]
-    else:
-        # exception #1
-        rendered = "0.post.dev%%d" %% pieces["distance"]
-    return rendered
-
-
-def render_pep440_post(pieces):
-    """TAG[.postDISTANCE[.dev0]+gHEX] .
-
-    The ".dev0" means dirty. Note that .dev0 sorts backwards
-    (a dirty tree will appear "older" than the corresponding clean one),
-    but you shouldn't be releasing software with -dirty anyways.
-
-    Exceptions:
-    1: no tags. 0.postDISTANCE[.dev0]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += ".post%%d" %% pieces["distance"]
-            if pieces["dirty"]:
-                rendered += ".dev0"
-            rendered += plus_or_dot(pieces)
-            rendered += "g%%s" %% pieces["short"]
-    else:
-        # exception #1
-        rendered = "0.post%%d" %% pieces["distance"]
-        if pieces["dirty"]:
-            rendered += ".dev0"
-        rendered += "+g%%s" %% pieces["short"]
-    return rendered
-
-
-def render_pep440_old(pieces):
-    """TAG[.postDISTANCE[.dev0]] .
-
-    The ".dev0" means dirty.
-
-    Eexceptions:
-    1: no tags. 0.postDISTANCE[.dev0]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += ".post%%d" %% pieces["distance"]
-            if pieces["dirty"]:
-                rendered += ".dev0"
-    else:
-        # exception #1
-        rendered = "0.post%%d" %% pieces["distance"]
-        if pieces["dirty"]:
-            rendered += ".dev0"
-    return rendered
-
-
-def render_git_describe(pieces):
-    """TAG[-DISTANCE-gHEX][-dirty].
-
-    Like 'git describe --tags --dirty --always'.
-
-    Exceptions:
-    1: no tags. HEX[-dirty]  (note: no 'g' prefix)
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"]:
-            rendered += "-%%d-g%%s" %% (pieces["distance"], pieces["short"])
-    else:
-        # exception #1
-        rendered = pieces["short"]
-    if pieces["dirty"]:
-        rendered += "-dirty"
-    return rendered
-
-
-def render_git_describe_long(pieces):
-    """TAG-DISTANCE-gHEX[-dirty].
-
-    Like 'git describe --tags --dirty --always -long'.
-    The distance/hash is unconditional.
-
-    Exceptions:
-    1: no tags. HEX[-dirty]  (note: no 'g' prefix)
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        rendered += "-%%d-g%%s" %% (pieces["distance"], pieces["short"])
-    else:
-        # exception #1
-        rendered = pieces["short"]
-    if pieces["dirty"]:
-        rendered += "-dirty"
-    return rendered
-
-
-def render(pieces, style):
-    """Render the given version pieces into the requested style."""
-    if pieces["error"]:
-        return {"version": "unknown",
-                "full-revisionid": pieces.get("long"),
-                "dirty": None,
-                "error": pieces["error"],
-                "date": None}
-
-    if not style or style == "default":
-        style = "pep440"  # the default
-
-    if style == "pep440":
-        rendered = render_pep440(pieces)
-    elif style == "pep440-pre":
-        rendered = render_pep440_pre(pieces)
-    elif style == "pep440-post":
-        rendered = render_pep440_post(pieces)
-    elif style == "pep440-old":
-        rendered = render_pep440_old(pieces)
-    elif style == "git-describe":
-        rendered = render_git_describe(pieces)
-    elif style == "git-describe-long":
-        rendered = render_git_describe_long(pieces)
-    else:
-        raise ValueError("unknown style '%%s'" %% style)
-
-    return {"version": rendered, "full-revisionid": pieces["long"],
-            "dirty": pieces["dirty"], "error": None,
-            "date": pieces.get("date")}
-
-
-def get_versions():
-    """Get version information or return default if unable to do so."""
-    # I am in _version.py, which lives at ROOT/VERSIONFILE_SOURCE. If we have
-    # __file__, we can work backwards from there to the root. Some
-    # py2exe/bbfreeze/non-CPython implementations don't do __file__, in which
-    # case we can only use expanded keywords.
-
-    cfg = get_config()
-    verbose = cfg.verbose
-
-    try:
-        return git_versions_from_keywords(get_keywords(), cfg.tag_prefix,
-                                          verbose)
-    except NotThisMethod:
-        pass
-
-    try:
-        root = os.path.realpath(__file__)
-        # versionfile_source is the relative path from the top of the source
-        # tree (where the .git directory might live) to this file. Invert
-        # this to find the root from __file__.
-        for i in cfg.versionfile_source.split('/'):
-            root = os.path.dirname(root)
-    except NameError:
-        return {"version": "0+unknown", "full-revisionid": None,
-                "dirty": None,
-                "error": "unable to find root of source tree",
-                "date": None}
-
-    try:
-        pieces = git_pieces_from_vcs(cfg.tag_prefix, root, verbose)
-        return render(pieces, cfg.style)
-    except NotThisMethod:
-        pass
-
-    try:
-        if cfg.parentdir_prefix:
-            return versions_from_parentdir(cfg.parentdir_prefix, root, verbose)
-    except NotThisMethod:
-        pass
-
-    return {"version": "0+unknown", "full-revisionid": None,
-            "dirty": None,
-            "error": "unable to compute version", "date": None}
-'''
-
-
-@register_vcs_handler("git", "get_keywords")
-def git_get_keywords(versionfile_abs):
-    """Extract version information from the given file."""
-    # the code embedded in _version.py can just fetch the value of these
-    # keywords. When used from setup.py, we don't want to import _version.py,
-    # so we do it with a regexp instead. This function is not used from
-    # _version.py.
-    keywords = {}
-    try:
-        f = open(versionfile_abs, "r")
-        for line in f.readlines():
-            if line.strip().startswith("git_refnames ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["refnames"] = mo.group(1)
-            if line.strip().startswith("git_full ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["full"] = mo.group(1)
-            if line.strip().startswith("git_date ="):
-                mo = re.search(r'=\s*"(.*)"', line)
-                if mo:
-                    keywords["date"] = mo.group(1)
-        f.close()
-    except EnvironmentError:
-        pass
-    return keywords
-
-
-@register_vcs_handler("git", "keywords")
-def git_versions_from_keywords(keywords, tag_prefix, verbose):
-    """Get version information from git keywords."""
-    if not keywords:
-        raise NotThisMethod("no keywords at all, weird")
-    date = keywords.get("date")
-    if date is not None:
-        # git-2.2.0 added "%cI", which expands to an ISO-8601 -compliant
-        # datestamp. However we prefer "%ci" (which expands to an "ISO-8601
-        # -like" string, which we must then edit to make compliant), because
-        # it's been around since git-1.5.3, and it's too difficult to
-        # discover which version we're using, or to work around using an
-        # older one.
-        date = date.strip().replace(" ", "T", 1).replace(" ", "", 1)
-    refnames = keywords["refnames"].strip()
-    if refnames.startswith("$Format"):
-        if verbose:
-            print("keywords are unexpanded, not using")
-        raise NotThisMethod("unexpanded keywords, not a git-archive tarball")
-    refs = set([r.strip() for r in refnames.strip("()").split(",")])
-    # starting in git-1.8.3, tags are listed as "tag: foo-1.0" instead of
-    # just "foo-1.0". If we see a "tag: " prefix, prefer those.
-    TAG = "tag: "
-    tags = set([r[len(TAG) :] for r in refs if r.startswith(TAG)])
-    if not tags:
-        # Either we're using git < 1.8.3, or there really are no tags. We use
-        # a heuristic: assume all version tags have a digit. The old git %d
-        # expansion behaves like git log --decorate=short and strips out the
-        # refs/heads/ and refs/tags/ prefixes that would let us distinguish
-        # between branches and tags. By ignoring refnames without digits, we
-        # filter out many common branch names like "release" and
-        # "stabilization", as well as "HEAD" and "master".
-        tags = set([r for r in refs if re.search(r"\d", r)])
-        if verbose:
-            print("discarding '%s', no digits" % ",".join(refs - tags))
-    if verbose:
-        print("likely tags: %s" % ",".join(sorted(tags)))
-    for ref in sorted(tags):
-        # sorting will prefer e.g. "2.0" over "2.0rc1"
-        if ref.startswith(tag_prefix):
-            r = ref[len(tag_prefix) :]
-            if verbose:
-                print("picking %s" % r)
-            return {
-                "version": r,
-                "full-revisionid": keywords["full"].strip(),
-                "dirty": False,
-                "error": None,
-                "date": date,
-            }
-    # no suitable tags, so version is "0+unknown", but full hex is still there
-    if verbose:
-        print("no suitable tags, using unknown + full revision id")
-    return {
-        "version": "0+unknown",
-        "full-revisionid": keywords["full"].strip(),
-        "dirty": False,
-        "error": "no suitable tags",
-        "date": None,
-    }
-
-
-@register_vcs_handler("git", "pieces_from_vcs")
-def git_pieces_from_vcs(tag_prefix, root, verbose, run_command=run_command):
-    """Get version from 'git describe' in the root of the source tree.
-
-    This only gets called if the git-archive 'subst' keywords were *not*
-    expanded, and _version.py hasn't already been rewritten with a short
-    version string, meaning we're inside a checked out source tree.
-    """
-    GITS = ["git"]
-    if sys.platform == "win32":
-        GITS = ["git.cmd", "git.exe"]
-
-    out, rc = run_command(GITS, ["rev-parse", "--git-dir"], cwd=root, hide_stderr=True)
-    if rc != 0:
-        if verbose:
-            print("Directory %s not under git control" % root)
-        raise NotThisMethod("'git rev-parse --git-dir' returned error")
-
-    # if there is a tag matching tag_prefix, this yields TAG-NUM-gHEX[-dirty]
-    # if there isn't one, this yields HEX[-dirty] (no NUM)
-    describe_out, rc = run_command(
-        GITS,
-        [
-            "describe",
-            "--tags",
-            "--dirty",
-            "--always",
-            "--long",
-            "--match",
-            "%s*" % tag_prefix,
-        ],
-        cwd=root,
-    )
-    # --long was added in git-1.5.5
-    if describe_out is None:
-        raise NotThisMethod("'git describe' failed")
-    describe_out = describe_out.strip()
-    full_out, rc = run_command(GITS, ["rev-parse", "HEAD"], cwd=root)
-    if full_out is None:
-        raise NotThisMethod("'git rev-parse' failed")
-    full_out = full_out.strip()
-
-    pieces = {}
-    pieces["long"] = full_out
-    pieces["short"] = full_out[:7]  # maybe improved later
-    pieces["error"] = None
-
-    # parse describe_out. It will be like TAG-NUM-gHEX[-dirty] or HEX[-dirty]
-    # TAG might have hyphens.
-    git_describe = describe_out
-
-    # look for -dirty suffix
-    dirty = git_describe.endswith("-dirty")
-    pieces["dirty"] = dirty
-    if dirty:
-        git_describe = git_describe[: git_describe.rindex("-dirty")]
-
-    # now we have TAG-NUM-gHEX or HEX
-
-    if "-" in git_describe:
-        # TAG-NUM-gHEX
-        mo = re.search(r"^(.+)-(\d+)-g([0-9a-f]+)$", git_describe)
-        if not mo:
-            # unparseable. Maybe git-describe is misbehaving?
-            pieces["error"] = "unable to parse git-describe output: '%s'" % describe_out
-            return pieces
-
-        # tag
-        full_tag = mo.group(1)
-        if not full_tag.startswith(tag_prefix):
-            if verbose:
-                fmt = "tag '%s' doesn't start with prefix '%s'"
-                print(fmt % (full_tag, tag_prefix))
-            pieces["error"] = "tag '%s' doesn't start with prefix '%s'" % (
-                full_tag,
-                tag_prefix,
-            )
-            return pieces
-        pieces["closest-tag"] = full_tag[len(tag_prefix) :]
-
-        # distance: number of commits since tag
-        pieces["distance"] = int(mo.group(2))
-
-        # commit: short hex revision ID
-        pieces["short"] = mo.group(3)
-
-    else:
-        # HEX: no tags
-        pieces["closest-tag"] = None
-        count_out, rc = run_command(GITS, ["rev-list", "HEAD", "--count"], cwd=root)
-        pieces["distance"] = int(count_out)  # total number of commits
-
-    # commit date: see ISO-8601 comment in git_versions_from_keywords()
-    date = run_command(GITS, ["show", "-s", "--format=%ci", "HEAD"], cwd=root)[
-        0
-    ].strip()
-    pieces["date"] = date.strip().replace(" ", "T", 1).replace(" ", "", 1)
-
-    return pieces
-
-
-def do_vcs_install(manifest_in, versionfile_source, ipy):
-    """Git-specific installation logic for Versioneer.
-
-    For Git, this means creating/changing .gitattributes to mark _version.py
-    for export-subst keyword substitution.
-    """
-    GITS = ["git"]
-    if sys.platform == "win32":
-        GITS = ["git.cmd", "git.exe"]
-    files = [manifest_in, versionfile_source]
-    if ipy:
-        files.append(ipy)
-    try:
-        me = __file__
-        if me.endswith(".pyc") or me.endswith(".pyo"):
-            me = os.path.splitext(me)[0] + ".py"
-        versioneer_file = os.path.relpath(me)
-    except NameError:
-        versioneer_file = "versioneer.py"
-    files.append(versioneer_file)
-    present = False
-    try:
-        f = open(".gitattributes", "r")
-        for line in f.readlines():
-            if line.strip().startswith(versionfile_source):
-                if "export-subst" in line.strip().split()[1:]:
-                    present = True
-        f.close()
-    except EnvironmentError:
-        pass
-    if not present:
-        f = open(".gitattributes", "a+")
-        f.write("%s export-subst\n" % versionfile_source)
-        f.close()
-        files.append(".gitattributes")
-    run_command(GITS, ["add", "--"] + files)
-
-
-def versions_from_parentdir(parentdir_prefix, root, verbose):
-    """Try to determine the version from the parent directory name.
-
-    Source tarballs conventionally unpack into a directory that includes both
-    the project name and a version string. We will also support searching up
-    two directory levels for an appropriately named parent directory
-    """
-    rootdirs = []
-
-    for i in range(3):
-        dirname = os.path.basename(root)
-        if dirname.startswith(parentdir_prefix):
-            return {
-                "version": dirname[len(parentdir_prefix) :],
-                "full-revisionid": None,
-                "dirty": False,
-                "error": None,
-                "date": None,
-            }
-        else:
-            rootdirs.append(root)
-            root = os.path.dirname(root)  # up a level
-
-    if verbose:
-        print(
-            "Tried directories %s but none started with prefix %s"
-            % (str(rootdirs), parentdir_prefix)
-        )
-    raise NotThisMethod("rootdir doesn't start with parentdir_prefix")
-
-
-SHORT_VERSION_PY = """
-# This file was generated by 'versioneer.py' (0.18) from
-# revision-control system data, or from the parent directory name of an
-# unpacked source archive. Distribution tarballs contain a pre-generated copy
-# of this file.
-
-import json
-
-version_json = '''
-%s
-'''  # END VERSION_JSON
-
-
-def get_versions():
-    return json.loads(version_json)
-"""
-
-
-def versions_from_file(filename):
-    """Try to determine the version from _version.py if present."""
-    try:
-        with open(filename) as f:
-            contents = f.read()
-    except EnvironmentError:
-        raise NotThisMethod("unable to read _version.py")
-    mo = re.search(
-        r"version_json = '''\n(.*)'''  # END VERSION_JSON", contents, re.M | re.S
-    )
-    if not mo:
-        mo = re.search(
-            r"version_json = '''\r\n(.*)'''  # END VERSION_JSON", contents, re.M | re.S
-        )
-    if not mo:
-        raise NotThisMethod("no version_json in _version.py")
-    return json.loads(mo.group(1))
-
-
-def write_to_version_file(filename, versions):
-    """Write the given version number to the given _version.py file."""
-    os.unlink(filename)
-    contents = json.dumps(versions, sort_keys=True, indent=1, separators=(",", ": "))
-    with open(filename, "w") as f:
-        f.write(SHORT_VERSION_PY % contents)
-
-    print("set %s to '%s'" % (filename, versions["version"]))
-
-
-def plus_or_dot(pieces):
-    """Return a + if we don't already have one, else return a ."""
-    if "+" in pieces.get("closest-tag", ""):
-        return "."
-    return "+"
-
-
-def render_pep440(pieces):
-    """Build up version string, with post-release "local version identifier".
-
-    Our goal: TAG[+DISTANCE.gHEX[.dirty]] . Note that if you
-    get a tagged build and then dirty it, you'll get TAG+0.gHEX.dirty
-
-    Exceptions:
-    1: no tags. git_describe was just HEX. 0+untagged.DISTANCE.gHEX[.dirty]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += plus_or_dot(pieces)
-            rendered += "%d.g%s" % (pieces["distance"], pieces["short"])
-            if pieces["dirty"]:
-                rendered += ".dirty"
-    else:
-        # exception #1
-        rendered = "0+untagged.%d.g%s" % (pieces["distance"], pieces["short"])
-        if pieces["dirty"]:
-            rendered += ".dirty"
-    return rendered
-
-
-def render_pep440_pre(pieces):
-    """TAG[.post.devDISTANCE] -- No -dirty.
-
-    Exceptions:
-    1: no tags. 0.post.devDISTANCE
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"]:
-            rendered += ".post.dev%d" % pieces["distance"]
-    else:
-        # exception #1
-        rendered = "0.post.dev%d" % pieces["distance"]
-    return rendered
-
-
-def render_pep440_post(pieces):
-    """TAG[.postDISTANCE[.dev0]+gHEX] .
-
-    The ".dev0" means dirty. Note that .dev0 sorts backwards
-    (a dirty tree will appear "older" than the corresponding clean one),
-    but you shouldn't be releasing software with -dirty anyways.
-
-    Exceptions:
-    1: no tags. 0.postDISTANCE[.dev0]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += ".post%d" % pieces["distance"]
-            if pieces["dirty"]:
-                rendered += ".dev0"
-            rendered += plus_or_dot(pieces)
-            rendered += "g%s" % pieces["short"]
-    else:
-        # exception #1
-        rendered = "0.post%d" % pieces["distance"]
-        if pieces["dirty"]:
-            rendered += ".dev0"
-        rendered += "+g%s" % pieces["short"]
-    return rendered
-
-
-def render_pep440_old(pieces):
-    """TAG[.postDISTANCE[.dev0]] .
-
-    The ".dev0" means dirty.
-
-    Eexceptions:
-    1: no tags. 0.postDISTANCE[.dev0]
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"] or pieces["dirty"]:
-            rendered += ".post%d" % pieces["distance"]
-            if pieces["dirty"]:
-                rendered += ".dev0"
-    else:
-        # exception #1
-        rendered = "0.post%d" % pieces["distance"]
-        if pieces["dirty"]:
-            rendered += ".dev0"
-    return rendered
-
-
-def render_git_describe(pieces):
-    """TAG[-DISTANCE-gHEX][-dirty].
-
-    Like 'git describe --tags --dirty --always'.
-
-    Exceptions:
-    1: no tags. HEX[-dirty]  (note: no 'g' prefix)
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        if pieces["distance"]:
-            rendered += "-%d-g%s" % (pieces["distance"], pieces["short"])
-    else:
-        # exception #1
-        rendered = pieces["short"]
-    if pieces["dirty"]:
-        rendered += "-dirty"
-    return rendered
-
-
-def render_git_describe_long(pieces):
-    """TAG-DISTANCE-gHEX[-dirty].
-
-    Like 'git describe --tags --dirty --always -long'.
-    The distance/hash is unconditional.
-
-    Exceptions:
-    1: no tags. HEX[-dirty]  (note: no 'g' prefix)
-    """
-    if pieces["closest-tag"]:
-        rendered = pieces["closest-tag"]
-        rendered += "-%d-g%s" % (pieces["distance"], pieces["short"])
-    else:
-        # exception #1
-        rendered = pieces["short"]
-    if pieces["dirty"]:
-        rendered += "-dirty"
-    return rendered
-
-
-def render(pieces, style):
-    """Render the given version pieces into the requested style."""
-    if pieces["error"]:
-        return {
-            "version": "unknown",
-            "full-revisionid": pieces.get("long"),
-            "dirty": None,
-            "error": pieces["error"],
-            "date": None,
-        }
-
-    if not style or style == "default":
-        style = "pep440"  # the default
-
-    if style == "pep440":
-        rendered = render_pep440(pieces)
-    elif style == "pep440-pre":
-        rendered = render_pep440_pre(pieces)
-    elif style == "pep440-post":
-        rendered = render_pep440_post(pieces)
-    elif style == "pep440-old":
-        rendered = render_pep440_old(pieces)
-    elif style == "git-describe":
-        rendered = render_git_describe(pieces)
-    elif style == "git-describe-long":
-        rendered = render_git_describe_long(pieces)
-    else:
-        raise ValueError("unknown style '%s'" % style)
-
-    return {
-        "version": rendered,
-        "full-revisionid": pieces["long"],
-        "dirty": pieces["dirty"],
-        "error": None,
-        "date": pieces.get("date"),
-    }
-
-
-class VersioneerBadRootError(Exception):
-    """The project root directory is unknown or missing key files."""
-
-
-def get_versions(verbose=False):
-    """Get the project version from whatever source is available.
-
-    Returns dict with two keys: 'version' and 'full'.
-    """
-    if "versioneer" in sys.modules:
-        # see the discussion in cmdclass.py:get_cmdclass()
-        del sys.modules["versioneer"]
-
-    root = get_root()
-    cfg = get_config_from_root(root)
-
-    assert cfg.VCS is not None, "please set [versioneer]VCS= in setup.cfg"
-    handlers = HANDLERS.get(cfg.VCS)
-    assert handlers, "unrecognized VCS '%s'" % cfg.VCS
-    verbose = verbose or cfg.verbose
-    assert (
-        cfg.versionfile_source is not None
-    ), "please set versioneer.versionfile_source"
-    assert cfg.tag_prefix is not None, "please set versioneer.tag_prefix"
-
-    versionfile_abs = os.path.join(root, cfg.versionfile_source)
-
-    # extract version from first of: _version.py, VCS command (e.g. 'git
-    # describe'), parentdir. This is meant to work for developers using a
-    # source checkout, for users of a tarball created by 'setup.py sdist',
-    # and for users of a tarball/zipball created by 'git archive' or github's
-    # download-from-tag feature or the equivalent in other VCSes.
-
-    get_keywords_f = handlers.get("get_keywords")
-    from_keywords_f = handlers.get("keywords")
-    if get_keywords_f and from_keywords_f:
-        try:
-            keywords = get_keywords_f(versionfile_abs)
-            ver = from_keywords_f(keywords, cfg.tag_prefix, verbose)
-            if verbose:
-                print("got version from expanded keyword %s" % ver)
-            return ver
-        except NotThisMethod:
-            pass
-
-    try:
-        ver = versions_from_file(versionfile_abs)
-        if verbose:
-            print("got version from file %s %s" % (versionfile_abs, ver))
-        return ver
-    except NotThisMethod:
-        pass
-
-    from_vcs_f = handlers.get("pieces_from_vcs")
-    if from_vcs_f:
-        try:
-            pieces = from_vcs_f(cfg.tag_prefix, root, verbose)
-            ver = render(pieces, cfg.style)
-            if verbose:
-                print("got version from VCS %s" % ver)
-            return ver
-        except NotThisMethod:
-            pass
-
-    try:
-        if cfg.parentdir_prefix:
-            ver = versions_from_parentdir(cfg.parentdir_prefix, root, verbose)
-            if verbose:
-                print("got version from parentdir %s" % ver)
-            return ver
-    except NotThisMethod:
-        pass
-
-    if verbose:
-        print("unable to compute version")
-
-    return {
-        "version": "0+unknown",
-        "full-revisionid": None,
-        "dirty": None,
-        "error": "unable to compute version",
-        "date": None,
-    }
-
-
-def get_version():
-    """Get the short version string for this project."""
-    return get_versions()["version"]
-
-
-def get_cmdclass():
-    """Get the custom setuptools/distutils subclasses used by Versioneer."""
-    if "versioneer" in sys.modules:
-        del sys.modules["versioneer"]
-        # this fixes the "python setup.py develop" case (also 'install' and
-        # 'easy_install .'), in which subdependencies of the main project are
-        # built (using setup.py bdist_egg) in the same python process. Assume
-        # a main project A and a dependency B, which use different versions
-        # of Versioneer. A's setup.py imports A's Versioneer, leaving it in
-        # sys.modules by the time B's setup.py is executed, causing B to run
-        # with the wrong versioneer. Setuptools wraps the sub-dep builds in a
-        # sandbox that restores sys.modules to it's pre-build state, so the
-        # parent is protected against the child's "import versioneer". By
-        # removing ourselves from sys.modules here, before the child build
-        # happens, we protect the child from the parent's versioneer too.
-        # Also see https://github.com/warner/python-versioneer/issues/52
-
-    cmds = {}
-
-    # we add "version" to both distutils and setuptools
-    from distutils.core import Command
-
-    class cmd_version(Command):
-        description = "report generated version string"
-        user_options = []
-        boolean_options = []
-
-        def initialize_options(self):
-            pass
-
-        def finalize_options(self):
-            pass
-
-        def run(self):
-            vers = get_versions(verbose=True)
-            print("Version: %s" % vers["version"])
-            print(" full-revisionid: %s" % vers.get("full-revisionid"))
-            print(" dirty: %s" % vers.get("dirty"))
-            print(" date: %s" % vers.get("date"))
-            if vers["error"]:
-                print(" error: %s" % vers["error"])
-
-    cmds["version"] = cmd_version
-
-    # we override "build_py" in both distutils and setuptools
-    #
-    # most invocation pathways end up running build_py:
-    #  distutils/build -> build_py
-    #  distutils/install -> distutils/build ->..
-    #  setuptools/bdist_wheel -> distutils/install ->..
-    #  setuptools/bdist_egg -> distutils/install_lib -> build_py
-    #  setuptools/install -> bdist_egg ->..
-    #  setuptools/develop -> ?
-    #  pip install:
-    #   copies source tree to a tempdir before running egg_info/etc
-    #   if .git isn't copied too, 'git describe' will fail
-    #   then does setup.py bdist_wheel, or sometimes setup.py install
-    #  setup.py egg_info -> ?
-
-    # we override different "build_py" commands for both environments
-    if "setuptools" in sys.modules:
-        from setuptools.command.build_py import build_py as _build_py
-    else:
-        from distutils.command.build_py import build_py as _build_py
-
-    class cmd_build_py(_build_py):
-        def run(self):
-            root = get_root()
-            cfg = get_config_from_root(root)
-            versions = get_versions()
-            _build_py.run(self)
-            # now locate _version.py in the new build/ directory and replace
-            # it with an updated value
-            if cfg.versionfile_build:
-                target_versionfile = os.path.join(self.build_lib, cfg.versionfile_build)
-                print("UPDATING %s" % target_versionfile)
-                write_to_version_file(target_versionfile, versions)
-
-    cmds["build_py"] = cmd_build_py
-
-    if "cx_Freeze" in sys.modules:  # cx_freeze enabled?
-        from cx_Freeze.dist import build_exe as _build_exe
-        # nczeczulin reports that py2exe won't like the pep440-style string
-        # as FILEVERSION, but it can be used for PRODUCTVERSION, e.g.
-        # setup(console=[{
-        #   "version": versioneer.get_version().split("+", 1)[0], # FILEVERSION
-        #   "product_version": versioneer.get_version(),
-        #   ...
-
-        class cmd_build_exe(_build_exe):
-            def run(self):
-                root = get_root()
-                cfg = get_config_from_root(root)
-                versions = get_versions()
-                target_versionfile = cfg.versionfile_source
-                print("UPDATING %s" % target_versionfile)
-                write_to_version_file(target_versionfile, versions)
-
-                _build_exe.run(self)
-                os.unlink(target_versionfile)
-                with open(cfg.versionfile_source, "w") as f:
-                    LONG = LONG_VERSION_PY[cfg.VCS]
-                    f.write(
-                        LONG
-                        % {
-                            "DOLLAR": "$",
-                            "STYLE": cfg.style,
-                            "TAG_PREFIX": cfg.tag_prefix,
-                            "PARENTDIR_PREFIX": cfg.parentdir_prefix,
-                            "VERSIONFILE_SOURCE": cfg.versionfile_source,
-                        }
-                    )
-
-        cmds["build_exe"] = cmd_build_exe
-        del cmds["build_py"]
-
-    if "py2exe" in sys.modules:  # py2exe enabled?
-        try:
-            from py2exe.distutils_buildexe import py2exe as _py2exe  # py3
-        except ImportError:
-            from py2exe.build_exe import py2exe as _py2exe  # py2
-
-        class cmd_py2exe(_py2exe):
-            def run(self):
-                root = get_root()
-                cfg = get_config_from_root(root)
-                versions = get_versions()
-                target_versionfile = cfg.versionfile_source
-                print("UPDATING %s" % target_versionfile)
-                write_to_version_file(target_versionfile, versions)
-
-                _py2exe.run(self)
-                os.unlink(target_versionfile)
-                with open(cfg.versionfile_source, "w") as f:
-                    LONG = LONG_VERSION_PY[cfg.VCS]
-                    f.write(
-                        LONG
-                        % {
-                            "DOLLAR": "$",
-                            "STYLE": cfg.style,
-                            "TAG_PREFIX": cfg.tag_prefix,
-                            "PARENTDIR_PREFIX": cfg.parentdir_prefix,
-                            "VERSIONFILE_SOURCE": cfg.versionfile_source,
-                        }
-                    )
-
-        cmds["py2exe"] = cmd_py2exe
-
-    # we override different "sdist" commands for both environments
-    if "setuptools" in sys.modules:
-        from setuptools.command.sdist import sdist as _sdist
-    else:
-        from distutils.command.sdist import sdist as _sdist
-
-    class cmd_sdist(_sdist):
-        def run(self):
-            versions = get_versions()
-            self._versioneer_generated_versions = versions
-            # unless we update this, the command will keep using the old
-            # version
-            self.distribution.metadata.version = versions["version"]
-            return _sdist.run(self)
-
-        def make_release_tree(self, base_dir, files):
-            root = get_root()
-            cfg = get_config_from_root(root)
-            _sdist.make_release_tree(self, base_dir, files)
-            # now locate _version.py in the new base_dir directory
-            # (remembering that it may be a hardlink) and replace it with an
-            # updated value
-            target_versionfile = os.path.join(base_dir, cfg.versionfile_source)
-            print("UPDATING %s" % target_versionfile)
-            write_to_version_file(
-                target_versionfile, self._versioneer_generated_versions
-            )
-
-    cmds["sdist"] = cmd_sdist
-
-    return cmds
-
-
-CONFIG_ERROR = """
-setup.cfg is missing the necessary Versioneer configuration. You need
-a section like:
-
- [versioneer]
- VCS = git
- style = pep440
- versionfile_source = src/myproject/_version.py
- versionfile_build = myproject/_version.py
- tag_prefix =
- parentdir_prefix = myproject-
-
-You will also need to edit your setup.py to use the results:
-
- import versioneer
- setup(version=versioneer.get_version(),
-       cmdclass=versioneer.get_cmdclass(), ...)
-
-Please read the docstring in ./versioneer.py for configuration instructions,
-edit setup.cfg, and re-run the installer or 'python versioneer.py setup'.
-"""
-
-SAMPLE_CONFIG = """
-# See the docstring in versioneer.py for instructions. Note that you must
-# re-run 'versioneer.py setup' after changing this section, and commit the
-# resulting files.
-
-[versioneer]
-#VCS = git
-#style = pep440
-#versionfile_source =
-#versionfile_build =
-#tag_prefix =
-#parentdir_prefix =
-
-"""
-
-INIT_PY_SNIPPET = """
-from ._version import get_versions
-__version__ = get_versions()['version']
-del get_versions
-"""
-
-
-def do_setup():
-    """Main VCS-independent setup function for installing Versioneer."""
-    root = get_root()
-    try:
-        cfg = get_config_from_root(root)
-    except (
-        EnvironmentError,
-        configparser.NoSectionError,
-        configparser.NoOptionError,
-    ) as e:
-        if isinstance(e, (EnvironmentError, configparser.NoSectionError)):
-            print("Adding sample versioneer config to setup.cfg", file=sys.stderr)
-            with open(os.path.join(root, "setup.cfg"), "a") as f:
-                f.write(SAMPLE_CONFIG)
-        print(CONFIG_ERROR, file=sys.stderr)
-        return 1
-
-    print(" creating %s" % cfg.versionfile_source)
-    with open(cfg.versionfile_source, "w") as f:
-        LONG = LONG_VERSION_PY[cfg.VCS]
-        f.write(
-            LONG
-            % {
-                "DOLLAR": "$",
-                "STYLE": cfg.style,
-                "TAG_PREFIX": cfg.tag_prefix,
-                "PARENTDIR_PREFIX": cfg.parentdir_prefix,
-                "VERSIONFILE_SOURCE": cfg.versionfile_source,
-            }
-        )
-
-    ipy = os.path.join(os.path.dirname(cfg.versionfile_source), "__init__.py")
-    if os.path.exists(ipy):
-        try:
-            with open(ipy, "r") as f:
-                old = f.read()
-        except EnvironmentError:
-            old = ""
-        if INIT_PY_SNIPPET not in old:
-            print(" appending to %s" % ipy)
-            with open(ipy, "a") as f:
-                f.write(INIT_PY_SNIPPET)
-        else:
-            print(" %s unmodified" % ipy)
-    else:
-        print(" %s doesn't exist, ok" % ipy)
-        ipy = None
-
-    # Make sure both the top-level "versioneer.py" and versionfile_source
-    # (PKG/_version.py, used by runtime code) are in MANIFEST.in, so
-    # they'll be copied into source distributions. Pip won't be able to
-    # install the package without this.
-    manifest_in = os.path.join(root, "MANIFEST.in")
-    simple_includes = set()
-    try:
-        with open(manifest_in, "r") as f:
-            for line in f:
-                if line.startswith("include "):
-                    for include in line.split()[1:]:
-                        simple_includes.add(include)
-    except EnvironmentError:
-        pass
-    # That doesn't cover everything MANIFEST.in can do
-    # (http://docs.python.org/2/distutils/sourcedist.html#commands), so
-    # it might give some false negatives. Appending redundant 'include'
-    # lines is safe, though.
-    if "versioneer.py" not in simple_includes:
-        print(" appending 'versioneer.py' to MANIFEST.in")
-        with open(manifest_in, "a") as f:
-            f.write("include versioneer.py\n")
-    else:
-        print(" 'versioneer.py' already in MANIFEST.in")
-    if cfg.versionfile_source not in simple_includes:
-        print(
-            " appending versionfile_source ('%s') to MANIFEST.in"
-            % cfg.versionfile_source
-        )
-        with open(manifest_in, "a") as f:
-            f.write("include %s\n" % cfg.versionfile_source)
-    else:
-        print(" versionfile_source already in MANIFEST.in")
-
-    # Make VCS-specific changes. For git, this means creating/changing
-    # .gitattributes to mark _version.py for export-subst keyword
-    # substitution.
-    do_vcs_install(manifest_in, cfg.versionfile_source, ipy)
-    return 0
-
-
-def scan_setup_py():
-    """Validate the contents of setup.py against Versioneer's expectations."""
-    found = set()
-    setters = False
-    errors = 0
-    with open("setup.py", "r") as f:
-        for line in f.readlines():
-            if "import versioneer" in line:
-                found.add("import")
-            if "versioneer.get_cmdclass()" in line:
-                found.add("cmdclass")
-            if "versioneer.get_version()" in line:
-                found.add("get_version")
-            if "versioneer.VCS" in line:
-                setters = True
-            if "versioneer.versionfile_source" in line:
-                setters = True
-    if len(found) != 3:
-        print("")
-        print("Your setup.py appears to be missing some important items")
-        print("(but I might be wrong). Please make sure it has something")
-        print("roughly like the following:")
-        print("")
-        print(" import versioneer")
-        print(" setup( version=versioneer.get_version(),")
-        print("        cmdclass=versioneer.get_cmdclass(),  ...)")
-        print("")
-        errors += 1
-    if setters:
-        print("You should remove lines like 'versioneer.VCS = ' and")
-        print("'versioneer.versionfile_source = ' . This configuration")
-        print("now lives in setup.cfg, and should be removed from setup.py")
-        print("")
-        errors += 1
-    return errors
-
-
-if __name__ == "__main__":
-    cmd = sys.argv[1]
-    if cmd == "setup":
-        errors = do_setup()
-        errors += scan_setup_py()
-        if errors:
-            sys.exit(1)
diff --git a/third_party/gauxc/include/gauxc/atom.hpp b/third_party/gauxc/include/gauxc/atom.hpp
deleted file mode 100644
index 72b0673..0000000
--- a/third_party/gauxc/include/gauxc/atom.hpp
+++ /dev/null
@@ -1,87 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/types.hpp>
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-
-/// A named type pertaining to the atomic number (number of protons) of an Atom
-using AtomicNumber = detail::NamedType< int64_t, struct AtomicNumberType >;
-
-/**
- *  @brief A struct to represent the state of an atom (charge and spacial location)
- */
-struct Atom {
-
-  AtomicNumber Z; ///< Atomic number
-
-  double x;       ///< X coordinate (bohr)
-  double y;       ///< Y coordinate (bohr)
-  double z;       ///< Z coordinate (bohr)
-
-  /**
-   *  @brief Construct an Atom object with default state
-   */
-  Atom() = default;
-
-  /**
-   *  @brief Construct an Atom object with a specified state
-   *
-   *  @param[in] _Z Atomic number
-   *  @param[in] _x X coordinate (bohr)
-   *  @param[in] _y Y coordinate (bohr)
-   *  @param[in] _z Z coordinate (bohr)
-   */
-  Atom( AtomicNumber _Z, double _x, double _y, double _z ) :
-    Z(_Z), x(_x), y(_y), z(_z) { }
-
-  /**
-   *  @brief (De)serialize an atom object to/from a particular cereal archive
-   *
-   *  @tparam Archive Cereal archive type
-   *
-   *  @param[in/out] ar Cereal archive
-   */
-  template <typename Archive>
-  void serialize( Archive& ar ) {
-    ar(  Z, x, y, z );
-  }
-
-}; // struct Atom
-
-/**
- *  @brief Check equality of two Atom objects
- *
- *  @param[in] a1 First atom object
- *  @param[in] a2 Second atom object
- *  @returns   true if a1 and a2 represent identical atom objects,
- *             false otherwise
- */
-inline bool operator==( const Atom& a1, const Atom& a2 ) {
-  return a1.Z == a2.Z and a1.x == a2.x and a1.y == a2.y and a1.z == a2.z; 
-}
-
-/**
- *  @brief Check inequality of two Atom objects
- *
- *  @param[in] a1 First atom object
- *  @param[in] a2 Second atom object
- *  @returns   false if a1 and a2 represent identical atom objects,
- *             true otherwise
- */
-inline bool operator!=( const Atom& a1, const Atom& a2 ) {
-  return not (a1 == a2);
-}
-
-} // namespace GauXC
diff --git a/third_party/gauxc/include/gauxc/basisset.hpp b/third_party/gauxc/include/gauxc/basisset.hpp
deleted file mode 100644
index c0c0f83..0000000
--- a/third_party/gauxc/include/gauxc/basisset.hpp
+++ /dev/null
@@ -1,159 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <vector>
-#include <numeric>
-
-#include <gauxc/shell.hpp>
-
-namespace GauXC {
-
-/**
- *  @brief A class to manage a Gaussian type orbital (GTO) basis set
- *
- *  Extends std::vector<Shell<F>>
- *
- *  @tparam F Datatype representing the internal basis set storage
- */
-template <typename F>
-struct BasisSet : public std::vector<Shell<F>> {
-private:
-  /// Tests if the base class can be constructed from @p Args
-  template <typename... Args>
-  static constexpr auto can_construct_base_v = 
-    std::is_constructible_v<std::vector<Shell<F>>, Args...>;
-    
-public:
-  /**
-   *  @brief Construct a BasisSet object
-   * 
-   *  Delegates to std::vector<Shell<F>>::vector
-   *
-   *  @tparam Args Parameter pack for arguments that are passed to
-   *  base constructor
-   *  @tparam <anonymous> Used to disable this method via SFINAE if the base
-   *  class can not be constructed from @p Args
-   */
-  template <typename... Args,
-            typename = std::enable_if_t<can_construct_base_v<Args...>>>
-  explicit BasisSet( Args&&... args ) :
-    std::vector<Shell<F>>( std::forward<Args>(args)... )  { }
-
-  /// Copy a BasisSet object
-  BasisSet( const BasisSet& )     = default;
-
-  /// Move a BasisSet object
-  BasisSet( BasisSet&& ) noexcept = default;
-
-  /// Copy-assign BasisSet object
-  BasisSet& operator=( const BasisSet& ) = default;
-
-  /// Move-assign BasisSet object
-  BasisSet& operator=( BasisSet&& ) noexcept = default;
-
-  /**
-   *  @brief Return the number of GTO shells which comprise the BasisSet object
-   *
-   *  Delegates to std::vector<Shell<F>>::size
-   *
-   *  @returns the number of GTO shells which comprise the BasisSet object
-   */
-  inline int32_t nshells() const { return this->size(); }; 
-
-  /**
-   *  @brief Return the number of GTO basis functions which comprise the 
-   *  BasisSet object.
-   *
-   *  This routine accumulates the shell sizes (accounting for Cart/Sph angular
-   *  factors) for each shell in the basis set.
-   *
-   *  @returns the number of GTO basis functions which comprise the BasisSet
-   *  object.
-   */
-  inline int32_t nbf()     const {
-    return std::accumulate( this->cbegin(), this->cend(), 0ul,
-      [](const auto& a, const auto& b) { 
-        return a + b.size();
-      } );
-  };
-
-  /**
-   *  @brief Return the number of cartesian GTO basis functions which comprise the 
-   *  BasisSet object.
-   *
-   *  This routine accumulates the cartesian shell sizes for each shell in the basis set.
-   *
-   *  @returns the number of cartesian GTO basis functions which comprise the BasisSet
-   *  object.
-   */
-  inline int32_t nbf_cart()     const {
-    return std::accumulate( this->cbegin(), this->cend(), 0ul,
-      [](const auto& a, const auto& b) { 
-        return a + b.cart_size();
-      } );
-  };
-
-  /**
-   *  @brief Determine the number of basis functions contained in a
-   *  specified subset of the BasisSet object.
-   *
-   *  Performs the following operation:
-   *    for( i in shell_list ) nbf += size of shell i
-   *
-   *  @tparam IntegralIterator Iterator type representing the list of
-   *  shell indices.
-   *
-   *  @param[in] shell_list_begin Start iterator for shell list
-   *  @param[in] shell_list_end   End iterator for shell_list
-   *  @returns   Number of basis functions in the specified shell subset.
-   */
-  template <typename IntegralIterator>
-  inline int32_t nbf_subset( IntegralIterator shell_list_begin,
-                             IntegralIterator shell_list_end ) const {
-    int32_t _nbf = 0;
-    for( auto it = shell_list_begin; it != shell_list_end; ++it )
-      _nbf += std::vector<Shell<F>>::at(*it).size();
-    return _nbf;
-  }
-
-  /**
-   *  @brief Determine the number of cartesian basis functions contained in a
-   *  specified subset of the BasisSet object.
-   *
-   *  Performs the following operation:
-   *    for( i in shell_list ) nbf += cartesian size of shell i
-   *
-   *  @tparam IntegralIterator Iterator type representing the list of
-   *  shell indices.
-   *
-   *  @param[in] shell_list_begin Start iterator for shell list
-   *  @param[in] shell_list_end   End iterator for shell_list
-   *  @returns   Number of cartesian basis functions in the specified shell subset.
-   */
-  template <typename IntegralIterator>
-  inline int32_t nbf_cart_subset( IntegralIterator shell_list_begin,
-                                  IntegralIterator shell_list_end ) const {
-    int32_t _nbf = 0;
-    for( auto it = shell_list_begin; it != shell_list_end; ++it )
-      _nbf += std::vector<Shell<F>>::at(*it).cart_size();
-    return _nbf;
-  }
-
-  inline int32_t max_l() const {
-    return std::max_element(this->cbegin(), this->cend(),
-      [](const auto& a, const auto& b) { return a.l() < b.l(); })->l();
-  }
-
-}; // class BasisSet
-
-} // namespace GauXC
diff --git a/third_party/gauxc/include/gauxc/basisset_map.hpp b/third_party/gauxc/include/gauxc/basisset_map.hpp
deleted file mode 100644
index 53f6d9d..0000000
--- a/third_party/gauxc/include/gauxc/basisset_map.hpp
+++ /dev/null
@@ -1,199 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-
-namespace GauXC {
-
-/// A class to manage index maps pertaining to a BasisSet object
-class BasisSetMap {
-
-  using ao_range    = std::pair<int32_t,int32_t>;
-  using shell_range = std::pair<int32_t, int32_t>;
-
-  int32_t nshells_; ///< Number of basis shells
-
-  std::vector<int32_t>      shell_sizes_;       ///< Shell sizes
-  std::vector<int32_t>      shell_ls_;          ///< Shell angular momenta
-  std::vector<bool>         shell_pure_;        ///< Shell purity (cart/sph)
-  std::vector<int32_t>      shell_to_first_ao_; ///< Map from shell index to first basis function of that shell
-  std::vector<ao_range>     shell_to_ao_range_; ///< Map from shell index to range of basis functions for that shell
-  std::vector<int32_t>      shell_to_center_;   ///< Map from shell index to basis center (atom in a moledule)
-  std::vector<shell_range>  center_to_shell_range_; ///< Map from unique basis center to range of shells
- 
-public:
-
-  /**
-   *  @brief Construct a BasisSetMap object from a BasisSet
-   *
-   *  Generate the maps from shell indices to basis function and center indices
-   *
-   *  @param[in] basis BasisSet for which to generate maps
-   *  @param[in] mol   Molecule instatance upon which `basis` is defined.
-   */
-  template <typename F>
-  BasisSetMap( const BasisSet<F>& basis, const Molecule& mol ) :
-    nshells_( basis.nshells() ) {	
-
-    shell_sizes_.resize( nshells_ );
-    shell_ls_.resize( nshells_ );
-    shell_pure_.resize( nshells_ );
-    for( int32_t i = 0; i < nshells_; ++i ) {
-      shell_sizes_[i] = basis.at(i).size();
-      shell_ls_[i]    = basis.at(i).l(); 
-      shell_pure_[i]  = basis.at(i).pure();
-    }
-
-    shell_to_first_ao_.reserve( nshells_ );
-    shell_to_ao_range_.reserve( nshells_ );
-
-    size_t st_idx = 0;
-    for( const auto& shell : basis ) {
-      size_t range_end = st_idx + shell.size();
-      shell_to_first_ao_.emplace_back( st_idx );
-      shell_to_ao_range_.push_back({ st_idx, range_end });
-      st_idx = range_end;
-    }
-
-    shell_to_center_.resize( nshells_ );
-    size_t sh_idx = 0;
-    for( const auto& shell : basis ) {
-      auto at_pos = std::find_if( mol.begin(), mol.end(), [&](const Atom& at) { 
-        return at.x == shell.O()[0] and at.y == shell.O()[1] and at.z == shell.O()[2];
-      });
-      if( at_pos != mol.end() ) shell_to_center_[sh_idx] = std::distance( mol.begin(), at_pos );
-      else shell_to_center_[sh_idx] = -1;
-      ++sh_idx;
-    }
-
-  }
-
-
-
-  /// Return the map from shell indicies to starting basis functions (const)
-  const auto& shell_to_first_ao() const { return shell_to_first_ao_; }
-  
-  /// Return the map from shell indicies to starting basis functions (non-const)
-  auto& shell_to_first_ao()       { return shell_to_first_ao_; }
-
-  /// Return the map from shell indicies to basis function ranges (const)
-  const auto& shell_to_ao_range() const { return shell_to_ao_range_; }
-  
-  /// Return the map from shell indicies to basis function ranges (non-const)
-  auto& shell_to_ao_range() { return shell_to_ao_range_; }
-
-  /// Return container that stores the shell sizes (const)
-  const auto& shell_sizes() const { return shell_sizes_; }
-
-  /// Return container that stores the shell sizes (non-const)
-  auto& shell_sizes() { return shell_sizes_; }
-
-  /// Return map from shell indices to unique basis centers (const)
-  const auto& shell_to_center() const { return shell_to_center_; }
-
-  /// Return map from shell indices to unique basis centers (non-const)
-  auto& shell_to_center() { return shell_to_center_; }
-
-
-  /**
-   *  @brief Get first basis function index for a specified shell
-   *
-   *  @param[in] i Shell index
-   *  @returns   Basis function index for shell "i"
-   */
-  auto shell_to_first_ao(int32_t i) const { return shell_to_first_ao_.at(i); }
-
-  /**
-   *  @brief Get first basis function range for a specified shell
-   *
-   *  @param[in] i Shell index
-   *  @returns   Basis function range for shell "i"
-   */
-  auto shell_to_ao_range(int32_t i) const { return shell_to_ao_range_.at(i); }
-
-  /**
-   *  @brief Get the size of shell "i"
-   *
-   *  @param[in] i Shell index
-   *  @returns   Size of shell "i"
-   */
-  auto shell_size(int32_t i) const { return shell_sizes_.at(i); }
-
-  /**
-   *  @brief Get unique basis center index for shell "i"
-   *
-   *  @param[in] i Shell index
-   *  @returns   Basis center index for shell "i"
-   */
-  const auto& shell_to_center(int32_t i) const { return shell_to_center_[i]; }
-
-  /**
-   *  @brief Get unique basis center index for shell "i"
-   *
-   *  @param[in] i Shell index
-   *  @returns   Basis center index for shell "i"
-   */
-  auto& shell_to_center(int32_t i) { return shell_to_center_[i]; }
-
-
-  /**
-   *  @brief Get angular momentum for shell "i"
-   *
-   *  @param[in] i Shell index
-   *  @returns   Angular momentum for shell "i"
-   */
-  auto shell_l(size_t i) const { return shell_ls_.at(i); }
-
-  /**
-   *  @brief Get purity (cart/sph) of shell "i"
-   *
-   *  @param[in] i Shell index
-   *  @returns   Purity of shell "i"
-   */
-  auto shell_pure(size_t i) const { return shell_pure_.at(i); }
-
-  /// Get max angular momentum for the basis set
-  inline uint32_t max_l() const {
-    return *std::max_element(shell_ls_.begin(), shell_ls_.end());
-  }
-
-  /// Count the number of shells with angular momentum `l`
-  inline size_t nshells_with_l(uint32_t l) const {
-    return std::count( shell_ls_.begin(), shell_ls_.end(), l );
-  }
-
-  /// Check whether shells of angular momentum `l` are spherical (pure)
-  inline bool l_purity(uint32_t l) const {
-    // Find first shell with L
-    auto first_shell_w_l = std::find( shell_ls_.begin(), shell_ls_.end(), l );
-    return shell_pure( std::distance( shell_ls_.begin(), first_shell_w_l ) );
-  }
-
-  /// Obtain list of shell offsets for a shell subset if compressed in memory 
-  template <typename IntegralType, typename IntegralIterator>
-  std::vector<IntegralType> shell_offs( IntegralIterator begin, 
-                                        IntegralIterator end ) const {
-
-    const size_t nshells_list = std::distance(begin,end);
-    std::vector<IntegralType> shell_offs(nshells_list);
-    shell_offs.at(0) = 0;
-    for(auto i = 1ul; i < nshells_list; ++i) {
-      shell_offs.at(i) = shell_offs.at(i-1) + shell_size(*(begin+i-1));
-    }
-    return shell_offs;  
-
-  }
-}; // class BasisSetMap
-
-} // namespace GauXC
diff --git a/third_party/gauxc/include/gauxc/enums.hpp b/third_party/gauxc/include/gauxc/enums.hpp
deleted file mode 100644
index 76d4500..0000000
--- a/third_party/gauxc/include/gauxc/enums.hpp
+++ /dev/null
@@ -1,67 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-
-/**
- *  @brief GauXC specific enums for the specification of radial quadratures
- *
- *  Generally mapped to equivalent enums in IntegratorXX
- */
-enum class RadialQuad {
-  Becke,             ///< Becke radial quadrature
-  MuraKnowles,       ///< Mura-Knowles radial quadrature
-  MurrayHandyLaming, ///< Murray-Handy-Laming radial quadrature
-  TreutlerAhlrichs   ///< Treutler-Ahlrichs radial quadrature
-};
-
-/**
- *  @brief Specifications of grid defaults for atomic integration
- *
- *  See https://gaussian.com/integral for specification
- */
-enum class AtomicGridSizeDefault {
-  FineGrid,       ///< Fine grid      (least accurate)
-  UltraFineGrid,  ///< Ultrafine grid (appropriate accuracy)
-  SuperFineGrid,  ///< Superfine grid (most accurate)
-  GM3,            ///< Treutler-Ahlrichs GM3
-  GM5             ///< Treutlet-Ahlrichs GM5
-};
-
-/**
- *  @brief Specifications of atomic partitioning scheme for the
- *  molecular integration
- */
-enum class XCWeightAlg {
-  NOTPARTITIONED, ///< Not partitioned
-  Becke, ///< The original Becke weighting scheme
-  SSF,   ///< The Stratmann-Scuseria-Frisch weighting scheme
-  LKO    ///< The Lauqua-Kuessman-Ochsenfeld weighting scheme
-};
-
-/**
- *  @brief Specification of the execution space for various operations
- */
-enum class ExecutionSpace {
-  Host,  ///< Execute task on the host
-  Device ///< Execute task on the device (e.g. GPU)
-};
-
-/// Supported Algorithms / Integrands
-enum class SupportedAlg {
-  XC,
-  DEN,
-  SNLINK
-};
-
-} // namespace GauXC
diff --git a/third_party/gauxc/include/gauxc/exceptions.hpp b/third_party/gauxc/include/gauxc/exceptions.hpp
deleted file mode 100644
index 84b9b48..0000000
--- a/third_party/gauxc/include/gauxc/exceptions.hpp
+++ /dev/null
@@ -1,92 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-#include <string.h>
-
-namespace GauXC {
-
-// FWD decl all exception types for optional handling
-
-#ifdef GAUXC_HAS_CUDA
-class cuda_exception;
-class cublas_exception;
-#endif
-
-#ifdef GAUXC_HAS_HIP
-class hip_exception;
-class hipblas_exception;
-#endif
-
-#ifdef GAUXC_HAS_MAGMA
-class magma_exception;
-#endif
-
-#ifdef GAUXC_HAS_CUTLASS
-class cutlass_exception;
-#endif
-
-/// C++ Exception for generic GauXC errors
-class generic_gauxc_exception : public std::exception {
-
-  std::string file_;
-  std::string function_;
-  int         line_;
-  std::string msg_prefix_;
-
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "Generic GauXC Exception (" << msg_prefix_ << ")" << std::endl
-        << "  File     " << file_ << std::endl
-        << "  Function " << function_ << std::endl
-        << "  Line     " << line_  << std::endl;
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  };
-
-public:
-
-  /**
-   *  @brief Construct a generic_gauxc_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] function Function which threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   */
-  generic_gauxc_exception( std::string file, std::string function, int line, 
-    std::string msg ) :
-    file_(file), function_(function), line_(line), msg_prefix_(msg) {} 
-
-};
-
-
-}
-
-#define GAUXC_GENERIC_EXCEPTION( MSG ) \
-  throw generic_gauxc_exception( __FILE__, __PRETTY_FUNCTION__, __LINE__, MSG )
-
-#define GAUXC_PIMPL_NOT_INITIALIZED() \
-  GAUXC_GENERIC_EXCEPTION("PIMPL NOT INITIALIZED")
-
-#define GAUXC_BAD_LWD_DATA_CAST() \
-  GAUXC_GENERIC_EXCEPTION("BAD DATA CAST")
-
-#define GAUXC_BAD_BACKEND_CAST() \
-  GAUXC_GENERIC_EXCEPTION("BAD BACKEND CAST")
-
-#define GAUXC_UNINITIALIZED_DEVICE_BACKEND() \
-  GAUXC_GENERIC_EXCEPTION("UNINITIALIZED DEVICE BACKEND")
diff --git a/third_party/gauxc/include/gauxc/external/cereal.hpp b/third_party/gauxc/include/gauxc/external/cereal.hpp
deleted file mode 100644
index ba0b6ef..0000000
--- a/third_party/gauxc/include/gauxc/external/cereal.hpp
+++ /dev/null
@@ -1,16 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <cereal/types/vector.hpp>
-#include <cereal/types/array.hpp>
-
diff --git a/third_party/gauxc/include/gauxc/external/hdf5.hpp b/third_party/gauxc/include/gauxc/external/hdf5.hpp
deleted file mode 100644
index 434d089..0000000
--- a/third_party/gauxc/include/gauxc/external/hdf5.hpp
+++ /dev/null
@@ -1,40 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/gauxc_config.hpp>
-#ifdef GAUXC_HAS_HDF5
-#include <gauxc/shell.hpp>
-#include <gauxc/atom.hpp>
-
-namespace GauXC {
-void write_hdf5_record( const std::vector<Shell<double>>& shell, std::string fname, std::string dset );
-void write_hdf5_record( const std::vector<Atom>& mol, std::string fname, std::string dset );
-void read_hdf5_record( std::vector<Shell<double>>& shell, std::string fname, std::string dset );
-void read_hdf5_record( std::vector<Atom>& mol, std::string fname, std::string dset );
-
-#if 0
-void write_hdf5_record( int32_t M, int32_t N, const double* A, int32_t LDA, std::string fname, std::string dset );
-void read_hdf5_record( int32_t M, int32_t N, double* A, int32_t LDA, std::string fname, std::string dset );
-
-#if __has_include(<Eigen/Core>)
-template <typename Derived>
-inline void write_hdf5_record( const Eigen::MatrixBase<Derived>& A, std::string fname, std::string dset ) {
-  write_hdf5_record( A.rows(), A.cols(), A.data(), A.rows(), fname, dset );
-}
-template <typename Derived>
-inline void read_hdf5_record( Eigen::MatrixBase<Derived>& A, std::string fname, std::string dset ) {
-  read_hdf5_record( A.rows(), A.cols(), A.data(), A.rows(), fname, dset );
-}
-#endif
-#endif
-
-}
-#endif
diff --git a/third_party/gauxc/include/gauxc/gauxc_config.hpp.in b/third_party/gauxc/include/gauxc/gauxc_config.hpp.in
deleted file mode 100644
index 75fadce..0000000
--- a/third_party/gauxc/include/gauxc/gauxc_config.hpp.in
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#cmakedefine GAUXC_HAS_HOST
-#cmakedefine GAUXC_HAS_CUDA
-#cmakedefine GAUXC_HAS_HIP
-#cmakedefine GAUXC_HAS_MPI
-#cmakedefine GAUXC_HAS_MAGMA
-#cmakedefine GAUXC_HAS_NCCL
-#cmakedefine GAUXC_HAS_CUTLASS
-#cmakedefine GAUXC_HAS_GAU2GRID
-#cmakedefine GAUXC_HAS_HDF5
-#cmakedefine GAUXC_HAS_ONEDFT
-#cmakedefine GAUXC_USE_FAST_RSQRT
-
-#ifdef GAUXC_HAS_ONEDFT
-#cmakedefine GAUXC_ONEDFT_MODEL_PATH "@GAUXC_ONEDFT_MODEL_PATH@"
-#cmakedefine GAUXC_ONEDFT_MODEL_PATH_INSTALL "@GAUXC_ONEDFT_MODEL_PATH_INSTALL@"
-#endif
-
-#ifdef GAUXC_HAS_HOST
-#cmakedefine GAUXC_CPU_XC_MAX_AM     @GAUXC_CPU_XC_MAX_AM@
-#cmakedefine GAUXC_CPU_SNLINK_MAX_AM @GAUXC_CPU_SNLINK_MAX_AM@
-#endif
-
-#cmakedefine GAUXC_HAS_DEVICE
-#ifdef GAUXC_HAS_DEVICE
-#cmakedefine GAUXC_GPU_XC_MAX_AM     @GAUXC_GPU_XC_MAX_AM@
-#cmakedefine GAUXC_GPU_SNLINK_MAX_AM @GAUXC_GPU_SNLINK_MAX_AM@
-#endif
-
-#if defined(__CUDACC__) || defined(__HIPCC__)
-  #define HOST_DEVICE_ACCESSIBLE __host__ __device__
-#else
-  #define HOST_DEVICE_ACCESSIBLE
-#endif
diff --git a/third_party/gauxc/include/gauxc/grid.hpp b/third_party/gauxc/include/gauxc/grid.hpp
deleted file mode 100644
index af7f8f2..0000000
--- a/third_party/gauxc/include/gauxc/grid.hpp
+++ /dev/null
@@ -1,90 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <memory>
-#include <gauxc/types.hpp>
-
-namespace GauXC {
-
-/// A named type pertaining to the size of a radial quadrature
-using RadialSize   = detail::NamedType< int64_t, struct RadialSizeType  >;
-
-/// A named type pertaining to the size of an angular quadrature
-using AngularSize  = detail::NamedType< int64_t, struct AngularSizeType >;
-
-/// A named type pertaining to the number of grid points in a quadrature batch
-using BatchSize    = detail::NamedType< int64_t, struct BatchSizeType   >;
-
-/// A named type pertaining to a scaling factor for a radial quadrature
-using RadialScale  = detail::NamedType< double,  struct RadialScaleType >;
-
-namespace detail {
-  /// A class which contains the implementation details of a Grid instance
-  class GridImpl;
-}
-
-/// A class to manage a particular spherical (atomic) quadrature
-class Grid {
-
-  std::shared_ptr<detail::GridImpl> pimpl_; 
-    ///< Implementation details of this particular Grid instance
-
-public:
-
-  // Delete default ctor
-  Grid() = delete;
-
-  /**
-   *  @brief Generate a batched atomic grid
-   *
-   *  @param[in] q   Shared ptr to a preconstructed quadrature instance
-   *  @param[in] bsz Batch size for quadrature
-   */
-  Grid( std::shared_ptr<quadrature_type> q, BatchSize bsz );
-
-  /// Copy a Grid object
-  Grid( const Grid& );
-
-  /// Move a Grid object
-  Grid( Grid&& ) noexcept;
-
-  /// Copy-assign a Grid object
-  Grid& operator=( const Grid& );
-
-  /// Move-assign a Grid object
-  Grid& operator=( Grid&& ) noexcept;
-
-  /// Destroy a Grid object
-  ~Grid() noexcept;
-
-  /**
-   *  @brief Get batcher instance for underlying Grid implementation
-   *
-   *  Const variant
-   *
-   *  @returns Batcher instance pertaining to the Grid object
-   */
-  const batcher_type& batcher() const;
-
-  /**
-   *  @brief Get batcher instance for underlying Grid implementation
-   *
-   *  Non-const variant
-   *
-   *  @returns Batcher instance pertaining to the Grid object
-   */
-  batcher_type& batcher();
-
-}; // class Grid
-
-} // namespace GauXC
diff --git a/third_party/gauxc/include/gauxc/grid_factory.hpp b/third_party/gauxc/include/gauxc/grid_factory.hpp
deleted file mode 100644
index ecf6552..0000000
--- a/third_party/gauxc/include/gauxc/grid_factory.hpp
+++ /dev/null
@@ -1,143 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/grid.hpp>
-#include <integratorxx/composite_quadratures/spherical_quadrature.hpp>
-#include <integratorxx/composite_quadratures/pruned_spherical_quadrature.hpp>
-
-#include <variant>
-
-namespace GauXC {
-
-/// Generic specification of an unpruned atomic quadrature
-struct UnprunedAtomicGridSpecification {
-  RadialQuad  radial_quad;  ///< Radial quadrature specification
-  RadialSize  radial_size;  ///< Number of radial quadrature points
-  RadialScale radial_scale; ///< Radial scaling factor
-
-  AngularSize angular_size; /// Number of angular quadrature points
-};
-
-/// Speficiation of a pruned region of an atomic quadrature
-struct PruningRegion {
-  size_t idx_st;             ///< Starting radial index for pruned region
-  size_t idx_en;             ///< Ending radial index (exclusive) for the pruned region
-  AngularSize angular_size;  ///< Number of angular quadrature points in the pruned region
-
-  /// Check equality of `PruningRegion` instances
-  bool operator==(const PruningRegion& other) const {
-    return other.idx_st == idx_st and 
-           other.idx_en == idx_en and
-           other.angular_size == angular_size;
-  }
-};
-
-/// Generic specification of a pruned atomic quadrature
-struct PrunedAtomicGridSpecification {
-  RadialQuad  radial_quad;  ///< Radial quadrature specification
-  RadialSize  radial_size;  ///< Number of radial quadrature points
-  RadialScale radial_scale; ///< Radial scaling factor
-
-  std::vector<PruningRegion> pruning_regions; ///< List of pruning regions over the radial quadrature
-};
-
-
-/// Generate a "Robust"-Psi4 Pruning specification from an unpruned quadrature specification
-PrunedAtomicGridSpecification robust_psi4_pruning_scheme(
-  UnprunedAtomicGridSpecification
-);
-
-/// Generate a Pruning specification according to the Treutler-Ahlrichs scheme from an unpruned specification
-PrunedAtomicGridSpecification treutler_pruning_scheme(
-  UnprunedAtomicGridSpecification
-);
-
-/// High-level specification of pruning schemes for atomic quadratures
-enum class PruningScheme {
-  Unpruned, /// Unpruned atomic quadrature
-  Robust,   /// The "Robust" scheme of Psi4
-  Treutler  /// The Treutler-Ahlrichs scheme
-};
-
-/// Generate a pruning specification from a specificed pruning scheme and 
-/// an unpruned grid specification
-PrunedAtomicGridSpecification create_pruned_spec(
-  PruningScheme, UnprunedAtomicGridSpecification
-);
-
-using atomic_grid_variant = 
-  std::variant<UnprunedAtomicGridSpecification,
-               PrunedAtomicGridSpecification>;
-
-
-/// Factory for Atomic grids
-struct AtomicGridFactory {
-
-  template <typename RadialType, typename AngularType>
-  using unpruned_sphere_type = typename
-    IntegratorXX::SphericalQuadrature< 
-      std::decay_t<RadialType>, std::decay_t<AngularType>
-    >;
-  template <typename RadialType, typename AngularType>
-  using pruned_sphere_type = typename
-    IntegratorXX::PrunedSphericalQuadrature< 
-      std::decay_t<RadialType>, std::decay_t<AngularType>
-    >;
-
-  /**
-   *  @brief Generate an unpruned atomic grid given a suppled radial and
-   *         angular quadrature.
-   *
-   *  All arguments are passed with perfect forwarding
-   *
-   *  @tparam RadialType Type of the radial quadrature
-   *  @tparam AngularType Type of the angular quadrature
-   * 
-   *  @oaram     rq Radial quadrature from which to construct the atomic quadrature. 
-   *  @oaram     aq Angular quadrature from which to construct the atomic quadrature. 
-   *  @param[in] bsz Batch size for the grid generation.
-   */
-  template <typename RadialType, typename AngularType>
-  static Grid generate_unpruned_grid( RadialType&& rq, AngularType&& aq, BatchSize bsz ) {
-    using sphere_type = unpruned_sphere_type<RadialType,AngularType>;
-    return Grid( std::make_shared<sphere_type>( 
-      std::forward<RadialType>(rq), std::forward<AngularType>(aq) 
-      ), bsz
-    );
-  }
-
-  template <typename RadialType, typename RadialPartitionType>
-  static Grid generate_pruned_grid( RadialType&& rq, 
-    RadialPartitionType&& rgp, BatchSize bsz ) {
-    using angular_type = typename std::decay_t<RadialPartitionType>::angular_type; 
-    using sphere_type = pruned_sphere_type<RadialType,angular_type>;
-    return Grid( std::make_shared<sphere_type>( 
-      std::forward<RadialType>(rq), std::forward<RadialPartitionType>(rgp)
-      ), bsz
-    );
-  }
-
-
-  static Grid generate_unpruned_grid( RadialQuad, RadialSize, AngularSize, 
-                                      RadialScale, BatchSize bsz );
-  static Grid generate_pruned_grid( RadialQuad, RadialSize, 
-    const std::vector<PruningRegion>&, RadialScale, BatchSize bsz );
-
-
-  static Grid generate_grid( UnprunedAtomicGridSpecification gs, BatchSize bsz ); 
-  static Grid generate_grid( PrunedAtomicGridSpecification gs, BatchSize bsz ); 
-
-  static Grid generate_grid( atomic_grid_variant gs, BatchSize bsz );
-
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/load_balancer.hpp b/third_party/gauxc/include/gauxc/load_balancer.hpp
deleted file mode 100644
index d420656..0000000
--- a/third_party/gauxc/include/gauxc/load_balancer.hpp
+++ /dev/null
@@ -1,201 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/molgrid.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/basisset_map.hpp>
-#include <gauxc/shell_pair.hpp>
-#include <gauxc/xc_task.hpp>
-#include <gauxc/util/timer.hpp>
-#include <gauxc/runtime_environment.hpp>
-#include <gauxc/enums.hpp>
-
-namespace GauXC {
-
-namespace detail {
-  /// LoadBalancer Implementation class
-  class LoadBalancerImpl;
-}
-
-/// State tracker for LoadBalancer instances 
-struct LoadBalancerState {
-  bool modified_weights_are_stored = false; 
-    ///< Whether the load balancer currently stores partitioned weights
-  XCWeightAlg weight_alg = XCWeightAlg::NOTPARTITIONED; 
-    ///< Weight partitioning scheme used by this LoadBalancer
-};
-
-
-/** 
- *  @brief A class to distribute and manage local quadrature tasks for XCIntegraor
- *  operations
- */
-class LoadBalancer {
-
-  using pimpl_type = detail::LoadBalancerImpl;
-  std::unique_ptr<pimpl_type> pimpl_; ///< Pointer to implementation instance
-
-public:
-
-  using basis_type      = BasisSet<double>;
-  using basis_map_type  = BasisSetMap;
-  using shell_pair_type = ShellPairCollection<double>;
-
-  /// Construct default LoadBalancer instance with null internal state
-  LoadBalancer();
-
-  /// Construct LoadBalancer instance from preconstructed implementation
-  LoadBalancer( std::unique_ptr<pimpl_type>&& pimpl );
-
-  /// Copy a LoadBalancer instance
-  LoadBalancer( const LoadBalancer& );
-
-  /// Move a LoadBalancer instance 
-  LoadBalancer( LoadBalancer&& ) noexcept;
-
-  /// Destruct LoadBalancer instance (defaulted)
-  ~LoadBalancer() noexcept;
-
-  /// Get underlying (local) quadrature tasks for this process (cost)
-  const std::vector<XCTask>& get_tasks() const;
-  /// Get underlying (local) quadrature tasks for this process (non-cost)
-        std::vector<XCTask>& get_tasks()      ;
-
-  /// Rebalance quadrature batches according to weight-only cost
-  void rebalance_weights();
-
-  /// Rebalance quadrature batches according to exc-vxc cost
-  void rebalance_exc_vxc();
-
-  /// Rebalance quadrature batches according to exx cost 
-  void rebalance_exx();
-  
-  /// Return internal timing tracker
-  const util::Timer& get_timings() const;
-
-  /// Return the total number of points for local tasks
-  size_t total_npts() const;
-
-  /// Return the maximum number of points for local tasks
-  size_t max_npts()       const;
-
-  /// Return the maximum effective basis dimention for local tasks
-  size_t max_nbe()        const;
-
-  /// Return the maximum npts x nde product for local tasks 
-  size_t max_npts_x_nbe() const;
-
-  /// Return the underlying molecule instance used to generate this LoadBalancer 
-  const Molecule& molecule() const;
-
-  /// Return the underlying MolMeta instance used to generate this LoadBalancer 
-  const MolMeta&  molmeta()  const;
-
-  /// Return the underlying BasisSet instance used to generate this LoadBalancer 
-  const basis_type& basis()  const;
-
-  /// Return BasisSetMap instance corresponding to basis/molecule
-  const basis_map_type& basis_map() const;
-
-  /// Return the number of non-negligible local shell pairs for this LoadBalancer
-  const shell_pair_type& shell_pairs() const;
-  const shell_pair_type& shell_pairs();
-
-  /// Return the runtime handle used to construct this LoadBalancer
-  const RuntimeEnvironment& runtime() const;
-  
-  /// Return the load balancer state (non-const)
-  LoadBalancerState& state();
-
-  /// Check equality of LoadBalancer instances
-  bool operator==( const LoadBalancer& ) const;
-
-}; // class LoadBalancer
-
-
-/// A factory to generate LoadBalancer instances
-class LoadBalancerFactory {
-
-public:
-
-  // Delete default ctor
-  LoadBalancerFactory() = delete;
-
-  /**
-   * @brief Construct a factory which generates a specific kind of LoadBalancer
-   *
-   * @param[in] ex Execution space for the LoadBalancer phase. 
-   *               Acceptable values:
-   *               - Host: Run LoadBalancer on CPU
-   *               - Device: Run LoadBalancer on GPU (if enabled)
-   *
-   * @param[in] kernel_name Specification of the LoadBalancer kernel. 
-   *    Currently accepted values for Host execution space:
-   *    - "DEFAULT": Read as "REPLICATED-PETITE"
-   *    - "REPLICATED": Read as "REPLICATED-PETITE"
-   *    - "REPLICATED-PETITE": Replicate the load balancer function, only keep
-   *                           non negligible basis functions
-   *    - "REPLICATED-FILLIN": Same as "REPLICATED-PETITE" except if two 
-   *                           non-adjacent bfns are kept, the gaps are filled in.
-   *                           This gurantees contiguous memory access but leads
-   *                           to significantly more work. Not advised for general 
-   *                           usage
-   * 
-   *    Currently accepted values for Device execution space:
-   *      - "DEFAULT": Read as "REPLICATED"
-   *      - "REPLICATED": Same as Host::REPLICATED-PETITE
-   */
-  LoadBalancerFactory( ExecutionSpace ex, std::string kernel_name );
-
-  /** 
-   *  @brief Generate a LoadBalancer instance per kernel and execution space
-   *         specfication
-   *
-   *  @param[in] rt      Runtime handle defining the execution space across which
-   *                     the quadrature tasks will be distributed.
-   *  @param[in] mol     Molecule on which the quadrature is defined.
-   *  @param[in] mg      The batched molecular quadrature
-   *  @param[in] bs      The basis set whcih will be used for numerical integration
-   *
-   *  @returns A LoadBalancer instance constructed using the passed parameters.
-   */
-  LoadBalancer get_instance( const RuntimeEnvironment& rt, 
-    const Molecule& mol, const MolGrid& mg, const BasisSet<double>& bs);
-
-  /** 
-   *  @brief Generate a shared pointer to a LoadBalancer instance per kernel and 
-   *         execution space specfication
-   *
-   *  @param[in] rt      Runtime handle defining the execution space across which
-   *                     the quadrature tasks will be distributed.
-   *  @param[in] mol     Molecule on which the quadrature is defined.
-   *  @param[in] mg      The batched molecular quadrature
-   *  @param[in] bs      The basis set whcih will be used for numerical integration
-   *
-   *  @returns A shared pointer to a LoadBalancer instance constructed using 
-   *           the passed parameters.
-   */
-  std::shared_ptr<LoadBalancer> get_shared_instance( 
-    const RuntimeEnvironment& rt,
-    const Molecule& mol, const MolGrid& mg, const BasisSet<double>&);
-
-private:
-
-  ExecutionSpace ex_; ///< Execution space for the generated LoadBalancer instances
-  std::string    kernel_name_; ///< Kernel name of the generated Load Balancer instances 
-
-}; // LoadBalancerFactory
-
-
-}
diff --git a/third_party/gauxc/include/gauxc/molecular_weights.hpp b/third_party/gauxc/include/gauxc/molecular_weights.hpp
deleted file mode 100644
index 74f1e92..0000000
--- a/third_party/gauxc/include/gauxc/molecular_weights.hpp
+++ /dev/null
@@ -1,117 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/load_balancer.hpp>
-#include <gauxc/util/timer.hpp>
-#include <gauxc/enums.hpp>
-
-namespace GauXC {
-
-namespace detail {
-  // Implementation base class for MolecularWeights
-  class MolecularWeightsImpl;
-}
-
-struct MolecularWeightsSettings { 
-    XCWeightAlg weight_alg = XCWeightAlg::SSF; ///< Weight partitioning scheme
-    bool becke_size_adjustment = false; ///< Whether to use Becke size adjustments
-};
-
-
-/// A class which applies molecular partition weights to pre-generated quadrature
-/// tasks.
-class MolecularWeights {
-
-public:
-
-  using load_balancer_type = LoadBalancer;
-  using load_balancer_reference = load_balancer_type&;
-
-private:
-
-  using pimpl_type = detail::MolecularWeightsImpl;
-  using pimpl_ptr_type = std::unique_ptr<pimpl_type>;
-  pimpl_ptr_type pimpl_; ///< Pointer to implementation instance
-
-public:
-
-  // Delete default ctor
-  MolecularWeights() = delete;
-
-  // Destructor (default)
-  ~MolecularWeights() noexcept;
-
-  /// Construct a MolecularWeights instance from preconstructed implementation
-  MolecularWeights( pimpl_ptr_type&& ptr );
-
-  // Delete copy ctor
-  MolecularWeights( const MolecularWeights& ) = delete;
-
-  // Move a MolecularWeights instance
-  MolecularWeights( MolecularWeights&& ) noexcept;
-
-  /// Apply weight partitioning scheme to pre-generated local quadrature tasks
-  void modify_weights(load_balancer_reference lb) const;
-
-  /// Return local timing tracker
-  const util::Timer& get_timings() const;
-
-}; // class MolecularWeights
-
-
-/// A factory to generate MolecularWeights instances 
-class MolecularWeightsFactory {
-
-public:
-
-    // Delete default ctor
-    MolecularWeightsFactory() = delete;
-
-    /**
-     * @brief Construct a factory which generates a specific kind of MolecularWeights 
-     *
-     * @param[in] ex Execution space for the MolecularWeights phase. 
-     *               Acceptable values:
-     *               - Host: Run MolecularWeights on CPU
-     *               - Device: Run MolecularWeights on GPU (if enabled)
-     *
-     * @param[in] local_work_kernel_name Specification of the LocalWorkDriver 
-     *                                   kernel underlying the MolecularWeights
-     *                                   instasnce. 
-     *
-     *                                   See documentation for LocalWorkDriver for
-     *                                   details.
-     *
-     * @param[in] s Settings for the MolecularWeights calculation.
-     */
-    MolecularWeightsFactory( ExecutionSpace ex, 
-                             std::string local_work_kernel_name,
-                             MolecularWeightsSettings s);
-
-
-    /// Generate a shared-pointer MolecularWeights instance 
-    std::shared_ptr<MolecularWeights> get_shared_instance();
-
-    /// Generate a MolecularWeights instance 
-    inline MolecularWeights get_instance(){
-      return MolecularWeights( std::move( *get_shared_instance() ) );
-    };
-
-private:
-
-    ExecutionSpace ex_; ///< Execution space for the MolecularWeights phase
-    std::string lwd_kernel_; ///< LocalWorkDriver kernel for the MolecularWeights phase
-    MolecularWeightsSettings settings_; ///< Settings for the MolecualarWeights phase
-
-}; // class MolecularWeightsSettings
-
-}
diff --git a/third_party/gauxc/include/gauxc/molecule.hpp b/third_party/gauxc/include/gauxc/molecule.hpp
deleted file mode 100644
index 9f4fe6a..0000000
--- a/third_party/gauxc/include/gauxc/molecule.hpp
+++ /dev/null
@@ -1,58 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/atom.hpp>
-#include <vector>
-#include <algorithm>
-
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-
-class Molecule : public std::vector<Atom> {
-private:
-  /// Tests if the base class can be constructed from @p Args
-  template <typename... Args>
-  static constexpr auto can_construct_base_v = 
-    std::is_constructible_v<std::vector<Atom>, Args...>;
-
-public:
-
-  template <typename... Args, 
-            typename = std::enable_if_t<can_construct_base_v<Args...>>>
-  Molecule( Args&&... args ) :
-    std::vector<Atom>( std::forward<Args>(args)... ) { }
-
-  Molecule( const Molecule& )          = default;
-  Molecule( Molecule&&      ) noexcept = default;
-
-  Molecule& operator=( const Molecule& other ) = default;
-
-  size_t natoms() const { return this->size(); }
-
-  AtomicNumber maxZ() const {
-    return std::max_element( this->cbegin(), this->cend(),
-      []( const auto& a, const auto& b) {
-        return a.Z.get() < b.Z.get();
-      })->Z;
-  }
-
-  bool operator==(const Molecule& other) {
-    if(other.size() != this->size()) return false;
-    for( auto i = 0ul; i < this->size(); ++i )
-      if( other[i] != operator[](i) ) return false;
-    return true;
-  }
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/molgrid.hpp b/third_party/gauxc/include/gauxc/molgrid.hpp
deleted file mode 100644
index d58dc49..0000000
--- a/third_party/gauxc/include/gauxc/molgrid.hpp
+++ /dev/null
@@ -1,51 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/molecule.hpp>
-#include <gauxc/grid.hpp>
-#include <gauxc/grid_factory.hpp>
-
-#include <unordered_map>
-
-namespace GauXC {
-
-using atomic_grid_map = std::unordered_map< AtomicNumber, Grid >;
-using atomic_grid_spec_map = std::unordered_map< AtomicNumber, atomic_grid_variant>;
-
-namespace detail {
-  class MolGridImpl;
-}
-
-class MolGrid {
-
-  std::shared_ptr<detail::MolGridImpl> pimpl_;
-
-public:
-
-  MolGrid( const atomic_grid_map& );
-  MolGrid( const atomic_grid_spec_map& );
-
-  MolGrid( const MolGrid& );
-  MolGrid( MolGrid&& ) noexcept;
-
-  ~MolGrid() noexcept;
-
-  size_t natoms_uniq() const;
-  const Grid& get_grid( AtomicNumber ) const;
-        Grid& get_grid( AtomicNumber )      ;
-
-  size_t max_nbatches() const;
-
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/molgrid/defaults.hpp b/third_party/gauxc/include/gauxc/molgrid/defaults.hpp
deleted file mode 100644
index 0565647..0000000
--- a/third_party/gauxc/include/gauxc/molgrid/defaults.hpp
+++ /dev/null
@@ -1,95 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/molgrid.hpp>
-
-namespace GauXC {
-
-  double slater_radius_64(AtomicNumber);
-  double slater_radius_30(AtomicNumber);
-  double clementi_radius_67(AtomicNumber);
-  double uff_radius_103(AtomicNumber);
-  double default_atomic_radius(AtomicNumber);
-
-  RadialScale default_mk_radial_scaling_factor( AtomicNumber );
-  RadialScale default_mhl_radial_scaling_factor( AtomicNumber );
-  RadialScale default_ta_radial_scaling_factor( AtomicNumber );
-  RadialScale default_radial_scaling_factor( RadialQuad, AtomicNumber );
-
-  std::tuple<RadialSize,AngularSize> 
-    default_grid_size(AtomicNumber, RadialQuad, AtomicGridSizeDefault); 
-
-  struct MolGridFactory {
-
-    static UnprunedAtomicGridSpecification create_default_unpruned_grid_spec(
-      AtomicNumber, RadialQuad, RadialSize, AngularSize
-    );
-
-    static UnprunedAtomicGridSpecification create_default_unpruned_grid_spec(
-      AtomicNumber, RadialQuad, AtomicGridSizeDefault
-    );
-
-    template <typename... Args>
-    inline static atomic_grid_variant 
-      create_default_pruned_grid_spec( PruningScheme scheme, Args&&... args ) {
-      return create_pruned_spec( scheme, 
-        create_default_unpruned_grid_spec(std::forward<Args>(args)...)
-      );
-    }
-
-    template <typename... Args>
-    inline static atomic_grid_spec_map create_default_grid_spec_map( 
-      const Molecule& mol, PruningScheme scheme, Args&&... args ) {
-
-      atomic_grid_spec_map molmap;
-      for( const auto& atom : mol ) 
-      if( !molmap.count(atom.Z) ) {
-        molmap.emplace( atom.Z, 
-          create_default_pruned_grid_spec(scheme, atom.Z, 
-            std::forward<Args>(args)...)
-        );
-      }
-
-      return molmap;
-    }
-
-    inline static atomic_grid_map generate_gridmap(
-      const atomic_grid_spec_map& gs_map, BatchSize bsz ) {
-
-      atomic_grid_map molmap;
-      for( const auto& [key, val] : gs_map ) {
-        molmap.emplace( key, AtomicGridFactory::generate_grid(val, bsz) );
-      }
-      return molmap;
-
-    }
-
-    template <typename... Args>
-    inline static atomic_grid_map create_default_gridmap( 
-      const Molecule& mol, PruningScheme scheme, BatchSize bsz,
-      Args&&... args ) {
-
-      return generate_gridmap( create_default_grid_spec_map(mol, scheme, 
-        std::forward<Args>(args)...), bsz );
-
-    }
-
-    template <typename... Args>
-    inline static MolGrid create_default_molgrid( Args&&... args ) {
-      return MolGrid( create_default_gridmap(std::forward<Args>(args)...) );
-    }
-
-  };
-
-}
-
diff --git a/third_party/gauxc/include/gauxc/molmeta.hpp b/third_party/gauxc/include/gauxc/molmeta.hpp
deleted file mode 100644
index 12918c6..0000000
--- a/third_party/gauxc/include/gauxc/molmeta.hpp
+++ /dev/null
@@ -1,55 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/molecule.hpp>
-
-namespace GauXC {
-
-class MolMeta {
-
-  size_t              natoms_;
-  std::vector<double> rab_;
-  std::vector<double> dist_nearest_; 
-  size_t              sum_atomic_charges_;
-
-  void compute_rab(const Molecule&);
-  void compute_dist_nearest();
-
-public:
-
-  MolMeta() = delete;
-  MolMeta( const Molecule& );
-
-  MolMeta( const MolMeta & );
-  MolMeta( MolMeta&& ) noexcept;
-
-  ~MolMeta() noexcept;
-
-  size_t natoms() const { return natoms_; }
-
-  const auto& rab()          const { return rab_; }
-        auto& rab()                { return rab_; }
-
-  const auto& dist_nearest() const { return dist_nearest_; }
-        auto& dist_nearest()       { return dist_nearest_; }
-
-  size_t sum_atomic_charges() const { return sum_atomic_charges_; }
-
-  template <typename Archive>
-  void serialize( Archive& ar ) {
-    ar( natoms_, rab_, dist_nearest_ );
-  }
-
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/named_type.hpp b/third_party/gauxc/include/gauxc/named_type.hpp
deleted file mode 100644
index cf7a776..0000000
--- a/third_party/gauxc/include/gauxc/named_type.hpp
+++ /dev/null
@@ -1,151 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <type_traits>
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-namespace detail {
-
-template <typename T, typename ParameterType>
-class NamedType {
-
-public:
-
-  constexpr explicit NamedType() : value_() { }
-  constexpr explicit NamedType(T const& value) : value_(value) {}
-  constexpr explicit NamedType(T&& value) : value_(std::move(value)) {}
-
-  constexpr NamedType( const NamedType& other ) : value_(other.get()) { }
-  constexpr NamedType( NamedType&& other ) noexcept : 
-    value_(std::move(other.get())) { };
-
-  constexpr NamedType& operator=( const NamedType& other ) {
-    value_ = other.get();
-    return *this;
-  }
-  constexpr NamedType& operator=( NamedType&& other ) noexcept {
-    value_ = std::move(other.get());
-    return *this;
-  }
-
-  constexpr T& get() { return value_; }
-  constexpr T const& get() const {return value_; }
-
-  template <typename Archive>
-  void serialize( Archive& ar ) {
-    ar( value_ );
-  }
-
-private:
-
-  T value_;
-
-};
-
-template <typename T, typename ParameterType>
-inline bool operator==( 
-  const NamedType<T,ParameterType>& n1,
-  const NamedType<T,ParameterType>& n2
-) { return n1.get() == n2.get(); }
-
-template <typename T, typename ParameterType>
-inline bool operator==( 
-  const NamedType<T,ParameterType>& n1,
-  const           T               & n2
-) { return n1.get() == n2; }
-
-template <typename T, typename ParameterType>
-inline bool operator==( 
-  const           T               & n1,
-  const NamedType<T,ParameterType>& n2
-) { return n2 == n1; }
-
-template <typename T, typename ParameterType, typename U,
-  typename = std::enable_if_t<std::is_convertible<U,T>::value>
->
-inline bool operator==(
-  const NamedType<T,ParameterType>& n1,
-  const           U               & n2
-) { return n1.get() == T(n2); }
-
-template <typename T, typename ParameterType, typename U,
-  typename = std::enable_if_t<std::is_convertible<U,T>::value>
->
-inline bool operator==(
-  const           U               & n1,
-  const NamedType<T,ParameterType>& n2
-) { return n2 == n1; }
-
-
-
-
-
-
-template <typename T, typename ParameterType>
-inline bool operator!=( 
-  const NamedType<T,ParameterType>& n1,
-  const NamedType<T,ParameterType>& n2
-) { return not(n1 == n2); }
-
-template <typename T, typename ParameterType>
-inline bool operator!=( 
-  const NamedType<T,ParameterType>& n1,
-  const           T               & n2
-) { return not( n1 == n2 ); }
-
-template <typename T, typename ParameterType>
-inline bool operator!=( 
-  const           T               & n1,
-  const NamedType<T,ParameterType>& n2
-) { return not( n1 == n2 ); }
-
-template <typename T, typename ParameterType, typename U,
-  typename = std::enable_if_t<std::is_convertible<U,T>::value>
->
-inline bool operator!=(
-  const NamedType<T,ParameterType>& n1,
-  const           U               & n2
-) { return not( n1 == n2 ); }
-
-template <typename T, typename ParameterType, typename U,
-  typename = std::enable_if_t<std::is_convertible<U,T>::value>
->
-inline bool operator!=(
-  const           U               & n1,
-  const NamedType<T,ParameterType>& n2
-) { return not( n1 == n2 ); }
-
-template <typename T, typename ParameterType>
-inline std::ostream& operator<<( std::ostream&                     out, 
-                                 const NamedType<T,ParameterType>& n ) {
-
-  out << n.get();
-  return out;
-}
-
-}
-}
-
-namespace std {
-
-template <typename T, typename ParameterType>
-struct hash< GauXC::detail::NamedType<T,ParameterType> > {
-
-  std::size_t 
-    operator()( const GauXC::detail::NamedType<T,ParameterType>& key ) const {
-    return hash<T>()(key.get());
-  }
-
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/reduction_driver.hpp b/third_party/gauxc/include/gauxc/reduction_driver.hpp
deleted file mode 100644
index f3bef18..0000000
--- a/third_party/gauxc/include/gauxc/reduction_driver.hpp
+++ /dev/null
@@ -1,71 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <memory>
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/runtime_environment.hpp>
-#include <typeindex>
-#include <any>
-
-namespace GauXC {
-
-namespace detail {
-  class ReductionDriverImpl;
-}
-
-enum class ReductionOp : int {
-  Sum
-};
-
-class ReductionDriver {
-
-  using pimpl_type = detail::ReductionDriverImpl;
-  std::unique_ptr<pimpl_type> pimpl_;
-
-public:
-
-  ReductionDriver();
-
-  ReductionDriver( std::unique_ptr<pimpl_type>&& pimpl );
-
-  ReductionDriver( const ReductionDriver& );
-  ReductionDriver( ReductionDriver&& ) noexcept;
-
-  ~ReductionDriver() noexcept;
-
-  template <typename T>
-  inline void allreduce( const T* src, T* dest, size_t size, ReductionOp op, std::any optional_args = std::any()) {
-    allreduce_typeerased( src, dest, size, op, std::type_index(typeid(T)), optional_args );
-  }
-
-  template <typename T>
-  inline void allreduce_inplace( T* data, size_t size, ReductionOp op, std::any optional_args = std::any() ) {
-    allreduce_inplace_typeerased( data, size, op, std::type_index(typeid(T)), optional_args );
-  }
-
-  void allreduce_typeerased( const void*, void*, size_t, ReductionOp, std::type_index, std::any );
-  void allreduce_inplace_typeerased( void*, size_t, ReductionOp, std::type_index, std::any );
-
-  bool takes_host_memory() const;
-  bool takes_device_memory() const;
-
-};
-
-
-struct ReductionDriverFactory {
-  static ReductionDriver get_instance( 
-    const RuntimeEnvironment& rt, std::string kernel_name );
-  static std::shared_ptr<ReductionDriver> get_shared_instance( 
-    const RuntimeEnvironment& rt, std::string kernel_name );
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/runtime_environment.hpp b/third_party/gauxc/include/gauxc/runtime_environment.hpp
deleted file mode 100644
index 4b0b08f..0000000
--- a/third_party/gauxc/include/gauxc/runtime_environment.hpp
+++ /dev/null
@@ -1,13 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/runtime_environment/decl.hpp>
diff --git a/third_party/gauxc/include/gauxc/runtime_environment/decl.hpp b/third_party/gauxc/include/gauxc/runtime_environment/decl.hpp
deleted file mode 100644
index 424f9d9..0000000
--- a/third_party/gauxc/include/gauxc/runtime_environment/decl.hpp
+++ /dev/null
@@ -1,89 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/runtime_environment/fwd.hpp>
-#include <memory>
-#include <gauxc/util/mpi.hpp>
-
-namespace GauXC {
-
-namespace detail {
-  class RuntimeEnvironmentImpl;
-  #ifdef GAUXC_HAS_DEVICE
-  DeviceRuntimeEnvironment as_device_runtime( const RuntimeEnvironment& );
-  #endif
-}
-
-class RuntimeEnvironment {
-
-protected:
-
-#ifdef GAUXC_HAS_DEVICE
-  friend DeviceRuntimeEnvironment 
-    detail::as_device_runtime(const RuntimeEnvironment&); 
-#endif
-
-  using pimpl_type = detail::RuntimeEnvironmentImpl;
-  using pimpl_ptr_type = std::shared_ptr<pimpl_type>;
-  pimpl_ptr_type pimpl_;
-  RuntimeEnvironment( pimpl_ptr_type ptr );
-
-public:
-
-  explicit RuntimeEnvironment(GAUXC_MPI_CODE(MPI_Comm comm));
-  virtual ~RuntimeEnvironment() noexcept;
-
-  RuntimeEnvironment( const RuntimeEnvironment& );
-  RuntimeEnvironment( RuntimeEnvironment&& ) noexcept;
-
-  GAUXC_MPI_CODE(MPI_Comm comm() const;)
-  int comm_rank() const;
-  int comm_size() const;
-
-  int shared_usage_count() const;
-
-};
-
-#ifdef GAUXC_HAS_DEVICE
-class DeviceRuntimeEnvironment : public RuntimeEnvironment {
-
-private:
-
-  using parent_type = RuntimeEnvironment;
-  friend DeviceRuntimeEnvironment 
-    detail::as_device_runtime(const RuntimeEnvironment&); 
-
-  using parent_type::pimpl_type;
-  using parent_type::pimpl_ptr_type;
-  DeviceRuntimeEnvironment( pimpl_ptr_type ptr );
-
-public:
-
-  DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_Comm comm,) void* mem, 
-    size_t mem_sz);
-  DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_Comm,) double fill_fraction);
-
-  ~DeviceRuntimeEnvironment() noexcept;
-  DeviceRuntimeEnvironment( const DeviceRuntimeEnvironment& );
-  DeviceRuntimeEnvironment( DeviceRuntimeEnvironment&& ) noexcept;
-
-  void* device_memory() const ;
-  size_t device_memory_size() const ;
-  bool owns_memory() const;
-  DeviceBackend* device_backend() const;
-
-  void release_buffer();
-  void set_buffer(void* m, size_t sz);
-};
-#endif
-
-}
diff --git a/third_party/gauxc/include/gauxc/runtime_environment/fwd.hpp b/third_party/gauxc/include/gauxc/runtime_environment/fwd.hpp
deleted file mode 100644
index 23f726e..0000000
--- a/third_party/gauxc/include/gauxc/runtime_environment/fwd.hpp
+++ /dev/null
@@ -1,23 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-
-class RuntimeEnvironment;
-
-#ifdef GAUXC_HAS_DEVICE
-class DeviceRuntimeEnvironment;
-class DeviceBackend;
-#endif
-}
diff --git a/third_party/gauxc/include/gauxc/shell.hpp b/third_party/gauxc/include/gauxc/shell.hpp
deleted file mode 100644
index 7f27170..0000000
--- a/third_party/gauxc/include/gauxc/shell.hpp
+++ /dev/null
@@ -1,250 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <array>
-#include <cmath>
-#include <iostream>
-#include <cassert>
-#include <algorithm>
-#include <tuple>
-
-#include <gauxc/named_type.hpp>
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/util/contiguous_container_data.hpp>
-#include <gauxc/util/gau_rad_eval.hpp>
-
-
-namespace GauXC {
-
-namespace detail {
-
-  static constexpr size_t shell_nprim_max = 32ul;
-
-  static constexpr std::array<int64_t,31> df_Kminus1 = 
-    {{ 1LL, 1LL, 1LL, 2LL, 3LL, 8LL, 15LL, 48LL, 105LL, 384LL, 945LL, 3840LL, 
-       10395LL, 46080LL, 135135LL, 645120LL, 2027025LL, 10321920LL, 34459425LL, 
-       185794560LL, 654729075LL, 3715891200LL, 13749310575LL, 81749606400LL, 
-       316234143225LL, 1961990553600LL, 7905853580625LL, 51011754393600LL, 
-       213458046676875LL, 1428329123020800LL, 6190283353629375LL }};
-
-  static constexpr double default_shell_tolerance = 1e-10;
-
-}
-
-using PrimSize        = detail::NamedType< int32_t, struct PrimSizeType >;
-using AngularMomentum = detail::NamedType< int32_t, struct AngularMomentumType >;
-using SphericalType   = detail::NamedType< int32_t, struct SphericalTypeType >;
-
-template <typename F>
-class alignas(256) Shell {
-
-public:
-
-  using prim_array = std::array< F, detail::shell_nprim_max >;
-  using cart_array = std::array< double, 3 >;
-
-private:
-
-  prim_array alpha_;
-  prim_array coeff_;
-  cart_array O_;
-
-  int32_t nprim_;
-  int32_t l_;
-  int32_t pure_;
-
-  double cutoff_radius_;
-  double shell_tolerance_{detail::default_shell_tolerance}; 
-
-  //double _pad_; // Pad to be a multiple of 16
-    
-  // Shamelessly adapted from Libint...
-  void normalize() {
-
-    assert( l_ <= 15 );
-
-    constexpr auto sqrt_Pi_cubed = F{5.56832799683170784528481798212};
-
-    const auto two_to_l = std::pow(2, l_);
-    const auto df_term  = two_to_l / sqrt_Pi_cubed / detail::df_Kminus1[2*l_];
-
-    for( int32_t i = 0; i < nprim_; ++i ) {
-      assert( alpha_[i] >= 0. );
-      if( alpha_[i] != 0. ) {
-        const auto two_alpha = 2 * alpha_[i];
-        const auto two_alpha_to_am32 = 
-          std::pow(two_alpha,l_+1) * std::sqrt(two_alpha);
-        const auto normalization_factor = std::sqrt(df_term * two_alpha_to_am32);
-
-        coeff_[i] *= normalization_factor;
-      }
-    }
-
-    double norm{0};
-    for(int32_t i = 0; i < nprim_; ++i ) {
-    for(int32_t j = 0; j <= i;     ++j ) {
-      const auto gamma = alpha_[i] + alpha_[j];
-      const auto gamma_to_am32 = std::pow(gamma, l_+1) * std::sqrt(gamma);
-      norm += (i==j ? 1 : 2) * coeff_[i] * coeff_[j] /
-              (df_term * gamma_to_am32 );
-    }
-    }
-
-    auto normalization_factor = 1. / std::sqrt(norm);
-    for(int32_t i = 0; i < nprim_; ++i ) {
-      coeff_[i] *= normalization_factor;
-    }
-
-
-  }
-
-  void compute_shell_cutoff() {
-
-#if 0
-    // Cutoff radius according to Eq.20 in J. Chem. Theory Comput. 2011, 7, 3097-3104
-    auto cutFunc = [tol=shell_tolerance_] (double alpha) -> double {
-      const double log_tol  = -std::log(tol);
-      const double log_alph =  std::log(alpha);
-      return std::sqrt( (log_tol + 0.5 * log_alph)/alpha );
-    };
-
-    cutoff_radius_ = cutFunc(
-      *std::max_element( alpha_.begin(), alpha_.begin() + nprim_, 
-        [&](F x, F y){ return cutFunc(x) < cutFunc(y); }
-      )
-    );
-#else
-    cutoff_radius_ = util::gau_rad_cutoff( l_, nprim_, alpha_.data(), 
-      coeff_.data(), shell_tolerance_ );
-#endif
-
-  }
-public:
-
-  Shell() : nprim_(0), l_(0), pure_(false) { };
-
-  Shell( PrimSize nprim, AngularMomentum l, SphericalType pure,
-    prim_array alpha, prim_array coeff, cart_array O, bool _normalize = true ) :
-    alpha_( alpha ), coeff_( coeff ), O_( O ),
-    nprim_( nprim.get() ), l_( l.get() ), pure_( pure.get() ) {
-
-    if( _normalize ) normalize();
-    compute_shell_cutoff();
-
-  }
-  
-  void set_shell_tolerance( double tol ) {
-    if( tol != shell_tolerance_ ) {
-      shell_tolerance_ = tol;
-      compute_shell_cutoff();
-    }
-  }
-
-
-  ~Shell() noexcept = default;
-
-  Shell( const Shell& )          = default;
-  Shell( Shell&&      ) noexcept = default;
-
-  Shell& operator=(const Shell&)     = default;
-  Shell& operator=(Shell&&) noexcept = default;
-
-
-  inline HOST_DEVICE_ACCESSIBLE int32_t nprim() const { return nprim_; }
-  inline HOST_DEVICE_ACCESSIBLE int32_t l()     const { return l_;     }
-  inline HOST_DEVICE_ACCESSIBLE int32_t pure()  const { return pure_;  }
-
-  inline HOST_DEVICE_ACCESSIBLE const F* alpha_data()  const { 
-    return detail::contiguous_data(alpha_); 
-  }
-  inline HOST_DEVICE_ACCESSIBLE const F* coeff_data()  const { 
-    return detail::contiguous_data(coeff_); 
-  }
-  inline HOST_DEVICE_ACCESSIBLE const double* O_data() const { 
-    return detail::contiguous_data(O_);     
-  }
-  inline HOST_DEVICE_ACCESSIBLE  F* alpha_data()   { 
-    return detail::contiguous_data(alpha_); 
-  }
-  inline HOST_DEVICE_ACCESSIBLE  F* coeff_data()   { 
-    return detail::contiguous_data(coeff_); 
-  }
-  inline HOST_DEVICE_ACCESSIBLE  double* O_data()  { 
-    return detail::contiguous_data(O_);     
-  }
-
-  inline HOST_DEVICE_ACCESSIBLE double cutoff_radius() const { 
-    return cutoff_radius_;
-  }
-
-  inline HOST_DEVICE_ACCESSIBLE int32_t cart_size() const {
-    return (l_+1)*(l_+2)/2;
-  }
-  inline HOST_DEVICE_ACCESSIBLE int32_t pure_size() const {
-    return 2*l_ + 1;
-  }
-  inline HOST_DEVICE_ACCESSIBLE int32_t size() const {;
-    return pure_ ? pure_size() : cart_size();
-  }
-
-  inline const prim_array& alpha()  const { return alpha_; }
-  inline const prim_array& coeff()  const { return coeff_; }
-  inline const cart_array& O()      const { return O_;     }
-  inline       prim_array& alpha()        { return alpha_; }
-  inline       prim_array& coeff()        { return coeff_; }
-  inline       cart_array& O()            { return O_;     }
-
-  inline void set_pure(bool p) { pure_ = p; }
-
-  template <typename Archive>
-  void serialize( Archive& ar ) {
-    ar( nprim_, l_, pure_, alpha_, coeff_, O_, cutoff_radius_, shell_tolerance_ );
-  }
-
-
-  bool operator==( const Shell& other ) const {
-    if( other.nprim_ != nprim_ ) return false;
-    if( other.l_ != l_ ) return false;
-    if( other.pure_ != pure_ ) return false;
-    if( other.O_ != O_ ) return false;
-
-    for( auto i = 0; i < nprim_; ++i ) {
-      if( alpha_[i] != other.alpha_[i] ) return false;
-      if( coeff_[i] != other.coeff_[i] ) return false;
-    }
-
-    return true;
-  }
-
-};
-
-
-template <typename T>
-inline std::ostream& operator<<( std::ostream& os, const Shell<T>& sh ) {
-    os << "GauXC::Shell:( O={" 
-	<< sh.O()[0] << "," << sh.O()[1] << "," << sh.O()[2] 
-	<< "}" << std::endl;
-    os << "  ";
-    os << " {l=" << sh.l() << ",sph=" << sh.pure() << "}";
-    os << std::endl;
-
-    for(auto i=0ul; i<sh.nprim(); ++i) {
-      os << "  " << sh.alpha()[i];
-      os << " "  << sh.coeff().at(i);
-      os << std::endl;
-    }
-
-    return os;
-}
-
-}
diff --git a/third_party/gauxc/include/gauxc/shell_pair.hpp b/third_party/gauxc/include/gauxc/shell_pair.hpp
deleted file mode 100644
index 643ab8e..0000000
--- a/third_party/gauxc/include/gauxc/shell_pair.hpp
+++ /dev/null
@@ -1,186 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/shell.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/exceptions.hpp>
-
-#include <cstdint>
-
-namespace GauXC {
-namespace detail {
-  struct cartesian_point {
-    double x, y, z;
-  };
-
-  template <typename Integral>
-  inline std::intmax_t csr_index( size_t i, size_t j, Integral* row_ptr, Integral* col_ind ) {
-    const auto j_st = col_ind + row_ptr[i];
-    const auto j_en = col_ind + row_ptr[i+1];
-    auto it = std::lower_bound(j_st, j_en, j);
-    if( it != j_en and *it == j )
-      return std::distance(col_ind, it);
-    else return -1;
-
-  }
-}
-
-template <typename F>
-struct PrimitivePair {
-  detail::cartesian_point P;
-  detail::cartesian_point PA;
-  detail::cartesian_point PB;
-
-  F K_coeff_prod;
-  F gamma;
-  F gamma_inv;
-};
-
-template <typename F>
-class ShellPair {
-
-  using shell_type = Shell<F>;
-  using const_shell_ref = const shell_type&;
-
-  std::vector<PrimitivePair<F>> prim_pairs_;
-
-  void generate( const_shell_ref bra, const_shell_ref ket ) {
-
-    detail::cartesian_point A{ bra.O()[0], bra.O()[1], bra.O()[2] };
-    detail::cartesian_point B{ ket.O()[0], ket.O()[1], ket.O()[2] };
-
-    const auto rABx = A.x - B.x;
-    const auto rABy = A.y - B.y;
-    const auto rABz = A.z - B.z;
-
-    const auto dAB = rABx*rABx + rABy*rABy + rABz*rABz;
-
-    const auto np_bra = bra.nprim();
-    const auto np_ket = ket.nprim();
-    for( auto i = 0; i < np_bra; ++i )
-    for( auto j = 0; j < np_ket; ++j ) {
-
-      const auto alpha_bra = bra.alpha()[i];
-      const auto alpha_ket = ket.alpha()[j];
-
-      const auto g    = alpha_bra + alpha_ket;
-      const auto oo_g = 1 / g;
-
-      const auto Kab = 2 * M_PI * oo_g *
-        bra.coeff()[i] * ket.coeff()[j] *
-        std::exp( -alpha_bra * alpha_ket * dAB * oo_g );
-
-      // TODO Make configurable
-      if(std::abs(Kab) < 1e-12) continue;
-      auto& pair = prim_pairs_.emplace_back();
-
-      pair.P.x = (alpha_bra * A.x + alpha_ket * B.x) * oo_g;
-      pair.P.y = (alpha_bra * A.y + alpha_ket * B.y) * oo_g;
-      pair.P.z = (alpha_bra * A.z + alpha_ket * B.z) * oo_g;
-
-      pair.PA.x = pair.P.x - A.x;
-      pair.PA.y = pair.P.y - A.y;
-      pair.PA.z = pair.P.z - A.z;
-
-      pair.PB.x = pair.P.x - B.x;
-      pair.PB.y = pair.P.y - B.y;
-      pair.PB.z = pair.P.z - B.z;
-
-      pair.K_coeff_prod = Kab;
-      pair.gamma = g;
-      pair.gamma_inv = oo_g;
-    } // loop over prim pairs
-  } // generate
-
-public:
-
-  ShellPair() = default;
-
-  ShellPair( const Shell<F>& bra, const Shell<F>& ket ) {
-    if( bra.l() >= ket.l() ) generate(bra,ket);
-    else                     generate(ket,bra);
-  }
-
-  inline PrimitivePair<F>* prim_pairs() { return prim_pairs_.data(); }
-  inline const PrimitivePair<F>* prim_pairs() const { return prim_pairs_.data(); }
-
-  inline size_t nprim_pairs() const { return prim_pairs_.size(); }
-
-};
-
-
-template <typename F>
-class ShellPairCollection {
-  size_t nshells_ = 0;
-  std::vector<ShellPair<F>> shell_pairs_;
-  std::vector<size_t> row_ptr_, col_ind_;
-  ShellPair<F> dummy;
-
-public:
-  ShellPairCollection( const BasisSet<F>& basis ) {
-    nshells_ = basis.size();
-
-    // Sparse Storage based on primitive screening
-    row_ptr_.resize(nshells_+1);
-    row_ptr_[0] = 0;
-    for(size_t i = 0; i < nshells_; ++i) {
-
-      size_t nnz_row = 0;
-      for(size_t j = 0; j <= i; ++j) {
-        ShellPair<F> sp(basis[i], basis[j]);
-        if(sp.nprim_pairs()) {
-          nnz_row++;
-          col_ind_.emplace_back(j);
-          shell_pairs_.emplace_back(std::move(sp));
-        }
-      }
-      row_ptr_[i+1] = row_ptr_[i] + nnz_row;
-    }    
-  }
-
-  inline int64_t get_linear_shell_pair_index(size_t i, size_t j) const {
-    return detail::csr_index(i, j, row_ptr_.data(), col_ind_.data());
-  }
-
-  // Retreive unique LT element
-  inline auto& at( size_t i, size_t j ) {
-    auto idx = get_linear_shell_pair_index(i,j);
-    return idx >= 0 ? shell_pairs_[idx] : dummy;
-  }
-
-  inline const auto& at( size_t i, size_t j ) const {
-    auto idx = get_linear_shell_pair_index(i,j);
-    return idx >= 0 ? shell_pairs_[idx] : dummy;
-  }
-
-  inline size_t nshells() const { return nshells_; }
-  inline size_t npairs() const { return shell_pairs_.size(); }
-  inline size_t nprim_pair_total() const {
-    return std::accumulate( shell_pairs_.cbegin(), shell_pairs_.cend(), 0ul,
-      [](const auto& a, const auto& b){ return a + b.nprim_pairs(); });
-  }
-  inline auto* shell_pairs() { return shell_pairs_.data(); }
-  inline auto* shell_pairs() const { return shell_pairs_.data(); }
-
-  inline auto& row_ptr() { return row_ptr_; }
-  inline auto& row_ptr() const { return row_ptr_; }
-  inline auto& col_ind() { return col_ind_; }
-  inline auto& col_ind() const { return col_ind_; }
-
-
-  inline auto begin() { return shell_pairs_.begin(); }  
-  inline auto end() { return shell_pairs_.end(); }  
-  inline auto begin() const { return shell_pairs_.begin(); }  
-  inline auto end() const { return shell_pairs_.end(); }  
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/types.hpp b/third_party/gauxc/include/gauxc/types.hpp
deleted file mode 100644
index aad5d9b..0000000
--- a/third_party/gauxc/include/gauxc/types.hpp
+++ /dev/null
@@ -1,39 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <exchcxx/xc_functional.hpp>
-#include <integratorxx/quadrature.hpp>
-#include <integratorxx/batch/spherical_micro_batcher.hpp>
-
-#include <gauxc/named_type.hpp>
-
-namespace GauXC {
-
-using functional_type = ExchCXX::XCFunctional;
-//using quadrature_type = IntegratorXX::QuadratureBase<
-//  std::vector<std::array<double,3>>,
-//  std::vector<double>
-//>;
-using quadrature_type = IntegratorXX::SphericalQuadratureBase<
-  std::vector<std::array<double,3>>,
-  std::vector<double>
->;
-
-using batcher_type = IntegratorXX::SphericalMicroBatcher<
-  typename quadrature_type::point_container,
-  typename quadrature_type::weight_container
->;
-
-}
-
-#include <gauxc/enums.hpp>
diff --git a/third_party/gauxc/include/gauxc/util/constexpr_math.hpp b/third_party/gauxc/include/gauxc/util/constexpr_math.hpp
deleted file mode 100644
index 3d8e9d8..0000000
--- a/third_party/gauxc/include/gauxc/util/constexpr_math.hpp
+++ /dev/null
@@ -1,69 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cstdint>
-#include <stdlib.h>
-#include <type_traits>
-#include <cmath>
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-
-template <uint32_t N, typename T>
-inline constexpr T integral_pow( T x ) {
-  if constexpr ( N == 0 ) return T(1);
-  if constexpr ( N == 1 ) return x;
-  else                    return x * integral_pow<N-1>(x);
-  abort(); // Unreachable
-}
-
-template <uint64_t N>
-struct integral_pow_two : std::integral_constant< uint64_t, (1ul << N) > {};
-
-template <uint64_t N>
-struct integral_factorial;
-template<>
-struct integral_factorial<0ul> : std::integral_constant< uint64_t, 1ul > {};
-template <uint64_t N>
-struct integral_factorial : 
-  std::integral_constant< uint64_t, N * integral_factorial<N-1>::value > {};
-
-namespace constants {
-
-template <typename T = double>
-inline constexpr T pi = 3.14159265358979323846;
-template <typename T = double>
-inline constexpr T sqrt_pi = 1.77245385090551602729;
-template <typename T = double>
-inline constexpr T sqrt_pi_ov_2 = 0.88622692545275801364;
-
-}
-
-inline double rsqrt( double x ) {
-#ifdef GAUXC_USE_FAST_RSQRT
-#pragma GCC diagnostic ignored "-Wstrict-aliasing"
-  double y = x;
-  double x2 = y * 0.5;
-  int64_t i = *(int64_t*)&y;
-  i = 0x5fe6eb50c7b537a9 - (i >> 1);
-  y = *(double *) &i;
-  y = y * (1.5 - (x2 * y * y));
-  y = y * (1.5 - (x2 * y * y));
-  return y;
-#pragma GCC diagnostic pop
-#else
-  x = 1.0 / x;
-  return std::sqrt(x);
-#endif
-}
-
-}
diff --git a/third_party/gauxc/include/gauxc/util/contiguous_container_data.hpp b/third_party/gauxc/include/gauxc/util/contiguous_container_data.hpp
deleted file mode 100644
index f5d35fd..0000000
--- a/third_party/gauxc/include/gauxc/util/contiguous_container_data.hpp
+++ /dev/null
@@ -1,25 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <array>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename T, size_t N>
-inline HOST_DEVICE_ACCESSIBLE T* contiguous_data( const std::array<T,N>& arr ) {
-  return reinterpret_cast<T*>( &const_cast<std::array<T,N>&>(arr) );
-}
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/div_ceil.hpp b/third_party/gauxc/include/gauxc/util/div_ceil.hpp
deleted file mode 100644
index 8a39aa6..0000000
--- a/third_party/gauxc/include/gauxc/util/div_ceil.hpp
+++ /dev/null
@@ -1,69 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <type_traits>
-#include <cstdlib>
-#include <cstdint>
-#include <cassert>
-
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC  {
-namespace util  {
-
-namespace detail {
-
-template <typename... Args>
-struct are_integral;
-
-template <typename Head, typename... Tail>
-struct are_integral<Head, Tail...> {
-  static constexpr bool value = std::is_integral<Head>::value and 
-                         are_integral<Tail...>::value;
-};
-
-template <typename T>
-struct are_integral<T> {
-  static constexpr bool value = std::is_integral<T>::value;
-};
-
-
-template <typename... Args>
-struct largest;
-
-template <typename Head, typename... Tail>
-struct largest< Head, Tail... > {
-private:
-  using tail_type = typename largest<Tail...>::type;
-public:
-  using type = std::conditional_t< 
-                 (sizeof(Head) > sizeof(tail_type)),
-                 Head, tail_type >;
-};
-
-template <typename T>
-struct largest<T> {
-  using type = T;
-};
-
-template <typename... Args>
-using largest_t = typename largest<Args...>::type;
-
-}
-
-inline HOST_DEVICE_ACCESSIBLE uintmax_t div_ceil( uintmax_t i, uintmax_t j ) {
-  return (i + j - 1) / j;
-}
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/environment.hpp b/third_party/gauxc/include/gauxc/util/environment.hpp
deleted file mode 100644
index 2a0a98d..0000000
--- a/third_party/gauxc/include/gauxc/util/environment.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/enums.hpp>
-
-namespace GauXC {
-  
-inline int gauxc_max_am(ExecutionSpace ex, SupportedAlg alg) {
-  switch(ex) {
-    #ifdef GAUXC_HAS_HOST
-    case ExecutionSpace::Host:
-      switch(alg) {
-        case SupportedAlg::XC: 
-        case SupportedAlg::DEN: 
-          return GAUXC_CPU_XC_MAX_AM;
-        case SupportedAlg::SNLINK:
-          return GAUXC_CPU_SNLINK_MAX_AM;
-        default: return -1;
-      }
-    #endif
-    #ifdef GAUXC_HAS_DEVICE
-    case ExecutionSpace::Device:
-      switch(alg) {
-        case SupportedAlg::XC: 
-        case SupportedAlg::DEN: 
-          return GAUXC_GPU_XC_MAX_AM;
-        case SupportedAlg::SNLINK:
-          return GAUXC_GPU_SNLINK_MAX_AM;
-        default: return -1;
-      }
-    #endif
-    default: return -1;
-  }
-}
-
-}
diff --git a/third_party/gauxc/include/gauxc/util/gau_rad_eval.hpp b/third_party/gauxc/include/gauxc/util/gau_rad_eval.hpp
deleted file mode 100644
index b2aa7f9..0000000
--- a/third_party/gauxc/include/gauxc/util/gau_rad_eval.hpp
+++ /dev/null
@@ -1,74 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cmath>
-#include <cstddef>
-#include <vector>
-
-namespace GauXC {
-namespace util  {
-
-// R(r) = r^l * \sum_i c_i * exp(-a_i*r^2)
-template <typename T>
-T gau_rad_eval( int32_t l, int32_t nprim, const T* alpha, const T* coeff, T r ) {
-  T tmp = 0.;
-  const T r2 = r*r;
-  for( auto i = 0; i < nprim; ++i ) {
-    tmp += coeff[i] * std::exp( -alpha[i] * r2 );
-  }
-  return std::pow(r,l) * tmp;
-}
-
-template <typename T>
-T gau_rad_cutoff( int32_t l, int32_t nprim, const T* alpha, const T* coeff, T tol ) {
-
-  if( tol <= 0.0 ) return std::numeric_limits<T>::infinity();
-
-  const double log_tol = -std::log(tol);
-  // Initial guess
-  double r = 0;
-  for( auto i = 0; i < nprim; ++i ) {
-    // Prim cutoff
-    const double log_alpha = std::log(alpha[i]);
-    const double prim_cutoff = 
-      std::sqrt( (log_tol + log_alpha/2.)/alpha[i] );
-    r = std::max( r, prim_cutoff );
-  }
-
-  std::vector<T> abs_coeff( coeff, coeff + nprim );
-  for( auto& x : abs_coeff ) x = std::abs(x);
-  double rad_eval = gau_rad_eval(l, nprim, alpha, abs_coeff.data(), r);
-
-  const double step = 0.01;
-  if( rad_eval > tol ) { 
-    // Walk to the left
-    while( rad_eval > tol ) {
-      r = r + step;
-      rad_eval = gau_rad_eval(l, nprim, alpha, abs_coeff.data(), r);
-    }
-  } else {
-    // Walk to the right
-    while( rad_eval < tol ) {
-      r = r - step;
-      rad_eval = gau_rad_eval(l, nprim, alpha, abs_coeff.data(), r);
-    }
-    // Correct for the extra step
-    r = r + step;
-    rad_eval = gau_rad_eval(l, nprim, alpha, abs_coeff.data(), r);
-  }
-
-  return r;
-
-}
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/geometry.hpp b/third_party/gauxc/include/gauxc/util/geometry.hpp
deleted file mode 100644
index 97a8da2..0000000
--- a/third_party/gauxc/include/gauxc/util/geometry.hpp
+++ /dev/null
@@ -1,120 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <array>
-#include <cmath>
-
-namespace GauXC {
-namespace geometry {
-
-template <size_t N, typename T>
-T euclidean_dist( const T* a, const T* b ) {
-  T dist = 0.;
-  for( size_t i = 0; i < N; ++i ) {
-    auto tmp = a[i] - b[i];
-    dist += tmp*tmp;
-  }
-  return std::sqrt(dist);
-}
-
-template <typename T, size_t N>
-T euclidean_dist( const std::array<T,N>& a, const std::array<T,N>& b ) {
-  return euclidean_dist<N,T>(a.data(), b.data());
-}
-
-template <size_t N, typename T>
-bool cube_sphere_intersect( const T* lo, const T* up, const T* center, T rad ) {
-
-  T dist = rad * rad;
-  for( size_t i = 0; i < N; ++i ) {
-    T r = 0.;
-    if( center[i] < lo[i] )      r = lo[i] - center[i];
-    else if( center[i] > up[i] ) r = center[i] - up[i];
-    dist -= r*r;
-    if( dist < T(0.) ) return false;
-  }
-
-  return true;
-
-}
-
-template <typename T, size_t N>
-bool cube_sphere_intersect( const std::array<T,N>& lo, const std::array<T,N>& up,
-                            const std::array<T,N>& center, T rad ) {
-  return cube_sphere_intersect<N,T>( lo.data(), up.data(), center.data(), rad );
-}
-
-template <size_t N, typename T>
-T cube_point_dist_closest( const T* lo, const T* up, const T* point ) {
-
-#if 1
-  T dist = 0.;
-  for( int i = 0; i < N; ++i ) {
-    T r = 0.;
-    if( point[i] < lo[i] )      r = lo[i] - point[i];
-    else if( point[i] > up[i] ) r = point[i] - up[i];
-    dist += r*r;
-  }
-
-  return std::sqrt(dist);
-#else
-  std::array<T,N> box_dims;
-  for( int i = 0; i < N; ++i ) box_dims[i] = std::abs( up[i] - lo[i] )/2.;
-  
-  std::array<T,N> pt_tmp;
-  // Recenter point width coordinate transformation that sends lo -> -box_dims
-  // and scales the box do have dims +-1
-  for( int i = 0; i < N; ++i ) {
-    pt_tmp[i] = (point[i] - (box_dims[i] + lo[i]))/box_dims[i];
-  }
-
-  T dist = 0.;
-  for( int i = 0; i < N; ++i ) {
-    const T val = box_dims[i] * std::max( T(0.), std::abs(pt_tmp[i])-1 );
-    dist += val*val;
-  }
-  return std::sqrt(dist);
-
-#endif
-      
-}
-
-template <typename T, size_t N>
-T cube_point_dist_closest( const std::array<T,N>& lo, const std::array<T,N>& up, 
-                           const std::array<T,N>& point ) {
-  return cube_point_dist_closest<N,T>( lo.data(), up.data(), point.data() );
-}
-
-template <size_t N, typename T>
-std::array<T,N> cube_point_closest_approach( const T* lo, const T* up, 
-                                             const T* center ) {
-  std::array<T,N> point;
-  for( int i = 0; i < N; ++i ) {
-    if( center[i] < lo[i] )      point[i] = lo[i];
-    else if( center[i] > up[i] ) point[i] = up[i];
-    else if( (center[i]-lo[i]) < (up[i]-center[i]) ) point[i] = lo[i];
-    else point[i] = up[i];
-  }
-  return point;
-}
-
-template <typename T,size_t N>
-std::array<T,N> cube_point_closest_approach( const std::array<T,N>& lo, 
-                                             const std::array<T,N>& up, 
-                                             const std::array<T,N>& center ) {
-  return cube_point_closest_approach( lo.data(), up.data(), center.data() );
-}
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/misc.hpp b/third_party/gauxc/include/gauxc/util/misc.hpp
deleted file mode 100644
index cf2ef8f..0000000
--- a/third_party/gauxc/include/gauxc/util/misc.hpp
+++ /dev/null
@@ -1,182 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <algorithm>
-#include <set>
-#include <tuple>
-#include <vector>
-
-namespace GauXC {
-namespace util  {
-
-template <typename Integral>
-auto ranges_from_list( const std::vector<Integral>& shell_list ) {
-
-  std::vector< std::pair<Integral,Integral> > ranges;
-  ranges.emplace_back( shell_list.front(), shell_list.back() );
-
-  for( auto it = shell_list.begin(); it != shell_list.end()-1; ++it ) {
-    if( *(it+1) - *it != 1 ) {
-      ranges.back().second = *it;
-      ranges.emplace_back( *(it+1), shell_list.back() );
-    }
-  }
-
-  return ranges;
-
-}
-
-
-
-
-
-// Checks if B is a subset of A
-template <typename C1, typename C2>
-inline auto list_subset( const C1& A, const C2& B ) {
-  return std::includes( A.begin(), A.end(), B.begin(), B.end() );
-}
-
-// Check if two lists intersect
-template <typename Integral>
-inline auto integral_list_intersect( const std::vector<Integral>& A,
-                                     const std::vector<Integral>& B ) {
-
-
-  constexpr size_t sz_ratio = 100;
-  const size_t A_sz = A.size();
-  const size_t B_sz = B.size();
-
-  const auto A_begin = A.begin();
-  const auto A_end   = A.end();
-  const auto B_begin = B.begin();
-  const auto B_end   = B.end();
-
-  // Fall through if query list is much larger than max list
-  if( A_sz * sz_ratio < B_sz ) {
-    for( const auto& val : A ) {
-      if( std::binary_search( B_begin, B_end, val ) ) 
-        return true;
-    }
-    return false;
-  }
-
-  // Fall through if max list is much larger than query list
-  if( B_sz * sz_ratio < A_sz ) {
-    for( const auto& val : B ) {
-      if( std::binary_search( A_begin, A_end, val ) )
-        return true;
-    }
-    return false;
-  }
-
-  // Default if lists are about the same size
-  auto B_it = B_begin;
-  auto A_it = A_begin;
-
-  while( B_it != B_end and A_it != A_end ) {
-
-    if( *B_it < *A_it ) {
-      B_it = std::lower_bound( B_it, B_end, *A_it );
-      continue;
-    }
-
-    if( *A_it < *B_it ) {
-      A_it = std::lower_bound( A_it, A_end, *B_it );
-      continue;
-    }
-
-    return true;
-
-  }
-
-  return false;
-
-
-}
-
-
-
-
-
-// Checks if two lists intersect more than a specified threshold
-template <typename Integral>
-inline auto integral_list_intersect( const std::vector<Integral>& A,
-                                     const std::vector<Integral>& B,
-                                     const uint32_t overlap_threshold_spec ) {
-
-  const uint32_t max_intersect_sz  = std::min(A.size(), B.size());
-  const uint32_t overlap_threshold = std::min( max_intersect_sz, 
-                                               overlap_threshold_spec );
-
-  constexpr size_t sz_ratio = 100;
-  const size_t A_sz = A.size();
-  const size_t B_sz = B.size();
-
-  const auto A_begin = A.begin();
-  const auto A_end   = A.end();
-  const auto B_begin = B.begin();
-  const auto B_end   = B.end();
-
-  uint32_t overlap_count = 0;
-
-  // Fall through if query list is much larger than max list
-  if( A_sz * sz_ratio < B_sz ) {
-
-    for( const auto& val : A ) {
-      overlap_count += !!std::binary_search( B_begin, B_end, val );
-      if( overlap_count == overlap_threshold ) return true;
-    }
-    return false;
-
-  }
-
-  // Fall through if max list is much larger than query list
-  if( B_sz * sz_ratio < A_sz ) {
-    for( const auto& val : B ) {
-      overlap_count += !!std::binary_search( A_begin, A_end, val );
-      if( overlap_count == overlap_threshold ) return true;
-    }
-    return false;
-  }
-
-  // Default if lists are about the same size
-  auto B_it = B_begin;
-  auto A_it = A_begin;
-
-  while( B_it != B_end and A_it != A_end ) {
-
-    if( *B_it < *A_it ) {
-      B_it = std::lower_bound( B_it, B_end, *A_it );
-      continue;
-    }
-
-    if( *A_it < *B_it ) {
-      A_it = std::lower_bound( A_it, A_end, *B_it );
-      continue;
-    }
-
-    // *A_it == *B_it if code reaches here
-    overlap_count++;
-    A_it++; B_it++; // Increment iterators
-    if( overlap_count == overlap_threshold) return true;
-
-  }
-
-  return false;
-
-
-}
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/mpi.hpp b/third_party/gauxc/include/gauxc/util/mpi.hpp
deleted file mode 100644
index 7875dd8..0000000
--- a/third_party/gauxc/include/gauxc/util/mpi.hpp
+++ /dev/null
@@ -1,202 +0,0 @@
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_MPI
-  #define GAUXC_MPI_CODE(...) __VA_ARGS__
-#else
-  #define GAUXC_MPI_CODE(...) 
-#endif
-
-#ifdef GAUXC_HAS_MPI
-#include <mpi.h>
-#include <type_traits>
-#include <vector>
-#include <numeric>
-#include <algorithm>
-
-namespace GauXC {
-
-namespace detail {
-template <typename InputIt, typename OutputIt, typename T>
-OutputIt exclusive_scan(InputIt begin, InputIt end, OutputIt d_first, T init) {
-  *(d_first++) = init;
-  T sum = init;
-  for(auto it = begin; it != end; ++it) {
-    *(d_first++) = *it + sum;
-    sum += *it;
-  }
-  return d_first;
-}
-
-using byte = char;
-}
-
-/// C++ Wrapper for MPI Primitive Datatypes
-template <typename T>
-MPI_Datatype mpi_data_type();
-
-#define REG_MPI_TYPE(TYPE,MPI_TYPE)\
-template <> inline MPI_Datatype mpi_data_type<TYPE>(){ return MPI_TYPE; }
-
-REG_MPI_TYPE(int,    MPI_INT     )
-REG_MPI_TYPE(double, MPI_DOUBLE  )
-REG_MPI_TYPE(size_t, MPI_UINT64_T)
-
-#undef REG_MPI_TYPE
-
-/// Type-aware wrapper for MPI_Allreduce
-template <typename T>
-void allreduce(const T* src, T* dst, int count, MPI_Op op, MPI_Comm comm) {
-  MPI_Allreduce(src, dst, count, mpi_data_type<T>(), op, comm);
-}
-
-
-/**
- * @brief Type-aware wrapper for MPI_Allreduce on scalar data
- *
- * @tparam T Datatype to be reduced
- *
- * @param[in] data Input data to be reduced over
- * @param[in] op   MPI_Op defining reduction operation
- * @param[in] comm MPI Communicator defining reduction context.
- *
- * @returns Reduction result of `data` over `op`
- */
-template <typename T>
-T allreduce( const T& data, MPI_Op op, MPI_Comm comm) {
-  T result;
-  allreduce( &data, &result, 1, op, comm);
-  return result;
-}
-
-
-/**
- * @param Compute a distributed memory prefix sum (exclusive scan).
- *
- * PREFIX_SUM[i+1] = PREFIX_SUM[i] + DATA[i]
- * PREFIX_SUM[0] = 0
- *
- * @tparam InputIterator  Type of input data
- * @tparam OutputIterator Type of output (prefix sum) data
- *
- * @param[in]  begin       Starting iterator for local chunk of DATA
- * @param[in]  end         Ending iterator for local chunk of DATA
- * @param[out] prefix_sum  Local chunk of prefix sum (length distance(begin,end))
- * @param[in]  comm        MPI Communicator defining the compute context 
- */
-template <typename InputIterator, typename OutputIterator>
-auto mpi_prefix_sum(InputIterator begin, InputIterator end,
-  OutputIterator prefix_sum, MPI_Comm comm) {
-  using value_type = typename InputIterator::value_type;
-  // Compute local sum
-  auto local_sum = std::accumulate(begin, end, value_type(0));
-
-  // Compute global prefix scan (exclusive) to compute local seed values
-  // XXX: Value on 0 may be clobbered
-  value_type prefix_seed = 0;
-  MPI_Exscan(&local_sum, &prefix_seed, 1, mpi_data_type<value_type>(),
-    MPI_SUM, comm);
-
-  // Compute local exclusive scan
-  detail::exclusive_scan(begin, end, prefix_sum, value_type(0));
-
-  // Update local scans with seed values
-  int world_rank; MPI_Comm_rank(comm, &world_rank);
-  if(world_rank) {
-    const size_t n = std::distance(begin,end);
-    std::transform(prefix_sum, prefix_sum + n, prefix_sum,
-      [=](auto& a){ return a + prefix_seed;});
-  }
-
-  return std::make_pair(local_sum, prefix_seed);
-}
-
-
-
-#if 1
-class MPI_Packed_Buffer {
-  MPI_Comm comm_;
-  int internal_position_;
-  std::vector<detail::byte> buffer_;
-
-public:
-
-  MPI_Packed_Buffer(size_t size, MPI_Comm comm) :
-    comm_(comm), internal_position_(0), buffer_(size) {}
-
-  auto* buffer() { return buffer_.data(); }
-  size_t size()  { return buffer_.size(); }
-
-  template <typename T>
-  void pack( const T* ptr, size_t n ) {
-    //MPI_Pack( ptr, n, mpi_data_type<T>(), buffer_.data(), buffer_.size(),
-    //  &internal_position_, comm_);
-    MPI_Pack( ptr, n * sizeof(T), MPI_BYTE, buffer_.data(), buffer_.size(),
-      &internal_position_, comm_);
-  }
-
-  template <typename T>
-  void pack( const T& data ) {
-    pack( &data, 1 );
-  }
-
-
-  template <typename T>
-  void pack( const std::vector<T>& data ) {
-    size_t sz = data.size();
-    pack( sz );
-    if(sz) pack( data.data(), data.size() );
-  }
-
-  template <typename T>
-  void unpack( T* ptr, size_t n ) {
-    //MPI_Unpack( buffer_.data(), buffer_.size(), &internal_position_,
-    //  ptr, n, mpi_data_type<T>(), comm_);
-    MPI_Unpack( buffer_.data(), buffer_.size(), &internal_position_,
-      ptr, n * sizeof(T), MPI_BYTE, comm_);
-  }
-
-  template <typename T>
-  void unpack( T& data ) {
-    unpack( &data, 1 );
-  }
-
-  template <typename T>
-  void unpack( std::vector<T>& data ) {
-    size_t sz = 0;
-    unpack( sz );
-    data.resize(sz);
-    if(sz) unpack( data.data(), data.size() );
-  }
-
-};
-
-
-template <typename Op>
-void ring_execute( const Op& op, MPI_Comm comm ) {
-  // Get execution space
-  int comm_size, comm_rank;
-  MPI_Comm_size(comm, &comm_size);
-  MPI_Comm_rank(comm, &comm_rank);
-
-  // Wait for previous rank to send token
-  int token;
-  if(comm_rank and comm_size > 1)
-    MPI_Recv(&token, 1, MPI_INT, comm_rank-1, 0, comm, MPI_STATUS_IGNORE);
-
-  // Execute operation
-  op();
-
-  if(comm_size > 1) {
-    // Send token to next rank
-    MPI_Send(&token, 1, MPI_INT, (comm_rank+1)%comm_size, 0, comm);
-    // if Root, wait for final token
-    if(!comm_rank)
-      MPI_Recv(&token, 1, MPI_INT, comm_size-1, 0, comm, MPI_STATUS_IGNORE);
-  }
-}
-#endif
-
-
-}
-#endif
diff --git a/third_party/gauxc/include/gauxc/util/real_solid_harmonics.hpp b/third_party/gauxc/include/gauxc/util/real_solid_harmonics.hpp
deleted file mode 100644
index 3394da0..0000000
--- a/third_party/gauxc/include/gauxc/util/real_solid_harmonics.hpp
+++ /dev/null
@@ -1,236 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-namespace util {
-
-inline constexpr intmax_t integral_falling_factorial( intmax_t n, intmax_t k ) {
-  if( n == 0 or n == 1) return 1;
-  intmax_t fact = 1;
-  for( intmax_t i = k; i <= n; ++i ) fact *= i;
-  return fact;
-}
-
-inline constexpr intmax_t integral_factorial( intmax_t n ) {
-  if( n == 0 or n == 1 ) return 1;
-  intmax_t fact = 1;
-  for( intmax_t i = 2; i <= n; ++i ) fact *= i;
-  return fact;
-}
-
-inline constexpr intmax_t integral_double_factorial( intmax_t n ) {
-  if( n == 0 or n == 1 ) return 1;
-  intmax_t fact = 1;
-  if( n % 2 ) {
-    // Odd
-    for( intmax_t i = 3; i <= n; i += 2 ) fact *= i;
-  } else {
-    // Even
-    for( intmax_t i = 2; i <= n; i += 2 ) fact *= i;
-  }
-  return fact;
-}
-
-inline constexpr intmax_t binomial_coefficient( intmax_t n, intmax_t k ) {
-  assert( n >= k );
-  if( n == 0 or n == 1 ) return 1;
-  if( k == 0 )           return 1;
-  if( k == n )           return 1;
-
-  return integral_falling_factorial(n, k+1) / integral_factorial(n-k);
-}
-
-
-inline constexpr auto parity( int i ) {
-  return (i%2) ? -1 : 1;
-}
-
-inline constexpr double real_solid_harmonic_coeff( int l, int m, int lx, int ly, int lz ) {
-  const auto abs_m = m < 0 ? -m : m;
-  auto j           = (lx + ly - abs_m);
-
-  if( j % 2 or j < 0 ) return 0.;
-  j = j / 2;
-
-  const auto comp = (m >= 0) ? 1 : -1;
-  auto i    = abs_m - lx;
-  if( comp != parity( std::abs(i) ) ) return 0.;
-
-  double pfac = integral_falling_factorial( 2*lx, lx+1 ) *
-                integral_falling_factorial( 2*ly, ly+1 ) *
-                integral_falling_factorial( 2*lz, lz+1 );
-  const double factorial_l = integral_factorial(l);
-  pfac = pfac / ( factorial_l * factorial_l * integral_falling_factorial(2*l,l+1) *
-                  integral_falling_factorial(l+abs_m,l-abs_m+1) );
-  pfac = std::sqrt(pfac);
-
-  pfac /= (1L << l);
-  if (m < 0)
-    pfac *= parity((i-1)/2);
-  else
-    pfac *= parity(i/2);
-
-  auto i_min = j;
-  auto i_max = (l-abs_m)/2;
-  double sum = 0;
-  for(i=i_min;i<=i_max;i++) {
-    double pfac1 = parity(i) * binomial_coefficient(l,i) * binomial_coefficient(i,j);
-    pfac1 *= integral_factorial(2*(l-i));
-    pfac1 /= integral_factorial(l-abs_m-2*i);
-    double sum1 = 0.0;
-    const int k_min = std::max((lx-abs_m)/2,0);
-    const int k_max = std::min(j,lx/2);
-    for(int k=k_min;k<=k_max;k++) {
-      if (lx-2*k <= abs_m)
-        sum1 += parity(k) * 
-          binomial_coefficient(j,k) *
-          binomial_coefficient(abs_m,lx-2*k);
-    }
-    sum += pfac1*sum1;
-  }
-
-  double pfac2 =  integral_double_factorial( 2*l  - 1 );
-  pfac2 = pfac2 / integral_double_factorial( 2*lx - 1 );
-  pfac2 = pfac2 / integral_double_factorial( 2*ly - 1 );
-  pfac2 = pfac2 / integral_double_factorial( 2*lz - 1 );
-
-  sum *= std::sqrt(pfac2);
-
-  double result = (m == 0) ? pfac*sum : M_SQRT2*pfac*sum;
-  return result;
-}
-
-class SphericalHarmonicTransform {
-
-  std::vector< std::vector<double> > table_;
-
-public:
-
-  inline SphericalHarmonicTransform( int max_l ) {
-
-    table_.resize(max_l+1);
-    for( auto l = 0; l <= max_l; ++ l ) {
-      const int nsph  = 2*l + 1;
-      const int ncart = (l+1)*(l+2)/2;
-      table_[l].resize( nsph * ncart );
-
-      for( int m = -l, isph = 0; m <= l; ++m, ++isph ) {
-        for( int ix = l, icart = 0; ix >= 0; --ix )
-        for( int iy = l-ix;         iy >= 0; --iy, ++icart ) {
-          int iz = l - (ix+iy);
-          table_[l][ isph + icart*nsph ] = 
-            real_solid_harmonic_coeff(l,m,ix,iy,iz);
-        }
-      }
-    }
-
-  }
-
-  inline void tform_bra_rm( int bra_l, int nket, const double* cart,
-    int ldc, double* sph, int lds ) {
-
-    const int bra_cart_sz = (bra_l+1) * (bra_l+2)/2;
-    const int bra_sph_sz  = 2*bra_l + 1;
-    for( int i = 0; i < bra_sph_sz; ++i )
-    for( int j = 0; j < nket;       ++j ) {
-      double tmp = 0.;
-      for( int k = 0; k < bra_cart_sz; ++k ) {
-        tmp += table_.at(bra_l)[ i + k*bra_sph_sz ] * cart[ k*ldc + j ];
-      }
-      sph[ i*lds + j ] = tmp;
-    }
-
-  }
-
-  inline void tform_bra_cm( int bra_l, int nket, const double* cart,
-    int ldc, double* sph, int lds ) {
-
-    const int bra_cart_sz = (bra_l+1) * (bra_l+2)/2;
-    const int bra_sph_sz  = 2*bra_l + 1;
-    for( int i = 0; i < bra_sph_sz; ++i )
-    for( int j = 0; j < nket;       ++j ) {
-      double tmp = 0.;
-      for( int k = 0; k < bra_cart_sz; ++k ) {
-        tmp += table_.at(bra_l)[ i + k*bra_sph_sz ] * cart[ k + j*ldc ];
-      }
-      sph[ i + j*lds ] = tmp;
-    }
-
-  }
-
-  inline void itform_bra_rm( int bra_l, int nket, const double* sph,
-    int lds, double* cart, int ldc ) {
-
-    const int bra_cart_sz = (bra_l+1) * (bra_l+2)/2;
-    const int bra_sph_sz  = 2*bra_l + 1;
-    for( int i = 0; i < bra_cart_sz; ++i )
-    for( int j = 0; j < nket;        ++j ) {
-      double tmp = 0.;
-      for(int k = 0; k < bra_sph_sz; ++k ) {
-        tmp += table_.at(bra_l)[ k + i*bra_sph_sz] * sph[ k*lds + j ];
-      }
-      cart[ i*ldc + j ] = tmp;
-    }
-
-  }
-
-  inline void itform_bra_cm( int bra_l, int nket, const double* sph,
-    int lds, double* cart, int ldc ) {
-
-    const int bra_cart_sz = (bra_l+1) * (bra_l+2)/2;
-    const int bra_sph_sz  = 2*bra_l + 1;
-    for( int i = 0; i < bra_cart_sz; ++i )
-    for( int j = 0; j < nket;        ++j ) {
-      double tmp = 0.;
-      for(int k = 0; k < bra_sph_sz; ++k ) {
-        tmp += table_.at(bra_l)[ k + i*bra_sph_sz] * sph[ k + j*lds ];
-      }
-      cart[ i + j*ldc ] = tmp;
-    }
-
-  }
-
-  inline void tform_ket_rm( int nbra, int ket_l, const double* cart,
-    int ldc, double* sph, int lds ) {
-
-    const int ket_cart_sz = (ket_l+1) * (ket_l+2)/2;
-    const int ket_sph_sz  = 2*ket_l + 1;
-    for( int i = 0; i < nbra;       ++i )
-    for( int j = 0; j < ket_sph_sz; ++j ) {
-      double tmp = 0.;
-      for( int k = 0; k < ket_cart_sz; ++k ) {
-        tmp += cart[ i*ldc + k ] * table_.at(ket_l)[ j + k*ket_sph_sz ]; 
-      }
-      sph[ i*lds + j ] = tmp;
-    }
-
-  }
-
-  inline void tform_both_rm( int bra_l, int ket_l, const double* cart,
-    int ldc, double* sph, int lds ) {
-
-    //const int bra_cart_sz = (bra_l+1) * (bra_l+2)/2;
-    const int ket_cart_sz = (ket_l+1) * (ket_l+2)/2;
-    const int bra_sph_sz  = 2*bra_l + 1;
-    //const int ket_sph_sz  = 2*ket_l + 1;
-    std::vector<double> row_tmp( bra_sph_sz * ket_cart_sz );
-    tform_bra_rm( bra_l, ket_cart_sz, cart, ldc, row_tmp.data(), ket_cart_sz );
-    tform_ket_rm( bra_sph_sz, ket_l,  row_tmp.data(), ket_cart_sz, sph, lds  );
-
-  }
-
-};
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/timer.hpp b/third_party/gauxc/include/gauxc/util/timer.hpp
deleted file mode 100644
index 545fa35..0000000
--- a/third_party/gauxc/include/gauxc/util/timer.hpp
+++ /dev/null
@@ -1,246 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <chrono>
-#include <map>
-#include <string>
-#include <type_traits>
-
-#include <gauxc/gauxc_config.hpp>
-#ifdef GAUXC_HAS_MPI
-#include <mpi.h>
-#endif
-
-//#define GAUXC_DISABLE_TIMINGS
-
-namespace GauXC {
-namespace util  {
-
-namespace detail {
-  // TODO: write type_traits for GauXC
- 
-  template <class F, class... Args>
-  struct has_void_return_type {
-
-    // TODO: Write C++20 friendly version with removal of std::result_of
-    static constexpr bool value = 
-      std::is_same< std::invoke_result_t<F,Args...>, void >::value;
-
-  };
-  
-}
-
-class Timer {
-
-  template <class Rep, class Period>
-  using duration = std::chrono::duration<Rep,Period>;
-
-  std::map< std::string, duration<double, std::milli>> timings_;
-
-public:
-
-
-  Timer()                               = default;
-  Timer( const Timer& )                 = default;
-  Timer( Timer&& ) noexcept             = default;
-  Timer& operator=( const Timer& )      = default;
-  Timer& operator=( Timer&& ) noexcept  = default;
-
-  template <class OtherRep, class OtherPeriod>
-  void add_timing( std::string name, duration<OtherRep,OtherPeriod> dur ) {
-    timings_.insert_or_assign( name, duration<double,std::milli>(dur) );
-  }
-
-  template <class OtherRep, class OtherPeriod>
-  void add_or_accumulate_timing( std::string name, 
-                                 duration<OtherRep,OtherPeriod> dur ) {
-
-    if( timings_.find( name ) != timings_.end() ) {
-      timings_.at( name ) += dur;
-    } else {
-      add_timing( name, dur );
-    }
-
-  }
-
-  template <typename Op>
-  inline 
-  std::enable_if_t< detail::has_void_return_type<Op>::value > 
-    time_op( std::string name, const Op& op ) {
-
-#ifndef GAUXC_DISABLE_TIMINGS
-    auto st = std::chrono::high_resolution_clock::now();
-    op();
-    auto en = std::chrono::high_resolution_clock::now();
-
-    duration< double, std::milli > dur( en - st );
-    add_timing( name, dur );
-#else
-    op();
-#endif
-
-  }
-
-  template <typename Op>
-  inline 
-  std::enable_if_t< not detail::has_void_return_type<Op>::value, 
-                    std::invoke_result_t<Op>
-                  > time_op( std::string name, const Op& op ) {
-#ifndef GAUXC_DISABLE_TIMINGS
-    auto st = std::chrono::high_resolution_clock::now();
-    auto res = op();
-    auto en = std::chrono::high_resolution_clock::now();
-
-    duration< double, std::milli > dur( en - st );
-    add_timing( name, dur );
-
-    return res;
-#else
-    return op();
-#endif
-  }
-
-
-
-
-
-
-  template <typename Op>
-  inline 
-  std::enable_if_t< detail::has_void_return_type<Op>::value > 
-    time_op_accumulate( std::string name, const Op& op ) {
-
-#ifndef GAUXC_DISABLE_TIMINGS
-    auto st = std::chrono::high_resolution_clock::now();
-    op();
-    auto en = std::chrono::high_resolution_clock::now();
-
-    duration< double, std::milli > dur( en - st );
-    add_or_accumulate_timing( name, dur );
-#else
-    op();
-#endif
-
-  }
-
-  template <typename Op>
-  inline 
-  std::enable_if_t< not detail::has_void_return_type<Op>::value, 
-                    std::invoke_result_t<Op>
-                  > time_op_accumulate( std::string name, const Op& op ) {
-
-#ifndef GAUXC_DISABLE_TIMINGS
-    auto st = std::chrono::high_resolution_clock::now();
-    auto res = op();
-    auto en = std::chrono::high_resolution_clock::now();
-
-    duration< double, std::milli > dur( en - st );
-    add_or_accumulate_timing( name, dur );
-
-    return res;
-#else
-    return op();
-#endif
-  }
-
-
-
-
-
-  template <class Rep = double, class Period = std::milli>
-  inline duration<Rep,Period> get_duration( std::string name ) {
-    return timings_.at(name);
-  }
-
-  inline const auto& all_timings() const { return timings_; }
-
-};
-
-
-#ifdef GAUXC_HAS_MPI
-class MPITimer {
-
-  template <class Rep, class Period>
-  using duration = std::chrono::duration<Rep,Period>;
-
-  Timer    rank_timer_;
-  MPI_Comm comm_;
-  std::map<std::string, duration<double,std::milli>> avg_timings_;
-  std::map<std::string, duration<double,std::milli>> min_timings_;
-  std::map<std::string, duration<double,std::milli>> max_timings_;
-  std::map<std::string, duration<double,std::milli>> std_dev_timings_;
-
-public:
-
-  MPITimer() = delete;
-  inline MPITimer( MPI_Comm comm, const Timer& timer ) : 
-    rank_timer_(timer), comm_(comm) { get_stats(); }
-
-  inline void get_stats( std::string key ) {
-    int world_size; MPI_Comm_size( comm_, &world_size );
-    double dur = rank_timer_.get_duration<double,std::nano>( key ).count();
-
-    std::vector<double> durs_mpi( world_size );
-    MPI_Allgather( &dur, 1, MPI_DOUBLE, durs_mpi.data(), 1, MPI_DOUBLE, comm_ );
-
-#if 1
-    double min_dur = *std::min_element( durs_mpi.begin(), durs_mpi.end() );
-    double max_dur = *std::max_element( durs_mpi.begin(), durs_mpi.end() );
-    double avg_dur = std::accumulate( durs_mpi.begin(), durs_mpi.end(), 0.0 );
-    avg_dur = avg_dur / world_size;
-
-    double std_dev = std::accumulate( durs_mpi.begin(), durs_mpi.end(), 0.0,
-      [=]( auto a, auto b ) { 
-        const auto diff = ( b - avg_dur );
-        return a + diff*diff;
-      });
-    std_dev = std::sqrt( std_dev / world_size );
-#else
-    double min_dur, max_dur, avg_dur, std_dev;
-#endif
-
-    avg_timings_[ key ]     = std::chrono::nanoseconds( (size_t)std::ceil(avg_dur) );
-    min_timings_[ key ]     = std::chrono::nanoseconds( (size_t)std::ceil(min_dur) );
-    max_timings_[ key ]     = std::chrono::nanoseconds( (size_t)std::ceil(max_dur) );
-    std_dev_timings_[ key ] = std::chrono::nanoseconds( (size_t)std::ceil(std_dev) );
-  }
-
-  inline void get_stats() {
-    for( auto& [key, val] : rank_timer_.all_timings() ) get_stats(key);
-  }
-
-
-  template <class Rep = double, class Period = std::milli>
-  inline duration<Rep,Period> get_avg_duration( std::string name ) {
-    return avg_timings_.at(name);
-  }
-
-  template <class Rep = double, class Period = std::milli>
-  inline duration<Rep,Period> get_min_duration( std::string name ) {
-    return min_timings_.at(name);
-  }
-
-  template <class Rep = double, class Period = std::milli>
-  inline duration<Rep,Period> get_max_duration( std::string name ) {
-    return max_timings_.at(name);
-  }
-
-  template <class Rep = double, class Period = std::milli>
-  inline duration<Rep,Period> get_std_dev( std::string name ) {
-    return std_dev_timings_.at(name);
-  }
-
-};
-#endif
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/util/unused.hpp b/third_party/gauxc/include/gauxc/util/unused.hpp
deleted file mode 100644
index e6dd054..0000000
--- a/third_party/gauxc/include/gauxc/util/unused.hpp
+++ /dev/null
@@ -1,27 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <utility>
-
-namespace GauXC::util {
-
-inline static void unused() { }
-
-template <typename T, typename... Args>
-inline static void unused( const T& t, Args&&... args ) {
-  (void)(t);
-  unused( std::forward<Args>(args)... );
-}
-
-
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator.hpp b/third_party/gauxc/include/gauxc/xc_integrator.hpp
deleted file mode 100644
index 798ffb5..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator.hpp
+++ /dev/null
@@ -1,99 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <memory>
-
-#include <gauxc/types.hpp>
-#include <gauxc/load_balancer.hpp>
-#include <gauxc/xc_integrator_settings.hpp>
-
-namespace GauXC {
-
-namespace detail {
-  template <typename MatrixType>
-  class XCIntegratorImpl;
-}
-
-
-
-template <typename MatrixType>
-class XCIntegrator {
-
-public:
-
-  using matrix_type   = MatrixType;
-  using value_type    = typename matrix_type::value_type;  
-  using basisset_type = BasisSet< value_type >;
-
-  using exc_vxc_type_rks  = std::tuple< value_type, matrix_type >;
-  using exc_vxc_type_uks  = std::tuple< value_type, matrix_type, matrix_type >;  
-  using exc_vxc_type_gks  = std::tuple< value_type, matrix_type, matrix_type, matrix_type, matrix_type >;
-  using exc_grad_type = std::vector< value_type >;
-  using exx_type      = matrix_type;
-  using fxc_contraction_type_rks = matrix_type;
-  using fxc_contraction_type_uks = std::tuple< matrix_type, matrix_type >;
-  using dd_psi_type   = std::vector< value_type >;
-  using dd_psi_potential_type   = matrix_type;
-
-private:
-
-  using pimpl_type    = detail::XCIntegratorImpl<MatrixType>;
-
-  std::unique_ptr<pimpl_type> pimpl_;
-
-public:
-
-  XCIntegrator() = default;
-  ~XCIntegrator() noexcept;
-
-  XCIntegrator( std::unique_ptr<pimpl_type>&& pimpl );
-
-  XCIntegrator( const XCIntegrator& ) = delete;
-  XCIntegrator( XCIntegrator&& ) noexcept;
-
-  value_type    integrate_den( const MatrixType& );
-
-  value_type    eval_exc( const MatrixType&, const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-  value_type    eval_exc( const MatrixType&, const MatrixType&, const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-  value_type    eval_exc( const MatrixType&, const MatrixType&, const MatrixType&, const MatrixType&,  const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-
-  exc_vxc_type_rks  eval_exc_vxc ( const MatrixType&, 
-                                   const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-  exc_vxc_type_uks  eval_exc_vxc ( const MatrixType&, const MatrixType&,
-                                   const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-  exc_vxc_type_gks  eval_exc_vxc ( const MatrixType&, const MatrixType&, const MatrixType&, const MatrixType&,
-                                   const IntegratorSettingsXC& = IntegratorSettingsXC{});
-  exc_vxc_type_uks eval_exc_vxc_onedft( const MatrixType&, const MatrixType&,
-                                const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-
-  exc_grad_type eval_exc_grad( const MatrixType&, const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-  exc_grad_type eval_exc_grad( const MatrixType&, const MatrixType&, const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-
-  exx_type      eval_exx     ( const MatrixType&, 
-                               const IntegratorSettingsEXX& = IntegratorSettingsEXX{} );
-
-  fxc_contraction_type_rks  eval_fxc_contraction ( const MatrixType&, const MatrixType&,
-                                  const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-  fxc_contraction_type_uks  eval_fxc_contraction ( const MatrixType&, const MatrixType&, const MatrixType&, const MatrixType&,
-                                  const IntegratorSettingsXC& = IntegratorSettingsXC{} );
-
-  dd_psi_type eval_dd_psi( const MatrixType&, unsigned );
-  dd_psi_potential_type eval_dd_psi_potential( const MatrixType&, unsigned );
-
-  const util::Timer& get_timings() const;
-  const LoadBalancer& load_balancer() const;
-  LoadBalancer& load_balancer();
-};
-
-
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/impl.hpp b/third_party/gauxc/include/gauxc/xc_integrator/impl.hpp
deleted file mode 100644
index 02ceeac..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/impl.hpp
+++ /dev/null
@@ -1,159 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator/xc_integrator_impl.hpp>
-
-// Implementations of XCIntegrator public API
-
-namespace GauXC {
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::XCIntegrator( std::unique_ptr<pimpl_type>&& pimpl ) :
-  pimpl_( std::move( pimpl ) ) { }
-
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::~XCIntegrator() noexcept = default;
-
-template <typename MatrixType>
-XCIntegrator<MatrixType>::XCIntegrator(XCIntegrator&&) noexcept = default;
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::value_type
-  XCIntegrator<MatrixType>::integrate_den( const MatrixType& P ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->integrate_den(P);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::value_type
-  XCIntegrator<MatrixType>::eval_exc( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc(P, ks_settings);
-}
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::value_type
-  XCIntegrator<MatrixType>::eval_exc( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc(Ps, Pz, ks_settings);
-}
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::value_type
-  XCIntegrator<MatrixType>::eval_exc( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc(Ps, Pz, Py, Px, ks_settings);
-}
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_vxc_type_rks
-  XCIntegrator<MatrixType>::eval_exc_vxc( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc_vxc(P, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_vxc_type_uks
-  XCIntegrator<MatrixType>::eval_exc_vxc( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc_vxc(Ps, Pz, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_vxc_type_gks
-  XCIntegrator<MatrixType>::eval_exc_vxc( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px, 
-                                          const IntegratorSettingsXC& ks_settings ) {
-      if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-        return pimpl_->eval_exc_vxc(Ps, Pz, Py, Px, ks_settings);
-  };
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_vxc_type_uks
-  XCIntegrator<MatrixType>::eval_exc_vxc_onedft( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc_vxc_onedft(Ps, Pz, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_grad_type
-  XCIntegrator<MatrixType>::eval_exc_grad( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc_grad(P, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exc_grad_type
-  XCIntegrator<MatrixType>::eval_exc_grad( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exc_grad(Ps, Pz, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::exx_type
-  XCIntegrator<MatrixType>::eval_exx( const MatrixType&     P,
-                                      const IntegratorSettingsEXX& settings ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_exx(P,settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::fxc_contraction_type_rks
-  XCIntegrator<MatrixType>::eval_fxc_contraction( const MatrixType& P, const MatrixType& tP, 
-                                               const IntegratorSettingsXC& ks_settings ) { 
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_fxc_contraction(P, tP, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::fxc_contraction_type_uks
-  XCIntegrator<MatrixType>::eval_fxc_contraction( const MatrixType& Ps, const MatrixType& Pz, 
-                           const MatrixType& tPs, const MatrixType& tPz, const IntegratorSettingsXC& ks_settings ) { 
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_fxc_contraction(Ps, Pz, tPs, tPz, ks_settings);
-};
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::dd_psi_type
-  XCIntegrator<MatrixType>::eval_dd_psi(const MatrixType& P, unsigned max_Ylm) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_dd_psi(P, max_Ylm);
-}
-
-template <typename MatrixType>
-typename XCIntegrator<MatrixType>::dd_psi_potential_type
-  XCIntegrator<MatrixType>::eval_dd_psi_potential(const MatrixType& X, unsigned max_Ylm) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->eval_dd_psi_potential(X, max_Ylm);
-}
-
-
-template <typename MatrixType>
-const util::Timer& XCIntegrator<MatrixType>::get_timings() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_timings();
-}
-
-template <typename MatrixType>
-const LoadBalancer& XCIntegrator<MatrixType>::load_balancer() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->load_balancer();
-}
-
-template <typename MatrixType>
-LoadBalancer& XCIntegrator<MatrixType>::load_balancer() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->load_balancer();
-}
- 
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/integrator_factory.hpp b/third_party/gauxc/include/gauxc/xc_integrator/integrator_factory.hpp
deleted file mode 100644
index 54a1c4a..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/integrator_factory.hpp
+++ /dev/null
@@ -1,112 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/impl.hpp>
-#include <stdexcept>
-
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-#include <gauxc/xc_integrator/replicated/replicated_xc_integrator_factory.hpp>
-#include <gauxc/reduction_driver.hpp>
-
-namespace GauXC {
-
-/// Factory to generate XCIntegrator Instances
-template <typename MatrixType>
-class XCIntegratorFactory {
-
-public:
-
-  using integrator_type = XCIntegrator<MatrixType>;
-
-  XCIntegratorFactory() = delete;
-
-  /** Construct an XCIntegratorFactory instance 
-   *
-   *  @param[in] ex                      Execution space for the XCIntegrator instance
-   *  @param[in] integrator_input_type   Input type for XC integration (e.g. "Replicated")
-   *  @param[in] integrator_kernel_name  Name of Integraion scaffold kernel to load (e.g. "Reference" or "Default")
-   *  @param[in] local_work_kerenl_name  Name of LWD to load (e.g. "Reference" or "Default")
-   *  @param[in] setting                 Settings to pass to LWD (not currently used)
-   */
-  XCIntegratorFactory( ExecutionSpace ex, 
-                       std::string integrator_input_type,
-                       std::string integrator_kernel_name,
-                       std::string local_work_kernel_name,
-                       std::string reduction_kernel_name,
-                       LocalWorkSettings settings = LocalWorkSettings() ) :
-    ex_(ex), input_type_(integrator_input_type), 
-    integrator_kernel_(integrator_kernel_name),
-    lwd_kernel_(local_work_kernel_name), 
-    rd_kernel_(reduction_kernel_name),
-    local_work_settings_(settings) {}
-
- 
-  /** Generate XCIntegrator instance
-   *
-   *  @param[in] func  XC functional
-   *  @param[in] lb    Preconstructed Load Balancer instance
-   */
-  std::shared_ptr<integrator_type> get_shared_instance( 
-    std::shared_ptr<functional_type> func,
-    std::shared_ptr<LoadBalancer>    lb ) {
-
-    // Create Local Work Driver
-    auto lwd = LocalWorkDriverFactory::make_local_work_driver( ex_, 
-      lwd_kernel_, local_work_settings_ );
-
-    // Create Reduction Driver
-    auto rd = ReductionDriverFactory::get_shared_instance( 
-      lb->runtime(), rd_kernel_ );
-
-    // Create Integrator instance
-    std::transform( input_type_.begin(), input_type_.end(), input_type_.begin(), 
-      ::toupper );
-
-    if( input_type_ == "REPLICATED" )
-      return std::make_shared<integrator_type>( 
-        ReplicatedXCIntegratorFactory<MatrixType>::make_integrator_impl(
-          ex_, integrator_kernel_, func, lb, std::move(lwd), rd
-        )
-      );
-    else GAUXC_GENERIC_EXCEPTION("INTEGRATOR TYPE NOT RECOGNIZED");
-
-    return nullptr;
-
-  }
-
-  auto get_shared_instance( const functional_type& func, const LoadBalancer& lb ) {
-    return get_shared_instance( std::make_shared<functional_type>(func),
-                         std::make_shared<LoadBalancer>(lb) );
-  }
-
-  auto get_shared_instance( const functional_type& func,
-                                       std::shared_ptr<LoadBalancer> lb ) {
-    return get_shared_instance( std::make_shared<functional_type>(func), lb );
-  }
-
-
-  template <typename... Args>
-  integrator_type get_instance( Args&&... args ) {
-
-    return integrator_type( std::move(*get_shared_instance(std::forward<Args>(args)...) ));
-
-  }
-
-private:
-
-  ExecutionSpace ex_;
-  std::string input_type_, integrator_kernel_, lwd_kernel_, rd_kernel_;
-  LocalWorkSettings local_work_settings_;
-
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/local_work_driver.hpp b/third_party/gauxc/include/gauxc/xc_integrator/local_work_driver.hpp
deleted file mode 100644
index 50eb3d3..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/local_work_driver.hpp
+++ /dev/null
@@ -1,54 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <memory>
-#include <string>
-#include <gauxc/enums.hpp>
-
-namespace GauXC {
-
-/// Base class for all LocalWorkDriver instances
-struct LocalWorkDriver { 
-  virtual ~LocalWorkDriver() noexcept = default; 
-};
-
-/// Base type for all types that specify LWD settings (trivial)
-struct LocalWorkSettings { virtual ~LocalWorkSettings() noexcept = default; };
-
-
-
-
-
-/// Factory to generate LocalWorkDriver instances
-class LocalWorkDriverFactory {
-
-public:
-
-  using ptr_return_t = std::unique_ptr<LocalWorkDriver>;
-
-  /** Generate a LWD instance
-   * 
-   *  @param[in] ex        The Execution space for the LWD driver
-   *  @param[in] name      The name of the LWD driver to construct (e.g. "Default" or "Reference")
-   *  @param[in] settings  Settings to pass to LWD construction
-   */
-  static ptr_return_t make_local_work_driver(ExecutionSpace ex, 
-    std::string name = "Default", 
-    LocalWorkSettings settings = LocalWorkSettings());
-
-private:
-
-  static ptr_return_t make_reference_host_driver();
-
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/replicated/impl.hpp b/third_party/gauxc/include/gauxc/xc_integrator/replicated/impl.hpp
deleted file mode 100644
index 09caefc..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/replicated/impl.hpp
+++ /dev/null
@@ -1,285 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-#include <gauxc/exceptions.hpp>
-
-// Implementations of ReplicatedXCIntegrator public API
-
-namespace GauXC  {
-namespace detail {
-
-
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::
-  ReplicatedXCIntegrator( std::unique_ptr<pimpl_type>&& pimpl ) : 
-    pimpl_(std::move(pimpl)){ }
-
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::ReplicatedXCIntegrator(): 
-  ReplicatedXCIntegrator(nullptr){ }
-
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::~ReplicatedXCIntegrator() noexcept = default; 
-template <typename MatrixType>
-ReplicatedXCIntegrator<MatrixType>::
-  ReplicatedXCIntegrator(ReplicatedXCIntegrator&&) noexcept = default; 
-
-template <typename MatrixType>
-const util::Timer& ReplicatedXCIntegrator<MatrixType>::get_timings_() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_timings();
-}
-
-template <typename MatrixType>
-const LoadBalancer& ReplicatedXCIntegrator<MatrixType>::get_load_balancer_() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_load_balancer();
-}
-template <typename MatrixType>
-LoadBalancer& ReplicatedXCIntegrator<MatrixType>::get_load_balancer_() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_load_balancer();
-}
-
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::value_type 
-  ReplicatedXCIntegrator<MatrixType>::integrate_den_( const MatrixType& P ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  value_type N_EL;
-  
-  pimpl_->integrate_den( P.rows(), P.cols(), P.data(), P.rows(), &N_EL );
-
-  return N_EL;
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::value_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  value_type EXC;
-  
-  pimpl_->eval_exc( P.rows(), P.cols(), P.data(), P.rows(), &EXC, ks_settings );
-
-  return EXC;
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::value_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  value_type EXC;
-  
-  const size_t n = Ps.rows();
-  pimpl_->eval_exc( n, n, Ps.data(), n, Pz.data(), n, &EXC, ks_settings );
-
-  return EXC;
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::value_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  value_type EXC;
-  
-  const size_t n = Ps.rows();
-  pimpl_->eval_exc( n, n, Ps.data(), n, Pz.data(), n, Py.data(), n, Px.data(), n, &EXC, ks_settings );
-
-  return EXC;
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_vxc_type_rks 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  matrix_type VXC( P.rows(), P.cols() );
-  value_type  EXC;
-
-  pimpl_->eval_exc_vxc( P.rows(), P.cols(), P.data(), P.rows(),
-                        VXC.data(), VXC.rows(), &EXC, ks_settings );
-
-  return std::make_tuple( EXC, VXC );
-
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_vxc_type_uks
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  matrix_type VXCs( Ps.rows(), Ps.cols() );
-  matrix_type VXCz( Pz.rows(), Pz.cols() );
-  value_type  EXC;
-
-  pimpl_->eval_exc_vxc( Ps.rows(), Ps.cols(), Ps.data(), Ps.rows(),
-                        Pz.data(), Pz.rows(),
-                        VXCs.data(), VXCs.rows(),
-                        VXCz.data(), VXCz.rows(), &EXC, ks_settings );
-
-  return std::make_tuple( EXC, VXCs, VXCz );
-
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_vxc_type_gks
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_vxc_( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px,
-                                                     const IntegratorSettingsXC& ks_settings) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  matrix_type VXCs( Ps.rows(), Ps.cols() );
-  matrix_type VXCz( Pz.rows(), Pz.cols() );
-  matrix_type VXCy( Py.rows(), Py.cols() );
-  matrix_type VXCx( Px.rows(), Px.cols() );
-  value_type  EXC;
-
-  pimpl_->eval_exc_vxc( Ps.rows(), Ps.cols(), Ps.data(), Ps.rows(),
-                        Pz.data(), Pz.rows(),
-                        Py.data(), Py.rows(),
-                        Px.data(), Px.rows(),
-                        VXCs.data(), VXCs.rows(),
-                        VXCz.data(), VXCz.rows(),
-                        VXCy.data(), VXCy.rows(),
-                        VXCx.data(), VXCx.rows(), &EXC, ks_settings );
-
-  return std::make_tuple( EXC, VXCs, VXCz, VXCy, VXCx);
-
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_vxc_type_uks
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_vxc_onedft_( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  matrix_type VXCs( Ps.rows(), Ps.cols() );
-  matrix_type VXCz( Pz.rows(), Pz.cols() );
-  value_type  EXC;
-
-  pimpl_->eval_exc_vxc_onedft( Ps.rows(), Ps.cols(), Ps.data(), Ps.rows(),
-                       Pz.data(), Pz.rows(),
-                       VXCs.data(), VXCs.rows(),
-                       VXCz.data(), VXCz.rows(), &EXC, ks_settings );
-  return std::make_tuple( EXC, VXCs, VXCz );
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_grad_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_grad_( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-
-  std::vector<value_type> EXC_GRAD( 3*pimpl_->load_balancer().molecule().natoms() );
-  pimpl_->eval_exc_grad( P.rows(), P.cols(), P.data(), P.rows(),
-                         EXC_GRAD.data(), ks_settings );
-
-  return EXC_GRAD;
-
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exc_grad_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exc_grad_( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-
-  std::vector<value_type> EXC_GRAD( 3*pimpl_->load_balancer().molecule().natoms() );
-  pimpl_->eval_exc_grad( Ps.rows(), Ps.cols(), Ps.data(), Ps.rows(), Pz.data(), Pz.rows(),
-                         EXC_GRAD.data(), ks_settings );
-
-  return EXC_GRAD;
-
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::exx_type 
-  ReplicatedXCIntegrator<MatrixType>::eval_exx_( const MatrixType& P, const IntegratorSettingsEXX& settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  
-  matrix_type K( P.rows(), P.cols() );
-
-  pimpl_->eval_exx( P.rows(), P.cols(), P.data(), P.rows(),
-                    K.data(), K.rows(), settings );
-
-  return K;
-
-}
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::fxc_contraction_type_rks
-  ReplicatedXCIntegrator<MatrixType>::eval_fxc_contraction_( const MatrixType& P, 
-    const MatrixType& tP, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  matrix_type FXC( P.rows(), P.cols() );
-
-  pimpl_->eval_fxc_contraction( P.rows(), P.cols(), P.data(), P.rows(),
-                        tP.data(), tP.rows(),
-                        FXC.data(), FXC.rows(), ks_settings );
-
-  return FXC;
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::fxc_contraction_type_uks
-  ReplicatedXCIntegrator<MatrixType>::eval_fxc_contraction_( const MatrixType& Ps, const MatrixType& Pz, 
-    const MatrixType& tPs, const MatrixType& tPz, const IntegratorSettingsXC& ks_settings ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  matrix_type FXCs( Ps.rows(), Ps.cols() );
-  matrix_type FXCz( Pz.rows(), Pz.cols() );
-
-  pimpl_->eval_fxc_contraction( Ps.rows(), Ps.cols(), Ps.data(), Ps.rows(),
-                        Pz.data(), Pz.rows(),
-                        tPs.data(), tPs.rows(),
-                        tPz.data(), tPz.rows(),
-                        FXCs.data(), FXCs.rows(),
-                        FXCz.data(), FXCz.rows(), ks_settings );
-
-  return std::make_tuple( FXCs, FXCz );
-
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::dd_psi_type
-  ReplicatedXCIntegrator<MatrixType>::eval_dd_psi_( const MatrixType& P, unsigned max_Ylm ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-
-  const size_t natoms = pimpl_->load_balancer().molecule().natoms();
-  const size_t Ylm_sz = (max_Ylm + 1) * ( max_Ylm + 1);
-  std::vector<value_type> ddPsi(natoms * Ylm_sz, 0.0);
-  pimpl_->eval_dd_psi(P.rows(), P.cols(), P.data(), P.rows(), max_Ylm, ddPsi.data(), Ylm_sz);
-  return ddPsi;
-}
-
-template <typename MatrixType>
-typename ReplicatedXCIntegrator<MatrixType>::dd_psi_potential_type
-  ReplicatedXCIntegrator<MatrixType>::eval_dd_psi_potential_( const MatrixType& X, unsigned max_Ylm ) {
-
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-
-  const size_t nbf = pimpl_->load_balancer().basis().nbf();
-  matrix_type Vddx(nbf, nbf);
-  Vddx.setZero(); 
-  pimpl_->eval_dd_psi_potential(X.rows(), X.cols(), X.data(), max_Ylm, Vddx.data());
-  return Vddx;                      
-
-}
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp b/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp
deleted file mode 100644
index 9454e60..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp
+++ /dev/null
@@ -1,71 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-
-namespace GauXC {
-namespace detail {
-
-/// Base class for ReplicatedXCIntegrator implentations on Device execution spaces
-template <typename ValueType>
-class ReplicatedXCDeviceIntegrator : public ReplicatedXCIntegratorImpl<ValueType> {
-
-  using base_type  = ReplicatedXCIntegratorImpl<ValueType>;
-
-public:
-
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  template <typename... Args>
-  ReplicatedXCDeviceIntegrator( Args&&... args) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~ReplicatedXCDeviceIntegrator() noexcept;
-
-};
-
-extern template class ReplicatedXCDeviceIntegrator<double>;
-
-
-
-/// Factory to generate ReplicatedXCDeviceIntegrator instances
-template <typename ValueType>
-struct ReplicatedXCDeviceIntegratorFactory {
-
-  using impl_type = ReplicatedXCIntegratorImpl<ValueType>;
-  using ptr_return_t = std::unique_ptr<impl_type>;
-
-  /** Generate a ReplicatedXCDeviceIntegrator instance
-   *
-   *  @param[in]  integration_kernel Name of integration scaffold to load ("Default", "Reference", etc)
-   *  @param[in]  func               XC functional to integrate
-   *  @param[in]  lb                 Pregenerated LoadBalancer instance
-   *  @param[in]  lwd                Local Work Driver
-   */
-  static ptr_return_t make_integrator_impl( 
-    std::string integrator_kernel,
-    std::shared_ptr<functional_type>   func,
-    std::shared_ptr<LoadBalancer>      lb,
-    std::unique_ptr<LocalWorkDriver>&& lwd, 
-    std::shared_ptr<ReductionDriver>   rd
-    );
-
-};
-
-
-extern template struct ReplicatedXCDeviceIntegratorFactory<double>;
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp b/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp
deleted file mode 100644
index 4f3476f..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp
+++ /dev/null
@@ -1,71 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-
-namespace GauXC {
-namespace detail {
-
-/// Base class for ReplicatedXCIntegrator implentations on Host execution spaces
-template <typename ValueType>
-class ReplicatedXCHostIntegrator : public ReplicatedXCIntegratorImpl<ValueType> {
-
-  using base_type  = ReplicatedXCIntegratorImpl<ValueType>;
-
-public:
-
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  template <typename... Args>
-  ReplicatedXCHostIntegrator( Args&&... args) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~ReplicatedXCHostIntegrator() noexcept;
-
-};
-
-extern template class ReplicatedXCHostIntegrator<double>;
-
-
-
-/// Factory to generate ReplicatedXCHostIntegrator instances
-template <typename ValueType>
-struct ReplicatedXCHostIntegratorFactory {
-
-  using impl_type = ReplicatedXCIntegratorImpl<ValueType>;
-  using ptr_return_t = std::unique_ptr<impl_type>;
-
-  /** Generate a ReplicatedXCHostIntegrator instance
-   *
-   *  @param[in]  integration_kernel Name of integration scaffold to load ("Default", "Reference", etc)
-   *  @param[in]  func               XC functional to integrate
-   *  @param[in]  lb                 Pregenerated LoadBalancer instance
-   *  @param[in]  lwd                Local Work Driver
-   */
-  static ptr_return_t make_integrator_impl( 
-    std::string integrator_kernel,
-    std::shared_ptr<functional_type>   func,
-    std::shared_ptr<LoadBalancer>      lb,
-    std::unique_ptr<LocalWorkDriver>&& lwd,
-    std::shared_ptr<ReductionDriver>   rd
-    );
-
-};
-
-
-extern template struct ReplicatedXCHostIntegratorFactory<double>;
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_integrator_factory.hpp b/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_integrator_factory.hpp
deleted file mode 100644
index dc881b1..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_integrator_factory.hpp
+++ /dev/null
@@ -1,84 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp>
-#ifdef GAUXC_HAS_DEVICE
-#include <gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp>
-#endif
-#include <gauxc/xc_integrator/replicated/impl.hpp>
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-/// Factory to generate ReplicatedXCIntegrator instances
-template <typename MatrixType>
-struct ReplicatedXCIntegratorFactory {
-
-  using integrator_type = detail::ReplicatedXCIntegrator<MatrixType>;
-  using value_type      = typename integrator_type::value_type;
-  using ptr_return_t    = std::unique_ptr<integrator_type>;
-
-  
-  /** Generate a ReplicatedXCIntegrator instance
-   *
-   *  @param[in]  ex                 Execution space for integrator instance
-   *  @param[in]  integration_kernel Name of integration scaffold to load ("Default", "Reference", etc)
-   *  @param[in]  func               XC functional to integrate
-   *  @param[in]  lb                 Pregenerated LoadBalancer instance
-   *  @param[in]  lwd                Local Work Driver
-   */
-  static ptr_return_t make_integrator_impl( 
-    ExecutionSpace ex,
-    std::string integrator_kernel,
-    std::shared_ptr<functional_type>   func,
-    std::shared_ptr<LoadBalancer>      lb,
-    std::unique_ptr<LocalWorkDriver>&& lwd,
-    std::shared_ptr<ReductionDriver>   rd
-    ) {
-
-
-
-    switch(ex) {
-
-      using host_factory = 
-        detail::ReplicatedXCHostIntegratorFactory<value_type>;
-      case ExecutionSpace::Host:
-        return std::make_unique<integrator_type>( 
-          host_factory::make_integrator_impl(
-            integrator_kernel, func, lb, std::move(lwd), rd 
-          )
-        );
-
-      #ifdef GAUXC_HAS_DEVICE
-      using device_factory = 
-        detail::ReplicatedXCDeviceIntegratorFactory<value_type>;
-      case ExecutionSpace::Device:
-        return std::make_unique<integrator_type>( 
-          device_factory::make_integrator_impl(
-            integrator_kernel, func, lb, std::move(lwd), rd
-          )
-        );
-      #endif
-
-      default:
-        GAUXC_GENERIC_EXCEPTION("ReplicatedXCIntegrator ExecutionSpace Not Supported");
-    }
-
-    return nullptr;
-
-  }
-
- 
-};
-
-
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp b/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp
deleted file mode 100644
index fa0e376..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp
+++ /dev/null
@@ -1,214 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator/replicated_xc_integrator.hpp>
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-#include <gauxc/reduction_driver.hpp>
-#include <gauxc/types.hpp>
-#include <gauxc/basisset.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-
-/// Base class for ReplicatedXCIntegrator implementations
-template <typename ValueType>
-class ReplicatedXCIntegratorImpl {
-
-public:
-
-  using value_type = ValueType;
-  using basis_type = BasisSet< value_type >;
-
-protected:
-
-  std::shared_ptr< functional_type > func_;               ///< XC functional
-  std::shared_ptr< LoadBalancer >    load_balancer_;      ///< Load Balancer
-  std::unique_ptr< LocalWorkDriver > local_work_driver_;  ///< Local Work Driver
-  std::shared_ptr< ReductionDriver > reduction_driver_;   ///< Reduction Driver
-
-  util::Timer timer_;
-
-
-  virtual void integrate_den_( int64_t m, int64_t n, const value_type* P,
-                               int64_t ldp, value_type* N_EL ) = 0;
-
-  virtual void eval_exc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                          value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                          const value_type* Pz, int64_t ldpz, 
-                          value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                          const value_type* Pz, int64_t ldpz, 
-                          const value_type* Py, int64_t ldpy, 
-                          const value_type* Px, int64_t ldpx, 
-                          value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-
-  virtual void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                              int64_t ldp, value_type* VXC, int64_t ldvxc,
-                              value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps,
-                              int64_t ldps,
-                              const value_type* Pz,
-                              int64_t ldpz,
-                              value_type* VXCs, int64_t ldvxcs,
-                              value_type* VXCz, int64_t ldvxcz,
-                              value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps,
-                              int64_t ldps,
-                              const value_type* Pz,
-                              int64_t ldpz,
-                              const value_type* Py,
-                              int64_t ldpy,
-                              const value_type* Px,
-                              int64_t ldpx,
-                              value_type* VXCs, int64_t ldvxcs,
-                              value_type* VXCz, int64_t ldvxcz,
-                              value_type* VXCy, int64_t ldvxcy,
-                              value_type* VXCx, int64_t ldvxcx,
-                              value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_vxc_onedft_(  int64_t m, int64_t n, const value_type* Ps,
-                              int64_t ldps, 
-                              const value_type* Pz,
-                              int64_t ldpz,
-                              value_type* VXCs, int64_t ldvxcs,
-                              value_type* VXCz, int64_t ldvxcz,
-                              value_type* EXC, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_grad_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                               value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exc_grad_( int64_t m, int64_t n, const value_type* P, int64_t ldps, 
-                               const value_type* Pz, int64_t lpdz, value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual void eval_exx_( int64_t m, int64_t n, const value_type* P,
-                          int64_t ldp, value_type* K, int64_t ldk,
-                          const IntegratorSettingsEXX& settings ) = 0;
-  virtual void eval_fxc_contraction_( int64_t m, int64_t n, 
-                            const value_type* P, int64_t ldp,
-                            const value_type* tP, int64_t ldtp,
-                            value_type* FXC, int64_t ldfxc,
-                            const IntegratorSettingsXC& ks_settings )=0;
-  virtual void eval_fxc_contraction_( int64_t m, int64_t n, 
-                            const value_type* Ps, int64_t ldps,   
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            value_type* FXCs, int64_t ldfxcs,
-                            value_type* FXCz, int64_t ldfxcz,
-                            const IntegratorSettingsXC& ks_settings )=0;
-  virtual void eval_dd_psi_( int64_t m, int64_t n, const value_type* P, int64_t ldp, unsigned max_Ylm, 
-                             value_type* ddPsi, int64_t ldPsi ) = 0;
-  virtual void eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm,
-                             value_type* Vddx) = 0;
-
-public:
-
-  ReplicatedXCIntegratorImpl( std::shared_ptr< functional_type >   func,
-                              std::shared_ptr< LoadBalancer >      lb, 
-                              std::unique_ptr< LocalWorkDriver >&& lwd,
-                              std::shared_ptr< ReductionDriver>    rd
-                              );
-
-  virtual ~ReplicatedXCIntegratorImpl() noexcept;
-
-  void integrate_den( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp, value_type* N_EL );
-
-  void eval_exc( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings ); 
-  void eval_exc( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                 const value_type* Pz, int64_t ldpz, 
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings );
-  void eval_exc( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                 const value_type* Pz, int64_t ldpz, 
-                 const value_type* Py, int64_t ldpy, 
-                 const value_type* Px, int64_t ldpx, 
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings );
-
-  void eval_exc_vxc( int64_t m, int64_t n, const value_type* P,
-                     int64_t ldp, value_type* VXC, int64_t ldvxc,
-                     value_type* EXC, const IntegratorSettingsXC& ks_settings ); 
-
-  void eval_exc_vxc( int64_t m, int64_t n, const value_type* Ps,
-                     int64_t ldps,
-                     const value_type* Pz,
-                     int64_t ldpz,
-                     value_type* VXCs, int64_t ldvxcs,
-                     value_type* VXCz, int64_t ldvxcz,
-                     value_type* EXC, const IntegratorSettingsXC& ks_settings );
-  void eval_exc_vxc( int64_t m, int64_t n, const value_type* Ps,
-                     int64_t ldps,
-                     const value_type* Pz,
-                     int64_t ldpz,
-                     const value_type* Py,
-                     int64_t ldpy,
-                     const value_type* Px,
-                     int64_t ldpx,
-                     value_type* VXCs, int64_t ldvxcs,
-                     value_type* VXCz, int64_t ldvxcz,
-                     value_type* VXCy, int64_t ldvxcy,
-                     value_type* VXCx, int64_t ldvxcx,
-                     value_type* EXC, const IntegratorSettingsXC& ks_settings );
-  void eval_exc_vxc_onedft( int64_t m, int64_t n, const value_type* Ps,
-                    int64_t ldps, 
-                    const value_type* Pz,
-                    int64_t ldpz,
-                    value_type* VXCs, int64_t ldvxcs,
-                    value_type* VXCz, int64_t ldvxcz,
-                    value_type* EXC, const IntegratorSettingsXC& ks_settings );
-
-  void eval_exc_grad( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                      value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings );
-  void eval_exc_grad( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                      const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings );
-
-  void eval_exx( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* K, int64_t ldk,
-                 const IntegratorSettingsEXX& settings );
-
-  void eval_fxc_contraction( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp,
-                      const value_type* tP, int64_t ldtp,
-                      value_type* FXC, int64_t ldfxc,
-                      const IntegratorSettingsXC& ks_settings );
-
-  void eval_fxc_contraction( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      const value_type* tPs, int64_t ldtps,
-                      const value_type* tPz, int64_t ldtpz,
-                      value_type* FXCs, int64_t ldfxcs,
-                      value_type* FXCz, int64_t ldfxcz,
-                      const IntegratorSettingsXC& ks_settings );
-
-  void eval_dd_psi( int64_t m, int64_t n, const value_type* P,
-                     int64_t ldp, unsigned max_Ylm, 
-                     value_type* ddPsi, int64_t ldPsi );
-  void eval_dd_psi_potential( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm, 
-                      value_type* Vddx );
-
-  inline const util::Timer& get_timings() const { return timer_; }
-
-  inline std::unique_ptr< LocalWorkDriver > release_local_work_driver() {
-    return std::move( local_work_driver_ );
-  }
-
-  inline const auto& load_balancer() const { return *load_balancer_; }
-  inline auto& load_balancer() { return *load_balancer_; }
-  inline const auto& get_load_balancer() const { return load_balancer(); }
-  inline auto& get_load_balancer() { return load_balancer(); }
-};
-
-
-extern template class ReplicatedXCIntegratorImpl<double>;
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/replicated_xc_integrator.hpp b/third_party/gauxc/include/gauxc/xc_integrator/replicated_xc_integrator.hpp
deleted file mode 100644
index a702b3b..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/replicated_xc_integrator.hpp
+++ /dev/null
@@ -1,83 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator/xc_integrator_impl.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-class ReplicatedXCIntegratorImpl;
-
-
-/** XCIntegrator implementation for replicated inputs
- *
- *  Expects for the passed MatrixType to be convertable to a 
- *  dense matrix and that the inputs are replicted on every rank.
- */
-template <typename MatrixType>
-class ReplicatedXCIntegrator : public XCIntegratorImpl<MatrixType> {
-
-public:
-
-  using matrix_type    = typename XCIntegratorImpl<MatrixType>::matrix_type;
-  using value_type     = typename XCIntegratorImpl<MatrixType>::value_type;
-  using exc_vxc_type_rks   = typename XCIntegratorImpl<MatrixType>::exc_vxc_type_rks;
-  using exc_vxc_type_uks   = typename XCIntegratorImpl<MatrixType>::exc_vxc_type_uks;
-  using exc_vxc_type_gks   = typename XCIntegratorImpl<MatrixType>::exc_vxc_type_gks;
-  using exc_grad_type  = typename XCIntegratorImpl<MatrixType>::exc_grad_type;
-  using exx_type       = typename XCIntegratorImpl<MatrixType>::exx_type;
-  using fxc_contraction_type_rks   = typename XCIntegratorImpl<MatrixType>::fxc_contraction_type_rks;
-  using fxc_contraction_type_uks   = typename XCIntegratorImpl<MatrixType>::fxc_contraction_type_uks;
-  using dd_psi_type       = typename XCIntegratorImpl<MatrixType>::dd_psi_type;
-  using dd_psi_potential_type       = typename XCIntegratorImpl<MatrixType>::dd_psi_potential_type;
-
-private:
-
-  using pimpl_type = ReplicatedXCIntegratorImpl<value_type>;
-  std::unique_ptr< pimpl_type > pimpl_;
-
-  value_type    integrate_den_( const MatrixType& ) override;
-  value_type    eval_exc_     ( const MatrixType&, const IntegratorSettingsXC& ) override;
-  value_type    eval_exc_     ( const MatrixType&, const MatrixType&, const IntegratorSettingsXC& ) override;
-  value_type    eval_exc_     ( const MatrixType&, const MatrixType&, const MatrixType&, const MatrixType&, const IntegratorSettingsXC& ) override;
-  exc_vxc_type_rks  eval_exc_vxc_ ( const MatrixType&, const IntegratorSettingsXC& ) override;
-  exc_vxc_type_uks  eval_exc_vxc_ ( const MatrixType&, const MatrixType&, const IntegratorSettingsXC&) override;
-  exc_vxc_type_gks  eval_exc_vxc_ ( const MatrixType&, const MatrixType&, const MatrixType&, const MatrixType&, const IntegratorSettingsXC& ) override;
-  exc_vxc_type_uks eval_exc_vxc_onedft_  ( const MatrixType&, const MatrixType&, const IntegratorSettingsXC& ) override;
-  exc_grad_type eval_exc_grad_( const MatrixType&, const IntegratorSettingsXC& ) override;
-  exc_grad_type eval_exc_grad_( const MatrixType&, const MatrixType&, const IntegratorSettingsXC& ) override;
-  exx_type      eval_exx_     ( const MatrixType&, const IntegratorSettingsEXX& ) override;
-  fxc_contraction_type_rks  eval_fxc_contraction_ ( const MatrixType&, const MatrixType&, const IntegratorSettingsXC& ) override;
-  fxc_contraction_type_uks  eval_fxc_contraction_ ( const MatrixType&, const MatrixType&, const MatrixType&, const MatrixType&, const IntegratorSettingsXC&) override;
-  dd_psi_type   eval_dd_psi_( const MatrixType& , unsigned ) override;
-  dd_psi_potential_type   eval_dd_psi_potential_( const MatrixType& , unsigned ) override;
-  const util::Timer& get_timings_() const override;
-  const LoadBalancer& get_load_balancer_() const override;
-  LoadBalancer& get_load_balancer_() override;
-
-public:
-
-  ReplicatedXCIntegrator();
-  ReplicatedXCIntegrator( std::unique_ptr<pimpl_type>&& );
-
-  ~ReplicatedXCIntegrator() noexcept;
-
-  ReplicatedXCIntegrator( const ReplicatedXCIntegrator& ) = delete;
-  ReplicatedXCIntegrator( ReplicatedXCIntegrator&& ) noexcept;
-
-};
-
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator/xc_integrator_impl.hpp b/third_party/gauxc/include/gauxc/xc_integrator/xc_integrator_impl.hpp
deleted file mode 100644
index 300117f..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator/xc_integrator_impl.hpp
+++ /dev/null
@@ -1,226 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/xc_integrator.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-/** Base class for XCIntegrator implementation */
-template <typename MatrixType>
-class XCIntegratorImpl {
-
-public:
-
-  using matrix_type    = MatrixType;
-  using value_type     = typename matrix_type::value_type;
-  using exc_vxc_type_rks   = typename XCIntegrator<MatrixType>::exc_vxc_type_rks;
-  using exc_vxc_type_uks   = typename XCIntegrator<MatrixType>::exc_vxc_type_uks;
-  using exc_vxc_type_gks   = typename XCIntegrator<MatrixType>::exc_vxc_type_gks;
-  using exc_grad_type  = typename XCIntegrator<MatrixType>::exc_grad_type;
-  using exx_type       = typename XCIntegrator<MatrixType>::exx_type;
-  using fxc_contraction_type_rks   = typename XCIntegrator<MatrixType>::fxc_contraction_type_rks;
-  using fxc_contraction_type_uks   = typename XCIntegrator<MatrixType>::fxc_contraction_type_uks;
-  using dd_psi_type       = typename XCIntegrator<MatrixType>::dd_psi_type;
-  using dd_psi_potential_type       = typename XCIntegrator<MatrixType>::dd_psi_potential_type;
-
-protected:
-
-  virtual value_type    integrate_den_( const MatrixType& P ) = 0;
-
-  virtual value_type        eval_exc_     ( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual value_type        eval_exc_     ( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual value_type        eval_exc_     ( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px, const IntegratorSettingsXC& ks_settings ) = 0;
-
-  virtual exc_vxc_type_rks  eval_exc_vxc_ ( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual exc_vxc_type_uks  eval_exc_vxc_ ( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual exc_vxc_type_gks  eval_exc_vxc_ ( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px, 
-                                            const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual exc_vxc_type_uks eval_exc_vxc_onedft_  ( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual exc_grad_type eval_exc_grad_( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual exc_grad_type eval_exc_grad_( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual exx_type      eval_exx_     ( const MatrixType&     P, 
-                                        const IntegratorSettingsEXX& settings ) = 0;
-  virtual fxc_contraction_type_rks  eval_fxc_contraction_ ( const MatrixType& P,
-    const MatrixType& tP, const IntegratorSettingsXC& ks_settings ) = 0;
-  virtual fxc_contraction_type_uks  eval_fxc_contraction_ ( const MatrixType& Ps, const MatrixType& Pz, 
-    const MatrixType& tPs, const MatrixType& tPz,  const IntegratorSettingsXC& ks_settings ) = 0;
-
-
-  virtual dd_psi_type   eval_dd_psi_( const MatrixType& P, unsigned max_Ylm ) = 0;
-  virtual dd_psi_potential_type   eval_dd_psi_potential_( const MatrixType& X, unsigned max_Ylm ) = 0;
-  virtual const util::Timer& get_timings_() const = 0;
-  virtual const LoadBalancer& get_load_balancer_() const = 0;
-  virtual LoadBalancer& get_load_balancer_() = 0;
-  
-public:
-
-  // Default all ctors as base is stateless
-
-  XCIntegratorImpl()                                   = default;
-  XCIntegratorImpl( const XCIntegratorImpl& )          = default;
-  XCIntegratorImpl( XCIntegratorImpl&&      ) noexcept = default;
-  virtual ~XCIntegratorImpl()                 noexcept = default;
-
-  /** Integrate Density (approx N_EL)
-   *
-   *  @param[in] P The density matrix
-   *  @returns Approx Tr[P*S]
-   */
-  value_type integrate_den( const MatrixType& P ) {
-    return integrate_den_(P);
-  }
-
-  /** Integrate EXC for RKS
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns Integrated EXC 
-   */
-  value_type eval_exc( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_(P, ks_settings);
-  }
-
-  /** Integrate EXC for UKS
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns Integrated EXC 
-   */
-  value_type eval_exc( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_(Ps, Pz, ks_settings);
-  }
-
-  /** Integrate EXC for GKS
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns Integrated EXC 
-   */
-  value_type eval_exc( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px,  const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_(Ps, Pz, Py, Px, ks_settings);
-  }
-
-  /** Integrate EXC / VXC (Mean field terms) for RKS
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns EXC / VXC in a combined structure
-   */
-  exc_vxc_type_rks eval_exc_vxc( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_vxc_(P, ks_settings);
-  }
-
-  exc_vxc_type_uks eval_exc_vxc( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_vxc_(Ps, Pz, ks_settings);
-  }
-
-  exc_vxc_type_gks eval_exc_vxc( const MatrixType& Ps, const MatrixType& Pz, const MatrixType& Py, const MatrixType& Px, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_vxc_(Ps, Pz, Py, Px, ks_settings);
-  }
-
-  /** Integrate EXC / VXC (Mean field terms) for OneDFT models
-  *
-  *  @param[in] P The alpha density matrix
-  *  @returns EXC / VXC in a combined structure
-  */
-  exc_vxc_type_uks eval_exc_vxc_onedft( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_vxc_onedft_(Ps, Pz, ks_settings);
-  }
-
-  /** Integrate EXC gradient for RKS
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns EXC gradient
-   */
-  exc_grad_type eval_exc_grad( const MatrixType& P, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_grad_(P, ks_settings);
-  }
-
-  /** Integrate EXC gradient for UKS
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns EXC gradient
-   */
-  exc_grad_type eval_exc_grad( const MatrixType& Ps, const MatrixType& Pz, const IntegratorSettingsXC& ks_settings ) {
-    return eval_exc_grad_(Ps, Pz, ks_settings);
-  }
-
-  /** Integrate Exact Exchange for RHF
-   *
-   *  @param[in] P The alpha density matrix
-   *  @returns Excact Exchange Matrix
-   */
-  exx_type eval_exx( const MatrixType& P, const IntegratorSettingsEXX& settings ) {
-    return eval_exx_(P,settings);
-  }
-
-  
-  /** Integrate FXC contraction for RKS
-   * 
-   * @param[in] P the alpha density matrix
-   * @param[in] tP the alpha trial density matrix (contructed from purturbed MO coefficients)
-   * @returns FXC contraction
-   */
-  fxc_contraction_type_rks eval_fxc_contraction( const MatrixType& P, const MatrixType& tP, const IntegratorSettingsXC& ks_settings ) {
-    return eval_fxc_contraction_(P, tP, ks_settings);
-  }
-
-  /** Integrate FXC contraction for UKS
-   *
-   *  @param[in] Ps the scalar density matrix (Pa + Pb)
-   *  @param[in] Pz the Z density matrix (Pa - Pb)
-   *  @param[in] tPs the trial scalar density matrices (contructed from purturbed MO coefficients)
-   *  @param[in] tPz the trial Z density matrices      (contructed from purturbed MO coefficients)
-   *  @returns FXC contraction
-   */
-  fxc_contraction_type_uks eval_fxc_contraction( const MatrixType& Ps, const MatrixType& Pz, 
-    const MatrixType& tPs, const MatrixType& tPz, const IntegratorSettingsXC& ks_settings ) {
-    return eval_fxc_contraction_(Ps, Pz, tPs, tPz, ks_settings);
-  }
-
-  /** Evaluate Psi vector for ddX
-   *
-   *  @param[in] P        The density matrix
-   *  @param[in] max_Ylm  The max "l" degree for Ylm
-   *  @returns   The atomic contributions to the SH projection of the density onto the DD domains
-   */   
-  dd_psi_type eval_dd_psi( const MatrixType& P, unsigned max_Ylm ) {
-    return eval_dd_psi_(P,max_Ylm);
-  }
-
-  /** Evaluate Psi Potential for ddX
-   *
-   *  @param[in] X        The local ASC coefficients, (nharmonics, atom) array in column-major ordering.
-   *  @param[in] max_Ylm  The max "l" degree for Ylm
-   *  @returns   fock contributions
-   */   
-  dd_psi_potential_type eval_dd_psi_potential( const MatrixType& X, unsigned max_Ylm ) {
-    return eval_dd_psi_potential_(X,max_Ylm);
-  }
-
-  /** Get internal timers
-   *
-   *  @returns Timer instance for internal timings
-   */
-  const util::Timer& get_timings() const {
-    return get_timings_();
-  }
-
-
-  const LoadBalancer& load_balancer() const {
-    return get_load_balancer_();
-  }
-  LoadBalancer& load_balancer() {
-    return get_load_balancer_();
-  }
-};
-
-}
-}
diff --git a/third_party/gauxc/include/gauxc/xc_integrator_settings.hpp b/third_party/gauxc/include/gauxc/xc_integrator_settings.hpp
deleted file mode 100644
index a63899e..0000000
--- a/third_party/gauxc/include/gauxc/xc_integrator_settings.hpp
+++ /dev/null
@@ -1,36 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-
-struct IntegratorSettingsEXX { virtual ~IntegratorSettingsEXX() noexcept = default; };
-struct IntegratorSettingsSNLinK : public IntegratorSettingsEXX {
-  bool screen_ek = true;
-  double energy_tol = 1e-10;
-  double k_tol      = 1e-10;
-};
-
-struct IntegratorSettingsXC { virtual ~IntegratorSettingsXC() noexcept = default; };
-struct IntegratorSettingsKS : public IntegratorSettingsXC {
-  double gks_dtol = 1e-12;
-};
-
-struct OneDFTSettings : public IntegratorSettingsXC {
-  std::string model;
-};
-
-struct IntegratorSettingsEXC_GRAD : public IntegratorSettingsKS {
-  bool include_weight_derivatives= true; // whether to include grid weight contribution and employ translational invariance, or just use Hellmann-Feynman gradient
-};
-
-}
diff --git a/third_party/gauxc/include/gauxc/xc_task.hpp b/third_party/gauxc/include/gauxc/xc_task.hpp
deleted file mode 100644
index fbf212e..0000000
--- a/third_party/gauxc/include/gauxc/xc_task.hpp
+++ /dev/null
@@ -1,143 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <array>
-#include <vector>
-#include <cstdint>
-#include <algorithm>
-#include <numeric>
-#include <gauxc/gauxc_config.hpp>
-#include <gauxc/shell.hpp>
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-struct XCTask {
-
-  int32_t                              iParent = -1;
-  std::vector< std::array<double,3> >  points;
-  std::vector< double  >               weights;
-  int32_t                              npts = 0;
-
-  double                               dist_nearest;
-  double                               max_weight = std::numeric_limits<double>::infinity();
-
-  struct screening_data {
-    using pair_t = std::pair<int32_t,int32_t>;
-    std::vector<int32_t>               shell_list;
-    std::vector<pair_t>                shell_pair_list;
-    std::vector<int32_t>               shell_pair_idx_list;
-    std::vector<int32_t>               submat_block;
-    std::vector<std::array<int32_t,3>> submat_map;
-    int32_t                            nbe = 0;
-
-    bool equiv_with( const screening_data& other ) const {
-      return shell_list == other.shell_list and 
-        shell_pair_list == other.shell_pair_list;
-    }
-
-    inline size_t volume() const {
-      return (shell_list.size() + 2*shell_pair_list.size() + submat_block.size() +
-              3*submat_map.size() + 1) * sizeof(int32_t);
-    }
-  };
-
-  struct features {
-    // inputs for onedft
-    std::vector<double> den_eval;
-    std::vector<double> dden_x_eval;
-    std::vector<double> dden_y_eval;
-    std::vector<double> dden_z_eval;
-    std::vector<double> tau;
-    // results from onedft
-    std::vector<double> vdden_eval_a;
-    std::vector<double> vdden_eval_b;
-    std::vector<double> vdden_x_eval_a;
-    std::vector<double> vdden_x_eval_b;
-    std::vector<double> vdden_y_eval_a;
-    std::vector<double> vdden_y_eval_b;
-    std::vector<double> vdden_z_eval_a;
-    std::vector<double> vdden_z_eval_b;
-    std::vector<double> vtau;
-  };
-  features feat;
-
-  inline size_t volume() const {
-    return 2 * sizeof(int32_t) +
-      (3*points.size() + weights.size() + 2) * sizeof(double) +
-      bfn_screening.volume() + cou_screening.volume();
-  }
-
-  screening_data bfn_screening;
-  screening_data cou_screening;
-
-  void merge_with( const XCTask& other ) {
-    if( !equiv_with(other) )
-      GAUXC_GENERIC_EXCEPTION("Cannot Perform Requested Merge: Incompatible Tasks");
-    points.insert( points.end(), other.points.begin(), other.points.end() );
-    weights.insert( weights.end(), other.weights.begin(), other.weights.end() );
-    npts = points.size();
-  }
-
-  template <typename TaskIt>
-  void merge_with( TaskIt begin, TaskIt end ) {
-
-    size_t old_sz = points.size();
-    size_t pts_add = std::accumulate( begin, end, 0ul,
-      []( const auto &a, const auto &t ) {
-        return a + t.points.size();
-      });
-
-    size_t new_sz = old_sz + pts_add;
-    points.resize( new_sz );
-    weights.resize( new_sz );
-
-    auto points_it  = points.begin()  + old_sz;
-    auto weights_it = weights.begin() + old_sz;
-    for( auto it = begin; it != end; ++it ) {
-      if( !equiv_with(*it) )
-        GAUXC_GENERIC_EXCEPTION("Cannot Perform Requested Task Merge");
-      points_it  = std::copy( it->points.begin(), it->points.end(), points_it );
-      weights_it = std::copy( it->weights.begin(), it->weights.end(), weights_it );
-    }
-
-    npts = points.size();
-  }
-
-
-  inline bool equiv_with( const XCTask& other ) const {
-    return iParent == other.iParent and 
-      bfn_screening.equiv_with(other.bfn_screening);
-  }
-
-  template <typename Archive>
-  void serialize( Archive& ar ) {
-    ar( iParent, bfn_screening.nbe, npts, dist_nearest, max_weight, 
-      bfn_screening.shell_list, points, weights );  
-  }
-
-
-  inline size_t cost(size_t n_deriv, size_t natoms) const {
-    return (bfn_screening.nbe * ( 1 + bfn_screening.nbe + n_deriv ) + natoms * natoms) * npts;
-  }
-  inline size_t cost_exc_vxc(size_t n_deriv) const {
-    return bfn_screening.nbe * ( 1 + bfn_screening.nbe + n_deriv ) * npts;
-  }
-  inline size_t cost_exx() const {
-    return ( bfn_screening.nbe + 2*cou_screening.nbe*bfn_screening.nbe +
-             2*cou_screening.shell_pair_list.size() ) * npts;
-  }
-};
-
-
-}
diff --git a/third_party/gauxc/src/CMakeLists.txt b/third_party/gauxc/src/CMakeLists.txt
deleted file mode 100644
index 2aa8fc6..0000000
--- a/third_party/gauxc/src/CMakeLists.txt
+++ /dev/null
@@ -1,251 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-
-# Parallelism
-if( GAUXC_ENABLE_OPENMP ) 
-  message( STATUS "GauXC Enabling OpenMP" )
-  find_package( OpenMP  REQUIRED )
-  set(GAUXC_HAS_OPENMP TRUE CACHE BOOL "GauXC Has OpenMP" FORCE)
-else()
-  message( STATUS "GauXC Disabling OpenMP" )
-endif()
-
-if( GAUXC_ENABLE_MPI )
-  message( STATUS "GauXC Enabling MPI" )
-  find_package( MPI REQUIRED )
-  set(GAUXC_HAS_MPI TRUE CACHE BOOL "GauXC Has MPI" FORCE)
-else()
-  message( STATUS "GauXC Disabling MPI" )
-endif()
-
-if ( GAUXC_ENABLE_ONEDFT )
-  message( STATUS "GauXC Enabling OneDFT" )
-  include( gauxc-onedft      )
-  set(GAUXC_HAS_ONEDFT TRUE CACHE BOOL "GauXC Has OneDFT" FORCE)
-  set(GAUXC_ONEDFT_MODEL_PATH "${PROJECT_SOURCE_DIR}/data/onedft_models" )
-else()
-  message( STATUS "GauXC Disabling OneDFT" )
-endif()
-
-# Required Dependencies
-include( gauxc-integratorxx )
-include( gauxc-exchcxx      )
-
-add_library( gauxc 
-  grid.cxx 
-  grid_impl.cxx 
-  grid_factory.cxx
-  molmeta.cxx 
-  molgrid.cxx 
-  molgrid_impl.cxx 
-  molgrid_defaults.cxx 
-  atomic_radii.cxx 
-)
-
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${PROJECT_SOURCE_DIR}/include>
-    $<BUILD_INTERFACE:${PROJECT_BINARY_DIR}/include>
-    $<BUILD_INTERFACE:${PROJECT_SOURCE_DIR}/src>
-    $<INSTALL_INTERFACE:include>
-)
-
-include( CheckCXXCompilerFlag )
-check_cxx_compiler_flag( -Wall              GAUXC_CXX_HAS_WALL              )
-check_cxx_compiler_flag( -Wextra            GAUXC_CXX_HAS_WEXTRA            )
-check_cxx_compiler_flag( -Wpedantic         GAUXC_CXX_HAS_WPEDANTIC         )
-check_cxx_compiler_flag( -Wnon-virtual-dtor GAUXC_CXX_HAS_WNON_VIRTUAL_DTOR )
-check_cxx_compiler_flag( -Wshadow           GAUXC_CXX_HAS_WSHADOW           )
-
-if( GAUXC_CXX_HAS_WALL )
-  target_compile_options( gauxc PRIVATE $<$<COMPILE_LANGUAGE:CXX>: -Wall> )
-endif()
-
-if( GAUXC_CXX_HAS_WEXTRA )
-  target_compile_options( gauxc PRIVATE $<$<COMPILE_LANGUAGE:CXX>: -Wextra> )
-endif()
-
-if( GAUXC_CXX_HAS_WPEDANTIC )
-  target_compile_options( gauxc PRIVATE $<$<COMPILE_LANGUAGE:CXX>: -Wpedantic> )
-endif()
-
-if( GAUXC_CXX_HAS_WNON_VIRTUAL_DTOR )
-  target_compile_options( gauxc PRIVATE $<$<COMPILE_LANGUAGE:CXX>: -Wnon-virtual-dtor -Werror=non-virtual-dtor> )
-endif()
-
-if( GAUXC_CXX_HAS_WSHADOW )
-  target_compile_options( gauxc PRIVATE $<$<COMPILE_LANGUAGE:CXX>: -Wshadow> )
-endif()
-
-target_link_libraries( gauxc PUBLIC 
-  ExchCXX::ExchCXX 
-  IntegratorXX::IntegratorXX 
-)
-if( TARGET OpenMP::OpenMP_CXX )
-  target_link_libraries( gauxc PUBLIC OpenMP::OpenMP_CXX )
-else()
-  find_package(Threads REQUIRED)
-  target_link_libraries( gauxc PUBLIC Threads::Threads )
-endif()
-
-
-if( GAUXC_HAS_MPI )
-  target_link_libraries( gauxc PUBLIC MPI::MPI_C MPI::MPI_CXX )
-endif()
-
-if ( GAUXC_HAS_ONEDFT )
-  target_link_libraries( gauxc PUBLIC "${TORCH_LIBRARIES}")
-endif()
-
-add_subdirectory( runtime_environment )
-add_subdirectory( molecular_weights )
-add_subdirectory( xc_integrator )
-add_subdirectory( load_balancer )
-add_subdirectory( reduction_driver )
-add_subdirectory( external )
-
-
-add_library( gauxc::gauxc ALIAS gauxc )
-
-
-if(GAUXC_HAS_HOST)
-  set(GAUXC_CPU_XC_MAX_AM     6) 
-  set(GAUXC_CPU_SNLINK_MAX_AM 6)
-endif()
-
-if(GAUXC_HAS_DEVICE)
-  set(GAUXC_GPU_XC_MAX_AM     4) 
-  set(GAUXC_GPU_SNLINK_MAX_AM 2)
-endif()
-
-if (GAUXC_HAS_ONEDFT)
-  set(GAUXC_ONEDFT_MODEL_PATH_INSTALL "${CMAKE_INSTALL_PREFIX}/share/gauxc/onedft_models")
-  install( 
-    DIRECTORY  ${GAUXC_ONEDFT_MODEL_PATH}
-    DESTINATION "${CMAKE_INSTALL_PREFIX}/share/gauxc"
-  )
-endif()
-
-# Generate config file
-configure_file( 
-  ${PROJECT_SOURCE_DIR}/include/gauxc/gauxc_config.hpp.in
-  ${PROJECT_BINARY_DIR}/include/gauxc/gauxc_config.hpp
-)
-
-include( GNUInstallDirs )
-
-# TARGETS
-
-install( TARGETS gauxc ${GAUXC_EXPORT_DEPENDENCIES}
-  EXPORT gauxc-targets 
-  LIBRARY DESTINATION ${CMAKE_INSTALL_LIBDIR}
-  ARCHIVE DESTINATION ${CMAKE_INSTALL_LIBDIR}
-)
-
-set_target_properties( gauxc PROPERTIES EXPORT_NAME gauxc )
-
-set(export_properties
-  # currently configurable properties 
-  "GAUXC_HAS_HOST"
-  "GAUXC_HAS_DEVICE"
-  "GAUXC_HAS_CUDA"
-  "GAUXC_HAS_HIP"
-  "GAUXC_HAS_MAGMA"
-  "GAUXC_HAS_CUTLASS"
-  "GAUXC_HAS_NCCL"
-  "GAUXC_HAS_MPI"
-  "GAUXC_HAS_OPENMP"
-  "GAUXC_HAS_HDF5"
-  "GAUXC_HAS_ONEDFT"
-  
-  # may become configurable in the future
-  "GAUXC_CPU_XC_MAX_AM"
-  "GAUXC_CPU_SNLINK_MAX_AM"
-  "GAUXC_GPU_XC_MAX_AM"
-  "GAUXC_GPU_SNLINK_MAX_AM"
-)
-
-set_target_properties(gauxc
-  PROPERTIES
-    "GAUXC_HAS_HOST"       ${GAUXC_HAS_HOST}
-    "GAUXC_HAS_DEVICE"     ${GAUXC_HAS_DEVICE}
-    "GAUXC_HAS_CUDA"       ${GAUXC_HAS_CUDA}
-    "GAUXC_HAS_HIP"        ${GAUXC_HAS_HIP}
-    "GAUXC_HAS_MAGMA"      ${GAUXC_HAS_MAGMA}
-    "GAUXC_HAS_CUTLASS"    ${GAUXC_HAS_CUTLASS}
-    "GAUXC_HAS_NCCL"       ${GAUXC_HAS_NCCL}
-    "GAUXC_HAS_MPI"        ${GAUXC_HAS_MPI}
-    "GAUXC_HAS_OPENMP"     ${GAUXC_HAS_OPENMP}
-    "GAUXC_HAS_HDF5"       ${GAUXC_HAS_HDF5}
-    "GAUXC_HAS_ONEDFT"     ${GAUXC_HAS_ONEDFT}
-    "GAUXC_CPU_XC_MAX_AM"     ${GAUXC_CPU_XC_MAX_AM}     
-    "GAUXC_CPU_SNLINK_MAX_AM" ${GAUXC_CPU_SNLINK_MAX_AM}
-    "GAUXC_GPU_XC_MAX_AM"     ${GAUXC_GPU_XC_MAX_AM}     
-    "GAUXC_GPU_SNLINK_MAX_AM" ${GAUXC_GPU_SNLINK_MAX_AM}
-)
-set_property(TARGET gauxc APPEND PROPERTY EXPORT_PROPERTIES "${export_properties}")
-
-# Export build tree
-export(EXPORT gauxc-targets
-      NAMESPACE gauxc::
-      FILE "${PROJECT_BINARY_DIR}/gauxc-targets.cmake")
-
-# Install static headers
-install( 
-  DIRECTORY   ${PROJECT_SOURCE_DIR}/include
-  DESTINATION .
-  FILES_MATCHING PATTERN "*.hpp"
-)
-
-# Install generated headers
-install(
-  FILES       ${PROJECT_BINARY_DIR}/include/gauxc/gauxc_config.hpp
-  DESTINATION include/gauxc
-)
-  
-   
-# Export target to script
-set( INSTALL_CONFIGDIR ${CMAKE_INSTALL_LIBDIR}/cmake/gauxc )
-install( EXPORT gauxc-targets
-  FILE         gauxc-targets.cmake
-  NAMESPACE    gauxc::
-  DESTINATION  ${INSTALL_CONFIGDIR}
-)
-
-# Create config-version.cmake file
-include( CMakePackageConfigHelpers )
-write_basic_package_version_file(
-  ${CMAKE_CURRENT_BINARY_DIR}/gauxc-config-version.cmake
-  VERSION ${PROJECT_VERSION}
-  COMPATIBILITY AnyNewerVersion
-)
-
-
-# Setup gauxc-config.cmake
-configure_package_config_file(
-  ${PROJECT_SOURCE_DIR}/cmake/gauxc-config.cmake.in
-  ${CMAKE_CURRENT_BINARY_DIR}/gauxc-config.cmake
-  INSTALL_DESTINATION ${INSTALL_CONFIGDIR}
-)
-
-# Install CMake files
-install( FILES
-  ${PROJECT_SOURCE_DIR}/cmake/modules/FindMAGMA.cmake
-  ${PROJECT_SOURCE_DIR}/cmake/modules/FindNCCL.cmake
-  ${CMAKE_CURRENT_BINARY_DIR}/gauxc-config.cmake
-  ${CMAKE_CURRENT_BINARY_DIR}/gauxc-config-version.cmake
-  DESTINATION ${INSTALL_CONFIGDIR}
-)
-
-# Install Custom Find Modules
-include( ${linalg-cmake-modules_SOURCE_DIR}/LinAlgModulesMacros.cmake )
-install_linalg_modules( INSTALL_CONFIGDIR )
diff --git a/third_party/gauxc/src/atomic_radii.cxx b/third_party/gauxc/src/atomic_radii.cxx
deleted file mode 100644
index 5227530..0000000
--- a/third_party/gauxc/src/atomic_radii.cxx
+++ /dev/null
@@ -1,352 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/molgrid/defaults.hpp>
-
-namespace GauXC {
-
-double default_atomic_radius(AtomicNumber Z) {
-
-  // If the radius is in Slater-64, use it as the default
-  auto slater_64 = slater_radius_64(Z);
-  if( slater_64 > 0. ) return slater_64;
-
-  // Fill in gaps with Clementi-67 data
-  auto clementi_67 = clementi_radius_67(Z);
-  if( clementi_67 > 0. ) return clementi_67;
-
-  // Default to 2.01 Angstroms -> 3.79835 Bohr (???)
-  return 3.79835;
-  
-}
-
-long double pm_to_bohr( long double x ) {
-  return x * 0.0188973000000929 / 1.00000205057;
-}
-
-/// Slater, J.C.
-/// J. Chem. Phys. 41, 3199, 1964
-/// https://doi.org/10.1063/1.1725697
-double slater_radius_64(AtomicNumber _Z) {
-
-  auto Z = _Z.get();
-  switch(Z) {
-    case 1:  /* H  */ return pm_to_bohr(25. );
-  //case 2:  /* He */ return pm_to_bohr(120.);
-    case 3:  /* Li */ return pm_to_bohr(145.);
-    case 4:  /* Be */ return pm_to_bohr(105.);
-    case 5:  /* B  */ return pm_to_bohr(85. );
-    case 6:  /* C  */ return pm_to_bohr(70. );
-    case 7:  /* N  */ return pm_to_bohr(65. );
-    case 8:  /* O  */ return pm_to_bohr(60. );
-    case 9:  /* F  */ return pm_to_bohr(50. );
-  //case 10: /* Ne */ return pm_to_bohr(160.);
-    case 11: /* Na */ return pm_to_bohr(180.);
-    case 12: /* Mg */ return pm_to_bohr(150.);
-    case 13: /* Al */ return pm_to_bohr(125.);
-    case 14: /* Si */ return pm_to_bohr(110.);
-    case 15: /* P  */ return pm_to_bohr(100.);
-    case 16: /* S  */ return pm_to_bohr(100.);
-    case 17: /* Cl */ return pm_to_bohr(100.);
-  //case 18: /* Ar */ return pm_to_bohr(71. );
-    case 19: /* K  */ return pm_to_bohr(220.);
-    case 20: /* Ca */ return pm_to_bohr(180.);
-    case 21: /* Sc */ return pm_to_bohr(160.);
-    case 22: /* Ti */ return pm_to_bohr(140.);
-    case 23: /* V  */ return pm_to_bohr(135.);
-    case 24: /* Cr */ return pm_to_bohr(140.);
-    case 25: /* Mn */ return pm_to_bohr(140.);
-    case 26: /* Fe */ return pm_to_bohr(140.);
-    case 27: /* Co */ return pm_to_bohr(135.);
-    case 28: /* Ni */ return pm_to_bohr(135.);
-    case 29: /* Cu */ return pm_to_bohr(135.);
-    case 30: /* Zn */ return pm_to_bohr(135.);
-    case 31: /* Ga */ return pm_to_bohr(130.);
-    case 32: /* Ge */ return pm_to_bohr(125.);
-    case 33: /* As */ return pm_to_bohr(115.);
-    case 34: /* Se */ return pm_to_bohr(115.);
-    case 35: /* Br */ return pm_to_bohr(115.);
-                                              
-    case 37: /* Rb */ return pm_to_bohr(235.);
-    case 38: /* Sr */ return pm_to_bohr(200.);
-    case 39: /* Y  */ return pm_to_bohr(180.);
-    case 40: /* Zr */ return pm_to_bohr(155.);
-    case 41: /* Nb */ return pm_to_bohr(145.);
-    case 42: /* Mo */ return pm_to_bohr(145.);
-    case 43: /* Tc */ return pm_to_bohr(135.);
-    case 44: /* Ru */ return pm_to_bohr(130.);
-    case 45: /* Rh */ return pm_to_bohr(135.);
-    case 46: /* Pd */ return pm_to_bohr(140.);
-    case 47: /* Ag */ return pm_to_bohr(160.);
-    case 48: /* Cd */ return pm_to_bohr(155.);
-    case 49: /* In */ return pm_to_bohr(155.);
-    case 50: /* Sn */ return pm_to_bohr(145.);
-    case 51: /* Sb */ return pm_to_bohr(145.);
-    case 52: /* Te */ return pm_to_bohr(140.);
-    case 53: /* I  */ return pm_to_bohr(140.);
-                                              
-    case 55: /* Cs */ return pm_to_bohr(265.);
-    case 56: /* Ba */ return pm_to_bohr(215.);
-    case 57: /* La */ return pm_to_bohr(195.);
-    case 58: /* Ce */ return pm_to_bohr(185.);
-    case 59: /* Pr */ return pm_to_bohr(185.);
-    case 60: /* Nd */ return pm_to_bohr(185.);
-    case 61: /* Pm */ return pm_to_bohr(185.);
-    case 62: /* Sm */ return pm_to_bohr(185.);
-    case 63: /* Eu */ return pm_to_bohr(185.);
-    case 64: /* Gd */ return pm_to_bohr(180.);
-    case 65: /* Tb */ return pm_to_bohr(175.);
-    case 66: /* Dy */ return pm_to_bohr(175.);
-    case 67: /* Ho */ return pm_to_bohr(175.);
-    case 68: /* Er */ return pm_to_bohr(175.);
-    case 69: /* Tm */ return pm_to_bohr(175.);
-    case 70: /* Yb */ return pm_to_bohr(175.);
-    case 71: /* Lu */ return pm_to_bohr(175.);
-    case 72: /* Hf */ return pm_to_bohr(155.);
-    case 73: /* Ta */ return pm_to_bohr(145.);
-    case 74: /* W  */ return pm_to_bohr(135.);
-    case 75: /* Re */ return pm_to_bohr(135.);
-    case 76: /* Os */ return pm_to_bohr(130.);
-    case 77: /* Ir */ return pm_to_bohr(135.);
-    case 78: /* Pt */ return pm_to_bohr(135.);
-    case 79: /* Au */ return pm_to_bohr(135.);
-    case 80: /* Hg */ return pm_to_bohr(150.);
-    case 81: /* Tl */ return pm_to_bohr(190.);
-    case 82: /* Pb */ return pm_to_bohr(180.);
-    case 83: /* Bi */ return pm_to_bohr(160.);
-    case 84: /* Po */ return pm_to_bohr(190.);
-                                              
-    case 88: /* Ra */ return pm_to_bohr(215.);
-    case 89: /* Ac */ return pm_to_bohr(195.);
-    case 90: /* Th */ return pm_to_bohr(180.);
-    case 91: /* Pa */ return pm_to_bohr(180.);
-    case 92: /* U  */ return pm_to_bohr(175.);
-    case 93: /* Np */ return pm_to_bohr(175.);
-    case 94: /* Pu */ return pm_to_bohr(175.);
-    case 95: /* Am */ return pm_to_bohr(175.);
-  //case 96: /* Cm */ return pm_to_bohr(176.); }
- 
-    default: return -1.;
-  }
-}
-
-/// Slater, J.C.
-/// Phys. Rev. 36, 57, 1930
-/// https://doi.org/10.1103/PhysRev.36.57
-double slater_radii_30(AtomicNumber _Z) {
-
-  auto Z = _Z.get();
-  switch(Z) {
-    case 1:   /* H  */ return pm_to_bohr(53. ); 
-
-    case 3:   /* Li */ return pm_to_bohr(163.); 
-    case 4:   /* Be */ return pm_to_bohr(109.); 
-    case 5:   /* B  */ return pm_to_bohr(82. ); 
-    case 6:   /* C  */ return pm_to_bohr(65. ); 
-    case 7:   /* N  */ return pm_to_bohr(55. ); 
-    case 8:   /* O  */ return pm_to_bohr(47. ); 
-    case 9:   /* F  */ return pm_to_bohr(41. ); 
-
-    case 11:  /* Na */ return pm_to_bohr(217.); 
-    case 12:  /* Mg */ return pm_to_bohr(168.); 
-    case 13:  /* Al */ return pm_to_bohr(137.); 
-    case 14:  /* Si */ return pm_to_bohr(115.); 
-    case 15:  /* P  */ return pm_to_bohr(100.); 
-    case 16:  /* S  */ return pm_to_bohr(88. ); 
-    case 17:  /* Cl */ return pm_to_bohr(78. ); 
-                                                                  
-    case 19:  /* K  */ return pm_to_bohr(332.); 
-    case 20:  /* Ca */ return pm_to_bohr(256.); 
-    case 21:  /* Sc */ return pm_to_bohr(243.); 
-    case 22:  /* Ti */ return pm_to_bohr(232.); 
-    case 23:  /* V  */ return pm_to_bohr(222.); 
-    case 24:  /* Cr */ return pm_to_bohr(212.); 
-    case 25:  /* Mn */ return pm_to_bohr(202.); 
-    case 26:  /* Fe */ return pm_to_bohr(195.); 
-    case 27:  /* Co */ return pm_to_bohr(187.); 
-    case 28:  /* Ni */ return pm_to_bohr(180.); 
-    case 29:  /* Cu */ return pm_to_bohr(173.); 
-    case 30:  /* Zn */ return pm_to_bohr(167.); 
-    case 31:  /* Ga */ return pm_to_bohr(146.); 
-    case 32:  /* Ge */ return pm_to_bohr(129.); 
-    case 33:  /* As */ return pm_to_bohr(116.); 
-    case 34:  /* Se */ return pm_to_bohr(105.); 
-    case 35:  /* Br */ return pm_to_bohr(96. ); 
-                                                                  
-    case 37:  /* Rb */ return pm_to_bohr(386.); 
-    case 38:  /* Sr */ return pm_to_bohr(300.); 
-    case 39:  /* Y  */ return pm_to_bohr(284.); 
-    case 40:  /* Zr */ return pm_to_bohr(271.); 
-    case 41:  /* Nb */ return pm_to_bohr(260.); 
-    case 42:  /* Mo */ return pm_to_bohr(248.); 
-    case 43:  /* Tc */ return pm_to_bohr(236.); 
-    case 44:  /* Ru */ return pm_to_bohr(228.); 
-    case 45:  /* Rh */ return pm_to_bohr(218.); 
-    case 46:  /* Pd */ return pm_to_bohr(210.); 
-    case 47:  /* Ag */ return pm_to_bohr(202.); 
-    case 48:  /* Cd */ return pm_to_bohr(195.); 
-    case 49:  /* In */ return pm_to_bohr(171.); 
-    case 50:  /* Sn */ return pm_to_bohr(151.); 
-    case 51:  /* Sb */ return pm_to_bohr(135.); 
-    case 52:  /* Te */ return pm_to_bohr(122.); 
-    case 53:  /* I  */ return pm_to_bohr(112.); 
-                                                                  
-    case 55:  /* Cs */ return pm_to_bohr(425.); 
-    case 56:  /* Ba */ return pm_to_bohr(330.); 
-    case 57:  /* La */ return pm_to_bohr(312.); 
-
-    case 73:  /* Ta */ return pm_to_bohr(286.); 
-    case 74:  /* W  */ return pm_to_bohr(273.); 
-    case 75:  /* Re */ return pm_to_bohr(260.); 
-    case 76:  /* Os */ return pm_to_bohr(251.); 
-    case 77:  /* Ir */ return pm_to_bohr(240.); 
-    case 78:  /* Pt */ return pm_to_bohr(231.); 
-    case 79:  /* Au */ return pm_to_bohr(222.); 
-    case 80:  /* Hg */ return pm_to_bohr(215.); 
-    case 81:  /* Tl */ return pm_to_bohr(188.); 
-    case 82:  /* Pb */ return pm_to_bohr(166.); 
-    case 83:  /* Bi */ return pm_to_bohr(148.);
-
-    default: return -1.;
-  }
-}
-
-/// Clementi, E., Raimondi, D.L., Reinhardt, W.P.
-/// J. Chem. Phys. 47, 1300, 1967
-/// https://doi.org/10.1063/1.1712084
-double clementi_radius_67(AtomicNumber _Z) {
-
-  auto Z = _Z.get();
-  switch(Z) {
-    case 2:   /* He */ return pm_to_bohr(31. ); 
-
-    case 3:   /* Li */ return pm_to_bohr(167.); 
-    case 4:   /* Be */ return pm_to_bohr(112.); 
-    case 5:   /* B  */ return pm_to_bohr(87. ); 
-    case 6:   /* C  */ return pm_to_bohr(67. ); 
-    case 7:   /* N  */ return pm_to_bohr(56. ); 
-    case 8:   /* O  */ return pm_to_bohr(48. ); 
-    case 9:   /* F  */ return pm_to_bohr(42. ); 
-    case 10:  /* Ne */ return pm_to_bohr(38. ); 
-
-    case 11:  /* Na */ return pm_to_bohr(190.); 
-    case 12:  /* Mg */ return pm_to_bohr(145.); 
-    case 13:  /* Al */ return pm_to_bohr(118.); 
-    case 14:  /* Si */ return pm_to_bohr(111.); 
-    case 15:  /* P  */ return pm_to_bohr(98. ); 
-    case 16:  /* S  */ return pm_to_bohr(88. ); 
-    case 17:  /* Cl */ return pm_to_bohr(79. ); 
-    case 18:  /* Ar */ return pm_to_bohr(71. ); 
-                                                                  
-    case 19:  /* K  */ return pm_to_bohr(243.); 
-    case 20:  /* Ca */ return pm_to_bohr(194.); 
-    case 21:  /* Sc */ return pm_to_bohr(184.); 
-    case 22:  /* Ti */ return pm_to_bohr(176.); 
-    case 23:  /* V  */ return pm_to_bohr(171.); 
-    case 24:  /* Cr */ return pm_to_bohr(166.); 
-    case 25:  /* Mn */ return pm_to_bohr(161.); 
-    case 26:  /* Fe */ return pm_to_bohr(156.); 
-    case 27:  /* Co */ return pm_to_bohr(152.); 
-    case 28:  /* Ni */ return pm_to_bohr(149.); 
-    case 29:  /* Cu */ return pm_to_bohr(145.); 
-    case 30:  /* Zn */ return pm_to_bohr(142.); 
-    case 31:  /* Ga */ return pm_to_bohr(136.); 
-    case 32:  /* Ge */ return pm_to_bohr(125.); 
-    case 33:  /* As */ return pm_to_bohr(114.); 
-    case 34:  /* Se */ return pm_to_bohr(103.); 
-    case 35:  /* Br */ return pm_to_bohr(94. ); 
-    case 36:  /* Kr */ return pm_to_bohr(88. ); 
-                                                                  
-    case 37:  /* Rb */ return pm_to_bohr(265.); 
-    case 38:  /* Sr */ return pm_to_bohr(219.); 
-    case 39:  /* Y  */ return pm_to_bohr(212.); 
-    case 40:  /* Zr */ return pm_to_bohr(206.); 
-    case 41:  /* Nb */ return pm_to_bohr(198.); 
-    case 42:  /* Mo */ return pm_to_bohr(190.); 
-    case 43:  /* Tc */ return pm_to_bohr(183.); 
-    case 44:  /* Ru */ return pm_to_bohr(178.); 
-    case 45:  /* Rh */ return pm_to_bohr(173.); 
-    case 46:  /* Pd */ return pm_to_bohr(169.); 
-    case 47:  /* Ag */ return pm_to_bohr(165.); 
-    case 48:  /* Cd */ return pm_to_bohr(161.); 
-    case 49:  /* In */ return pm_to_bohr(156.); 
-    case 50:  /* Sn */ return pm_to_bohr(145.); 
-    case 51:  /* Sb */ return pm_to_bohr(133.); 
-    case 52:  /* Te */ return pm_to_bohr(123.); 
-    case 53:  /* I  */ return pm_to_bohr(115.); 
-    case 54:  /* Xe */ return pm_to_bohr(108.); 
-                                                                  
-    case 55:  /* Cs */ return pm_to_bohr(298.); 
-    case 56:  /* Ba */ return pm_to_bohr(253.); 
-    case 57:  /* La */ return pm_to_bohr(622.); 
-    case 58:  /* Ce */ return pm_to_bohr(505.); 
-    case 59:  /* Pr */ return pm_to_bohr(247.); 
-    case 60:  /* Nd */ return pm_to_bohr(206.); 
-    case 61:  /* Pm */ return pm_to_bohr(205.); 
-    case 62:  /* Sm */ return pm_to_bohr(238.); 
-    case 63:  /* Eu */ return pm_to_bohr(231.); 
-    case 64:  /* Gd */ return pm_to_bohr(233.); 
-    case 65:  /* Tb */ return pm_to_bohr(225.); 
-    case 66:  /* Dy */ return pm_to_bohr(228.); 
-    case 67:  /* Ho */ return pm_to_bohr(226.); 
-    case 68:  /* Er */ return pm_to_bohr(226.); 
-    case 69:  /* Tm */ return pm_to_bohr(222.); 
-    case 70:  /* Yb */ return pm_to_bohr(222.); 
-    case 71:  /* Lu */ return pm_to_bohr(217.); 
-    case 72:  /* Hf */ return pm_to_bohr(208.); 
-    case 73:  /* Ta */ return pm_to_bohr(200.); 
-    case 74:  /* W  */ return pm_to_bohr(193.); 
-    case 75:  /* Re */ return pm_to_bohr(188.); 
-    case 76:  /* Os */ return pm_to_bohr(185.); 
-    case 77:  /* Ir */ return pm_to_bohr(180.); 
-    case 78:  /* Pt */ return pm_to_bohr(177.); 
-    case 79:  /* Au */ return pm_to_bohr(174.); 
-    case 80:  /* Hg */ return pm_to_bohr(171.); 
-    case 81:  /* Tl */ return pm_to_bohr(156.); 
-    case 82:  /* Pb */ return pm_to_bohr(154.); 
-    case 83:  /* Bi */ return pm_to_bohr(143.);
-    case 84:  /* Po */ return pm_to_bohr(135.); 
-    case 85:  /* At */ return pm_to_bohr(127.); 
-    case 86:  /* Rn */ return pm_to_bohr(120.);
-
-    default: return -1.;
-  }
-
-}
-
-// UFF atomic radii
-// Atomic radii derived from the universal force field
-// A. K. Rappe et. al. J. Am. Chem. Soc., 1992, 114 (25), pp 10024-10035
-// https://doi.org/10.1021/ja00051a040, data given in Angström,
-// will be converted to Bohr. Note that keys are normalised to lower case.
-const std::vector<double> radius_uff_list = {1.443, 1.81, 1.2255, 1.3725, 2.0415, 1.9255, 1.83, 1.75, 
-                            1.682, 1.6215, 1.4915, 1.5105, 
-                            2.2495, 2.1475, 2.0735, 2.0175, 1.9735, 1.934, 1.906, 1.6995, 1.6475, 
-                            1.5875, 1.572, 1.5115, 1.4805, 1.456, 1.436, 1.417, 1.7475, 
-                            1.3815, 2.1915, 2.14, 2.115, 2.1025, 2.0945, 2.0705, 2.057, 
-                            1.8205, 1.6725, 1.562, 1.5825, 1.526, 1.499, 1.4815, 1.4645, 
-                            1.4495, 1.574, 1.424, 2.2315, 2.196, 2.21, 2.235, 2.25, 2.202, 
-                            2.2585, 1.8515, 1.761, 1.778, 1.803, 1.7875, 1.7735, 1.76, 1.7465, 
-                            1.684, 1.7255, 1.714, 1.7045, 1.6955, 1.687, 1.6775, 1.82, 1.5705, 
-                            1.585, 1.5345, 1.477, 1.56, 1.42, 1.377, 1.6465, 1.3525, 2.1735, 2.1485, 
-                            2.185, 2.3545, 2.375, 2.3825, 2.45, 1.8385, 1.739, 1.698, 1.712, 1.6975, 
-                            1.712, 1.712, 1.6905, 1.663, 1.6695, 1.6565, 1.6495, 1.643, 1.637, 1.624, 1.618};
-
-double uff_radius_103(AtomicNumber _Z) {
-    const double RADIUS_UFF_SCALING = 1.1;
-    const double DDX_BOHR_TO_ANGSTROM = 0.52917721092;
-    auto Z = _Z.get();
-    if (Z < 0 || Z >= radius_uff_list.size()) {
-        return -1.;
-    }
-    return radius_uff_list[Z-1] * RADIUS_UFF_SCALING / DDX_BOHR_TO_ANGSTROM;
-}
-}
diff --git a/third_party/gauxc/src/exceptions/cublas_exception.hpp b/third_party/gauxc/src/exceptions/cublas_exception.hpp
deleted file mode 100644
index 503fc90..0000000
--- a/third_party/gauxc/src/exceptions/cublas_exception.hpp
+++ /dev/null
@@ -1,126 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/exceptions.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-
-#ifdef GAUXC_HAS_CUDA
-#include <cublas_v2.h>
-#include <cuda_runtime.h>
-
-namespace GauXC {
-
-namespace detail {
-
-/**
- *  @brief Return a descriptive error string pertaining to a cuBLAS error code
- *
- *  @param[in] error cuBLAS error code
- *  @returns   String pertaining to "error"
- */
-static std::string cublasGetErrorString(cublasStatus_t error) {
-    switch (error)
-    {
-        case CUBLAS_STATUS_SUCCESS:
-            return "CUBLAS_STATUS_SUCCESS";
-
-        case CUBLAS_STATUS_NOT_INITIALIZED:
-            return "CUBLAS_STATUS_NOT_INITIALIZED";
-
-        case CUBLAS_STATUS_ALLOC_FAILED:
-            return "CUBLAS_STATUS_ALLOC_FAILED";
-
-        case CUBLAS_STATUS_INVALID_VALUE:
-            return "CUBLAS_STATUS_INVALID_VALUE";
-
-        case CUBLAS_STATUS_ARCH_MISMATCH:
-            return "CUBLAS_STATUS_ARCH_MISMATCH";
-
-        case CUBLAS_STATUS_MAPPING_ERROR:
-            return "CUBLAS_STATUS_MAPPING_ERROR";
-
-        case CUBLAS_STATUS_EXECUTION_FAILED:
-            return "CUBLAS_STATUS_EXECUTION_FAILED";
-
-        case CUBLAS_STATUS_INTERNAL_ERROR:
-            return "CUBLAS_STATUS_INTERNAL_ERROR";
-
-        case CUBLAS_STATUS_NOT_SUPPORTED:
-            return "CUBLAS_STATUS_NOT_SUPPORTED";
-
-        case CUBLAS_STATUS_LICENSE_ERROR:
-            return "CUBLAS_STATUS_LICENSE_ERROR";
-    }
-
-    return "<unknown>";
-}
-
-}
-
-/**
- *  @brief A class to handle excecptions arising from cuBLAS operations
- */
-class cublas_exception : public std::exception {
-
-  std::string file_;         ///< File which contains the code that threw the exception
-  int         line_;         ///< Line number of file_ that threw exception
-  std::string msg_prefix_;   ///< General descriptor of task which threw exception
-  cublasStatus_t err_code_;  ///< cuBLAS error code pertaining to the thrown exception
-
-  /**
-   *  @brief Get a descriptive message pertaining to the thrown cuBLAS error
-   *
-   *  @returns a descritive message pertaining to the cuBLAS error represented by
-   *  the internal state of the exception object.
-   */
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "CUBLAS Exception (" << msg_prefix_ << ")" << std::endl
-        << "  Error Code " << int(err_code_) << ": \"" 
-                           << detail::cublasGetErrorString( err_code_ ) 
-                           << "\"" << std::endl
-        << "  File       " << file_ << std::endl
-        << "  Line       " << line_ << std::endl;
-
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  }
-
-public:
-
-  /**
-   *  @brief Construct a cublas_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   *  @param[in] err  cuBLAS error code pertaining to the thrown exception
-   */
-  cublas_exception( std::string file, int line, std::string msg, 
-                    cublasStatus_t err ) :
-    file_(file), line_(line), msg_prefix_(msg), err_code_(err) { }
-
-}; // class cublas_exception
-
-}
-
-
-// Macro to wrap cuBLAS error handling
-#define GAUXC_CUBLAS_ERROR( MSG, ERR ) \
-  if( ERR != CUBLAS_STATUS_SUCCESS ) \
-    throw cublas_exception( __FILE__, __LINE__, MSG, ERR );
-
-#endif
diff --git a/third_party/gauxc/src/exceptions/cuda_exception.hpp b/third_party/gauxc/src/exceptions/cuda_exception.hpp
deleted file mode 100644
index 6d4767d..0000000
--- a/third_party/gauxc/src/exceptions/cuda_exception.hpp
+++ /dev/null
@@ -1,76 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/exceptions.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-
-#ifdef GAUXC_HAS_CUDA
-#include <cuda_runtime.h>
-#include <string.h>
-
-namespace GauXC {
-
-/**
- *  @brief A class to handle excecptions arising from CUDA operations
- */
-class cuda_exception : public std::exception {
-
-  std::string file_;       ///< File which contains the code that threw the exception
-  int         line_;       ///< Line number of file_ that threw exception
-  std::string msg_prefix_; ///< General descriptor of task which threw exception
-  cudaError_t err_code_;   ///< CUDA error code pertaining to the thrown exception
-
-  /**
-   *  @brief Get a descriptive message pertaining to the thrown CUDA error
-   *
-   *  @returns a descritive message pertaining to the CUDA error represented by
-   *  the internal state of the exception object.
-   */
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "CUDA Exception (" << msg_prefix_ << ")" << std::endl
-        << "  Error Code " << int(err_code_) << ": \"" 
-                           << cudaGetErrorString( err_code_ ) << "\"" << std::endl
-        << "  File       " << file_ << std::endl
-        << "  Line       " << line_ << std::endl;
-
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  }
-
-public:
-
-  /**
-   *  @brief Construct a cuda_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   *  @param[in] err  CUDA error code pertaining to the thrown exception
-   */
-  cuda_exception( std::string file, int line, std::string msg, cudaError_t err ) :
-    file_(file), line_(line), msg_prefix_(msg), err_code_(err) { }
-
-}; // class cuda_exception
-
-} // namespace GauXC
-
-// Macro to wrap CUDA error handling
-#define GAUXC_CUDA_ERROR( MSG, ERR ) \
-  if( ERR != cudaSuccess ) \
-    throw cuda_exception( __FILE__, __LINE__, MSG, ERR );
-
-#endif
diff --git a/third_party/gauxc/src/exceptions/cutlass_exception.hpp b/third_party/gauxc/src/exceptions/cutlass_exception.hpp
deleted file mode 100644
index 4de854b..0000000
--- a/third_party/gauxc/src/exceptions/cutlass_exception.hpp
+++ /dev/null
@@ -1,76 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/exceptions.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-
-#ifdef GAUXC_HAS_CUTLASS
-#include <cutlass/cutlass.h>
-#include <string.h>
-
-namespace GauXC {
-
-/**
- *  @brief A class to handle excecptions arising from CUTLASS operations
- */
-class cutlass_exception : public std::exception {
-
-  std::string file_;       ///< File which contains the code that threw the exception
-  int         line_;       ///< Line number of file_ that threw exception
-  std::string msg_prefix_; ///< General descriptor of task which threw exception
-  cutlass::Status status_; ///< CUTLASS status pertaining to the thrown exception
-
-  /**
-   *  @brief Get a descriptive message pertaining to the thrown CUTLASS error
-   *
-   *  @returns a descritive message pertaining to the CUTLASS error represented by
-   *  the internal state of the exception object.
-   */
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "CUTLASS Exception (" << msg_prefix_ << ")" << std::endl
-        << "  Error Code " << int(status_) << ": \"" 
-                           << cutlassGetStatusString( status_ ) << "\"" << std::endl
-        << "  File       " << file_ << std::endl
-        << "  Line       " << line_ << std::endl;
-
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  }
-
-public:
-
-  /**
-   *  @brief Construct a cutlass_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   *  @param[in] err  CUTLASS status pertaining to the thrown exception
-   */
-  cutlass_exception( std::string file, int line, std::string msg, cutlass::Status status ) :
-    file_(file), line_(line), msg_prefix_(msg), status_(status) { }
-
-}; // class cutlass_exception
-
-} // namespace GauXC
-
-// Macro to wrap CUTLASS error handling
-#define GAUXC_CUTLASS_ERROR( MSG, ERR ) \
-  if( ERR != cutlass::Status::kSuccess) \
-    throw cutlass_exception( __FILE__, __LINE__, MSG, ERR );
-
-#endif
diff --git a/third_party/gauxc/src/exceptions/hip_exception.hpp b/third_party/gauxc/src/exceptions/hip_exception.hpp
deleted file mode 100644
index 08a4030..0000000
--- a/third_party/gauxc/src/exceptions/hip_exception.hpp
+++ /dev/null
@@ -1,76 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/exceptions.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-
-#ifdef GAUXC_HAS_HIP
-#include "hip/hip_runtime.h"
-
-
-namespace GauXC {
-
-/**
- *  @brief A class to handle excecptions arising from HIP operations
- */
-class hip_exception : public std::exception {
-
-  std::string file_;       ///< File which contains the code that threw the exception
-  int         line_;       ///< Line number of file_ that threw exception
-  std::string msg_prefix_; ///< General descriptor of task which threw exception
-  hipError_t err_code_;   ///< HIP error code pertaining to the thrown exception
-
-  /**
-   *  @brief Get a descriptive message pertaining to the thrown HIP error
-   *
-   *  @returns a descritive message pertaining to the HIP error represented by
-   *  the internal state of the exception object.
-   */
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "HIP Exception (" << msg_prefix_ << ")" << std::endl
-        << "  Error Code " << int(err_code_) << ": \"" 
-                           << hipGetErrorString( err_code_ ) << "\"" << std::endl
-        << "  File       " << file_ << std::endl
-        << "  Line       " << line_ << std::endl;
-
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  }
-
-public:
-
-  /**
-   *  @brief Construct a hip_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   *  @param[in] err  HIP error code pertaining to the thrown exception
-   */
-  hip_exception( std::string file, int line, std::string msg, hipError_t err ) :
-    file_(file), line_(line), msg_prefix_(msg), err_code_(err) { }
-
-}; // class hip_exception
-
-} // namespace GauXC
-
-// Macro to wrap HIP error handling
-#define GAUXC_HIP_ERROR( MSG, ERR ) \
-  if( ERR != hipSuccess ) \
-    throw hip_exception( __FILE__, __LINE__, MSG, ERR );
-
-#endif
diff --git a/third_party/gauxc/src/exceptions/hipblas_exception.hpp b/third_party/gauxc/src/exceptions/hipblas_exception.hpp
deleted file mode 100644
index bb89a33..0000000
--- a/third_party/gauxc/src/exceptions/hipblas_exception.hpp
+++ /dev/null
@@ -1,133 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/exceptions.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-
-#ifdef GAUXC_HAS_HIP
-#include "hip/hip_runtime.h"
-#include <hipblas.h>
-
-namespace GauXC {
-
-namespace detail {
-
-/**
- *  @brief Return a descriptive error string pertaining to a hipBLAS error code
- *
- *  @param[in] error hipBLAS error code
- *  @returns   String pertaining to "error"
- */
-static std::string hipblasGetErrorString(hipblasStatus_t error) {
-    switch (error)
-    {
-        case HIPBLAS_STATUS_SUCCESS:
-            return "HIPBLAS_STATUS_SUCCESS";
-
-        case HIPBLAS_STATUS_NOT_INITIALIZED:
-            return "HIPBLAS_STATUS_NOT_INITIALIZED";
-
-        case HIPBLAS_STATUS_ALLOC_FAILED:
-            return "HIPBLAS_STATUS_ALLOC_FAILED";
-
-        case HIPBLAS_STATUS_INVALID_VALUE:
-            return "HIPBLAS_STATUS_INVALID_VALUE";
-
-        case HIPBLAS_STATUS_ARCH_MISMATCH:
-            return "HIPBLAS_STATUS_ARCH_MISMATCH";
-
-        case HIPBLAS_STATUS_MAPPING_ERROR:
-            return "HIPBLAS_STATUS_MAPPING_ERROR";
-
-        case HIPBLAS_STATUS_EXECUTION_FAILED:
-            return "HIPBLAS_STATUS_EXECUTION_FAILED";
-
-        case HIPBLAS_STATUS_INTERNAL_ERROR:
-            return "HIPBLAS_STATUS_INTERNAL_ERROR";
-
-        case HIPBLAS_STATUS_NOT_SUPPORTED:
-            return "HIPBLAS_STATUS_NOT_SUPPORTED";
-
-        case HIPBLAS_STATUS_HANDLE_IS_NULLPTR:
-            return "HIPBLAS_STATUS_HANDLE_IS_NULLPTR";
-
-        case HIPBLAS_STATUS_INVALID_ENUM:
-            return "HIPBLAS_STATUS_INVALID_ENUM";
-
-        case HIPBLAS_STATUS_UNKNOWN:
-            return "HIPBLAS_STATUS_UNKNOWN";
-    }
-  
-
-    return "<unknown>";
-}
-
-}
-
-/**
- *  @brief A class to handle excecptions arising from hipBLAS operations
- */
-class hipblas_exception : public std::exception {
-
-  std::string file_;         ///< File which contains the code that threw the exception
-  int         line_;         ///< Line number of file_ that threw exception
-  std::string msg_prefix_;   ///< General descriptor of task which threw exception
-  hipblasStatus_t err_code_;  ///< hipBLAS error code pertaining to the thrown exception
-
-  /**
-   *  @brief Get a descriptive message pertaining to the thrown hipBLAS error
-   *
-   *  @returns a descritive message pertaining to the hipBLAS error represented by
-   *  the internal state of the exception object.
-   */
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "HIPBLAS Exception (" << msg_prefix_ << ")" << std::endl
-        << "  Error Code " << int(err_code_) << ": \"" 
-                           << detail::hipblasGetErrorString( err_code_ ) 
-                           << "\"" << std::endl
-        << "  File       " << file_ << std::endl
-        << "  Line       " << line_ << std::endl;
-
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  }
-
-public:
-
-  /**
-   *  @brief Construct a hipblas_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   *  @param[in] err  hipBLAS error code pertaining to the thrown exception
-   */
-  hipblas_exception( std::string file, int line, std::string msg, 
-                    hipblasStatus_t err ) :
-    file_(file), line_(line), msg_prefix_(msg), err_code_(err) { }
-
-}; // class hipblas_exception
-
-}
-
-
-// Macro to wrap hipBLAS error handling
-#define GAUXC_HIPBLAS_ERROR( MSG, ERR ) \
-  if( ERR != HIPBLAS_STATUS_SUCCESS ) \
-    throw hipblas_exception( __FILE__, __LINE__, MSG, ERR );
-
-#endif
diff --git a/third_party/gauxc/src/exceptions/magma_exception.hpp b/third_party/gauxc/src/exceptions/magma_exception.hpp
deleted file mode 100644
index 3005657..0000000
--- a/third_party/gauxc/src/exceptions/magma_exception.hpp
+++ /dev/null
@@ -1,74 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/exceptions.hpp>
-#include <stdexcept>
-#include <string>
-#include <sstream>
-
-#ifdef GAUXC_HAS_MAGMA
-
-namespace GauXC {
-
-/**
- *  @brief A class to handle excecptions arising from MAGMA operations
- */
-class magma_exception : public std::exception {
-
-  std::string file_;       ///< File which contains the code that threw the exception
-  int         line_;       ///< Line number of file_ that threw exception
-  std::string msg_prefix_; ///< General descriptor of task which threw exception
-  magma_int_t err_code_;   ///< MAGMA error code pertaining to the thrown exception
-
-  /**
-   *  @brief Get a descriptive message pertaining to the thrown MAGMA error
-   *
-   *  @returns a descritive message pertaining to the MAGMA error represented by
-   *  the internal state of the exception object.
-   */
-  const char* what() const noexcept override {
-     std::stringstream ss;
-     ss << "MAGMA Exception (" << msg_prefix_ << ")" << std::endl
-        << "  Error Code " << int(err_code_) << ": \"" 
-                           << magma_strerror( err_code_ ) << "\"" << std::endl
-        << "  File       " << file_ << std::endl
-        << "  Line       " << line_ << std::endl;
-
-     auto msg = ss.str();
-
-     return strdup( msg.c_str() );
-  }
-
-public:
-
-  /**
-   *  @brief Construct a magma_exception object
-   *
-   *  @param[in] file File which contains the code that threw the exception
-   *  @param[in] line Line number of file that threw exception
-   *  @param[in] msg  General descriptor of task which threw exception
-   *  @param[in] err  MAGMA error code pertaining to the thrown exception
-   */
-  magma_exception( std::string file, int line, std::string msg, magma_int_t err ) :
-    file_(file), line_(line), msg_prefix_(msg), err_code_(err) { }
-
-}; // class magma_exception
-
-} // namespace GauXC
-
-// Macro to wrap MAGMA error handling
-#define GAUXC_MAGMA_ERROR( MSG, ERR ) \
-  if( ERR != MAGMA_SUCCESS ) \
-    throw magma_exception( __FILE__, __LINE__, MSG, ERR );
-
-#endif
diff --git a/third_party/gauxc/src/external/CMakeLists.txt b/third_party/gauxc/src/external/CMakeLists.txt
deleted file mode 100644
index fa1f7f3..0000000
--- a/third_party/gauxc/src/external/CMakeLists.txt
+++ /dev/null
@@ -1,39 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-if( GAUXC_ENABLE_HDF5 )
-  include(FetchContent)
-  find_package(HDF5)
-  if(HDF5_FOUND)
-    set(GAUXC_HAS_HDF5 TRUE CACHE BOOL "" FORCE)
-    message(STATUS "Enabling HDF5 Bindings")
-    message(STATUS "HighFive REPO = ${GAUXC_HIGHFIVE_REPOSITORY}")
-    message(STATUS "HighFive REV  = ${GAUXC_HIGHFIVE_REVISION}  ")
-    FetchContent_Declare( HighFive
-      GIT_REPOSITORY ${GAUXC_HIGHFIVE_REPOSITORY}
-      GIT_TAG        ${GAUXC_HIGHFIVE_REVISION}  
-    )
-    
-    set(HIGHFIVE_USE_BOOST OFF CACHE BOOL "" )
-    set(HIGHFIVE_UNIT_TESTS OFF CACHE BOOL "" )
-    set(HIGHFIVE_EXAMPLES OFF CACHE BOOL "" )
-    #set(HIGHFIVE_PARALLEL_HDF5 ON CACHE BOOL "" )
-    set(HIGHFIVE_BUILD_DOCS OFF CACHE BOOL "" )
-    FetchContent_MakeAvailable( HighFive )
-    
-    target_sources( gauxc PRIVATE hdf5_write.cxx hdf5_read.cxx )
-    target_link_libraries( gauxc PUBLIC HighFive )
-  else()
-    message(WARNING "GAUXC_ENABLE_HDF5 was enabled, but HDF5 was not found, Disabling HDF5 Bindings")
-  endif()
-else()
-  message(STATUS "Disabling HDF5 Bindings")
-endif()
diff --git a/third_party/gauxc/src/external/hdf5_read.cxx b/third_party/gauxc/src/external/hdf5_read.cxx
deleted file mode 100644
index c01424c..0000000
--- a/third_party/gauxc/src/external/hdf5_read.cxx
+++ /dev/null
@@ -1,105 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hdf5_util.hpp"
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-using namespace HighFive;
-
-
-void read_hdf5_record( std::vector<Shell<double>>& basis, std::string fname, 
-  std::string dset ) {
-
-
-  File file( fname, File::ReadOnly );
-  
-
-  auto d_id = H5Dopen( file.getId(), dset.c_str(), H5P_DEFAULT );
-  if( d_id < 0 ) GAUXC_GENERIC_EXCEPTION("Dataset Open Failed");
-
-  auto space_id = H5Dget_space( d_id );
-  if( space_id < 0 ) GAUXC_GENERIC_EXCEPTION( "Space Retreival failed" );
-
-  auto ndims = H5Sget_simple_extent_ndims( space_id );
-  if( ndims != 1 ) GAUXC_GENERIC_EXCEPTION("Only supported for 1D data structures");
-
-  hsize_t size;
-  H5Sget_simple_extent_dims( space_id, &size, NULL );
-
-
-  std::vector<shell_t> shells( size );
-  auto shell_type = create_shell_type();
-  H5Dread( d_id, shell_type, space_id, space_id, H5P_DEFAULT, shells.data() );
-
-  basis.resize( size );
-  for( auto i = 0ul; i < size; ++i ) {
-    auto& sh = shells[i];
-    basis[i] = Shell<double>( PrimSize(sh.nprim), AngularMomentum(sh.l),
-      SphericalType(sh.pure), sh.alpha, sh.coeff, sh.O, false );
-  }
-
-
-
-  H5Tclose( shell_type );
-  H5Dclose( d_id );
-  H5Sclose( space_id );
-
-
-}
-
-
-
-
-void read_hdf5_record( std::vector<Atom>& mol, std::string fname, std::string dset ) {
-
-  File file( fname, File::ReadOnly );
-  
-  auto d_id = H5Dopen( file.getId(), dset.c_str(), H5P_DEFAULT );
-  if( d_id < 0 ) GAUXC_GENERIC_EXCEPTION("Dataset Open Failed");
-
-  auto space_id = H5Dget_space( d_id );
-  if( space_id < 0 ) GAUXC_GENERIC_EXCEPTION( "Space Retreival failed" );
-
-  auto ndims = H5Sget_simple_extent_ndims( space_id );
-  if( ndims != 1 ) GAUXC_GENERIC_EXCEPTION("Only supported for 1D data structures");
-
-  hsize_t size;
-  H5Sget_simple_extent_dims( space_id, &size, NULL );
-
-
-  auto atom_type = create_atom_type();
-  mol.resize(size);
-  H5Dread( d_id, atom_type, space_id, space_id, H5P_DEFAULT, mol.data() );
-
-  H5Tclose( atom_type );
-  H5Dclose( d_id );
-  H5Sclose( space_id );
-}
-
-
-void read_hdf5_record( int32_t /*M*/, int32_t /*N*/, double* /*A*/, int32_t /*LDA*/, 
-  std::string fname, std::string dset ) {
-
-
-  File file( fname, File::ReadOnly );
-  auto data = file.getDataSet( dset );
-  auto space = data.getSpace();
-  auto dims = space.getDimensions();
-
-  if( dims.size() > 2 ) GAUXC_GENERIC_EXCEPTION("Dataset not a matrix");
-
-}
-
-
-
-}
diff --git a/third_party/gauxc/src/external/hdf5_util.hpp b/third_party/gauxc/src/external/hdf5_util.hpp
deleted file mode 100644
index 9569734..0000000
--- a/third_party/gauxc/src/external/hdf5_util.hpp
+++ /dev/null
@@ -1,57 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include <gauxc/shell.hpp>
-#include <gauxc/atom.hpp>
-
-namespace GauXC {
-
-struct shell_t {
-  int32_t nprim, l, pure;
-  Shell<double>::prim_array alpha, coeff;
-  Shell<double>::cart_array O;
-};
-
-inline hid_t create_shell_type() {
-
-  hsize_t prim_dims[1] = {16};
-  hsize_t cart_dims[1] = {3};
-  auto prim_array_type = H5Tarray_create( H5T_NATIVE_DOUBLE, 1, prim_dims );
-  auto cart_array_type = H5Tarray_create( H5T_NATIVE_DOUBLE, 1, cart_dims );
-
-  auto shell_type = H5Tcreate( H5T_COMPOUND, sizeof(shell_t) );
-  H5Tinsert( shell_type, "NPRIM",  HOFFSET( shell_t, nprim ), H5T_NATIVE_INT );
-  H5Tinsert( shell_type, "L",      HOFFSET( shell_t, l ),     H5T_NATIVE_INT );
-  H5Tinsert( shell_type, "PURE",   HOFFSET( shell_t, pure ),  H5T_NATIVE_INT );
-  H5Tinsert( shell_type, "ALPHA",  HOFFSET( shell_t, alpha),  prim_array_type );
-  H5Tinsert( shell_type, "COEFF",  HOFFSET( shell_t, coeff),  prim_array_type );
-  H5Tinsert( shell_type, "ORIGIN", HOFFSET( shell_t, O),      cart_array_type );
-  
-  return shell_type;
-}
-
-
-inline hid_t create_atom_type() {
-
-  auto atom_type = H5Tcreate( H5T_COMPOUND, sizeof(Atom) );
-  H5Tinsert( atom_type, "Atomic Number", HOFFSET( Atom, Z), H5T_NATIVE_INT    );
-  H5Tinsert( atom_type, "X Coordinate", HOFFSET( Atom, x ), H5T_NATIVE_DOUBLE );
-  H5Tinsert( atom_type, "Y Coordinate", HOFFSET( Atom, y ), H5T_NATIVE_DOUBLE );
-  H5Tinsert( atom_type, "Z Coordinate", HOFFSET( Atom, z ), H5T_NATIVE_DOUBLE );
-
-  return atom_type;
-
-}
-
-}
diff --git a/third_party/gauxc/src/external/hdf5_write.cxx b/third_party/gauxc/src/external/hdf5_write.cxx
deleted file mode 100644
index cbf8bf0..0000000
--- a/third_party/gauxc/src/external/hdf5_write.cxx
+++ /dev/null
@@ -1,76 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hdf5_util.hpp"
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-using namespace HighFive;
-
-
-void write_hdf5_record( const std::vector<Shell<double>>& basis, std::string fname, 
-  std::string dset ) {
-
-
-  File file( fname, File::OpenOrCreate );
-  
-  auto shell_type = create_shell_type();
-
-  DataSpace space(basis.size());
-  auto d_id = H5Dcreate( file.getId(), dset.c_str(), shell_type, space.getId(),
-    H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT );
-
-  if( d_id < 0 ) GAUXC_GENERIC_EXCEPTION("Dataset Creation Failed");
-
-  std::vector<shell_t> shells;
-  for( auto& shell : basis ) {
-    shells.push_back(
-      shell_t{
-        shell.nprim(), shell.l(), shell.pure(),
-        shell.alpha(), shell.coeff(), shell.O()
-      });
-  }
-
-  H5Dwrite( d_id, shell_type, space.getId(), space.getId(), H5P_DEFAULT, 
-    shells.data() );
-
-  H5Tclose( shell_type );
-  H5Dclose( d_id );
-
-
-}
-
-
-
-
-void write_hdf5_record( const std::vector<Atom>& mol, std::string fname, std::string dset ) {
-
-  File file( fname, File::OpenOrCreate );
-  
-  auto atom_type = create_atom_type();
-
-  DataSpace space(mol.size());
-  auto d_id = H5Dcreate( file.getId(), dset.c_str(), atom_type, space.getId(),
-    H5P_DEFAULT, H5P_DEFAULT, H5P_DEFAULT );
-
-  if( d_id < 0 ) GAUXC_GENERIC_EXCEPTION("Dataset Creation Failed");
-
-  H5Dwrite( d_id, atom_type, space.getId(), space.getId(), H5P_DEFAULT, 
-    mol.data() );
-
-  H5Tclose( atom_type );
-  H5Dclose( d_id );
-
-}
-
-
-}
diff --git a/third_party/gauxc/src/grid.cxx b/third_party/gauxc/src/grid.cxx
deleted file mode 100644
index fed7972..0000000
--- a/third_party/gauxc/src/grid.cxx
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "grid_impl.hpp"
-
-
-namespace GauXC {
-
-Grid::Grid( std::shared_ptr<quadrature_type> q, BatchSize bsz ) :
-  pimpl_( std::make_shared<detail::GridImpl>(q, bsz) ) { }
-
-Grid::Grid( const Grid& )     = default;
-Grid::Grid( Grid&& ) noexcept = default;
-
-Grid& Grid::operator=( const Grid& )     = default;
-Grid& Grid::operator=( Grid&& ) noexcept = default;
-      
-Grid::~Grid() noexcept = default;
-
-const batcher_type& Grid::batcher() const { return pimpl_->batcher(); }
-      batcher_type& Grid::batcher()       { return pimpl_->batcher(); }
-
-}
diff --git a/third_party/gauxc/src/grid_factory.cxx b/third_party/gauxc/src/grid_factory.cxx
deleted file mode 100644
index 1836653..0000000
--- a/third_party/gauxc/src/grid_factory.cxx
+++ /dev/null
@@ -1,248 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/grid_factory.hpp>
-
-#include <integratorxx/quadratures/s2/lebedev_laikov.hpp>
-#include <integratorxx/quadratures/radial/muraknowles.hpp>
-#include <integratorxx/quadratures/radial/mhl.hpp>
-#include <integratorxx/quadratures/radial/treutlerahlrichs.hpp>
-#include <integratorxx/quadratures/radial/becke.hpp>
-#include <integratorxx/composite_quadratures/spherical_quadrature.hpp>
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-/*****************/
-/**** Visitor ****/
-/*****************/
-Grid AtomicGridFactory::generate_grid( atomic_grid_variant gs, BatchSize bsz ) {
-  return std::visit( [=](auto&& s){ return generate_grid(s, bsz); }, gs );
-}
-
-/************************/
-/**** Unpruned Grids ****/
-/************************/
-
-Grid AtomicGridFactory::generate_unpruned_grid( RadialQuad rq, RadialSize nrad, 
-  AngularSize nang, RadialScale rscal, BatchSize bsz) {
-
-  using bk_type  = IntegratorXX::Becke<double, double>;
-  using mk_type  = IntegratorXX::MuraKnowles<double,double>;
-  using mhl_type = IntegratorXX::MurrayHandyLaming<double,double>;
-  using ta_type  = IntegratorXX::TreutlerAhlrichs<double,double>;
-  using ll_type  = IntegratorXX::LebedevLaikov<double>;
-
-  ll_type ang_quad( nang.get() );
-
-  switch( rq ) {
-    case RadialQuad::Becke:
-      return generate_unpruned_grid( bk_type(nrad.get(), rscal.get()),
-        std::move(ang_quad), bsz );
-
-    case RadialQuad::MuraKnowles:
-      return generate_unpruned_grid( mk_type(nrad.get(), rscal.get()),
-        std::move(ang_quad), bsz );
-
-    case RadialQuad::MurrayHandyLaming:
-      return generate_unpruned_grid( mhl_type(nrad.get(), rscal.get()),
-        std::move(ang_quad), bsz );
-
-    case RadialQuad::TreutlerAhlrichs:
-      return generate_unpruned_grid( ta_type(nrad.get(), rscal.get()),
-        std::move(ang_quad), bsz );
-
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unsupported Radial Quadrature");
-      abort();
-
-  }
-
-}
-
-Grid AtomicGridFactory::generate_grid( UnprunedAtomicGridSpecification gs, BatchSize bsz ) {
-  return generate_unpruned_grid( gs.radial_quad, gs.radial_size, gs.angular_size,
-    gs.radial_scale, bsz );
-}
-
-
-
-
-/**********************/
-/**** Pruned Grids ****/
-/**********************/
-
-template <typename RadialQuad, 
-  typename AngularQuad = IntegratorXX::LebedevLaikov<double>>
-auto make_pruned_grid(RadialSize nrad, 
-  const std::vector<PruningRegion>& pruning_regions,
-  RadialScale rscal ) {
-
-  RadialQuad rq(nrad.get(), rscal.get());
-  IntegratorXX::RadialGridPartition<AngularQuad> rgp;
-  for( auto& region : pruning_regions ) {
-    rgp.add_quad( rq, region.idx_st, 
-      AngularQuad(region.angular_size.get()) );
-  }
-  rgp.finalize(rq);
-
-  return std::make_tuple( rq, rgp );
-
-}
-
-Grid AtomicGridFactory::generate_pruned_grid( RadialQuad rq, 
-  RadialSize nrad, const std::vector<PruningRegion>& pruning_regions, 
-  RadialScale rscal, BatchSize bsz) {
-
-  using mk_type  = IntegratorXX::MuraKnowles<double,double>;
-  using mhl_type = IntegratorXX::MurrayHandyLaming<double,double>;
-  using ta_type  = IntegratorXX::TreutlerAhlrichs<double,double>;
-
-  switch( rq ) {
-
-    case RadialQuad::MuraKnowles:
-    {
-      auto [rg, rgp] = 
-        make_pruned_grid<mk_type>( nrad, pruning_regions, rscal );
-      return generate_pruned_grid(std::move(rg), std::move(rgp), bsz);
-    }
-
-    case RadialQuad::MurrayHandyLaming:
-    {
-      auto [rg, rgp] = 
-        make_pruned_grid<mhl_type>( nrad, pruning_regions, rscal );
-      return generate_pruned_grid(std::move(rg), std::move(rgp), bsz);
-    }
-
-    case RadialQuad::TreutlerAhlrichs:
-    {
-      auto [rg, rgp] = 
-        make_pruned_grid<ta_type>( nrad, pruning_regions, rscal );
-      return generate_pruned_grid(std::move(rg), std::move(rgp), bsz);
-    }
-    case RadialQuad::Becke:
-    {
-      auto[rg, rgp] = 
-        make_pruned_grid<IntegratorXX::Becke<double,double>>( nrad, pruning_regions, rscal );
-        return generate_pruned_grid(std::move(rg), std::move(rgp), bsz);
-    }
-
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unsupported Radial Quadrature");
-      abort();
-
-  }
-
-}
-
-Grid AtomicGridFactory::generate_grid( PrunedAtomicGridSpecification gs, BatchSize bsz ) {
-  return generate_pruned_grid( gs.radial_quad, gs.radial_size, 
-    gs.pruning_regions, gs.radial_scale, bsz );
-}
-
-
-
-/***************************
- * Default Pruning Schemes *
- ***************************/
-
-
-PrunedAtomicGridSpecification robust_psi4_pruning_scheme(
-  UnprunedAtomicGridSpecification unp ) {
-
-  // Look up order
-  // XXX: THIS ONLY WORKS FOR LEBEDEV
-  using angular_type = IntegratorXX::LebedevLaikov<double>; 
-  using traits = IntegratorXX::quadrature_traits<angular_type>;
-  const auto asz = unp.angular_size.get();
-  const auto base_order = traits::algebraic_order_by_npts(asz);
-  if( base_order < 0 ) GAUXC_GENERIC_EXCEPTION("Invalid Base Grid");
-
-  const auto med_order = 
-    traits::next_algebraic_order(base_order > 6 ? base_order-6 : base_order);
-  const auto low_order = 7;
-
-  AngularSize med_sz(traits::npts_by_algebraic_order(med_order));
-  AngularSize low_sz(traits::npts_by_algebraic_order(low_order));
-
-  // Create Pruning Regions
-  const size_t rsz = unp.radial_size.get();
-  const size_t r_div_4 = rsz / 4ul + 1ul;
-  const size_t r_div_2 = rsz / 2ul + 1ul;
-  std::vector<PruningRegion> pruning_regions = {
-    {0ul,     r_div_4, low_sz},
-    {r_div_4, r_div_2, med_sz},
-    {r_div_2,     rsz, unp.angular_size}
-  };
-
-  return PrunedAtomicGridSpecification{
-    unp.radial_quad, unp.radial_size, unp.radial_scale, pruning_regions
-  };
-  
-}
-
-
-
-PrunedAtomicGridSpecification treutler_pruning_scheme(
-  UnprunedAtomicGridSpecification unp ) {
-
-  const size_t med_order = 11;
-  const size_t low_order = 7;
-
-  // Look up order
-  // XXX: THIS ONLY WORKS FOR LEBEDEV
-  using angular_type = IntegratorXX::LebedevLaikov<double>;
-  using traits = IntegratorXX::quadrature_traits<angular_type>;
-
-  AngularSize med_sz(traits::npts_by_algebraic_order(med_order));
-  AngularSize low_sz(traits::npts_by_algebraic_order(low_order));
-
-  // Create Pruning Regions
-  const size_t rsz = unp.radial_size.get();
-  const size_t r_div_3 = rsz / 3ul + 1ul;
-  const size_t r_div_2 = rsz / 2ul + 1ul;
-  std::vector<PruningRegion> pruning_regions = {
-    {0ul,     r_div_3, low_sz},
-    {r_div_3, r_div_2, med_sz},
-    {r_div_2, rsz,     unp.angular_size}
-  };
-
-  return PrunedAtomicGridSpecification{
-    unp.radial_quad, unp.radial_size, unp.radial_scale, pruning_regions
-  };
-  
-}
-
-
-PrunedAtomicGridSpecification create_pruned_spec(
-  PruningScheme scheme, UnprunedAtomicGridSpecification unp
-) {
-
-  switch(scheme) {
-    case PruningScheme::Robust:
-      return robust_psi4_pruning_scheme(unp);
-    case PruningScheme::Treutler:
-      return treutler_pruning_scheme(unp);
-    
-    // Default to Unpruned Grid
-    case PruningScheme::Unpruned:
-    default:
-      std::vector<PruningRegion> pruning_regions = {
-        {0ul, (size_t)unp.radial_size.get(), unp.angular_size}
-      };
-      return PrunedAtomicGridSpecification{
-        unp.radial_quad, unp.radial_size, unp.radial_scale, pruning_regions
-      };
-  }
-
-}
-
-}
diff --git a/third_party/gauxc/src/grid_impl.cxx b/third_party/gauxc/src/grid_impl.cxx
deleted file mode 100644
index 069dadb..0000000
--- a/third_party/gauxc/src/grid_impl.cxx
+++ /dev/null
@@ -1,41 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "grid_impl.hpp"
-
-namespace GauXC {
-namespace detail {
-
-GridImpl::GridImpl( std::shared_ptr<quadrature_type> q, BatchSize bs ) : quad_(q) {
-  generate_batcher(bs);
-}
-
-GridImpl::GridImpl( const GridImpl& )     = default;
-GridImpl::GridImpl( GridImpl&& ) noexcept = default;
-
-GridImpl& GridImpl::operator=( const GridImpl& )     = default;
-GridImpl& GridImpl::operator=( GridImpl&& ) noexcept = default;
-      
-GridImpl::~GridImpl() noexcept = default;
-
-const batcher_type& GridImpl::batcher() const { return *batcher_; }
-      batcher_type& GridImpl::batcher()       { return *batcher_; }
-
-void GridImpl::generate_batcher(BatchSize max_batch_sz) {
-
-  batcher_ = std::make_shared< batcher_type >( 
-    max_batch_sz.get(), quad_
-  );
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/grid_impl.hpp b/third_party/gauxc/src/grid_impl.hpp
deleted file mode 100644
index 29b88c9..0000000
--- a/third_party/gauxc/src/grid_impl.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/grid.hpp>
-
-namespace GauXC {
-namespace detail {
-
-class GridImpl {
-
-  std::shared_ptr< quadrature_type > quad_    = nullptr;
-  std::shared_ptr< batcher_type    > batcher_ = nullptr;
-
-  void generate_batcher(BatchSize);
-
-public:
-
-  GridImpl() = delete;
-
-  GridImpl( std::shared_ptr<quadrature_type> q, BatchSize );
-
-  GridImpl( const GridImpl& );
-  GridImpl( GridImpl&& ) noexcept;
-
-  GridImpl& operator=( const GridImpl& );
-  GridImpl& operator=( GridImpl&& ) noexcept;
-
-  ~GridImpl() noexcept;
-  
-  const batcher_type& batcher() const;
-        batcher_type& batcher()      ;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/CMakeLists.txt b/third_party/gauxc/src/load_balancer/CMakeLists.txt
deleted file mode 100644
index 3dca6a6..0000000
--- a/third_party/gauxc/src/load_balancer/CMakeLists.txt
+++ /dev/null
@@ -1,32 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  load_balancer.cxx 
-  load_balancer_impl.cxx 
-  load_balancer_factory.cxx
-  rebalance.cxx
-
-  host/load_balancer_host_factory.cxx
-  host/replicated_host_load_balancer.cxx 
-  host/petite_replicated_load_balancer.cxx 
-  host/fillin_replicated_load_balancer.cxx 
-)
-
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
-
-if( GAUXC_HAS_DEVICE )
-  add_subdirectory( device )
-endif()
-
diff --git a/third_party/gauxc/src/load_balancer/device/CMakeLists.txt b/third_party/gauxc/src/load_balancer/device/CMakeLists.txt
deleted file mode 100644
index 00b5dee..0000000
--- a/third_party/gauxc/src/load_balancer/device/CMakeLists.txt
+++ /dev/null
@@ -1,22 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  load_balancer_device_factory.cxx
-)
-
-if( GAUXC_HAS_CUDA )
-  add_subdirectory( cuda )
-endif()
-
-if( GAUXC_HAS_HIP )
-  add_subdirectory( hip )
-endif()
diff --git a/third_party/gauxc/src/load_balancer/device/cuda/CMakeLists.txt b/third_party/gauxc/src/load_balancer/device/cuda/CMakeLists.txt
deleted file mode 100644
index 49e0d17..0000000
--- a/third_party/gauxc/src/load_balancer/device/cuda/CMakeLists.txt
+++ /dev/null
@@ -1,13 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE cuda_collision_detection.cu 
-                              replicated_cuda_load_balancer.cxx )
diff --git a/third_party/gauxc/src/load_balancer/device/cuda/cuda_collision_detection.cu b/third_party/gauxc/src/load_balancer/device/cuda/cuda_collision_detection.cu
deleted file mode 100644
index 7da69c7..0000000
--- a/third_party/gauxc/src/load_balancer/device/cuda/cuda_collision_detection.cu
+++ /dev/null
@@ -1,248 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/util/div_ceil.hpp>
-#include <cub/device/device_scan.cuh>
-
-#include "cuda_collision_detection.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-
-namespace GauXC         {
-namespace load_balancer {
-namespace cuda          {
-
-using namespace GauXC::cuda;
-
-__device__ __inline__ 
-int cube_sphere_intersect( 
-  const double3 lo, 
-  const double3 up,
-  const double3 center,
-  const double  rad
-) {
-
-  double dist = rad * rad;
-
-  if( center.x < lo.x ) {
-    const double r_lo = center.x - lo.x;
-    const double dist_lo = r_lo * r_lo;
-    dist -= dist_lo;
-  } else if( center.x > up.x ) {
-    const double r_up = center.x - up.x;
-    const double dist_up = r_up * r_up;
-    dist -= dist_up;
-  }
-
-  if( dist < 0. ) return false;
-
-  if( center.y < lo.y ) {
-    const double r_lo = center.y - lo.y;
-    const double dist_lo = r_lo * r_lo;
-    dist -= dist_lo;
-  } else if( center.y > up.y ) {
-    const double r_up = center.y - up.y;
-    const double dist_up = r_up * r_up;
-    dist -= dist_up;
-  }
-
-  if( dist < 0. ) return false;
-
-
-  if( center.z < lo.z ) {
-    const double r_lo = center.z - lo.z;
-    const double dist_lo = r_lo * r_lo;
-    dist -= dist_lo;
-  } else if( center.z > up.z ) {
-    const double r_up = center.z - up.z;
-    const double dist_up = r_up * r_up;
-    dist -= dist_up;
-  }
-
-  return dist > 0.;
-
-}
-
-
-__global__ void collision_detection_gpu(
-          size_t ncubes,
-          size_t nspheres,
-          size_t LD_bit,
-    const double* low_points,
-    const double* high_points,
-    const double* centers,
-    const double* radii,
-         int32_t* collisions,
-         int32_t* counts
-) {
-  const size_t nspheres_block = (nspheres + 31) / 32;
-  for (int i = threadIdx.x + blockIdx.x * blockDim.x; i < ncubes; i += blockDim.x * gridDim.x) {
-    counts[i] = 0;
-    double3 low_point;
-    double3 high_point;
-    low_point.x = low_points[3*i+0];
-    low_point.y = low_points[3*i+1];
-    low_point.z = low_points[3*i+2];
-
-    high_point.x = high_points[3*i+0];
-    high_point.y = high_points[3*i+1];
-    high_point.z = high_points[3*i+2];
-
-
-    for (int j_block = 0; j_block < nspheres_block; j_block++) {
-      int temp_collisions = 0;
-      for (int j_inner = 0; j_inner < 32; j_inner++) {
-        int j = j_block * 32 + j_inner;
-        if (j < nspheres) {
-          double3 center;
-          double radius; 
-          center.x = centers[3*j+0];
-          center.y = centers[3*j+1];
-          center.z = centers[3*j+2];
-
-          radius = radii[j];
-          temp_collisions |= (cube_sphere_intersect(low_point, high_point, center, radius) ? 1 << (j_inner) : 0);
-        }
-      }
-      collisions[i * LD_bit + j_block] = temp_collisions;
-      counts[i] += __popc(temp_collisions);
-    }
-  }
-}
-
-
-static constexpr int32_t buffer_size = 8;
-static constexpr int32_t element_size = 32;
-static constexpr int32_t buffer_size_bits = buffer_size * element_size;
-
-// This kernel converts the bitvector produced by the collision detection kernel above into a position list.
-// For simplicity, the collision detection kernel stores its output as a bitvector. However, the `shell_list`
-// of the task is a list of the qualifying indexes, so we must convert the bitvector to a position list. 
-//
-// We take this chance to compute the nbe value from the shell sizes since the data is already being read in
-__global__ void bitvector_to_position_list( 
-           size_t  ncubes, 
-           size_t  nspheres, 
-           size_t  LD_bit,
-    const int32_t* collisions, 
-    const int32_t* counts, 
-    const  size_t* shell_size,
-          int32_t* position_list, 
-           size_t* nbe_list
-) {
-  __shared__ int32_t collisions_buffer[warp_size][warp_size][buffer_size];
-
-  // We are converting a large number of small bitvectors into position lists. For this reason, I am assigning a single thread to each bitvector
-  // This avoids having to do popcounts and warp wide reductions, but hurts the memory access pattern
-
-  // All threads in a warp must be active to do shared memory loads, so we seperate out the threadId.x
-  for (int i_base = threadIdx.y * blockDim.x + blockIdx.x * blockDim.x * blockDim.y; i_base < ncubes; i_base += blockDim.x * blockDim.y * gridDim.x) {
-    const int i = i_base + threadIdx.x;
-    int32_t* out = position_list;
-    if (i != 0 && i < ncubes) {
-      out += counts[i-1];
-    } 
-
-    int current = 0;
-    size_t nbe = 0;
-    size_t nsphere_blocks = (nspheres + buffer_size_bits - 1) / buffer_size_bits;
-    for (int j_block = 0; j_block < nsphere_blocks; j_block++) {
-      // Each thread has a buffer of length BUFFER_SIZE. All the threads in the warp work to 
-      // load this data in a coalesced way (at least as much as possible)
-      for (int buffer_loop = 0; buffer_loop < warp_size; buffer_loop += warp_size/buffer_size) {
-        const int t_id_x        = threadIdx.x % buffer_size;
-        const int buffer_thread = threadIdx.x / buffer_size;
-        const int buffer_idx    = buffer_thread + buffer_loop;
-        if (j_block * buffer_size_bits + t_id_x * element_size < nspheres && i_base + buffer_idx < ncubes) {
-          collisions_buffer[threadIdx.y][buffer_idx][t_id_x] = collisions[(i_base + buffer_idx) * LD_bit + j_block * buffer_size + t_id_x];
-        }
-      }
-
-      __syncwarp();
-      if (i < ncubes) {  // Once the data has been loaded, we exclude the threads not corresponding to a bitvector
-        // We have loaded in BUFFER_SIZE_BITS elements to be processed by each warp
-        for (int j_inner = 0; j_inner < buffer_size_bits && j_block * buffer_size_bits + j_inner < nspheres; j_inner++) {
-          const int j = buffer_size_bits * j_block + j_inner;
-          const int j_int = j_inner / element_size;
-          const int j_bit = j_inner % element_size;
-          if( collisions_buffer[threadIdx.y][threadIdx.x][j_int] & (1 << (j_bit)) ) {
-            out[current++] = j;
-            nbe += shell_size[j];
-          }
-        }
-      }
-      __syncwarp();
-    }
-    if (i < ncubes) {
-      nbe_list[i] = nbe;
-    }
-  }
-}
-
-size_t compute_scratch( size_t ncubes, int32_t* counts_device ) {
-    // Computes amount of memory that will be required to do the inclusive sum
-    void     *d_temp_storage = NULL;
-    size_t   temp_storage_bytes = 0;
-    cub::DeviceScan::InclusiveSum(d_temp_storage, temp_storage_bytes, counts_device, counts_device, ncubes);
-
-    return temp_storage_bytes;
-}
-
-void collision_detection( size_t        ncubes,
-                          size_t        nspheres,
-                          size_t        LD_bit,
-                          const double* low_points_device,
-                          const double* high_points_device,
-                          const double* centers_device,
-                          const double* radii_device,
-                                size_t  temp_storage_bytes,
-                                 void * temp_storage_device,
-                               int32_t* collisions_device, 
-                               int32_t* counts_device,
-                          cudaStream_t  stream) {
-
-    dim3 threads( max_threads_per_thread_block );
-    dim3 blocks( util::div_ceil( ncubes, threads.x ) );
-
-    collision_detection_gpu<<<blocks, threads, 0, stream>>>(
-        ncubes, nspheres, LD_bit, 
-        low_points_device, high_points_device, centers_device, radii_device, 
-        collisions_device, counts_device
-    );
-
-    // Run inclusive prefix sum
-    cub::DeviceScan::InclusiveSum(temp_storage_device, temp_storage_bytes, counts_device, counts_device, ncubes, stream);
-
-}
-
-void compute_position_list(size_t         ncubes,
-                           size_t         nspheres,
-                           size_t         LD_bit,
-                           const size_t*  shell_sizes_device,
-                           const int32_t* collisions_device,
-                           const int32_t* counts_device,
-                                 int32_t* position_list_device,
-                                  size_t* nbe_list_device,
-                            cudaStream_t  stream) {
-    dim3 threads( warp_size, warp_size );
-    dim3 blocks( util::div_ceil( ncubes, threads.x * threads.y ) );
-
-    // convert from bitvector to position list
-    bitvector_to_position_list<<<blocks, threads, 0, stream>>>(
-        ncubes, nspheres, LD_bit, 
-        collisions_device, counts_device, shell_sizes_device, 
-        position_list_device, nbe_list_device
-    );
-}
-
-}
-}
-}
-
diff --git a/third_party/gauxc/src/load_balancer/device/cuda/cuda_collision_detection.hpp b/third_party/gauxc/src/load_balancer/device/cuda/cuda_collision_detection.hpp
deleted file mode 100644
index d715649..0000000
--- a/third_party/gauxc/src/load_balancer/device/cuda/cuda_collision_detection.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC      {
-namespace load_balancer {
-namespace cuda       {
-
-size_t compute_scratch( size_t ncubes, int32_t* counts_device );
-
-void collision_detection( size_t ncubes,
-                          size_t nspheres,
-                          size_t LD_bit,
-                          const double* low_points_device,
-                          const double* high_points_device,
-                          const double* centers_device,
-                          const double* radii_device,
-                                size_t  temp_storage_bytes,
-                                 void * temp_storage_device,
-                               int32_t* collisions_device, 
-                               int32_t* counts_device,
-                          cudaStream_t  stream);
-
-void compute_position_list(size_t ncubes,
-                           size_t nspheres,
-                           size_t LD_bit,
-                           const size_t* shell_sizes_device,
-                           const int32_t* collisions_device,
-                           const int32_t* counts_device,
-                           int32_t* position_list_device,
-                           size_t* nbe_list_device,
-                          cudaStream_t  stream);
-
-}
-}
-}
-
diff --git a/third_party/gauxc/src/load_balancer/device/cuda/replicated_cuda_load_balancer.cxx b/third_party/gauxc/src/load_balancer/device/cuda/replicated_cuda_load_balancer.cxx
deleted file mode 100644
index af2199b..0000000
--- a/third_party/gauxc/src/load_balancer/device/cuda/replicated_cuda_load_balancer.cxx
+++ /dev/null
@@ -1,332 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "replicated_cuda_load_balancer.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-
-#include "cuda_collision_detection.hpp"
-
-using namespace GauXC::load_balancer::cuda;
-
-namespace GauXC {
-namespace detail {
-
-template <typename T>
-using pinned_vector = std::vector<T>;
-
-// Helper data struction to keep inputs to collision detection kernels organized
-struct CollisionDetectionCudaData {
-    // Inputs
-    double* low_points_device;
-    double* high_points_device;
-    double* centers_device;
-    double* radii_device;
-    size_t* shell_sizes_device;
-    // Outputs
-    int32_t position_list_length;
-    int32_t* position_list_device;
-    int32_t* counts_device;
-    size_t*  nbe_list_device;
-    // Intermediates
-    int32_t* collisions_device;
-    size_t temp_storage_bytes;
-    void * temp_storage_device;
-};
-
-
-DeviceReplicatedLoadBalancer::DeviceReplicatedLoadBalancer( const DeviceReplicatedLoadBalancer& ) = default;
-DeviceReplicatedLoadBalancer::DeviceReplicatedLoadBalancer( DeviceReplicatedLoadBalancer&& ) noexcept = default;
-
-DeviceReplicatedLoadBalancer::~DeviceReplicatedLoadBalancer() noexcept = default;
-
-std::unique_ptr<LoadBalancerImpl> DeviceReplicatedLoadBalancer::clone() const {
-  return std::make_unique<DeviceReplicatedLoadBalancer>(*this);
-}
-
-std::vector<int32_t> inline copy_shell_list(
-  const size_t idx,
-  const std::vector<int32_t>& counts,
-  const pinned_vector<int32_t> &position_list
-) {
-  int32_t start = 0;
-  if ( idx != 0 ) start += counts[idx-1];
-  int32_t end = counts[idx];
-
-  std::vector<int32_t> shell_list(end - start);
-  std::copy(position_list.begin() + start, position_list.begin() + end, shell_list.begin());
-
-  return shell_list;
-}
-
-
-std::vector< XCTask > DeviceReplicatedLoadBalancer::create_local_tasks_() const  {
-
-  const int32_t n_deriv = 1;
-  const size_t atBatchSz = 256;
-
-  int32_t world_rank = runtime_.comm_rank();
-  int32_t world_size = runtime_.comm_size();
-
-  std::vector< XCTask > local_work;
-  std::vector<size_t> global_workload( world_size, 0 );   
-
-  const auto natoms           = this->mol_->natoms();
-  const size_t nspheres       = (*this->basis_).size();
-  const size_t num_atom_batch = util::div_ceil(natoms, atBatchSz);
-  const size_t max_nbatches   = mg_->max_nbatches() * atBatchSz;
-  const size_t LD_bit         = util::div_ceil(nspheres, 32);
-
-  CollisionDetectionCudaData data;
-  cudaStream_t master_stream = 0;
-
-  std::vector< XCTask > temp_tasks;              temp_tasks.reserve( max_nbatches );
-  std::vector<std::array<double,3>> low_points;  low_points.reserve( max_nbatches );
-  std::vector<std::array<double,3>> high_points; high_points.reserve( max_nbatches );
-  std::vector<std::array<double,3>> centers;     centers.reserve(nspheres);
-  std::vector<double> radii;                     radii.reserve(nspheres);
-  std::vector<size_t> shell_sizes;               shell_sizes.reserve(nspheres);
-  // These two vectors are populated by cuda memcopies on their data pointer
-  // So maybe we should be resizing them instead of just adding capacity?
-  std::vector<int32_t> pos_list_idx;             pos_list_idx.reserve(max_nbatches);
-  std::vector<size_t> nbe_vec;                   nbe_vec.reserve(max_nbatches);
-
-  // The postion list is the largest struction so I am using pinned memory for the improved bandwidth
-  pinned_vector<int32_t> position_list;
-  
-  data.temp_storage_bytes = compute_scratch(max_nbatches, data.counts_device);
-  data.temp_storage_device = util::cuda_malloc<char>(data.temp_storage_bytes); // char is 1 byte
-
-  data.low_points_device   = util::cuda_malloc<double>(max_nbatches * 3);
-  data.high_points_device  = util::cuda_malloc<double>(max_nbatches * 3);
-  data.collisions_device   = util::cuda_malloc<int32_t>(LD_bit * max_nbatches);
-  data.nbe_list_device     = util::cuda_malloc<size_t>(max_nbatches);
-  data.counts_device       = util::cuda_malloc<int32_t>(max_nbatches);
-
-  data.centers_device      = util::cuda_malloc<double>(nspheres * 3);
-  data.radii_device        = util::cuda_malloc<double>(nspheres);
-  data.shell_sizes_device  = util::cuda_malloc<size_t>(nspheres);
-
-  for(auto& shell : (*this->basis_)) {
-    centers.push_back(shell.O());
-    radii.push_back(shell.cutoff_radius());
-    shell_sizes.push_back(shell.size());
-  }
-
-  util::cuda_copy(nspheres * 3, data.centers_device, centers[0].data(), "Centers HtoD");
-  util::cuda_copy(nspheres, data.radii_device, radii.data(), "Radii HtoD");
-  util::cuda_copy(nspheres, data.shell_sizes_device, shell_sizes.data(), "ShellSize HtoD");
-
-  // For batching of multiple atom screening
-  for (size_t atom_batch = 0; atom_batch < num_atom_batch; ++atom_batch) {
-    //---------------------------------------------------------------------
-    // production step 
-    int32_t iCurrent  = atom_batch * atBatchSz;
-    for ( size_t atom_idx = 0; atom_idx < atBatchSz && atom_batch * atBatchSz + atom_idx < natoms; ++atom_idx ) {
-
-      const auto atom = (*this->mol_)[atom_batch * atBatchSz + atom_idx];
-      const std::array<double,3> center = { atom.x, atom.y, atom.z };
-
-      auto& batcher = this->mg_->get_grid(atom.Z).batcher();
-      batcher.quadrature().recenter( center );
-      const size_t nbatches = batcher.nbatches();
-
-      for( size_t ibatch = 0; ibatch < nbatches; ++ibatch ) {
-        // Generate the batch (non-negligible cost)
-        auto [ npts, pts_b, pts_en, w_b, w_en ] = (batcher.begin() + ibatch).range();
-        auto [lo, up] = IntegratorXX::detail::get_box_bounds_points(pts_b, pts_en);
-
-        if( npts == 0 ) continue;
-
-        // Partially copy task data
-        XCTask task;
-        task.iParent      = iCurrent;
-        task.npts         = npts;
-        task.dist_nearest = this->molmeta_->dist_nearest()[iCurrent];
-        temp_tasks.push_back( std::move( task ) );
-        low_points.push_back( std::move( lo ) );
-        high_points.push_back( std::move( up ) );
-      }
-      iCurrent++;
-    }
-
-    //---------------------------------------------------------------------
-    // Device collision detection step  
-    const size_t ncubes = low_points.size();
-    util::cuda_copy(ncubes * 3, data.low_points_device, low_points[0].data(), "Low points HtoD");
-    util::cuda_copy(ncubes * 3, data.high_points_device, high_points[0].data(), "High points HtoD");
-
-    collision_detection(
-      ncubes, nspheres, LD_bit,
-      data.low_points_device, data.high_points_device,
-      data.centers_device, data.radii_device, 
-      data.temp_storage_bytes, data.temp_storage_device,
-      data.collisions_device, data.counts_device,
-      master_stream
-    );
-
-    // Copy total number of collisions back to host to allocate result array
-    int32_t total_collisions;
-    util::cuda_copy(1, &total_collisions, data.counts_device + ncubes - 1, "Total collisions DtoH");
-    data.position_list_device = util::cuda_malloc<int32_t>(total_collisions);
-
-    compute_position_list(
-      ncubes, nspheres, LD_bit,
-      data.shell_sizes_device,
-      data.collisions_device,
-      data.counts_device,
-      data.position_list_device,
-      data.nbe_list_device,
-      master_stream
-    );
-
-    position_list.reserve(total_collisions);
-
-    util::cuda_device_sync();
-    // Copy results back to host
-    util::cuda_copy(total_collisions, position_list.data(), data.position_list_device, "Position List DtoH");
-    util::cuda_copy(ncubes, pos_list_idx.data(), data.counts_device, "Position List Idx DtoH");
-    util::cuda_copy(ncubes, nbe_vec.data(), data.nbe_list_device, "NBE counts DtoH");
-    util::cuda_free(data.position_list_device);
-
-    low_points.clear();
-    high_points.clear();
-
-    //---------------------------------------------------------------------
-    // Assign batches to MPI ranks
-    size_t idx = 0;
-    for ( size_t atom_idx = 0; atom_idx < atBatchSz && atom_batch * atBatchSz + atom_idx < natoms; ++atom_idx ) {
-
-      const auto atom = (*this->mol_)[atom_batch * atBatchSz + atom_idx];
-      const std::array<double,3> center = { atom.x, atom.y, atom.z };
-
-      auto& batcher = this->mg_->get_grid(atom.Z).batcher();
-      batcher.quadrature().recenter( center );
-      const size_t nbatches = batcher.nbatches();
-
-      for( size_t ibatch = 0; ibatch < nbatches; ++ibatch ) {
-        auto [ npts, pts_b, pts_en, w_b, w_en ] = (batcher.begin() + ibatch).range();
-        XCTask task = std::move( temp_tasks.at( idx ) );
-        task.bfn_screening.nbe  = nbe_vec[idx];
-
-        // Update npts
-        task.npts = npts;
-
-        // Get rank with minimum work
-        auto min_rank_it = 
-          std::min_element( global_workload.begin(), global_workload.end() );
-        int64_t min_rank = std::distance( global_workload.begin(), min_rank_it );
-
-        global_workload[ min_rank ] += task.cost( n_deriv, natoms );
-
-        if( world_rank == min_rank ) {
-          auto shell_list = std::move( copy_shell_list(idx, pos_list_idx, position_list) );
-          // Course grain screening
-          if( shell_list.size() ) {
-            task.bfn_screening.shell_list = shell_list;
-
-            // Get local copy of points weights
-            std::vector<std::array<double,3>> points(pts_b, pts_en);
-            std::vector<double>               weights(w_b, w_en);
-
-            task.points  = std::move(points);
-            task.weights = std::move(weights);
-            local_work.push_back( std::move(task) );
-          }
-        }
-        idx++;
-      }
-    }
-    temp_tasks.clear();
-
-  }
-  
-  // Lexicographic ordering of tasks
-  auto task_order = []( const auto& a, const auto& b ) {
-
-    // Sort by iParent first
-    if( a.iParent < b.iParent )      return true;
-    else if( a.iParent > b.iParent ) return false;
-
-    // Equal iParent: lex sort on shell list
-    else return a.bfn_screening.shell_list < b.bfn_screening.shell_list;
-
-  };
-
-  std::sort( local_work.begin(), local_work.end(),
-    task_order ); 
-
-
-  // Get unique tasks
-  auto task_equiv = []( const auto& a, const auto& b ) {
-    return a.equiv_with(b);
-  };
-
-  auto local_work_unique = local_work;
-  auto last_unique = 
-    std::unique( local_work_unique.begin(),
-                 local_work_unique.end(),
-                 task_equiv );
-  local_work_unique.erase( last_unique, local_work_unique.end() );
-  
-
-  // Merge tasks
-  for( auto&& t : local_work_unique ) {
-    t.points.clear();
-    t.weights.clear();
-  }
-
-  auto cur_lw_begin = local_work.begin();
-  auto cur_uniq_it  = local_work_unique.begin();
-
-  for( auto lw_it = local_work.begin(); lw_it != local_work.end(); ++lw_it ) 
-  if( not task_equiv( *lw_it, *cur_uniq_it ) ) {
-
-    if( cur_uniq_it == local_work_unique.end() )
-      GAUXC_GENERIC_EXCEPTION("Messed up in unique");
-
-    cur_uniq_it->merge_with( cur_lw_begin, lw_it );
-
-    cur_lw_begin = lw_it;
-    cur_uniq_it++;
-
-  }
-
-  // Merge the last set of batches
-  for( ; cur_lw_begin != local_work.end(); ++cur_lw_begin )
-    cur_uniq_it->merge_with( *cur_lw_begin );
-  cur_uniq_it++;
-  
-
-  local_work = std::move(local_work_unique);
-  
-  // Free all device memory
-  util::cuda_free(data.low_points_device);
-  util::cuda_free(data.high_points_device);
-  util::cuda_free(data.centers_device);
-  util::cuda_free(data.radii_device);
-  util::cuda_free(data.shell_sizes_device);
-  util::cuda_free(data.collisions_device);
-  util::cuda_free(data.nbe_list_device);
-  util::cuda_free(data.counts_device);
-  util::cuda_free(data.temp_storage_device);
-
-  return local_work;
-}
-
-
-
-
-
-
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/device/cuda/replicated_cuda_load_balancer.hpp b/third_party/gauxc/src/load_balancer/device/cuda/replicated_cuda_load_balancer.hpp
deleted file mode 100644
index 585edde..0000000
--- a/third_party/gauxc/src/load_balancer/device/cuda/replicated_cuda_load_balancer.hpp
+++ /dev/null
@@ -1,43 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "load_balancer_impl.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-class DeviceReplicatedLoadBalancer : public LoadBalancerImpl {
-
-protected:
-
-  using basis_type = BasisSet<double>;
-  std::vector< XCTask > create_local_tasks_() const override;
-
-public:
-
-  DeviceReplicatedLoadBalancer() = delete;
-  template <typename... Args>
-  DeviceReplicatedLoadBalancer( Args&&... args ):
-    LoadBalancerImpl( std::forward<Args>(args)... ) { }
-
-  DeviceReplicatedLoadBalancer( const DeviceReplicatedLoadBalancer& );
-  DeviceReplicatedLoadBalancer( DeviceReplicatedLoadBalancer&& ) noexcept;
-
-  virtual ~DeviceReplicatedLoadBalancer() noexcept;
-
-  std::unique_ptr<LoadBalancerImpl> clone() const override;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/device/hip/CMakeLists.txt b/third_party/gauxc/src/load_balancer/device/hip/CMakeLists.txt
deleted file mode 100644
index cd1e4aa..0000000
--- a/third_party/gauxc/src/load_balancer/device/hip/CMakeLists.txt
+++ /dev/null
@@ -1,13 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE hip_collision_detection.hip
-                              replicated_hip_load_balancer.cxx )
diff --git a/third_party/gauxc/src/load_balancer/device/hip/hip_collision_detection.hip b/third_party/gauxc/src/load_balancer/device/hip/hip_collision_detection.hip
deleted file mode 100644
index 89d0978..0000000
--- a/third_party/gauxc/src/load_balancer/device/hip/hip_collision_detection.hip
+++ /dev/null
@@ -1,247 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include <gauxc/util/div_ceil.hpp>
-#include <hipcub/hipcub.hpp>
-
-#include "hip_collision_detection.hpp"
-#include "device_specific/hip_device_constants.hpp"
-
-namespace GauXC         {
-namespace load_balancer {
-namespace hip          {
-
-using namespace GauXC::hip;
-
-__device__ __inline__ 
-int cube_sphere_intersect( 
-  const double3 lo, 
-  const double3 up,
-  const double3 center,
-  const double  rad
-) {
-
-  double dist = rad * rad;
-
-  if( center.x < lo.x ) {
-    const double r_lo = center.x - lo.x;
-    const double dist_lo = r_lo * r_lo;
-    dist -= dist_lo;
-  } else if( center.x > up.x ) {
-    const double r_up = center.x - up.x;
-    const double dist_up = r_up * r_up;
-    dist -= dist_up;
-  }
-
-  if( dist < 0. ) return false;
-
-  if( center.y < lo.y ) {
-    const double r_lo = center.y - lo.y;
-    const double dist_lo = r_lo * r_lo;
-    dist -= dist_lo;
-  } else if( center.y > up.y ) {
-    const double r_up = center.y - up.y;
-    const double dist_up = r_up * r_up;
-    dist -= dist_up;
-  }
-
-  if( dist < 0. ) return false;
-
-
-  if( center.z < lo.z ) {
-    const double r_lo = center.z - lo.z;
-    const double dist_lo = r_lo * r_lo;
-    dist -= dist_lo;
-  } else if( center.z > up.z ) {
-    const double r_up = center.z - up.z;
-    const double dist_up = r_up * r_up;
-    dist -= dist_up;
-  }
-
-  return dist > 0.;
-
-}
-
-
-__global__ void collision_detection_gpu(
-          size_t ncubes,
-          size_t nspheres,
-          size_t LD_bit,
-    const double* low_points,
-    const double* high_points,
-    const double* centers,
-    const double* radii,
-         int32_t* collisions,
-         int32_t* counts
-) {
-  const size_t nspheres_block = (nspheres + 31) / 32;
-  for (int i = threadIdx.x + blockIdx.x * blockDim.x; i < ncubes; i += blockDim.x * gridDim.x) {
-    counts[i] = 0;
-    double3 low_point;
-    double3 high_point;
-    low_point.x = low_points[3*i+0];
-    low_point.y = low_points[3*i+1];
-    low_point.z = low_points[3*i+2];
-
-    high_point.x = high_points[3*i+0];
-    high_point.y = high_points[3*i+1];
-    high_point.z = high_points[3*i+2];
-
-
-    for (int j_block = 0; j_block < nspheres_block; j_block++) {
-      int temp_collisions = 0;
-      for (int j_inner = 0; j_inner < 32; j_inner++) {
-        int j = j_block * 32 + j_inner;
-        if (j < nspheres) {
-          double3 center;
-          double radius; 
-          center.x = centers[3*j+0];
-          center.y = centers[3*j+1];
-          center.z = centers[3*j+2];
-
-          radius = radii[j];
-          temp_collisions |= (cube_sphere_intersect(low_point, high_point, center, radius) ? 1 << (j_inner) : 0);
-        }
-      }
-      collisions[i * LD_bit + j_block] = temp_collisions;
-      counts[i] += __popc(temp_collisions);
-    }
-  }
-}
-
-
-static constexpr int32_t buffer_size = 8;
-static constexpr int32_t element_size = 32; // number of bits 
-static constexpr int32_t buffer_size_bits = buffer_size * element_size;
-
-// This kernel converts the bitvector produced by the collision detection kernel above into a position list.
-// For simplicity, the collision detection kernel stores its output as a bitvector. However, the `shell_list`
-// of the task is a list of the qualifying indexes, so we must convert the bitvector to a position list. 
-//
-// We take this chance to compute the nbe value from the shell sizes since the data is already being read in
-__global__ void bitvector_to_position_list( 
-           size_t  ncubes, 
-           size_t  nspheres, 
-           size_t  LD_bit,
-    const int32_t* collisions, 
-    const int32_t* counts, 
-    const  size_t* shell_size,
-          int32_t* position_list, 
-           size_t* nbe_list
-) {
-  __shared__ int32_t collisions_buffer[max_warps_per_thread_block][warp_size][buffer_size];
-
-  // We are converting a large number of small bitvectors into position lists. For this reason, I am assigning a single thread to each bitvector
-  // This avoids having to do popcounts and warp wide reductions, but hurts the memory access pattern
-
-  // All threads in a warp must be active to do shared memory loads, so we seperate out the threadId.x
-  for (int i_base = threadIdx.y * blockDim.x + blockIdx.x * blockDim.x * blockDim.y; i_base < ncubes; i_base += blockDim.x * blockDim.y * gridDim.x) {
-    const int i = i_base + threadIdx.x;
-    int32_t* out = position_list;
-    if (i != 0 && i < ncubes) {
-      out += counts[i-1];
-    } 
-
-    int current = 0;
-    size_t nbe = 0;
-    size_t nsphere_blocks = (nspheres + buffer_size_bits - 1) / buffer_size_bits;
-    for (int j_block = 0; j_block < nsphere_blocks; j_block++) {
-      // Each thread has a buffer of length BUFFER_SIZE. All the threads in the warp work to 
-      // load this data in a coalesced way (at least as much as possible)
-      for (int buffer_loop = 0; buffer_loop < warp_size; buffer_loop += warp_size/buffer_size) {
-        const int t_id_x        = threadIdx.x % buffer_size;
-        const int buffer_thread = threadIdx.x / buffer_size;
-        const int buffer_idx    = buffer_thread + buffer_loop;
-        if (j_block * buffer_size_bits + t_id_x * element_size < nspheres && i_base + buffer_idx < ncubes) {
-          collisions_buffer[threadIdx.y][buffer_idx][t_id_x] = collisions[(i_base + buffer_idx) * LD_bit + j_block * buffer_size + t_id_x];
-        }
-      }
-
-      if (i < ncubes) {  // Once the data has been loaded, we exclude the threads not corresponding to a bitvector
-        // We have loaded in BUFFER_SIZE_BITS elements to be processed by each warp
-        for (int j_inner = 0; j_inner < buffer_size_bits && j_block * buffer_size_bits + j_inner < nspheres; j_inner++) {
-          const int j = buffer_size_bits * j_block + j_inner;
-          const int j_int = j_inner / element_size;
-          const int j_bit = j_inner % element_size;
-          if( collisions_buffer[threadIdx.y][threadIdx.x][j_int] & (1 << (j_bit)) ) {
-            out[current++] = j;
-            nbe += shell_size[j];
-          }
-        }
-      }
-    }
-    if (i < ncubes) {
-      nbe_list[i] = nbe;
-    }
-  }
-}
-
-size_t compute_scratch( size_t ncubes, int32_t* counts_device ) {
-    // Computes amount of memory that will be required to do the inclusive sum
-    void     *d_temp_storage = NULL;
-    size_t   temp_storage_bytes = 0;
-    hipcub::DeviceScan::InclusiveSum(d_temp_storage, temp_storage_bytes, counts_device, counts_device, ncubes);
-
-    return temp_storage_bytes;
-}
-
-void collision_detection( size_t        ncubes,
-                          size_t        nspheres,
-                          size_t        LD_bit,
-                          const double* low_points_device,
-                          const double* high_points_device,
-                          const double* centers_device,
-                          const double* radii_device,
-                                size_t  temp_storage_bytes,
-                                 void * temp_storage_device,
-                               int32_t* collisions_device, 
-                               int32_t* counts_device,
-                          hipStream_t  stream) {
-
-    dim3 threads( max_threads_per_thread_block );
-    dim3 blocks( util::div_ceil( ncubes, threads.x ) );
-
-    collision_detection_gpu<<<blocks, threads, 0, stream>>>(
-        ncubes, nspheres, LD_bit, 
-        low_points_device, high_points_device, centers_device, radii_device, 
-        collisions_device, counts_device
-    );
-
-    // Run inclusive prefix sum
-    hipcub::DeviceScan::InclusiveSum(temp_storage_device, temp_storage_bytes, counts_device, counts_device, ncubes, stream);
-
-}
-
-void compute_position_list(size_t         ncubes,
-                           size_t         nspheres,
-                           size_t         LD_bit,
-                           const size_t*  shell_sizes_device,
-                           const int32_t* collisions_device,
-                           const int32_t* counts_device,
-                                 int32_t* position_list_device,
-                                  size_t* nbe_list_device,
-                            hipStream_t  stream) {
-    dim3 threads( warp_size, max_warps_per_thread_block );
-    dim3 blocks( util::div_ceil( ncubes, threads.x * threads.y ) );
-
-    // convert from bitvector to position list
-    bitvector_to_position_list<<<blocks, threads, 0, stream>>>(
-        ncubes, nspheres, LD_bit, 
-        collisions_device, counts_device, shell_sizes_device, 
-        position_list_device, nbe_list_device
-    );
-}
-
-}
-}
-}
-
diff --git a/third_party/gauxc/src/load_balancer/device/hip/hip_collision_detection.hpp b/third_party/gauxc/src/load_balancer/device/hip/hip_collision_detection.hpp
deleted file mode 100644
index a191d18..0000000
--- a/third_party/gauxc/src/load_balancer/device/hip/hip_collision_detection.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC      {
-namespace load_balancer {
-namespace hip       {
-
-size_t compute_scratch( size_t ncubes, int32_t* counts_device );
-
-void collision_detection( size_t ncubes,
-                          size_t nspheres,
-                          size_t LD_bit,
-                          const double* low_points_device,
-                          const double* high_points_device,
-                          const double* centers_device,
-                          const double* radii_device,
-                                size_t  temp_storage_bytes,
-                                 void * temp_storage_device,
-                               int32_t* collisions_device, 
-                               int32_t* counts_device,
-                          hipStream_t  stream);
-
-void compute_position_list(size_t ncubes,
-                           size_t nspheres,
-                           size_t LD_bit,
-                           const size_t* shell_sizes_device,
-                           const int32_t* collisions_device,
-                           const int32_t* counts_device,
-                           int32_t* position_list_device,
-                           size_t* nbe_list_device,
-                          hipStream_t  stream);
-
-}
-}
-}
-
diff --git a/third_party/gauxc/src/load_balancer/device/hip/replicated_hip_load_balancer.cxx b/third_party/gauxc/src/load_balancer/device/hip/replicated_hip_load_balancer.cxx
deleted file mode 100644
index ac693e1..0000000
--- a/third_party/gauxc/src/load_balancer/device/hip/replicated_hip_load_balancer.cxx
+++ /dev/null
@@ -1,333 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "replicated_hip_load_balancer.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/hip_util.hpp"
-
-#include "hip_collision_detection.hpp"
-
-using namespace GauXC::load_balancer::hip;
-
-namespace GauXC {
-namespace detail {
-
-// TODO: Make this use a pinned allocator
-template <typename T>
-using pinned_vector = std::vector<T>;
-
-// Helper data struction to keep inputs to collision detection kernels organized
-struct CollisionDetectionData {
-    // Inputs
-    double* low_points_device;
-    double* high_points_device;
-    double* centers_device;
-    double* radii_device;
-    size_t* shell_sizes_device;
-    // Outputs
-    int32_t position_list_length;
-    int32_t* position_list_device;
-    int32_t* counts_device;
-    size_t*  nbe_list_device;
-    // Intermediates
-    int32_t* collisions_device;
-    size_t temp_storage_bytes;
-    void * temp_storage_device;
-};
-
-
-DeviceReplicatedLoadBalancer::DeviceReplicatedLoadBalancer( const DeviceReplicatedLoadBalancer& ) = default;
-DeviceReplicatedLoadBalancer::DeviceReplicatedLoadBalancer( DeviceReplicatedLoadBalancer&& ) noexcept = default;
-
-DeviceReplicatedLoadBalancer::~DeviceReplicatedLoadBalancer() noexcept = default;
-
-std::unique_ptr<LoadBalancerImpl> DeviceReplicatedLoadBalancer::clone() const {
-  return std::make_unique<DeviceReplicatedLoadBalancer>(*this);
-}
-
-std::vector<int32_t> inline copy_shell_list(
-  const size_t idx,
-  const std::vector<int32_t>& counts,
-  const pinned_vector<int32_t> &position_list
-) {
-  int32_t start = 0;
-  if ( idx != 0 ) start += counts[idx-1];
-  int32_t end = counts[idx];
-
-  std::vector<int32_t> shell_list(end - start);
-  std::copy(position_list.begin() + start, position_list.begin() + end, shell_list.begin());
-
-  return shell_list;
-}
-
-
-std::vector< XCTask > DeviceReplicatedLoadBalancer::create_local_tasks_() const  {
-
-  const int32_t n_deriv = 1;
-  const size_t atBatchSz = 256;
-
-  int32_t world_rank = runtime_.comm_rank();
-  int32_t world_size = runtime_.comm_size();
-
-  std::vector< XCTask > local_work;
-  std::vector<size_t> global_workload( world_size, 0 );   
-
-  const auto natoms           = this->mol_->natoms();
-  const size_t nspheres       = (*this->basis_).size();
-  const size_t num_atom_batch = util::div_ceil(natoms, atBatchSz);
-  const size_t max_nbatches   = mg_->max_nbatches() * atBatchSz;
-  const size_t LD_bit         = util::div_ceil(nspheres, 32);
-
-  CollisionDetectionData data;
-  hipStream_t master_stream = 0;
-
-  std::vector< XCTask > temp_tasks;              temp_tasks.reserve( max_nbatches );
-  std::vector<std::array<double,3>> low_points;  low_points.reserve( max_nbatches );
-  std::vector<std::array<double,3>> high_points; high_points.reserve( max_nbatches );
-  std::vector<std::array<double,3>> centers;     centers.reserve(nspheres);
-  std::vector<double> radii;                     radii.reserve(nspheres);
-  std::vector<size_t> shell_sizes;               shell_sizes.reserve(nspheres);
-  // These two vectors are populated by cuda memcopies on their data pointer
-  // So maybe we should be resizing them instead of just adding capacity?
-  std::vector<int32_t> pos_list_idx;             pos_list_idx.reserve(max_nbatches);
-  std::vector<size_t> nbe_vec;                   nbe_vec.reserve(max_nbatches);
-
-  // The postion list is the largest struction so I am using pinned memory for the improved bandwidth
-  pinned_vector<int32_t> position_list;
-  
-  data.temp_storage_bytes = compute_scratch(max_nbatches, data.counts_device);
-  data.temp_storage_device = util::hip_malloc<char>(data.temp_storage_bytes); // char is 1 byte
-
-  data.low_points_device   = util::hip_malloc<double>(max_nbatches * 3);
-  data.high_points_device  = util::hip_malloc<double>(max_nbatches * 3);
-  data.collisions_device   = util::hip_malloc<int32_t>(LD_bit * max_nbatches);
-  data.nbe_list_device     = util::hip_malloc<size_t>(max_nbatches);
-  data.counts_device       = util::hip_malloc<int32_t>(max_nbatches);
-
-  data.centers_device      = util::hip_malloc<double>(nspheres * 3);
-  data.radii_device        = util::hip_malloc<double>(nspheres);
-  data.shell_sizes_device  = util::hip_malloc<size_t>(nspheres);
-
-  for(auto& shell : (*this->basis_)) {
-    centers.push_back(shell.O());
-    radii.push_back(shell.cutoff_radius());
-    shell_sizes.push_back(shell.size());
-  }
-
-  util::hip_copy(nspheres * 3, data.centers_device, centers[0].data(), "Centers HtoD");
-  util::hip_copy(nspheres, data.radii_device, radii.data(), "Radii HtoD");
-  util::hip_copy(nspheres, data.shell_sizes_device, shell_sizes.data(), "ShellSize HtoD");
-
-  // For batching of multiple atom screening
-  for (int atom_batch = 0; atom_batch < num_atom_batch; ++atom_batch) {
-    //---------------------------------------------------------------------
-    // production step 
-    int32_t iCurrent  = atom_batch * atBatchSz;
-    for ( int atom_idx = 0; atom_idx < atBatchSz && atom_batch * atBatchSz + atom_idx < natoms; ++atom_idx ) {
-
-      const auto atom = (*this->mol_)[atom_batch * atBatchSz + atom_idx];
-      const std::array<double,3> center = { atom.x, atom.y, atom.z };
-
-      auto& batcher = this->mg_->get_grid(atom.Z).batcher();
-      batcher.quadrature().recenter( center );
-      const size_t nbatches = batcher.nbatches();
-
-      for( size_t ibatch = 0; ibatch < nbatches; ++ibatch ) {
-        // Generate the batch (non-negligible cost)
-        auto [ npts, pts_b, pts_en, w_b, w_en ] = (batcher.begin() + ibatch).range();
-        auto [lo, up] = IntegratorXX::detail::get_box_bounds_points(pts_b, pts_en);
-
-        if( npts == 0 ) continue;
-
-        // Partially copy task data
-        XCTask task;
-        task.iParent      = iCurrent;
-        task.npts         = npts;
-        task.dist_nearest = this->molmeta_->dist_nearest()[iCurrent];
-        temp_tasks.push_back( std::move( task ) );
-        low_points.push_back( std::move( lo ) );
-        high_points.push_back( std::move( up ) );
-      }
-      iCurrent++;
-    }
-
-    //---------------------------------------------------------------------
-    // Device collision detection step  
-    const size_t ncubes = low_points.size();
-    util::hip_copy(ncubes * 3, data.low_points_device, low_points[0].data(), "Low points HtoD");
-    util::hip_copy(ncubes * 3, data.high_points_device, high_points[0].data(), "High points HtoD");
-
-    collision_detection(
-      ncubes, nspheres, LD_bit,
-      data.low_points_device, data.high_points_device,
-      data.centers_device, data.radii_device, 
-      data.temp_storage_bytes, data.temp_storage_device,
-      data.collisions_device, data.counts_device,
-      master_stream
-    );
-
-    // Copy total number of collisions back to host to allocate result array
-    int32_t total_collisions;
-    util::hip_copy(1, &total_collisions, data.counts_device + ncubes - 1, "Total collisions DtoH");
-    data.position_list_device = util::hip_malloc<int32_t>(total_collisions);
-
-    compute_position_list(
-      ncubes, nspheres, LD_bit,
-      data.shell_sizes_device,
-      data.collisions_device,
-      data.counts_device,
-      data.position_list_device,
-      data.nbe_list_device,
-      master_stream
-    );
-
-    position_list.reserve(total_collisions);
-
-    util::hip_device_sync();
-    // Copy results back to host
-    util::hip_copy(total_collisions, position_list.data(), data.position_list_device, "Position List DtoH");
-    util::hip_copy(ncubes, pos_list_idx.data(), data.counts_device, "Position List Idx DtoH");
-    util::hip_copy(ncubes, nbe_vec.data(), data.nbe_list_device, "NBE counts DtoH");
-    util::hip_free(data.position_list_device);
-
-    low_points.clear();
-    high_points.clear();
-
-    //---------------------------------------------------------------------
-    // Assign batches to MPI ranks
-    size_t idx = 0;
-    for ( int atom_idx = 0; atom_idx < atBatchSz && atom_batch * atBatchSz + atom_idx < natoms; ++atom_idx ) {
-
-      const auto atom = (*this->mol_)[atom_batch * atBatchSz + atom_idx];
-      const std::array<double,3> center = { atom.x, atom.y, atom.z };
-
-      auto& batcher = this->mg_->get_grid(atom.Z).batcher();
-      batcher.quadrature().recenter( center );
-      const size_t nbatches = batcher.nbatches();
-
-      for( size_t ibatch = 0; ibatch < nbatches; ++ibatch ) {
-        auto [ npts, pts_b, pts_en, w_b, w_en ] = (batcher.begin() + ibatch).range();
-        XCTask task = std::move( temp_tasks.at( idx ) );
-        task.bfn_screening.nbe  = nbe_vec[idx];
-
-        // Update npts
-        task.npts = npts;
-
-        // Get rank with minimum work
-        auto min_rank_it = 
-          std::min_element( global_workload.begin(), global_workload.end() );
-        int64_t min_rank = std::distance( global_workload.begin(), min_rank_it );
-
-        global_workload[ min_rank ] += task.cost( n_deriv, natoms );
-
-        if( world_rank == min_rank ) {
-          auto shell_list = std::move( copy_shell_list(idx, pos_list_idx, position_list) );
-          // Course grain screening
-          if( shell_list.size() ) {
-            task.bfn_screening.shell_list = shell_list;
-
-            // Get local copy of points weights
-            std::vector<std::array<double,3>> points(pts_b, pts_en);
-            std::vector<double>               weights(w_b, w_en);
-
-            task.points  = std::move(points);
-            task.weights = std::move(weights);
-            local_work.push_back( std::move(task) );
-          }
-        }
-        idx++;
-      }
-    }
-    temp_tasks.clear();
-
-  }
-  
-  // Lexicographic ordering of tasks
-  auto task_order = []( const auto& a, const auto& b ) {
-
-    // Sort by iParent first
-    if( a.iParent < b.iParent )      return true;
-    else if( a.iParent > b.iParent ) return false;
-
-    // Equal iParent: lex sort on shell list
-    else return a.bfn_screening.shell_list < b.bfn_screening.shell_list;
-
-  };
-
-  std::sort( local_work.begin(), local_work.end(),
-    task_order ); 
-
-
-  // Get unique tasks
-  auto task_equiv = []( const auto& a, const auto& b ) {
-    return a.equiv_with(b);
-  };
-
-  auto local_work_unique = local_work;
-  auto last_unique = 
-    std::unique( local_work_unique.begin(),
-                 local_work_unique.end(),
-                 task_equiv );
-  local_work_unique.erase( last_unique, local_work_unique.end() );
-  
-
-  // Merge tasks
-  for( auto&& t : local_work_unique ) {
-    t.points.clear();
-    t.weights.clear();
-  }
-
-  auto cur_lw_begin = local_work.begin();
-  auto cur_uniq_it  = local_work_unique.begin();
-
-  for( auto lw_it = local_work.begin(); lw_it != local_work.end(); ++lw_it ) 
-  if( not task_equiv( *lw_it, *cur_uniq_it ) ) {
-
-    if( cur_uniq_it == local_work_unique.end() )
-      GAUXC_GENERIC_EXCEPTION("Messed up in unique");
-
-    cur_uniq_it->merge_with( cur_lw_begin, lw_it );
-
-    cur_lw_begin = lw_it;
-    cur_uniq_it++;
-
-  }
-
-  // Merge the last set of batches
-  for( ; cur_lw_begin != local_work.end(); ++cur_lw_begin )
-    cur_uniq_it->merge_with( *cur_lw_begin );
-  cur_uniq_it++;
-  
-
-  local_work = std::move(local_work_unique);
-  
-  // Free all device memory
-  util::hip_free(data.low_points_device);
-  util::hip_free(data.high_points_device);
-  util::hip_free(data.centers_device);
-  util::hip_free(data.radii_device);
-  util::hip_free(data.shell_sizes_device);
-  util::hip_free(data.collisions_device);
-  util::hip_free(data.nbe_list_device);
-  util::hip_free(data.counts_device);
-  util::hip_free(data.temp_storage_device);
-
-  return local_work;
-}
-
-
-
-
-
-
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/device/hip/replicated_hip_load_balancer.hpp b/third_party/gauxc/src/load_balancer/device/hip/replicated_hip_load_balancer.hpp
deleted file mode 100644
index 585edde..0000000
--- a/third_party/gauxc/src/load_balancer/device/hip/replicated_hip_load_balancer.hpp
+++ /dev/null
@@ -1,43 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "load_balancer_impl.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-class DeviceReplicatedLoadBalancer : public LoadBalancerImpl {
-
-protected:
-
-  using basis_type = BasisSet<double>;
-  std::vector< XCTask > create_local_tasks_() const override;
-
-public:
-
-  DeviceReplicatedLoadBalancer() = delete;
-  template <typename... Args>
-  DeviceReplicatedLoadBalancer( Args&&... args ):
-    LoadBalancerImpl( std::forward<Args>(args)... ) { }
-
-  DeviceReplicatedLoadBalancer( const DeviceReplicatedLoadBalancer& );
-  DeviceReplicatedLoadBalancer( DeviceReplicatedLoadBalancer&& ) noexcept;
-
-  virtual ~DeviceReplicatedLoadBalancer() noexcept;
-
-  std::unique_ptr<LoadBalancerImpl> clone() const override;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/device/load_balancer_device_factory.cxx b/third_party/gauxc/src/load_balancer/device/load_balancer_device_factory.cxx
deleted file mode 100644
index e481f4f..0000000
--- a/third_party/gauxc/src/load_balancer/device/load_balancer_device_factory.cxx
+++ /dev/null
@@ -1,52 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "load_balancer_impl.hpp"
-#include "load_balancer_device_factory.hpp"
-
-#ifdef GAUXC_HAS_CUDA
-#include "cuda/replicated_cuda_load_balancer.hpp"
-#endif
-
-#ifdef GAUXC_HAS_HIP
-#include "hip/replicated_hip_load_balancer.hpp"
-#endif
-
-namespace GauXC {
-
-std::shared_ptr<LoadBalancer> LoadBalancerDeviceFactory::get_shared_instance(
-  std::string kernel_name, const RuntimeEnvironment& rt,
-  const Molecule& mol, const MolGrid& mg, const BasisSet<double>& basis
-) {
-
-  std::transform(kernel_name.begin(), kernel_name.end(), 
-    kernel_name.begin(), ::toupper );
-
-
-  if( kernel_name == "DEFAULT" ) kernel_name = "REPLICATED";
-
-  std::unique_ptr<detail::LoadBalancerImpl> ptr = nullptr;
-  #ifdef GAUXC_HAS_DEVICE
-  if( kernel_name == "REPLICATED" ) {
-    ptr = std::make_unique<detail::DeviceReplicatedLoadBalancer>(
-      rt, mol, mg, basis
-    );
-  }
-  #endif
-
-  if( ! ptr ) GAUXC_GENERIC_EXCEPTION("Load Balancer Kernel Not Recognized: " + kernel_name);
-
-  return std::make_shared<LoadBalancer>(std::move(ptr));
-
-}
-
-}
-
diff --git a/third_party/gauxc/src/load_balancer/device/load_balancer_device_factory.hpp b/third_party/gauxc/src/load_balancer/device/load_balancer_device_factory.hpp
deleted file mode 100644
index f61a3f4..0000000
--- a/third_party/gauxc/src/load_balancer/device/load_balancer_device_factory.hpp
+++ /dev/null
@@ -1,26 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/load_balancer.hpp>
-
-namespace GauXC {
-
-struct LoadBalancerDeviceFactory {
-
-  static std::shared_ptr<LoadBalancer> get_shared_instance(
-    std::string kernel_name, const RuntimeEnvironment& rt, 
-    const Molecule& mol, const MolGrid& mg, const BasisSet<double>& basis
-  );
-
-};
-
-
-}
diff --git a/third_party/gauxc/src/load_balancer/host/fillin_replicated_load_balancer.cxx b/third_party/gauxc/src/load_balancer/host/fillin_replicated_load_balancer.cxx
deleted file mode 100644
index a84d40d..0000000
--- a/third_party/gauxc/src/load_balancer/host/fillin_replicated_load_balancer.cxx
+++ /dev/null
@@ -1,70 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "fillin_replicated_load_balancer.hpp"
-#include <gauxc/util/geometry.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-FillInHostReplicatedLoadBalancer::FillInHostReplicatedLoadBalancer( const FillInHostReplicatedLoadBalancer& ) = default;
-FillInHostReplicatedLoadBalancer::FillInHostReplicatedLoadBalancer( FillInHostReplicatedLoadBalancer&& ) noexcept = default;
-
-FillInHostReplicatedLoadBalancer::~FillInHostReplicatedLoadBalancer() noexcept = default;
-
-std::unique_ptr<LoadBalancerImpl> FillInHostReplicatedLoadBalancer::clone() const {
-  return std::make_unique<FillInHostReplicatedLoadBalancer>(*this);
-}
-
-
-
-
-
-std::pair<std::vector<int32_t>,size_t> FillInHostReplicatedLoadBalancer::micro_batch_screen(
-  const BasisSet<double>&      bs,
-  const std::array<double,3>&  box_lo,
-  const std::array<double,3>&  box_up
-) const {
-
-
-  int32_t first_shell = -1;
-  int32_t last_shell  = -1;
-  for(auto iSh = 0ul; iSh < bs.size(); ++iSh) {
-
-    const auto& center = bs[iSh].O();
-    const auto  crad   = bs[iSh].cutoff_radius();
-    const bool intersect = 
-      geometry::cube_sphere_intersect( box_lo, box_up, center, crad );
-    
-    if( intersect ) {
-      if( first_shell < 0 ) first_shell = iSh;
-      last_shell = iSh;
-    }
-
-  }
-
-  if( first_shell < 0 ) {
-    return std::pair( std::vector<int32_t>{}, 0ul );
-  }
-
-  int32_t nshells = last_shell - first_shell + 1;
-  std::vector<int32_t> shell_list(nshells);
-  std::iota( shell_list.begin(), shell_list.end(), first_shell );
-
-  size_t nbe = std::accumulate( shell_list.begin(), shell_list.end(), 0ul,
-    [&](const auto& a, const auto& b) { return a + bs[b].size(); } );
-
-  return std::pair( std::move( shell_list ), nbe );
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/host/fillin_replicated_load_balancer.hpp b/third_party/gauxc/src/load_balancer/host/fillin_replicated_load_balancer.hpp
deleted file mode 100644
index eb40cef..0000000
--- a/third_party/gauxc/src/load_balancer/host/fillin_replicated_load_balancer.hpp
+++ /dev/null
@@ -1,38 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "replicated_host_load_balancer.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-struct FillInHostReplicatedLoadBalancer : public HostReplicatedLoadBalancer {
-
-  template <typename... Args>
-  FillInHostReplicatedLoadBalancer( Args&&... args ):
-    HostReplicatedLoadBalancer( std::forward<Args>(args)... ) { }
-
-  FillInHostReplicatedLoadBalancer( const FillInHostReplicatedLoadBalancer& );
-  FillInHostReplicatedLoadBalancer( FillInHostReplicatedLoadBalancer&& ) noexcept;
-
-  ~FillInHostReplicatedLoadBalancer() noexcept;
-
-  std::unique_ptr<LoadBalancerImpl> clone() const override final;
-
-  std::pair< std::vector<int32_t>, size_t > micro_batch_screen(
-    const BasisSet<double>&, const std::array<double,3>&,
-    const std::array<double,3>& ) const override final;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/host/load_balancer_host_factory.cxx b/third_party/gauxc/src/load_balancer/host/load_balancer_host_factory.cxx
deleted file mode 100644
index f69d7fd..0000000
--- a/third_party/gauxc/src/load_balancer/host/load_balancer_host_factory.cxx
+++ /dev/null
@@ -1,49 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "load_balancer_impl.hpp"
-#include "load_balancer_host_factory.hpp"
-#include "petite_replicated_load_balancer.hpp"
-#include "fillin_replicated_load_balancer.hpp"
-
-namespace GauXC {
-
-std::shared_ptr<LoadBalancer> LoadBalancerHostFactory::get_shared_instance(
-  std::string kernel_name, const RuntimeEnvironment& rt,
-  const Molecule& mol, const MolGrid& mg, const BasisSet<double>& basis
-) {
-
-  std::transform(kernel_name.begin(), kernel_name.end(), 
-    kernel_name.begin(), ::toupper );
-
-
-  if( kernel_name == "DEFAULT" or kernel_name == "REPLICATED" ) 
-    kernel_name = "REPLICATED-PETITE";
-
-  std::unique_ptr<detail::LoadBalancerImpl> ptr = nullptr;
-  if( kernel_name == "REPLICATED-PETITE" )
-    ptr = std::make_unique<detail::PetiteHostReplicatedLoadBalancer>(
-      rt, mol, mg, basis
-    );
-
-  if( kernel_name == "REPLICATED-FILLIN" )
-    ptr = std::make_unique<detail::FillInHostReplicatedLoadBalancer>(
-      rt, mol, mg, basis
-    );
-
-  if( ! ptr ) GAUXC_GENERIC_EXCEPTION("Load Balancer Kernel Not Recognized: " + kernel_name);
-
-  return std::make_shared<LoadBalancer>(std::move(ptr));
-
-}
-
-}
-
diff --git a/third_party/gauxc/src/load_balancer/host/load_balancer_host_factory.hpp b/third_party/gauxc/src/load_balancer/host/load_balancer_host_factory.hpp
deleted file mode 100644
index ae87867..0000000
--- a/third_party/gauxc/src/load_balancer/host/load_balancer_host_factory.hpp
+++ /dev/null
@@ -1,27 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/load_balancer.hpp>
-
-namespace GauXC {
-
-struct LoadBalancerHostFactory {
-
-  static std::shared_ptr<LoadBalancer> get_shared_instance(
-    std::string kernel_name, const RuntimeEnvironment& rt,
-    const Molecule& mol, const MolGrid& mg, const BasisSet<double>& basis
-  );
-
-};
-
-
-}
diff --git a/third_party/gauxc/src/load_balancer/host/petite_replicated_load_balancer.cxx b/third_party/gauxc/src/load_balancer/host/petite_replicated_load_balancer.cxx
deleted file mode 100644
index 3ecc53c..0000000
--- a/third_party/gauxc/src/load_balancer/host/petite_replicated_load_balancer.cxx
+++ /dev/null
@@ -1,68 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "petite_replicated_load_balancer.hpp"
-#include <gauxc/util/geometry.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-PetiteHostReplicatedLoadBalancer::PetiteHostReplicatedLoadBalancer( const PetiteHostReplicatedLoadBalancer& ) = default;
-PetiteHostReplicatedLoadBalancer::PetiteHostReplicatedLoadBalancer( PetiteHostReplicatedLoadBalancer&& ) noexcept = default;
-
-PetiteHostReplicatedLoadBalancer::~PetiteHostReplicatedLoadBalancer() noexcept = default;
-
-std::unique_ptr<LoadBalancerImpl> PetiteHostReplicatedLoadBalancer::clone() const {
-  return std::make_unique<PetiteHostReplicatedLoadBalancer>(*this);
-}
-
-
-
-
-
-std::pair<std::vector<int32_t>,size_t> PetiteHostReplicatedLoadBalancer::micro_batch_screen(
-  const BasisSet<double>&      bs,
-  const std::array<double,3>&  box_lo,
-  const std::array<double,3>&  box_up
-) const {
-
-
-  std::vector<int32_t> shell_list; shell_list.reserve(bs.nshells());
-  for(auto iSh = 0ul; iSh < bs.size(); ++iSh) {
-
-    const auto& center = bs[iSh].O();
-    const auto  crad   = bs[iSh].cutoff_radius();
-    const bool intersect = 
-      geometry::cube_sphere_intersect( box_lo, box_up, center, crad );
-    
-
-    //std::cout << "  MBS: " << iSh << ", " << 
-    //          center[0] << ", " << center[1] << ", " << center[2] << ", " <<
-    //          box_up[0] << ", " << box_up[1] << ", " << box_up[2] << ", " <<
-    //          box_lo[0] << ", " << box_lo[1] << ", " << box_lo[2] << ", " <<
-    //          crad << std::boolalpha << ", " << intersect << std::endl;
-              
-
-    // Add shell to list if need be
-    if( intersect )
-      shell_list.emplace_back( iSh );
-
-  }
-
-  size_t nbe = std::accumulate( shell_list.begin(), shell_list.end(), 0ul,
-    [&](const auto& a, const auto& b) { return a + bs[b].size(); } );
-
-  return std::pair( std::move( shell_list ), nbe );
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/host/petite_replicated_load_balancer.hpp b/third_party/gauxc/src/load_balancer/host/petite_replicated_load_balancer.hpp
deleted file mode 100644
index 8c33969..0000000
--- a/third_party/gauxc/src/load_balancer/host/petite_replicated_load_balancer.hpp
+++ /dev/null
@@ -1,38 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "replicated_host_load_balancer.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-struct PetiteHostReplicatedLoadBalancer : public HostReplicatedLoadBalancer {
-
-  template <typename... Args>
-  PetiteHostReplicatedLoadBalancer( Args&&... args ):
-    HostReplicatedLoadBalancer( std::forward<Args>(args)... ) { }
-
-  PetiteHostReplicatedLoadBalancer( const PetiteHostReplicatedLoadBalancer& );
-  PetiteHostReplicatedLoadBalancer( PetiteHostReplicatedLoadBalancer&& ) noexcept;
-
-  ~PetiteHostReplicatedLoadBalancer() noexcept;
-
-  std::unique_ptr<LoadBalancerImpl> clone() const override final;
-
-  std::pair< std::vector<int32_t>, size_t > micro_batch_screen(
-    const BasisSet<double>&, const std::array<double,3>&,
-    const std::array<double,3>& ) const override final;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/host/replicated_host_load_balancer.cxx b/third_party/gauxc/src/load_balancer/host/replicated_host_load_balancer.cxx
deleted file mode 100644
index 8f05f18..0000000
--- a/third_party/gauxc/src/load_balancer/host/replicated_host_load_balancer.cxx
+++ /dev/null
@@ -1,202 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "replicated_host_load_balancer.hpp"
-
-namespace GauXC {
-namespace detail {
-
-HostReplicatedLoadBalancer::HostReplicatedLoadBalancer( const HostReplicatedLoadBalancer& ) = default;
-HostReplicatedLoadBalancer::HostReplicatedLoadBalancer( HostReplicatedLoadBalancer&& ) noexcept = default;
-
-HostReplicatedLoadBalancer::~HostReplicatedLoadBalancer() noexcept = default;
-
-std::vector< XCTask > HostReplicatedLoadBalancer::create_local_tasks_() const  {
-
-  const int32_t n_deriv = 1; // Effects cost heuristic
-
-  int32_t world_rank = runtime_.comm_rank();
-  int32_t world_size = runtime_.comm_size();
-
-  std::vector< XCTask > local_work;
-  std::vector<size_t> global_workload( world_size, 0 );   
-
-  const auto natoms = this->mol_->natoms();
-  int32_t iCurrent  = 0;
-  int32_t atBatchSz = 1;
-
-  const size_t max_nbatches = mg_->max_nbatches();
-  std::vector< std::pair<size_t, XCTask> > temp_tasks;
-  temp_tasks.reserve( max_nbatches );
-
-  // For batching of multiple atom screening
-  size_t batch_idx_offset = 0;
-
-  // Loop over Atoms
-  for( const auto& atom : *this->mol_ ) {
-
-    const std::array<double,3> center = { atom.x, atom.y, atom.z };
-
-    auto& batcher = mg_->get_grid(atom.Z).batcher();
-    batcher.quadrature().recenter( center );
-    const size_t nbatches = batcher.nbatches();
-
-    #pragma omp parallel for
-    for( size_t ibatch = 0; ibatch < nbatches; ++ibatch ) {
-    
-      size_t batch_idx = ibatch + batch_idx_offset;
-
-      // Generate the batch (non-negligible cost)
-      auto [lo, up, points, weights] = batcher.at(ibatch);
-
-      if( points.size() == 0 ) continue;
-
-      // Microbatch Screening
-      auto [shell_list, nbe] = micro_batch_screen( (*this->basis_), lo, up );
-
-      // Course grain screening
-      if( not shell_list.size() ) continue; 
-
-      // Copy task data
-      XCTask task;
-      task.iParent    = iCurrent;
-      // This enables lazy assignment of points vector (see CUDA impl)
-      task.npts       = points.size(); 
-      task.points     = std::move( points );
-      task.weights    = std::move( weights );
-      task.bfn_screening.shell_list = std::move(shell_list);
-      task.bfn_screening.nbe        = nbe;
-      task.dist_nearest = molmeta_->dist_nearest()[iCurrent];
-
-      #pragma omp critical
-      temp_tasks.push_back( 
-        std::pair(batch_idx,std::move( task )) 
-      );
-
-    } // omp parallel for over batches
-
-
-
-
-
-    // Assign Tasks to MPI ranks
-    if( (iCurrent+1) % atBatchSz == 0 or iCurrent == ((int32_t)natoms-1) ) {
-
-      // Sort based on task index for deterministic assignment
-      std::sort( temp_tasks.begin(), temp_tasks.end(), 
-        []( const auto& a, const auto& b ) {
-          return a.first < b.first;
-        } );
-
-      // Assign batches to MPI ranks
-      for( size_t ibatch = 0; ibatch < temp_tasks.size(); ++ibatch ) {
-
-        XCTask task = std::move(temp_tasks.at(ibatch).second);
-        //auto& points = task.points;
-        //auto  nbe    = task.nbe;
-
-        // Get rank with minimum work
-        auto min_rank_it = 
-          std::min_element( global_workload.begin(), global_workload.end() );
-        int64_t min_rank = std::distance( global_workload.begin(), min_rank_it );
-
-        // Compute cost heuristic and increment total work
-        global_workload[ min_rank ] += task.cost( n_deriv, natoms );
-
-        if( world_rank == min_rank ) 
-          local_work.push_back( std::move(task) );
-
-      }
-
-      temp_tasks.clear();
-
-    }
-
-
-    // Update counters and offsets
-    iCurrent++;
-    batch_idx_offset += nbatches;
-
-  } // Loop over Atoms
-
-// return local_work;
-
-  // Lexicographic ordering of tasks
-  auto task_order = []( const auto& a, const auto& b ) {
-
-    // Sort by iParent first
-    if( a.iParent < b.iParent )      return true;
-    else if( a.iParent > b.iParent ) return false;
-
-    // Equal iParent: lex sort on shell list
-    else return a.bfn_screening.shell_list < b.bfn_screening.shell_list;
-
-  };
-
-  std::sort( local_work.begin(), local_work.end(),
-    task_order ); 
-
-
-  // Get unique tasks
-  auto task_equiv = []( const auto& a, const auto& b ) {
-    return a.equiv_with(b);
-  };
-
-  auto local_work_unique = local_work;
-  auto last_unique = 
-    std::unique( local_work_unique.begin(),
-                 local_work_unique.end(),
-                 task_equiv );
-  local_work_unique.erase( last_unique, local_work_unique.end() );
-  
-
-  // Merge tasks
-  for( auto&& t : local_work_unique ) {
-    t.points.clear();
-    t.weights.clear();
-    t.npts = 0;
-  }
-
-  auto cur_lw_begin = local_work.begin();
-  auto cur_uniq_it  = local_work_unique.begin();
-
-  for( auto lw_it = local_work.begin(); lw_it != local_work.end(); ++lw_it ) 
-  if( not task_equiv( *lw_it, *cur_uniq_it ) ) {
-
-    if( cur_uniq_it == local_work_unique.end() )
-      GAUXC_GENERIC_EXCEPTION("Messed up in unique");
-
-    cur_uniq_it->merge_with( cur_lw_begin, lw_it );
-
-    cur_lw_begin = lw_it;
-    cur_uniq_it++;
-
-  }
-
-  // Merge the last set of batches
-  for( ; cur_lw_begin != local_work.end(); ++cur_lw_begin )
-    cur_uniq_it->merge_with( *cur_lw_begin );
-  cur_uniq_it++;
-  
-
-  local_work = std::move(local_work_unique);
-
-  return local_work;
-}
-
-
-
-
-
-
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/host/replicated_host_load_balancer.hpp b/third_party/gauxc/src/load_balancer/host/replicated_host_load_balancer.hpp
deleted file mode 100644
index 9b4d0a0..0000000
--- a/third_party/gauxc/src/load_balancer/host/replicated_host_load_balancer.hpp
+++ /dev/null
@@ -1,45 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "load_balancer_impl.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-class HostReplicatedLoadBalancer : public LoadBalancerImpl {
-
-protected:
-
-  using basis_type = BasisSet<double>;
-  std::vector< XCTask > create_local_tasks_() const override;
-
-public:
-
-  HostReplicatedLoadBalancer() = delete;
-  template <typename... Args>
-  HostReplicatedLoadBalancer( Args&&... args ):
-    LoadBalancerImpl( std::forward<Args>(args)... ) { }
-
-  HostReplicatedLoadBalancer( const HostReplicatedLoadBalancer& );
-  HostReplicatedLoadBalancer( HostReplicatedLoadBalancer&& ) noexcept;
-
-  virtual ~HostReplicatedLoadBalancer() noexcept;
-
-  virtual std::pair< std::vector<int32_t>, size_t > micro_batch_screen(
-    const BasisSet<double>&, const std::array<double,3>&,
-    const std::array<double,3>& ) const = 0;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/load_balancer.cxx b/third_party/gauxc/src/load_balancer/load_balancer.cxx
deleted file mode 100644
index 637e1d8..0000000
--- a/third_party/gauxc/src/load_balancer/load_balancer.cxx
+++ /dev/null
@@ -1,119 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "load_balancer_impl.hpp"
-
-namespace GauXC {
-
-LoadBalancer::LoadBalancer( std::unique_ptr<pimpl_type>&& pimpl ): 
-  pimpl_( std::move(pimpl) ) { }
-
-LoadBalancer::LoadBalancer() : LoadBalancer( nullptr ) { }
-
-LoadBalancer::LoadBalancer( const LoadBalancer& other ) :
-  LoadBalancer(other.pimpl_->clone()){ }
-
-LoadBalancer::LoadBalancer( LoadBalancer&& ) noexcept = default;
-              
-LoadBalancer::~LoadBalancer() noexcept = default;
-
-
-const std::vector<XCTask>& LoadBalancer::get_tasks() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_tasks();
-}
-std::vector<XCTask>& LoadBalancer::get_tasks() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_tasks();
-}
-
-void LoadBalancer::rebalance_weights() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  pimpl_->rebalance_weights();
-}
-
-void LoadBalancer::rebalance_exc_vxc() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  pimpl_->rebalance_exc_vxc();
-}
-
-void LoadBalancer::rebalance_exx() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  pimpl_->rebalance_exx();
-}
-
-const util::Timer& LoadBalancer::get_timings() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_timings();
-}
-
-size_t LoadBalancer::total_npts() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->total_npts();
-}
-size_t LoadBalancer::max_npts() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->max_npts();
-}
-size_t LoadBalancer::max_nbe() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->max_nbe();
-}
-size_t LoadBalancer::max_npts_x_nbe() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->max_npts_x_nbe();
-}
-
-
-
-const Molecule& LoadBalancer::molecule() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->molecule();
-}
-const MolMeta& LoadBalancer::molmeta() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->molmeta();
-}
-
-const LoadBalancer::basis_type& LoadBalancer::basis() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->basis();
-}
-const LoadBalancer::basis_map_type& LoadBalancer::basis_map() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->basis_map();
-}
-const LoadBalancer::shell_pair_type& LoadBalancer::shell_pairs() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->shell_pairs();
-}
-
-const LoadBalancer::shell_pair_type& LoadBalancer::shell_pairs() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->shell_pairs();
-}
-
-LoadBalancerState& LoadBalancer::state() {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->state();
-}
-
-const RuntimeEnvironment& LoadBalancer::runtime() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->runtime();
-}
-
-
-bool LoadBalancer::operator==( const LoadBalancer& other ) const {
-  return (&other) == this;
-}
-
-}
diff --git a/third_party/gauxc/src/load_balancer/load_balancer_factory.cxx b/third_party/gauxc/src/load_balancer/load_balancer_factory.cxx
deleted file mode 100644
index bdc2898..0000000
--- a/third_party/gauxc/src/load_balancer/load_balancer_factory.cxx
+++ /dev/null
@@ -1,59 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "load_balancer_impl.hpp"
-#include "host/load_balancer_host_factory.hpp"
-
-#ifdef GAUXC_HAS_DEVICE
-#include "device/load_balancer_device_factory.hpp"
-#endif
-
-namespace GauXC {
-
-LoadBalancerFactory::LoadBalancerFactory( ExecutionSpace ex, std::string kernel_name ) :
-  ex_(ex), kernel_name_(kernel_name) { }
-
-std::shared_ptr<LoadBalancer> LoadBalancerFactory::get_shared_instance(
-  const RuntimeEnvironment& rt,
-  const Molecule& mol, const MolGrid& mg, const BasisSet<double>& basis
-) {
-
-  switch(ex_) {
-    case ExecutionSpace::Host:
-      using host_factory = LoadBalancerHostFactory;
-      return host_factory::get_shared_instance(kernel_name_,
-        rt, mol, mg, basis );
-    #ifdef GAUXC_HAS_DEVICE
-    case ExecutionSpace::Device:
-      using device_factory = LoadBalancerDeviceFactory;
-      return device_factory::get_shared_instance(kernel_name_,
-        rt, mol, mg, basis );
-    #endif
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unrecognized Execution Space");
-   }
-
-
-}
-
-LoadBalancer LoadBalancerFactory::get_instance(
-  const RuntimeEnvironment& rt, 
-  const Molecule& mol, const MolGrid& mg, const BasisSet<double>& basis
-) {
-
-  auto ptr = get_shared_instance(rt, mol, mg, basis);
-  return LoadBalancer(std::move(*ptr));
-
-}
-
-
-}
-
diff --git a/third_party/gauxc/src/load_balancer/load_balancer_impl.cxx b/third_party/gauxc/src/load_balancer/load_balancer_impl.cxx
deleted file mode 100644
index f6b853d..0000000
--- a/third_party/gauxc/src/load_balancer/load_balancer_impl.cxx
+++ /dev/null
@@ -1,143 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "load_balancer_impl.hpp"
-
-namespace GauXC::detail {
-
-LoadBalancerImpl::LoadBalancerImpl( const RuntimeEnvironment& rt, const Molecule& mol, 
-  const MolGrid& mg, const basis_type& basis, std::shared_ptr<MolMeta> molmeta ) :
-  runtime_(rt), 
-  mol_( std::make_shared<Molecule>(mol) ),
-  mg_( std::make_shared<MolGrid>(mg)  ),
-  basis_( std::make_shared<basis_type>(basis) ),
-  molmeta_( molmeta ) { 
-
-  basis_map_   = std::make_shared<basis_map_type>(*basis_, mol);
-
-}
-
-LoadBalancerImpl::LoadBalancerImpl( const RuntimeEnvironment& rt, const Molecule& mol, 
-  const MolGrid& mg, const basis_type& basis, const MolMeta& molmeta ) :
-  LoadBalancerImpl( rt, mol, mg, basis, std::make_shared<MolMeta>(molmeta) ) { }
-
-LoadBalancerImpl::LoadBalancerImpl( const RuntimeEnvironment& rt, const Molecule& mol, 
-  const MolGrid& mg, const basis_type& basis ) :
-  LoadBalancerImpl( rt, mol, mg, basis, std::make_shared<MolMeta>(mol) ) { }
-
-
-LoadBalancerImpl::LoadBalancerImpl( const LoadBalancerImpl& ) = default;
-LoadBalancerImpl::LoadBalancerImpl( LoadBalancerImpl&& ) noexcept = default;
-
-LoadBalancerImpl::~LoadBalancerImpl() noexcept = default;
-
-const std::vector<XCTask>& LoadBalancerImpl::get_tasks() const {
-  if( not local_tasks_.size() ) GAUXC_GENERIC_EXCEPTION("No Tasks Created");
-  return local_tasks_;
-}
-
-std::vector<XCTask>& LoadBalancerImpl::get_tasks() {
-
-  if( not local_tasks_.size() ) {
-    auto create_tasks_st = std::chrono::high_resolution_clock::now();
-    local_tasks_ = create_local_tasks_();
-    auto create_tasks_en = std::chrono::high_resolution_clock::now();
-    std::chrono::duration<double> create_tasks_dr = create_tasks_en - create_tasks_st; 
-    timer_.add_timing("LoadBalancer.CreateTasks", create_tasks_dr);
-  }
-
-
-  return local_tasks_;
-}
-
-const util::Timer& LoadBalancerImpl::get_timings() const {
-  return timer_;
-}
-
-
-size_t LoadBalancerImpl::total_npts() const {
-
-  return std::accumulate( local_tasks_.cbegin(), local_tasks_.cend(), 0ul,
-    []( const auto& a, const auto& b ) {
-      return a + b.points.size();
-    });
-
-}
-size_t LoadBalancerImpl::max_npts() const {
-
-  if( not local_tasks_.size() ) return 0ul;
-
-  return std::max_element( local_tasks_.cbegin(), local_tasks_.cend(),
-    []( const auto& a, const auto& b ) {
-      return a.points.size() < b.points.size();
-    })->points.size();
-
-}
-size_t LoadBalancerImpl::max_nbe() const {
-
-  if( not local_tasks_.size() ) return 0ul;
-
-  return std::max_element( local_tasks_.cbegin(), local_tasks_.cend(),
-    []( const auto& a, const auto& b ) {
-      return a.bfn_screening.nbe < b.bfn_screening.nbe;
-    })->bfn_screening.nbe;
-
-}
-size_t LoadBalancerImpl::max_npts_x_nbe() const {
-
-  if( not local_tasks_.size() ) return 0ul;
-
-  auto it = std::max_element( local_tasks_.cbegin(), local_tasks_.cend(),
-    []( const auto& a, const auto& b ) {
-      return a.bfn_screening.nbe * a.points.size() < b.bfn_screening.nbe * b.points.size();
-    });
-
-  return it->bfn_screening.nbe * it->points.size();
-
-}
-
-
-
-
-const Molecule& LoadBalancerImpl::molecule() const {
-  return *mol_;
-}
-
-const MolMeta& LoadBalancerImpl::molmeta() const {
-  return *molmeta_;
-}
-
-const LoadBalancerImpl::basis_type& LoadBalancerImpl::basis() const {
-  return *basis_;
-}
-const LoadBalancerImpl::basis_map_type& LoadBalancerImpl::basis_map() const {
-  return *basis_map_;
-}
-const LoadBalancerImpl::shell_pair_type& LoadBalancerImpl::shell_pairs() const {
-  if(!shell_pairs_) GAUXC_GENERIC_EXCEPTION("ShellPairs must be pregenerated for const-context");
-  return *shell_pairs_;
-}
-const LoadBalancerImpl::shell_pair_type& LoadBalancerImpl::shell_pairs() {
-  if(!shell_pairs_) {
-    shell_pairs_ = std::make_shared<shell_pair_type>(*basis_);
-  }
-  return *shell_pairs_;
-}
-
-const RuntimeEnvironment& LoadBalancerImpl::runtime() const {
-  return runtime_;
-}
-
-LoadBalancerState& LoadBalancerImpl::state() {
-  return state_;
-}
-
-}
diff --git a/third_party/gauxc/src/load_balancer/load_balancer_impl.hpp b/third_party/gauxc/src/load_balancer/load_balancer_impl.hpp
deleted file mode 100644
index 53c7586..0000000
--- a/third_party/gauxc/src/load_balancer/load_balancer_impl.hpp
+++ /dev/null
@@ -1,90 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/load_balancer.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-class LoadBalancerImpl {
-
-public:
-
-  using basis_type      = BasisSet<double>;
-  using basis_map_type  = BasisSetMap;
-  using shell_pair_type = ShellPairCollection<double>;
-
-protected:
-
-  RuntimeEnvironment          runtime_;
-  std::shared_ptr<Molecule>   mol_;
-  std::shared_ptr<MolGrid>    mg_;
-  std::shared_ptr<basis_type> basis_;
-  std::shared_ptr<MolMeta>    molmeta_;
-  std::shared_ptr<basis_map_type> basis_map_;
-  std::shared_ptr<shell_pair_type> shell_pairs_;
-
-  std::vector< XCTask >     local_tasks_;
-
-  LoadBalancerState         state_;
-
-  util::Timer               timer_;
-
-  virtual std::vector< XCTask > create_local_tasks_() const = 0;
-
-public:
-
-  LoadBalancerImpl() = delete;
-
-  LoadBalancerImpl( const RuntimeEnvironment&, const Molecule&, const MolGrid& mg,  
-    const basis_type&);
-  LoadBalancerImpl( const RuntimeEnvironment&, const Molecule&, const MolGrid& mg,  
-    const basis_type&, const MolMeta& );
-  LoadBalancerImpl( const RuntimeEnvironment&, const Molecule&, const MolGrid& mg,  
-    const basis_type&, std::shared_ptr<MolMeta> );
-
-  LoadBalancerImpl( const LoadBalancerImpl& );
-  LoadBalancerImpl( LoadBalancerImpl&& ) noexcept;
-
-  virtual ~LoadBalancerImpl() noexcept;
-
-  const std::vector< XCTask >& get_tasks() const;
-        std::vector< XCTask >& get_tasks()      ;
-
-  void rebalance_weights();
-  void rebalance_exc_vxc();
-  void rebalance_exx();
-
-  const util::Timer& get_timings() const;
-
-  size_t total_npts()     const;
-  size_t max_npts()       const;
-  size_t max_nbe()        const;
-  size_t max_npts_x_nbe() const;
-
-  const Molecule& molecule() const;
-  const MolMeta&  molmeta()  const;
-  const basis_type& basis()  const;
-  const RuntimeEnvironment& runtime() const;
-  const basis_map_type& basis_map() const;
-  const shell_pair_type& shell_pairs() const;
-  const shell_pair_type& shell_pairs();
-
-  LoadBalancerState& state();
-
-  virtual std::unique_ptr<LoadBalancerImpl> clone() const = 0;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/load_balancer/rebalance.cxx b/third_party/gauxc/src/load_balancer/rebalance.cxx
deleted file mode 100644
index 3879f19..0000000
--- a/third_party/gauxc/src/load_balancer/rebalance.cxx
+++ /dev/null
@@ -1,394 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "load_balancer_impl.hpp"
-#include <gauxc/util/mpi.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include <fstream>
-
-namespace GauXC::detail {
-
-#ifdef GAUXC_HAS_MPI
-template <typename TaskIterator, typename CostFunctor>
-auto rebalance(TaskIterator begin, TaskIterator end, const CostFunctor& cost, MPI_Comm comm) {
-
-  using hrt_t = std::chrono::high_resolution_clock;
-  using dur_t = std::chrono::duration<double, std::milli>;
-
-  int world_rank, world_size;
-  MPI_Comm_rank(comm, &world_rank);
-  MPI_Comm_size(comm, &world_size);
-
-  MPI_Barrier(MPI_COMM_WORLD);
-  printf(
-  "RANK %d BEFORE REBALNACE: LW = %lu\n",
-    world_rank,
-    std::accumulate(begin, end, 0ul,
-      [=](const auto& a, const auto& b){ return a + cost(b); })
-  );
-
-  // Compute local task costs
-  size_t ntask_local = std::distance(begin, end);
-  std::vector<size_t> local_task_cost(ntask_local);
-  std::transform(begin, end, local_task_cost.begin(),
-    [&](const auto& task){ return cost(task); });
-
-  // Compute task prefix sum
-  auto prefix_st = hrt_t::now();
-  std::vector<size_t> local_prefix_sum(ntask_local);
-  auto [local_task_sum, prefix_seed] =
-    mpi_prefix_sum(local_task_cost.begin(), local_task_cost.end(),
-      local_prefix_sum.begin(), comm);
-
-  // Compute total/avg cost
-  auto total_task_sum = allreduce( local_task_sum, MPI_SUM, comm );
-  size_t task_avg = util::div_ceil(total_task_sum, world_size);
-
-
-  // Generate outgoing messages
-  struct task_message {
-    int dst;
-    size_t idx_st, idx_en, vol;
-  };
-
-  std::vector<task_message> task_outgoing;
-  auto it = local_prefix_sum.begin();
-  for( int i = 0; i < world_size; ++i) {
-    auto n_it = std::lower_bound(it, local_prefix_sum.end(), (size_t)i,
-      [=](auto a, auto b) { return a / task_avg < b+1; });
-    size_t st_idx = std::distance(local_prefix_sum.begin(), it  );
-    size_t en_idx = std::distance(local_prefix_sum.begin(), n_it);
-    if(st_idx != en_idx and i != world_rank) {
-      size_t vol = 0;
-      for( size_t t = st_idx; t < en_idx; ++t ) {
-        vol += (begin + t)->volume();
-      }
-      task_outgoing.push_back({i,st_idx,en_idx,vol});
-      size_t work_to_send = 0;
-      for( size_t t = st_idx; t < en_idx; ++t ) {
-        work_to_send += cost(*(begin + t));
-      }
-      printf("RANK %d SENDING %lu to RANK %d\n", world_rank, work_to_send, i);
-    }
-    it = n_it;
-  }
-
-  auto prefix_en = hrt_t::now();
-
-  // Sanity check
-  if(task_outgoing.size() > 2 )
-    GAUXC_GENERIC_EXCEPTION("Incorrect Outgoing Task Message Size RANK = " + std::to_string(world_rank) + " SZ = " + std::to_string(task_outgoing.size()));
-
-  MPI_Barrier(comm);
-  ring_execute(
-  [&]() {
-    printf("RANK %d MESSAGES:\n", world_rank);
-    for(auto& msg : task_outgoing) {
-      printf("  DST %d ST %lu EN %lu V %lu\n",
-        msg.dst, msg.idx_st, msg.idx_en, msg.vol);
-    }
-  } , comm);
-  MPI_Barrier(comm);
-
-  std::vector<MPI_Request> packed_req; packed_req.reserve(8);
-
-  // Ask neighbors if they're sending messages
-  int recv_from_backward = 0;
-  int recv_from_forward = 0;
-  int send_forward = 0;
-  int send_backward = 0;
-  if(world_rank) {
-    auto& req = packed_req.emplace_back();
-    MPI_Irecv( &recv_from_backward, 1, MPI_INT, world_rank-1, 0, comm, &req );
-  }
-  if(world_rank < world_size-1) {
-    auto& req = packed_req.emplace_back();
-    MPI_Irecv( &recv_from_forward, 1, MPI_INT, world_rank+1, 1, comm, &req );
-  }
-  if(world_rank < world_size-1) {
-    auto& req = packed_req.emplace_back();
-    for(auto& msg : task_outgoing) send_forward |= (msg.dst == world_rank+1);
-    MPI_Isend( &send_forward, 1, MPI_INT, world_rank+1, 0, comm, &req );
-  }
-  if(world_rank) {
-    auto& req = packed_req.emplace_back();
-    for(auto& msg : task_outgoing) send_backward |= (msg.dst == world_rank-1);
-    MPI_Isend( &send_backward, 1, MPI_INT, world_rank-1, 1, comm, &req );
-  }
-
-
-
-  // Wait for messages to complete
-  if(packed_req.size()) {
-    MPI_Waitall(packed_req.size(), packed_req.data(), MPI_STATUS_IGNORE);
-  }
-  // Reset messages
-  packed_req.clear();
-
-  printf("RANK %d, BW %d, FW %d\n", world_rank, recv_from_backward, recv_from_forward );
-  MPI_Barrier(MPI_COMM_WORLD);
-
-
-#if 0
-  // Sanity check
-  if( world_rank < world_size - 1 and task_outgoing.size() != 1 )
-    GAUXC_GENERIC_EXCEPTION("Incorrect Outgoing Task Message Size RANK = " + std::to_string(world_rank));
-  if( world_rank == world_size - 1 and task_outgoing.size() )
-    GAUXC_GENERIC_EXCEPTION("Incorrect Outgoing Task Message Size RANK = " + std::to_string(world_rank));
-#endif
-
-  // Allocate incoming and outgoing buffers = 64 MiB
-  constexpr size_t packed_buffer_size = 64 * 1024 * 1024;
-  MPI_Packed_Buffer packed_outgoing_forward( packed_buffer_size, comm );
-  MPI_Packed_Buffer packed_incoming_forward( packed_buffer_size, comm );
-  MPI_Packed_Buffer packed_outgoing_backward( packed_buffer_size, comm );
-  MPI_Packed_Buffer packed_incoming_backward( packed_buffer_size, comm );
-
-  // Post receives
-  if(recv_from_backward) {
-    auto& packed_recv_req = packed_req.emplace_back();
-    MPI_Irecv( packed_incoming_backward.buffer(), packed_buffer_size, MPI_PACKED,
-      world_rank-1, 0, comm, &packed_recv_req );
-  }
-  if(recv_from_forward) {
-    auto& packed_recv_req = packed_req.emplace_back();
-    MPI_Irecv( packed_incoming_forward.buffer(), packed_buffer_size, MPI_PACKED,
-      world_rank+1, 0, comm, &packed_recv_req );
-  }
-
-  auto pack_st = hrt_t::now();
-  {
-
-  //std::ofstream ofile("task_send." + std::to_string(world_rank) + ".txt");
-
-  auto pack_msg = [&](const auto& msg, auto& mpi_buffer) {
-    size_t ntask_send = msg.idx_en - msg.idx_st;
-    //ofile << "DEST " << msg.dst << std::endl;
-    mpi_buffer.pack(ntask_send); //ofile << ntask_send << std::endl;
-    for(size_t i = msg.idx_st; i < msg.idx_en; ++i) {
-      const auto& task = *(begin + i);
-      mpi_buffer.pack(task.iParent);
-      mpi_buffer.pack(task.npts);
-      mpi_buffer.pack(task.points);
-      mpi_buffer.pack(task.weights);
-      mpi_buffer.pack(task.bfn_screening.shell_list);
-      mpi_buffer.pack(task.bfn_screening.nbe);
-      mpi_buffer.pack(task.cou_screening.shell_list);
-      mpi_buffer.pack(task.cou_screening.shell_pair_list);
-      mpi_buffer.pack(task.cou_screening.shell_pair_idx_list);
-      mpi_buffer.pack(task.cou_screening.nbe);
-      mpi_buffer.pack(task.dist_nearest);
-      //ofile << task.iParent << ", " << task.npts << ", " << task.dist_nearest <<
-      //  ", " << task.bfn_screening.nbe << ", " << task.points.size() <<
-      //  ", " << task.cou_screening.nbe << ", " << task.cou_screening.shell_list.size() <<
-      //  ", " << task.cou_screening.shell_pair_list.size() << ", " << task.cou_screening.shell_pair_idx_list.size()
-      //  << std::endl;
-    }
-
-    // Send data to neighbor
-    auto& packed_send_req = packed_req.emplace_back();
-    auto* buffer = mpi_buffer.buffer();
-    MPI_Isend(buffer, packed_buffer_size, MPI_PACKED, msg.dst, 0,
-      comm, &packed_send_req);
-  };
-
-  // Pack and send to neighbor
-  #if 0
-  if(send_backward or send_forward) {
-    // Pack Data
-    auto& msg = task_outgoing[0];
-    if( msg.dst != world_rank+1 )
-      GAUXC_GENERIC_EXCEPTION("Invalid Destination Rank");
-
-    size_t ntask_send = msg.idx_en - msg.idx_st;
-
-    //std::ofstream ofile("task_send." + std::to_string(world_rank) + ".txt");
-
-    packed_outgoing.pack(ntask_send); //ofile << ntask_send << std::endl;
-    //printf("RANK = %d SEND = %lu\n", world_rank, ntask_send);
-    for(size_t i = msg.idx_st; i < msg.idx_en; ++i) {
-      const auto& task = *(begin + i);
-      packed_outgoing.pack(task.iParent);
-      packed_outgoing.pack(task.npts);
-      packed_outgoing.pack(task.points);
-      packed_outgoing.pack(task.weights);
-      packed_outgoing.pack(task.bfn_screening.shell_list);
-      packed_outgoing.pack(task.bfn_screening.nbe);
-      packed_outgoing.pack(task.cou_screening.shell_list);
-      packed_outgoing.pack(task.cou_screening.shell_pair_list);
-      packed_outgoing.pack(task.cou_screening.shell_pair_idx_list);
-      packed_outgoing.pack(task.cou_screening.nbe);
-      packed_outgoing.pack(task.dist_nearest);
-      //ofile << task.iParent << ", " << task.npts << ", " << task.dist_nearest <<
-      //  ", " << task.bfn_screening.nbe << ", " << task.points.size() << std::endl;
-    }
-
-    // Send data to neighbor
-    auto& packed_send_req = packed_req.emplace_back();
-    auto* buffer = packed_outgoing.buffer();
-    MPI_Isend(buffer, packed_buffer_size, MPI_PACKED, world_rank+1, 0,
-      comm, &packed_send_req);
-
-  }
-  #else
-  for( auto& msg : task_outgoing ) {
-    if(msg.dst == world_rank + 1)
-      pack_msg(msg, packed_outgoing_forward);
-    else
-      pack_msg(msg, packed_outgoing_backward);
-  }
-  #endif
-  }
-
-  auto pack_en = hrt_t::now();
-
-  // Local task storage
-  std::vector< XCTask > local_work;
-
-  // Move local tasks to task storage
-  {
-    auto func = [=](auto a, auto b) { return a / task_avg < b+1; };
-    auto lps_begin = local_prefix_sum.begin();
-    auto lps_end   = local_prefix_sum.end();
-    auto local_begin =
-      world_rank ? std::lower_bound(lps_begin,lps_end,(size_t)(world_rank-1),func) : lps_begin;
-    auto local_end = std::lower_bound(local_begin, lps_end, (size_t)world_rank,func);
-    size_t st_idx = std::distance(lps_begin, local_begin);
-    size_t en_idx = std::distance(lps_begin, local_end  );
-
-    size_t local_cost = 0;
-    for(size_t i = st_idx; i < en_idx; ++i) {
-      local_work.emplace_back( std::move(*(begin + i)) );
-      local_cost += cost(local_work.back());
-    }
-    printf("RANK %d LC %lu\n", world_rank, local_cost);
-  }
-
-
-  // Wait on sends and receives
-  auto wait_st = hrt_t::now();
-  if(packed_req.size()) {
-    MPI_Waitall(packed_req.size(), packed_req.data(), MPI_STATUS_IGNORE);
-  }
-  auto wait_en = hrt_t::now();
-
-
-  auto unpack_st  = hrt_t::now();
-
-  {
-
-  //std::ofstream ofile("task_recv." + std::to_string(world_rank) + ".txt");
-  auto unpack_msg = [&](auto& mpi_buffer) {
-    size_t ntask_recv = 0;
-    //if(&mpi_buffer == &packed_incoming_backward) ofile << "SRC " << world_rank - 1 << std::endl;
-    //else ofile << "SRC " << world_rank + 1 << std::endl;
-
-    mpi_buffer.unpack(ntask_recv); //ofile << ntask_recv << std::endl;
-    for(size_t i = 0; i < ntask_recv; ++i) {
-      auto& task = local_work.emplace_back();
-      mpi_buffer.unpack(task.iParent);
-      mpi_buffer.unpack(task.npts);
-      mpi_buffer.unpack(task.points);
-      mpi_buffer.unpack(task.weights);
-      mpi_buffer.unpack(task.bfn_screening.shell_list);
-      mpi_buffer.unpack(task.bfn_screening.nbe);
-      mpi_buffer.unpack(task.cou_screening.shell_list);
-      mpi_buffer.unpack(task.cou_screening.shell_pair_list);
-      mpi_buffer.unpack(task.cou_screening.shell_pair_idx_list);
-      mpi_buffer.unpack(task.cou_screening.nbe);
-      mpi_buffer.unpack(task.dist_nearest);
-      //ofile << task.iParent << ", " << task.npts << ", " << task.dist_nearest <<
-      //  ", " << task.bfn_screening.nbe << ", " << task.points.size() <<
-      //  ", " << task.cou_screening.nbe << ", " << task.cou_screening.shell_list.size() <<
-      //  ", " << task.cou_screening.shell_pair_list.size() << ", " << task.cou_screening.shell_pair_idx_list.size()
-      //  << std::endl;
-    }
-  };
-  #if 0
-  // Unpack
-  if(world_rank) {
-    size_t ntask_recv = 0;
-    packed_incoming.unpack(ntask_recv); 
-    for(size_t i = 0; i < ntask_recv; ++i) {
-      auto& task = local_work.emplace_back();
-      packed_incoming.unpack(task.iParent);
-      packed_incoming.unpack(task.npts);
-      packed_incoming.unpack(task.points);
-      packed_incoming.unpack(task.weights);
-      packed_incoming.unpack(task.bfn_screening.shell_list);
-      packed_incoming.unpack(task.bfn_screening.nbe);
-      packed_incoming.unpack(task.cou_screening.shell_list);
-      packed_incoming.unpack(task.cou_screening.shell_pair_list);
-      packed_incoming.unpack(task.cou_screening.shell_pair_idx_list);
-      packed_incoming.unpack(task.cou_screening.nbe);
-      packed_incoming.unpack(task.dist_nearest);
-      //ofile << task.iParent << ", " << task.npts << ", " << task.dist_nearest <<
-      //  ", " << task.bfn_screening.nbe << ", " << task.points.size() << std::endl;
-    }
-
-  }
-  #else
-  if(recv_from_backward) unpack_msg(packed_incoming_backward);
-  if(recv_from_forward ) unpack_msg(packed_incoming_forward );
-  #endif
-  }
-  auto unpack_en  = hrt_t::now();
-
-
-  MPI_Barrier(MPI_COMM_WORLD);
-  printf(
-  "RANK %d AFTER REBALNACE: PREFIX_DUR = %f PACK_DUR = %f WAIT_DUR = %f UNPACK_DUR = %f LW = %lu\n",
-    world_rank,
-    dur_t(prefix_en-prefix_st).count(),
-    dur_t(pack_en-pack_st).count(),
-    dur_t(wait_en-wait_st).count(),
-    dur_t(unpack_en-unpack_st).count(),
-    //local_work.size()
-    std::accumulate(local_work.begin(),local_work.end(),0ul,
-      [=](const auto& a, const auto& b){ return a + cost(b); })
-  );
-
-  return local_work;
-
-}
-#endif
-
-
-void LoadBalancerImpl::rebalance_weights() {
-#ifdef GAUXC_HAS_MPI
-  auto& tasks = get_tasks();
-  const size_t natoms = molecule().natoms();
-  auto cost = [=](const auto& task){ return task.cost(1,natoms); };
-  auto new_tasks = rebalance( tasks.begin(), tasks.end(), cost, runtime_.comm());
-  tasks = std::move(new_tasks);
-#endif
-}
-
-void LoadBalancerImpl::rebalance_exc_vxc() {
-#ifdef GAUXC_HAS_MPI
-  auto& tasks = get_tasks();
-  auto cost = [=](const auto& task){ return task.cost_exc_vxc(1); };
-  auto new_tasks = rebalance( tasks.begin(), tasks.end(), cost, runtime_.comm());
-  tasks = std::move(new_tasks);
-#endif
-}
-
-void LoadBalancerImpl::rebalance_exx() {
-#ifdef GAUXC_HAS_MPI
-  auto& tasks = get_tasks();
-  auto cost = [=](const auto& task){ return task.cost_exx(); };
-  auto new_tasks = rebalance( tasks.begin(), tasks.end(), cost, runtime_.comm());
-  local_tasks_ = std::move(new_tasks);
-  MPI_Barrier(MPI_COMM_WORLD);
-#endif
-}
-
-}
diff --git a/third_party/gauxc/src/molecular_weights/CMakeLists.txt b/third_party/gauxc/src/molecular_weights/CMakeLists.txt
deleted file mode 100644
index e9ce4e1..0000000
--- a/third_party/gauxc/src/molecular_weights/CMakeLists.txt
+++ /dev/null
@@ -1,16 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE molecular_weights.cxx )
-add_subdirectory( host )
-if(GAUXC_HAS_DEVICE)
-  add_subdirectory( device )
-endif()
diff --git a/third_party/gauxc/src/molecular_weights/device/CMakeLists.txt b/third_party/gauxc/src/molecular_weights/device/CMakeLists.txt
deleted file mode 100644
index 15f5fe6..0000000
--- a/third_party/gauxc/src/molecular_weights/device/CMakeLists.txt
+++ /dev/null
@@ -1,12 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE device_molecular_weights.cxx )
diff --git a/third_party/gauxc/src/molecular_weights/device/device_molecular_weights.cxx b/third_party/gauxc/src/molecular_weights/device/device_molecular_weights.cxx
deleted file mode 100644
index c5bcce5..0000000
--- a/third_party/gauxc/src/molecular_weights/device/device_molecular_weights.cxx
+++ /dev/null
@@ -1,90 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device_molecular_weights.hpp"
-#include "device/local_device_work_driver.hpp"
-#include "device/device_backend.hpp"
-
-namespace GauXC::detail {
-
-void DeviceMolecularWeights::modify_weights( LoadBalancer& lb ) const {
-
-  if(lb.state().modified_weights_are_stored)
-    GAUXC_GENERIC_EXCEPTION("Attempting to Overwrite Modified Weights");
-  if(this->settings_.weight_alg != XCWeightAlg::SSF)
-    GAUXC_GENERIC_EXCEPTION("Non-SSF Weights NYI for Device Integration");
-
-  // Cast LWD to LocalDeviceWorkDriver
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt   = detail::as_device_runtime(lb.runtime());
-
-  // Create device data
-  auto device_data_ptr = lwd->create_device_data(rt);
-  auto& device_data = *device_data_ptr;
-  device_data.reset_allocations();
-
-  // (Possibly) Generate tasks
-  auto& tasks = lb.get_tasks();
-
-  auto task_begin = tasks.begin();
-  auto task_end   = tasks.end();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::stable_sort(task_begin, task_end, task_comparator );
-
-  const auto& mol  = lb.molecule();
-  const auto natoms = mol.natoms();
-  const auto& meta = lb.molmeta();
-
-  // Setup device data
-  device_data.allocate_static_data_weights( natoms );
-  device_data.send_static_data_weights( mol, meta );
-
-  // TODO: this shouldn't be needed for Weights
-  const auto& basis = lb.basis();
-  BasisSetMap basis_map(basis,mol);
-
-  // Modify the weights
-  integrator_term_tracker enabled_terms;
-  enabled_terms.weights = true;
-
-  // Processes batches in groups that saturadate available device memory
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-    
-    // Determine next task batch, send relevant data to device 
-    auto task_batch_end = 
-      device_data.generate_buffers( enabled_terms, basis_map, 
-        task_it, task_end );
-
-    // Apply partition weights 
-    lwd->partition_weights( &device_data );
-    
-    // Copy back to host data
-    device_data.copy_weights_to_tasks( task_it, task_batch_end );
-
-    // Update iterator
-    task_it = task_batch_end;
-
-  } // End loop over batches
-
-  // Synchronize
-  rt.device_backend()->master_queue_synchronize();
- 
-  lb.state().modified_weights_are_stored = true;
-  lb.state().weight_alg = this->settings_.weight_alg;
-
-}
-
-}
diff --git a/third_party/gauxc/src/molecular_weights/device/device_molecular_weights.hpp b/third_party/gauxc/src/molecular_weights/device/device_molecular_weights.hpp
deleted file mode 100644
index d4cd202..0000000
--- a/third_party/gauxc/src/molecular_weights/device/device_molecular_weights.hpp
+++ /dev/null
@@ -1,40 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "../molecular_weights_impl.hpp"
-namespace GauXC::detail {
-
-class DeviceMolecularWeights : public MolecularWeightsImpl {
-
-public:
-
-  DeviceMolecularWeights() = delete;
-  virtual ~DeviceMolecularWeights() noexcept = default;
-  DeviceMolecularWeights( const DeviceMolecularWeights& ) = delete;
-  DeviceMolecularWeights( DeviceMolecularWeights&& ) noexcept = default;
-
-  template <typename... Args>
-  inline DeviceMolecularWeights(Args&&... args) :
-    MolecularWeightsImpl(std::forward<Args>(args)...) {}
-
-  void modify_weights(LoadBalancer&) const final;
-
-};
-
-template <typename... Args>
-std::unique_ptr<MolecularWeightsImpl> 
-  make_device_mol_weights_impl(Args&&... args) {
-  return std::make_unique<DeviceMolecularWeights>(
-    std::forward<Args>(args)...);
-}
-
-}
diff --git a/third_party/gauxc/src/molecular_weights/host/CMakeLists.txt b/third_party/gauxc/src/molecular_weights/host/CMakeLists.txt
deleted file mode 100644
index 889f10e..0000000
--- a/third_party/gauxc/src/molecular_weights/host/CMakeLists.txt
+++ /dev/null
@@ -1,12 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE host_molecular_weights.cxx )
diff --git a/third_party/gauxc/src/molecular_weights/host/host_molecular_weights.cxx b/third_party/gauxc/src/molecular_weights/host/host_molecular_weights.cxx
deleted file mode 100644
index e722d22..0000000
--- a/third_party/gauxc/src/molecular_weights/host/host_molecular_weights.cxx
+++ /dev/null
@@ -1,44 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "host_molecular_weights.hpp"
-#include "host/local_host_work_driver.hpp"
-
-namespace GauXC::detail {
-
-void HostMolecularWeights::modify_weights( LoadBalancer& lb ) const {
-
-  if(lb.state().modified_weights_are_stored)
-    GAUXC_GENERIC_EXCEPTION("Attempting to Overwrite Modified Weights");
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // (Possibly) Generate tasks
-  auto& tasks = lb.get_tasks();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::stable_sort( tasks.begin(), tasks.end(), task_comparator );
-
-  // Modify the weights
-  const auto& mol  = lb.molecule();
-  const auto& meta = lb.molmeta();
-  lwd->partition_weights( this->settings_.weight_alg, mol, meta, 
-    tasks.begin(), tasks.end() );
-
-  lb.state().modified_weights_are_stored = true;
-  lb.state().weight_alg = this->settings_.weight_alg;
-}
-
-}
diff --git a/third_party/gauxc/src/molecular_weights/host/host_molecular_weights.hpp b/third_party/gauxc/src/molecular_weights/host/host_molecular_weights.hpp
deleted file mode 100644
index 2a03795..0000000
--- a/third_party/gauxc/src/molecular_weights/host/host_molecular_weights.hpp
+++ /dev/null
@@ -1,40 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "../molecular_weights_impl.hpp"
-namespace GauXC::detail {
-
-class HostMolecularWeights : public MolecularWeightsImpl {
-
-public:
-
-  HostMolecularWeights() = delete;
-  virtual ~HostMolecularWeights() noexcept = default;
-  HostMolecularWeights( const HostMolecularWeights& ) = delete;
-  HostMolecularWeights( HostMolecularWeights&& ) noexcept = default;
-
-  template <typename... Args>
-  inline HostMolecularWeights(Args&&... args) :
-    MolecularWeightsImpl(std::forward<Args>(args)...) {}
-
-  void modify_weights(LoadBalancer&) const final;
-
-};
-
-template <typename... Args>
-std::unique_ptr<MolecularWeightsImpl> 
-  make_host_mol_weights_impl(Args&&... args) {
-  return std::make_unique<HostMolecularWeights>(
-    std::forward<Args>(args)...);
-}
-
-}
diff --git a/third_party/gauxc/src/molecular_weights/molecular_weights.cxx b/third_party/gauxc/src/molecular_weights/molecular_weights.cxx
deleted file mode 100644
index d65ccd9..0000000
--- a/third_party/gauxc/src/molecular_weights/molecular_weights.cxx
+++ /dev/null
@@ -1,73 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/exceptions.hpp>
-#include "molecular_weights_impl.hpp"
-#include "host/host_molecular_weights.hpp"
-#ifdef GAUXC_HAS_DEVICE
-#include "device/device_molecular_weights.hpp"
-#endif
-
-namespace GauXC {
-
-MolecularWeights::~MolecularWeights() noexcept = default;
-MolecularWeights::MolecularWeights(MolecularWeights&&) noexcept = default;
-
-MolecularWeights::MolecularWeights(pimpl_ptr_type&& ptr) :
-  pimpl_(std::move(ptr)) {}
-
-void MolecularWeights::modify_weights(load_balancer_reference lb) const {
-  if(not pimpl_) GAUXC_PIMPL_NOT_INITIALIZED();
-  auto& timer = pimpl_->get_timer();
-  timer.time_op("MolecularWeights",[&](){ pimpl_->modify_weights(lb);});
-}
-
-const util::Timer& MolecularWeights::get_timings() const {
-  if(not pimpl_) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->get_timings();
-}
-
-
-
-
-
-
-
-MolecularWeightsFactory::MolecularWeightsFactory( ExecutionSpace ex,
-  std::string lwd_kernel, MolecularWeightsSettings settings ) :
-  ex_(ex), lwd_kernel_(lwd_kernel), settings_(settings) {}
-
-std::shared_ptr<MolecularWeights> 
-  MolecularWeightsFactory::get_shared_instance() {
-
-  // Create Local Work Driver
-  LocalWorkSettings lwd_settings;
-  auto lwd = LocalWorkDriverFactory::make_local_work_driver(ex_,
-    lwd_kernel_, lwd_settings );
-
-  // Create MolecularWeights instance
-  if( ex_ == ExecutionSpace::Host ) {
-    return std::make_shared<MolecularWeights>(
-      detail::make_host_mol_weights_impl(std::move(lwd), settings_)
-    );
-  } else {
-  #ifdef GAUXC_HAS_DEVICE
-    return std::make_shared<MolecularWeights>(
-      detail::make_device_mol_weights_impl(std::move(lwd), settings_)
-    );
-  #else
-    GAUXC_GENERIC_EXCEPTION("Device API Not Enabled");
-  #endif
-  }
-
-}
-
-}
diff --git a/third_party/gauxc/src/molecular_weights/molecular_weights_impl.hpp b/third_party/gauxc/src/molecular_weights/molecular_weights_impl.hpp
deleted file mode 100644
index 7c4b5ed..0000000
--- a/third_party/gauxc/src/molecular_weights/molecular_weights_impl.hpp
+++ /dev/null
@@ -1,48 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/molecular_weights.hpp>
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-
-namespace GauXC::detail {
-
-class MolecularWeightsImpl {
-
-protected:
-
-  std::unique_ptr<LocalWorkDriver> local_work_driver_;
-  MolecularWeightsSettings         settings_;
-  util::Timer timer_;
-
-public:
-
-  MolecularWeightsImpl() = delete;
-  virtual ~MolecularWeightsImpl() noexcept = default;
-  MolecularWeightsImpl( const MolecularWeightsImpl& ) = delete;
-  MolecularWeightsImpl( MolecularWeightsImpl&& ) noexcept = default;
-
-  inline MolecularWeightsImpl(std::unique_ptr<LocalWorkDriver>&& lwd,
-    MolecularWeightsSettings settings) :
-    local_work_driver_(std::move(lwd)),
-    settings_(settings) {}
-
-  virtual void modify_weights(LoadBalancer&) const = 0;
-  inline const util::Timer& get_timings() const {
-    return timer_;
-  };
-
-  inline util::Timer& get_timer() {
-    return timer_;
-  };
-};
-
-}
diff --git a/third_party/gauxc/src/molgrid.cxx b/third_party/gauxc/src/molgrid.cxx
deleted file mode 100644
index f9ee6e5..0000000
--- a/third_party/gauxc/src/molgrid.cxx
+++ /dev/null
@@ -1,38 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "molgrid_impl.hpp"
-#include <gauxc/molgrid/defaults.hpp>
-
-namespace GauXC {
-
-MolGrid::MolGrid( const atomic_grid_map& ag ) :
-  pimpl_( std::make_shared<detail::MolGridImpl>( ag ) ) { }
-  
-MolGrid::MolGrid( const MolGrid& )     = default;
-MolGrid::MolGrid( MolGrid&& ) noexcept = default;
-MolGrid::~MolGrid() noexcept = default;
-
-size_t MolGrid::natoms_uniq() const { return pimpl_->natoms_uniq(); }
-
-const Grid& MolGrid::get_grid( AtomicNumber Z ) const { 
-  return pimpl_->get_grid(Z); 
-}
-Grid& MolGrid::get_grid( AtomicNumber Z ) { 
-  return pimpl_->get_grid(Z); 
-}
-
-size_t MolGrid::max_nbatches() const {
-  return pimpl_->max_nbatches();
-}
-
-}
-
diff --git a/third_party/gauxc/src/molgrid_defaults.cxx b/third_party/gauxc/src/molgrid_defaults.cxx
deleted file mode 100644
index 61b6683..0000000
--- a/third_party/gauxc/src/molgrid_defaults.cxx
+++ /dev/null
@@ -1,161 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/molgrid/defaults.hpp>
-#include <gauxc/exceptions.hpp>
-#include <integratorxx/quadratures/s2/lebedev_laikov.hpp>
-
-namespace GauXC {
-
-RadialScale default_mk_radial_scaling_factor( AtomicNumber _Z ) {
-  auto Z = _Z.get();
-  switch(Z) {
-    case 3:
-    case 4:
-    case 11:
-    case 12:
-    case 19:
-    case 20:
-    case 37:
-    case 38:
-    case 55:
-    case 56:
-    case 87:
-    case 88:
-      return RadialScale(7.0);
-    default:
-      return RadialScale(5.0);
-  }
-}
-
-RadialScale default_ta_radial_scaling_factor( AtomicNumber _Z ) {
-  auto Z = _Z.get();
-  switch(Z) {
-    case 1: return  RadialScale(0.8); // H
-    case 2: return  RadialScale(0.9); // He
-    case 3: return  RadialScale(1.8); // Li
-    case 4: return  RadialScale(1.4); // Be
-    case 5: return  RadialScale(1.3); // B
-    case 6: return  RadialScale(1.1); // C
-    case 7: return  RadialScale(0.9); // N
-    case 8: return  RadialScale(0.9); // O
-    case 9: return  RadialScale(0.9); // F
-    case 10: return RadialScale(0.9); // Ne
-    case 11: return RadialScale(1.4); // Na
-    case 12: return RadialScale(1.3); // Mg
-    case 13: return RadialScale(1.3); // Al
-    case 14: return RadialScale(1.2); // Si
-    case 15: return RadialScale(1.1); // P
-    case 16: return RadialScale(1.0); // S
-    case 17: return RadialScale(1.0); // Cl
-    case 18: return RadialScale(1.0); // Ar
-    case 19: return RadialScale(1.5); // K
-    case 20: return RadialScale(1.4); // Ca
-    case 21: return RadialScale(1.3); // Sc
-    case 22: return RadialScale(1.2); // Ti
-    case 23: return RadialScale(1.2); // V
-    case 24: return RadialScale(1.2); // Cr
-    case 25: return RadialScale(1.2); // Mn
-    case 26: return RadialScale(1.2); // Fe
-    case 27: return RadialScale(1.2); // Co
-    case 28: return RadialScale(1.1); // Ni
-    case 29: return RadialScale(1.1); // Cu
-    case 30: return RadialScale(1.1); // Zn
-    case 31: return RadialScale(1.1); // Ga
-    case 32: return RadialScale(1.0); // Ge
-    case 33: return RadialScale(0.9); // As
-    case 34: return RadialScale(0.9); // Se
-    case 35: return RadialScale(0.9); // Br
-    case 36: return RadialScale(0.9); // Kr
-    default:
-      GAUXC_GENERIC_EXCEPTION("Z > 36 Not Supported for TA Quadrature");
-      abort();
-  }
-}
-
-RadialScale default_mhl_radial_scaling_factor( AtomicNumber _Z ) {
-  auto Z = _Z.get(); 
-  const double fac = (Z!=1) ? 0.5 : 1.0;
-  return RadialScale( default_atomic_radius(_Z) * fac );
-}
-
-RadialScale default_bk_radial_scaling_factor( AtomicNumber _Z ) {
-  auto Z = _Z.get(); 
-  const double fac = (Z!=1) ? 0.5 : 1.0;
-  return RadialScale( default_atomic_radius(_Z) * fac );
-}
-
-RadialScale default_radial_scaling_factor(RadialQuad rq, AtomicNumber Z) {
-  if( rq == RadialQuad::MuraKnowles ) 
-    return default_mk_radial_scaling_factor(Z);
-  else if( rq == RadialQuad::TreutlerAhlrichs )
-    return default_ta_radial_scaling_factor(Z);
-  else if( rq == RadialQuad::Becke )
-    return default_bk_radial_scaling_factor(Z);
-  else // MHL
-    return default_mhl_radial_scaling_factor(Z);
-}
-
-
-
-
-std::tuple<RadialSize,AngularSize> 
-  default_grid_size(AtomicNumber Z, RadialQuad /*rq*/, AtomicGridSizeDefault s) {
-
-  switch(s) {
-    case AtomicGridSizeDefault::GM3:
-      return std::make_tuple( RadialSize(35), AngularSize(110) );
-
-    case AtomicGridSizeDefault::GM5:
-      return std::make_tuple( RadialSize(50), AngularSize(302) );
-
-    case AtomicGridSizeDefault::FineGrid:
-      return std::make_tuple( RadialSize(75), AngularSize(302) );
-
-    case AtomicGridSizeDefault::UltraFineGrid:
-      return std::make_tuple( RadialSize(99), AngularSize(590) );
-
-    case AtomicGridSizeDefault::SuperFineGrid:
-      if( Z.get() <= 2 ) {
-        return std::make_tuple( RadialSize(175), AngularSize(974) );
-      } else {
-        return std::make_tuple( RadialSize(250), AngularSize(974) );
-      }
-
-    default:
-      GAUXC_GENERIC_EXCEPTION("Not A Recognized Standard Grid");
-      abort();
-  }
-
-}
-
-
-
-UnprunedAtomicGridSpecification MolGridFactory::create_default_unpruned_grid_spec(
-  AtomicNumber Z, RadialQuad rq, RadialSize rsz, AngularSize asz
-) {
-  return UnprunedAtomicGridSpecification{
-    rq, rsz, default_radial_scaling_factor(rq,Z), asz
-  };
-}
-
-UnprunedAtomicGridSpecification MolGridFactory::create_default_unpruned_grid_spec(
-  AtomicNumber Z, RadialQuad rq, AtomicGridSizeDefault standard_grid
-) {
-  auto [rsz, asz] = default_grid_size(Z, rq, standard_grid);
-  return create_default_unpruned_grid_spec(Z, rq, rsz, asz);
-}
-
-
-
-
-
-}
diff --git a/third_party/gauxc/src/molgrid_impl.cxx b/third_party/gauxc/src/molgrid_impl.cxx
deleted file mode 100644
index c6939e3..0000000
--- a/third_party/gauxc/src/molgrid_impl.cxx
+++ /dev/null
@@ -1,91 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "molgrid_impl.hpp"
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-namespace detail {
-
-MolGridImpl::MolGridImpl( const atomic_grid_map& ag ) :
-  molgrid_( ag ) { }
-  
-
-MolGridImpl::MolGridImpl( const MolGridImpl& )     = default;
-MolGridImpl::MolGridImpl( MolGridImpl&& ) noexcept = default;
-MolGridImpl::~MolGridImpl() noexcept = default;
-
-size_t MolGridImpl::natoms_uniq() const {
-  return molgrid_.size();
-}
-const Grid& MolGridImpl::get_grid( AtomicNumber Z ) const {
-  return molgrid_.at(Z);
-}
-Grid& MolGridImpl::get_grid( AtomicNumber Z ) {
-  return molgrid_.at(Z);
-}
-
-size_t MolGridImpl::max_nbatches() const {
-
-  return std::max_element( molgrid_.begin(), molgrid_.end(),
-  []( const auto &a, const auto& b ) {
-    return a.second.batcher().nbatches() < 
-           b.second.batcher().nbatches();
-  } )->second.batcher().nbatches();
-
-}
-
-
-
-
-
-#if 0
-void MolGridImpl::generate( RadialQuad rq, const Molecule& mol ) { 
-
-  std::vector<AtomicNumber> Zs; Zs.reserve( mol.natoms() );
-  for( const auto& atom : mol ) Zs.emplace_back( atom.Z );
-
-  std::sort(Zs.begin(),Zs.end(),
-    [](auto& a, auto& b) { return a.get() < b.get(); }
-  );
-  auto zuniq_it = std::unique( Zs.begin(), Zs.end() );
-  Zs.erase( zuniq_it, Zs.end() );
-  Zs.shrink_to_fit();
-
-  molgrid_.clear();
-  for( auto Z : Zs ) {
-
-    auto gsz_it = grid_sizes_.find( Z );
-    if( gsz_it == grid_sizes_.end() )
-      GAUXC_GENERIC_EXCEPTION("Grid Size Map Does Not Contain Z = " + 
-        std::to_string( Z.get() )
-      );
-
-    auto [Rsz, Asz] = gsz_it->second;
-
-    auto rscl_it = scal_factors_.find( Z );
-    if( rscl_it == scal_factors_.end() )
-      GAUXC_GENERIC_EXCEPTION("Scaling Factor Map Does Not Contain Z = " + 
-        std::to_string( Z.get() )
-      );
-
-    auto alpha = rscl_it->second;
-
-    molgrid_.insert_or_assign( Z, Grid( rq, Rsz, Asz, alpha ) );
-
-  }
-
-}
-#endif
-
-
-}
-}
diff --git a/third_party/gauxc/src/molgrid_impl.hpp b/third_party/gauxc/src/molgrid_impl.hpp
deleted file mode 100644
index e8c0590..0000000
--- a/third_party/gauxc/src/molgrid_impl.hpp
+++ /dev/null
@@ -1,41 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/molgrid.hpp>
-
-namespace GauXC {
-namespace detail {
-
-class MolGridImpl {
-
-  atomic_grid_map molgrid_;
-
-public:
-
-  MolGridImpl( const atomic_grid_map& );
-
-  MolGridImpl( const MolGridImpl& );
-  MolGridImpl( MolGridImpl&& ) noexcept;
-
-  ~MolGridImpl() noexcept;
-
-  size_t natoms_uniq() const;
-  const Grid& get_grid( AtomicNumber ) const;
-        Grid& get_grid( AtomicNumber )      ;
-
-  size_t max_nbatches() const;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/molmeta.cxx b/third_party/gauxc/src/molmeta.cxx
deleted file mode 100644
index 3bad998..0000000
--- a/third_party/gauxc/src/molmeta.cxx
+++ /dev/null
@@ -1,62 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/molmeta.hpp>
-
-namespace GauXC {
-
-MolMeta::MolMeta( const Molecule& mol ) : natoms_(mol.natoms()){
-  compute_rab(mol);
-  compute_dist_nearest();
-  sum_atomic_charges_ = std::accumulate( mol.begin(), mol.end(), 0ul,
-    [](auto a, const auto& b){ return a + b.Z.get(); });
-}
-
-MolMeta::MolMeta( const MolMeta& ) = default;
-MolMeta::MolMeta( MolMeta&& ) noexcept = default;
-MolMeta::~MolMeta() noexcept = default;
-
-
-void MolMeta::compute_rab(const Molecule& mol) {
-
-  rab_.resize( natoms_*natoms_ );
-
-  for( size_t i = 0; i < natoms_; ++i ) {
-    rab_[i*(natoms_+1)] = 0.;
-    for( size_t j = 0; j < i; ++j ) {
-      const double dab_x = mol[i].x - mol[j].x;
-      const double dab_y = mol[i].y - mol[j].y;
-      const double dab_z = mol[i].z - mol[j].z;
-
-      rab_[i + j*natoms_] = std::sqrt(dab_x*dab_x + dab_y*dab_y + dab_z*dab_z);
-      rab_[j + i*natoms_] = rab_[i + j*natoms_];
-    }
-  }
-
-}
-
-void MolMeta::compute_dist_nearest() {
-
-  dist_nearest_.resize(natoms_);
-  for( size_t i = 0; i < natoms_; ++i ) {
-    double dn = std::numeric_limits<double>::infinity();
-
-    auto at_begin = rab_.begin() + i*natoms_;
-    for( size_t j = 0; j < natoms_; ++j )
-    if( i != j and *(at_begin + j) < dn )
-      dn = *(at_begin + j);
-
-    dist_nearest_[i] = dn;
-  }
-
-}
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/CMakeLists.txt b/third_party/gauxc/src/reduction_driver/CMakeLists.txt
deleted file mode 100644
index 07ca949..0000000
--- a/third_party/gauxc/src/reduction_driver/CMakeLists.txt
+++ /dev/null
@@ -1,27 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  reduction_driver.cxx
-  reduction_driver_factory.cxx
-  reduction_driver_impl.cxx
-)
-
-
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
-
-add_subdirectory(host)
-if( GAUXC_HAS_DEVICE )
-  add_subdirectory(device)
-endif()
diff --git a/third_party/gauxc/src/reduction_driver/device/CMakeLists.txt b/third_party/gauxc/src/reduction_driver/device/CMakeLists.txt
deleted file mode 100644
index 95d6575..0000000
--- a/third_party/gauxc/src/reduction_driver/device/CMakeLists.txt
+++ /dev/null
@@ -1,23 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  device_reduction_driver.cxx
-)
-
-if( GAUXC_ENABLE_NCCL )
-  target_sources( gauxc PRIVATE nccl_reduction_driver.cxx )
-  message( STATUS "NCCL Has Been Enabled" )
-  find_package( NCCL REQUIRED )
-  target_link_libraries( gauxc PUBLIC NCCL::nccl )
-  set(GAUXC_HAS_NCCL TRUE CACHE BOOL "GauXC has NCCL" FORCE)
-endif()
-
diff --git a/third_party/gauxc/src/reduction_driver/device/device_reduction_driver.cxx b/third_party/gauxc/src/reduction_driver/device/device_reduction_driver.cxx
deleted file mode 100644
index 2395e72..0000000
--- a/third_party/gauxc/src/reduction_driver/device/device_reduction_driver.cxx
+++ /dev/null
@@ -1,27 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device_reduction_driver.hpp"
-
-namespace GauXC {
-
-DeviceReductionDriver::DeviceReductionDriver(const RuntimeEnvironment& rt) :
-  detail::ReductionDriverImpl(rt) { }
-
-
-DeviceReductionDriver::~DeviceReductionDriver() noexcept = default;
-
-
-
-bool DeviceReductionDriver::takes_host_memory() const {return false;}; 
-bool DeviceReductionDriver::takes_device_memory() const {return true;};
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/device/device_reduction_driver.hpp b/third_party/gauxc/src/reduction_driver/device/device_reduction_driver.hpp
deleted file mode 100644
index b26dafe..0000000
--- a/third_party/gauxc/src/reduction_driver/device/device_reduction_driver.hpp
+++ /dev/null
@@ -1,29 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "reduction_driver_impl.hpp"
-
-
-namespace GauXC {
-
-struct DeviceReductionDriver : public detail::ReductionDriverImpl {
-
-  bool takes_host_memory() const override; 
-  bool takes_device_memory() const override;
-
-  virtual ~DeviceReductionDriver() noexcept;
-
-  DeviceReductionDriver(const RuntimeEnvironment& rt);
-
-};
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/device/nccl_reduction_driver.cxx b/third_party/gauxc/src/reduction_driver/device/nccl_reduction_driver.cxx
deleted file mode 100644
index 7c31480..0000000
--- a/third_party/gauxc/src/reduction_driver/device/nccl_reduction_driver.cxx
+++ /dev/null
@@ -1,111 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "nccl_reduction_driver.hpp"
-#include <cstring>
-#include <memory>
-#include <map>
-#include <iostream>
-
-#include "device_specific/cuda_util.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-ncclDataType_t get_nccl_datatype( std::type_index idx ) {
-
-  static std::map<std::type_index, ncclDataType_t> map {
-    {std::type_index(typeid(double)), ncclDouble},
-    {std::type_index(typeid(float)),  ncclFloat}
-  };
-
-  return map.at(idx);
-
-}
-
-ncclRedOp_t get_nccl_op( ReductionOp op ) {
-
-  static std::map< ReductionOp, ncclRedOp_t > map {
-    { ReductionOp::Sum, ncclSum }
-  };
-
-  return map.at(op);
-
-}
-
-cudaStream_t get_cuda_stream_from_optional_args( std::any& args ) {
-  cudaStream_t stream = 0;
-
-  if( args.has_value() ) {
-    if( auto ptr = std::any_cast<device_queue>( &args ) ) 
-    if( auto passed_stream = ptr->queue_as_ptr<util::cuda_stream>() ) {
-      stream = *passed_stream;
-    }
-  }
-
-  return stream;
-}
-
-
-NCCLReductionDriver::NCCLReductionDriver(const RuntimeEnvironment& rt) :
-  DeviceReductionDriver(rt),
-  nccl_comm_( std::make_shared<util::nccl_comm>(rt.comm()) ){ }
-
-
-NCCLReductionDriver::~NCCLReductionDriver() noexcept = default;
-NCCLReductionDriver::NCCLReductionDriver(const NCCLReductionDriver&) = default;
-
-
-void NCCLReductionDriver::allreduce_typeerased( const void* src, void* dest, 
-  size_t size, ReductionOp op, std::type_index idx, std::any optional_args )  {
-
-  auto stream = get_cuda_stream_from_optional_args( optional_args );
-
-  auto synchronize = [&]() {
-    if( stream == 0 ) cudaDeviceSynchronize();
-    else              cudaStreamSynchronize(stream);
-  };
-
-  synchronize();
-  auto err = ncclAllReduce( src, dest, size, get_nccl_datatype(idx), 
-    get_nccl_op(op), *nccl_comm_, 0 );
-
-  if( err != ncclSuccess ) GAUXC_GENERIC_EXCEPTION("NCCL FAILED");
-  synchronize();
-
-}
-void NCCLReductionDriver::allreduce_inplace_typeerased( void* data, size_t size,
-  ReductionOp op, std::type_index idx, std::any optional_args) {
-
-  auto stream = get_cuda_stream_from_optional_args( optional_args );
-
-  auto synchronize = [&]() {
-    if( stream == 0 ) cudaDeviceSynchronize();
-    else              cudaStreamSynchronize(stream);
-  };
-
-  synchronize();
-  auto err = ncclAllReduce( data, data, size, get_nccl_datatype(idx),
-    get_nccl_op(op), *nccl_comm_, stream );
-
-  if( err != ncclSuccess ) GAUXC_GENERIC_EXCEPTION("NCCL FAILED");
-  synchronize();
-
-
-}
-
-std::unique_ptr<detail::ReductionDriverImpl> NCCLReductionDriver::clone() {
-  return std::make_unique<NCCLReductionDriver>(*this);
-}
-
-
-}
-
diff --git a/third_party/gauxc/src/reduction_driver/device/nccl_reduction_driver.hpp b/third_party/gauxc/src/reduction_driver/device/nccl_reduction_driver.hpp
deleted file mode 100644
index 529c6c9..0000000
--- a/third_party/gauxc/src/reduction_driver/device/nccl_reduction_driver.hpp
+++ /dev/null
@@ -1,68 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device_reduction_driver.hpp"
-#include <nccl.h>
-#include <memory>
-
-namespace GauXC {
-
-namespace util {
-struct nccl_comm {
-
-  ncclComm_t comm;
-
-  inline nccl_comm( MPI_Comm mpi_comm ) { 
-    int32_t world_rank, world_size;
-    MPI_Comm_rank( mpi_comm, &world_rank );
-    MPI_Comm_size( mpi_comm, &world_size );
-
-    ncclUniqueId id;
-    if (world_rank == 0) ncclGetUniqueId(&id);
-    MPI_Bcast(&id, sizeof(id), MPI_BYTE, 0, MPI_COMM_WORLD);
-
-    ncclCommInitRank(&comm, world_size, id, world_rank);
-  }
-
-  inline ~nccl_comm() noexcept {
-    if( comm != 0 ) ncclCommDestroy(comm);
-  }
-
-  nccl_comm( const nccl_comm& ) = delete;
-  inline nccl_comm( nccl_comm&& other ) noexcept {
-    comm = other.comm;
-    other.comm = 0;
-  };
-
-  inline operator ncclComm_t() const { return comm; }
-
-};
-}
-
-
-struct NCCLReductionDriver : public DeviceReductionDriver {
-
-  std::shared_ptr<util::nccl_comm> nccl_comm_;
-
-  NCCLReductionDriver(const RuntimeEnvironment& rt);
-  virtual ~NCCLReductionDriver() noexcept;
-  NCCLReductionDriver(const NCCLReductionDriver& );
-
-  void allreduce_typeerased( const void*, void*, size_t, ReductionOp, std::type_index, std::any) override;
-  void allreduce_inplace_typeerased( void*, size_t, ReductionOp, std::type_index, std::any ) override;
-  
-  std::unique_ptr<detail::ReductionDriverImpl> clone() override;
-
-};
-
-}
-
diff --git a/third_party/gauxc/src/reduction_driver/host/CMakeLists.txt b/third_party/gauxc/src/reduction_driver/host/CMakeLists.txt
deleted file mode 100644
index a3bc5fe..0000000
--- a/third_party/gauxc/src/reduction_driver/host/CMakeLists.txt
+++ /dev/null
@@ -1,15 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  basic_mpi_reduction_driver.cxx
-  host_reduction_driver.cxx
-)
diff --git a/third_party/gauxc/src/reduction_driver/host/basic_mpi_reduction_driver.cxx b/third_party/gauxc/src/reduction_driver/host/basic_mpi_reduction_driver.cxx
deleted file mode 100644
index 904f7ca..0000000
--- a/third_party/gauxc/src/reduction_driver/host/basic_mpi_reduction_driver.cxx
+++ /dev/null
@@ -1,117 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "basic_mpi_reduction_driver.hpp"
-#include <cstring>
-#include <memory>
-#include <map>
-#include <iostream>
-#include <cstddef>
-
-namespace GauXC {
-
-#ifdef GAUXC_HAS_MPI
-MPI_Datatype get_mpi_datatype( std::type_index idx ) {
-
-  static std::map<std::type_index, MPI_Datatype> map {
-    {std::type_index(typeid(double)), MPI_DOUBLE},
-    {std::type_index(typeid(float)),  MPI_FLOAT}
-  };
-
-  return map.at(idx);
-
-}
-
-MPI_Op get_mpi_op( ReductionOp op ) {
-
-  static std::map< ReductionOp, MPI_Op > map {
-    { ReductionOp::Sum, MPI_SUM }
-  };
-
-  return map.at(op);
-
-}
-#endif
-
-size_t get_dtype_size( std::type_index idx ) {
-
-  static std::map<std::type_index, size_t> map {
-    {std::type_index(typeid(double)), sizeof(double)}, 
-    {std::type_index(typeid(float)),  sizeof(float)}
-  };
-
-  return map.at(idx);
-}
-
-
-BasicMPIReductionDriver::BasicMPIReductionDriver(const RuntimeEnvironment& rt) :
-  HostReductionDriver(rt) { }
-
-
-BasicMPIReductionDriver::~BasicMPIReductionDriver() noexcept = default;
-BasicMPIReductionDriver::BasicMPIReductionDriver(const BasicMPIReductionDriver&) = default;
-
-
-void BasicMPIReductionDriver::allreduce_typeerased( const void* src, void* dest, 
-  size_t size, ReductionOp op, std::type_index idx, std::any optional_args )  {
-
-  if( optional_args.has_value() )
-    std::cout << "** Warning: Optional Args Are Not Used in BasiMPIReductionDriver::allreduce" << std::endl;
-
-  int world_size = runtime_.comm_size();
-
-  if( world_size == 1 ) {
-    std::memcpy( dest, src, size * get_dtype_size(idx)); 
-  } else  {
-    #ifdef GAUXC_HAS_MPI 
-    MPI_Allreduce( src, dest, size, get_mpi_datatype(idx), get_mpi_op(op), runtime_.comm() );
-    #endif
-  }
-
-
-}
-void BasicMPIReductionDriver::allreduce_inplace_typeerased( void* data, size_t size,
-  ReductionOp op, std::type_index idx, std::any optional_args ) {
-
-  if( optional_args.has_value() )
-    std::cout << "** Warning: Optional Args Are Not Used in BasiMPIReductionDriver::allreduce" << std::endl;
-
-  int world_size = runtime_.comm_size();
-
-  if(world_size > 1) {
-    #ifdef GAUXC_HAS_MPI
-    // Test of communicator is an inter-communicator
-    int inter_flag;
-    MPI_Comm_test_inter( runtime_.comm(), &inter_flag );
-
-    // Reduce in place
-    if( not inter_flag ) {
-      MPI_Allreduce( MPI_IN_PLACE, data, size, get_mpi_datatype(idx), get_mpi_op(op), runtime_.comm() );
-
-    // Cannot reduce in place
-    } else {
-      std::allocator<std::byte> alloc;
-      auto* tmp = alloc.allocate( size );
-      std::memcpy(tmp, data, size);
-      allreduce_typeerased( tmp, data, size, op, idx, optional_args );
-      alloc.deallocate( tmp, size );
-    }
-    #endif
-  }
-}
-
-std::unique_ptr<detail::ReductionDriverImpl> BasicMPIReductionDriver::clone() {
-  return std::make_unique<BasicMPIReductionDriver>(*this);
-}
-
-
-}
-
diff --git a/third_party/gauxc/src/reduction_driver/host/basic_mpi_reduction_driver.hpp b/third_party/gauxc/src/reduction_driver/host/basic_mpi_reduction_driver.hpp
deleted file mode 100644
index 8172edc..0000000
--- a/third_party/gauxc/src/reduction_driver/host/basic_mpi_reduction_driver.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "host_reduction_driver.hpp"
-
-namespace GauXC {
-
-struct BasicMPIReductionDriver : public HostReductionDriver {
-
-  BasicMPIReductionDriver(const RuntimeEnvironment& rt);
-  virtual ~BasicMPIReductionDriver() noexcept;
-  BasicMPIReductionDriver(const BasicMPIReductionDriver& );
-
-  void allreduce_typeerased( const void*, void*, size_t, ReductionOp, std::type_index, std::any ) override;
-  void allreduce_inplace_typeerased( void*, size_t, ReductionOp, std::type_index, std::any ) override;
-  
-  std::unique_ptr<detail::ReductionDriverImpl> clone() override;
-
-};
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/host/host_reduction_driver.cxx b/third_party/gauxc/src/reduction_driver/host/host_reduction_driver.cxx
deleted file mode 100644
index fe28860..0000000
--- a/third_party/gauxc/src/reduction_driver/host/host_reduction_driver.cxx
+++ /dev/null
@@ -1,27 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "host_reduction_driver.hpp"
-
-namespace GauXC {
-
-HostReductionDriver::HostReductionDriver(const RuntimeEnvironment& rt) :
-  detail::ReductionDriverImpl(rt) { }
-
-
-HostReductionDriver::~HostReductionDriver() noexcept = default;
-
-
-
-bool HostReductionDriver::takes_host_memory() const {return true;}; 
-bool HostReductionDriver::takes_device_memory() const {return false;};
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/host/host_reduction_driver.hpp b/third_party/gauxc/src/reduction_driver/host/host_reduction_driver.hpp
deleted file mode 100644
index fe661de..0000000
--- a/third_party/gauxc/src/reduction_driver/host/host_reduction_driver.hpp
+++ /dev/null
@@ -1,29 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "reduction_driver_impl.hpp"
-
-
-namespace GauXC {
-
-struct HostReductionDriver : public detail::ReductionDriverImpl {
-
-  bool takes_host_memory() const override; 
-  bool takes_device_memory() const override;
-
-  virtual ~HostReductionDriver() noexcept;
-
-  HostReductionDriver(const RuntimeEnvironment& rt);
-
-};
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/reduction_driver.cxx b/third_party/gauxc/src/reduction_driver/reduction_driver.cxx
deleted file mode 100644
index 26a5741..0000000
--- a/third_party/gauxc/src/reduction_driver/reduction_driver.cxx
+++ /dev/null
@@ -1,53 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "reduction_driver_impl.hpp"
-#include <gauxc/exceptions.hpp>
-
-
-namespace GauXC {
-
-ReductionDriver::ReductionDriver( std::unique_ptr<pimpl_type>&& pimpl ): 
-  pimpl_( std::move(pimpl) ) { }
-
-ReductionDriver::ReductionDriver() : ReductionDriver( nullptr ) { }
-
-ReductionDriver::ReductionDriver( const ReductionDriver& other ) :
-  ReductionDriver(other.pimpl_->clone()){ }
-
-ReductionDriver::ReductionDriver( ReductionDriver&& ) noexcept = default;
-              
-ReductionDriver::~ReductionDriver() noexcept = default;
-
-
-void ReductionDriver::allreduce_typeerased( const void* src, void* dest, size_t size, ReductionOp op, std::type_index idx, std::any optional_args ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  pimpl_->allreduce_typeerased(src, dest, size, op, idx, optional_args);
-}
-
-void ReductionDriver::allreduce_inplace_typeerased( void* data, size_t size, ReductionOp op, std::type_index idx, std::any optional_args ) {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  pimpl_->allreduce_inplace_typeerased(data, size, op, idx, optional_args);
-}
-
-bool ReductionDriver::takes_host_memory() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->takes_host_memory();
-}
-bool ReductionDriver::takes_device_memory() const {
-  if( not pimpl_ ) GAUXC_PIMPL_NOT_INITIALIZED();
-  return pimpl_->takes_device_memory();
-}
-
-
-
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/reduction_driver_factory.cxx b/third_party/gauxc/src/reduction_driver/reduction_driver_factory.cxx
deleted file mode 100644
index 8b3d5f3..0000000
--- a/third_party/gauxc/src/reduction_driver/reduction_driver_factory.cxx
+++ /dev/null
@@ -1,50 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "reduction_driver_impl.hpp"
-#include "host/basic_mpi_reduction_driver.hpp"
-
-#ifdef GAUXC_HAS_NCCL
-#include "device/nccl_reduction_driver.hpp"
-#endif
-
-
-#include <algorithm>
-#include <iostream>
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-std::shared_ptr<ReductionDriver> ReductionDriverFactory::get_shared_instance(
-  const RuntimeEnvironment& rt, std::string kernel_name ) {
-
-  std::transform(kernel_name.begin(), kernel_name.end(), 
-    kernel_name.begin(), ::toupper );
-
-  std::unique_ptr<detail::ReductionDriverImpl> ptr = nullptr;
-
-  if( kernel_name == "DEFAULT" ) kernel_name = "BASICMPI";
-
-  if( kernel_name == "BASICMPI" )
-    ptr = std::make_unique<BasicMPIReductionDriver>(rt);
-
-  #ifdef GAUXC_HAS_NCCL
-    if( kernel_name == "NCCL" )
-      ptr = std::make_unique<NCCLReductionDriver>(rt);
-  #endif
-
-  if( !ptr ) GAUXC_GENERIC_EXCEPTION("Unknown Reduction Driver " + kernel_name);
-
-  return std::make_shared<ReductionDriver>(std::move(ptr));
-
-}
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/reduction_driver_impl.cxx b/third_party/gauxc/src/reduction_driver/reduction_driver_impl.cxx
deleted file mode 100644
index 9635126..0000000
--- a/third_party/gauxc/src/reduction_driver/reduction_driver_impl.cxx
+++ /dev/null
@@ -1,23 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "reduction_driver_impl.hpp"
-
-namespace GauXC::detail {
-
-
-ReductionDriverImpl::ReductionDriverImpl( const RuntimeEnvironment& rt ) 
-  : runtime_(rt){}
-
-ReductionDriverImpl::~ReductionDriverImpl() noexcept = default;
-ReductionDriverImpl::ReductionDriverImpl(const ReductionDriverImpl& ) = default;
-
-}
diff --git a/third_party/gauxc/src/reduction_driver/reduction_driver_impl.hpp b/third_party/gauxc/src/reduction_driver/reduction_driver_impl.hpp
deleted file mode 100644
index 3c09346..0000000
--- a/third_party/gauxc/src/reduction_driver/reduction_driver_impl.hpp
+++ /dev/null
@@ -1,42 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/reduction_driver.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-class ReductionDriverImpl {
-
-protected: 
-
-  const RuntimeEnvironment& runtime_;
-
-public:
-
-  ReductionDriverImpl() = delete;
-  ReductionDriverImpl( const RuntimeEnvironment& rt);
-
-  virtual ~ReductionDriverImpl() noexcept;
-  ReductionDriverImpl( const ReductionDriverImpl& );
-
-  virtual void allreduce_typeerased( const void*, void*, size_t, ReductionOp, std::type_index, std::any ) = 0;
-  virtual void allreduce_inplace_typeerased( void*, size_t, ReductionOp, std::type_index, std::any ) = 0;
-  
-  virtual bool takes_host_memory() const = 0;
-  virtual bool takes_device_memory() const = 0;
-
-  virtual std::unique_ptr<ReductionDriverImpl> clone() = 0;
-};
-
-}
-}
diff --git a/third_party/gauxc/src/runtime_environment/CMakeLists.txt b/third_party/gauxc/src/runtime_environment/CMakeLists.txt
deleted file mode 100644
index 2ef1032..0000000
--- a/third_party/gauxc/src/runtime_environment/CMakeLists.txt
+++ /dev/null
@@ -1,19 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE runtime_environment.cxx )
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
-if(GAUXC_HAS_DEVICE)
-  add_subdirectory(device)
-endif()
diff --git a/third_party/gauxc/src/runtime_environment/device/CMakeLists.txt b/third_party/gauxc/src/runtime_environment/device/CMakeLists.txt
deleted file mode 100644
index 151a588..0000000
--- a/third_party/gauxc/src/runtime_environment/device/CMakeLists.txt
+++ /dev/null
@@ -1,20 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE device_runtime_environment.cxx )
-if(GAUXC_ENABLE_CUDA)
-  add_subdirectory( cuda )
-endif()
-
-if(GAUXC_ENABLE_HIP)
-  add_subdirectory( hip )
-endif()
-
diff --git a/third_party/gauxc/src/runtime_environment/device/cuda/CMakeLists.txt b/third_party/gauxc/src/runtime_environment/device/cuda/CMakeLists.txt
deleted file mode 100644
index 50ea945..0000000
--- a/third_party/gauxc/src/runtime_environment/device/cuda/CMakeLists.txt
+++ /dev/null
@@ -1,23 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-if( NOT TARGET CUDA::cublas )
-  find_package( CUDAToolkit REQUIRED )
-endif()
-
-target_compile_features( gauxc PRIVATE cuda_std_14 )
-target_sources( gauxc PRIVATE cuda_backend.cxx )
-
-if(NOT GAUXC_LINK_CUDA_STATIC)
-  target_link_libraries( gauxc PUBLIC CUDA::cudart CUDA::cublas )
-else()
-  target_link_libraries( gauxc PUBLIC CUDA::cudart_static CUDA::cublas_static )
-endif()
diff --git a/third_party/gauxc/src/runtime_environment/device/cuda/cuda_backend.cxx b/third_party/gauxc/src/runtime_environment/device/cuda/cuda_backend.cxx
deleted file mode 100644
index 610f33f..0000000
--- a/third_party/gauxc/src/runtime_environment/device/cuda/cuda_backend.cxx
+++ /dev/null
@@ -1,144 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cuda_backend.hpp"
-
-namespace GauXC {
-
-CUDABackend::CUDABackend() {
-
-  // Create CUDA Stream and CUBLAS Handles and make them talk to eachother
-  master_stream = std::make_shared< util::cuda_stream >();
-  master_handle = std::make_shared< util::cublas_handle >();
-
-  cublasSetStream( *master_handle, *master_stream );
-
-#ifdef GAUXC_HAS_MAGMA
-  // Setup MAGMA queue with CUDA stream / cuBLAS handle
-  master_magma_queue_ = std::make_shared< util::magma_queue >(0, *master_stream, *master_handle);
-#endif
-
-}
-
-CUDABackend::~CUDABackend() noexcept = default;
-
-CUDABackend::device_buffer_t CUDABackend::allocate_device_buffer(int64_t sz) {
-  void* ptr;
-  auto stat = cudaMalloc(&ptr, sz);
-  GAUXC_CUDA_ERROR( "CUDA Malloc Failed", stat );
-  return device_buffer_t{ptr,sz};
-}
-
-size_t CUDABackend::get_available_mem() {
-  size_t cuda_avail, cuda_total;
-  auto stat = cudaMemGetInfo( &cuda_avail, &cuda_total );
-  GAUXC_CUDA_ERROR( "MemInfo Failed", stat );
-  return cuda_avail;
-}
-
-void CUDABackend::free_device_buffer( void* ptr ) {
-  cudaFree(ptr);
-}
-
-void CUDABackend::master_queue_synchronize() {
-  cudaStreamSynchronize( *master_stream );
-}
-
-
-device_queue CUDABackend::queue() {
-  return device_queue(master_stream);
-}
-
-
-
-void CUDABackend::create_blas_queue_pool(int32_t ns) {
-  blas_streams.resize(ns);
-  blas_handles.resize(ns);
-  for( auto i = 0; i < ns; ++i ) {
-    blas_streams[i] = std::make_shared<util::cuda_stream>();
-    blas_handles[i] = std::make_shared<util::cublas_handle>();
-    cublasSetStream( *blas_handles[i], *blas_streams[i] );
-  }
-}
-
-void CUDABackend::sync_master_with_blas_pool() {
-  const auto n_streams = blas_streams.size();
-  std::vector<util::cuda_event> blas_events( n_streams );
-  for( size_t iS = 0; iS < n_streams; ++iS )
-    blas_events[iS].record( *blas_streams[iS] );
-
-  for( auto& event : blas_events ) master_stream->wait(event);
-}
-
-void CUDABackend::sync_blas_pool_with_master() {
-  util::cuda_event master_event;
-  master_event.record( *master_stream );
-  for( auto& stream : blas_streams ) stream->wait( master_event );
-}
-
-size_t CUDABackend::blas_pool_size(){ return blas_streams.size(); }
-
-device_queue CUDABackend::blas_pool_queue(int32_t i) {
-  return device_queue( blas_streams.at(i) );
-}
-
-device_blas_handle CUDABackend::blas_pool_handle(int32_t i) {
-  return device_blas_handle( blas_handles.at(i) );
-}
-device_blas_handle CUDABackend::master_blas_handle() {
-  return device_blas_handle( master_handle );
-}
-
-
-
-
-
-
-
-
-
-
-void CUDABackend::copy_async_( size_t sz, const void* src, void* dest,
-  std::string msg ) {
-  auto stat = cudaMemcpyAsync( dest, src, sz, cudaMemcpyDefault, *master_stream );
-  GAUXC_CUDA_ERROR( "CUDA Memcpy Async Failed ["+msg+"]", stat );
-}
-
-void CUDABackend::set_zero_(size_t sz, void* data, std::string msg ) {
-  auto stat = cudaMemset( data, 0, sz );
-  GAUXC_CUDA_ERROR( "CUDA Memset Failed ["+msg+"]", stat );
-}
-
-void CUDABackend::set_zero_async_master_queue_(size_t sz, void* data, std::string msg ) {
-  auto stat = cudaMemsetAsync( data, 0, sz, *master_stream );
-  GAUXC_CUDA_ERROR( "CUDA Memset Failed ["+msg+"]", stat );
-}
-
-void CUDABackend::copy_async_2d_( size_t M, size_t N, const void* A, size_t LDA,
-  void* B, size_t LDB, std::string msg ) {
-  auto stat = cudaMemcpy2DAsync( B, LDB, A, LDA, M, N, cudaMemcpyDefault,
-    *master_stream );
-  GAUXC_CUDA_ERROR( "CUDA 2D Memcpy Async Failed ["+msg+"]", stat );
-}
-
-void CUDABackend::check_error_(std::string msg) {
-  // TODO The source location generated by GAUXC_CUDA_ERROR will not be useful
-  // when this used. This should use std::source_location once C++20 support
-  // is more wide spread
-  auto stat = cudaGetLastError();
-  GAUXC_CUDA_ERROR("CUDA Failed ["+msg+"]", stat );
-}
-
-
-std::unique_ptr<DeviceBackend> make_device_backend() {
-  return std::make_unique<CUDABackend>();
-}
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/cuda/cuda_backend.hpp b/third_party/gauxc/src/runtime_environment/device/cuda/cuda_backend.hpp
deleted file mode 100644
index 8e47a6a..0000000
--- a/third_party/gauxc/src/runtime_environment/device/cuda/cuda_backend.hpp
+++ /dev/null
@@ -1,57 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/device_backend.hpp"
-#include <memory>
-#include "device_specific/cuda_util.hpp"
-#include "device_specific/cublas_util.hpp"
-
-namespace GauXC {
-
-struct CUDABackend : public DeviceBackend {
-
-  device_buffer_t   allocate_device_buffer(int64_t sz) override final;
-  size_t            get_available_mem() override final;
-  void              free_device_buffer( void* ptr ) override final;
-  void              master_queue_synchronize() override final;
-  void              create_blas_queue_pool(int32_t)   override final;
-  void              sync_master_with_blas_pool() override final;
-  void              sync_blas_pool_with_master() override final;
-  size_t            blas_pool_size() override final;
-
-  device_queue       queue() override final;
-  device_queue       blas_pool_queue(int32_t) override final;
-  device_blas_handle blas_pool_handle(int32_t) override final;
-  device_blas_handle master_blas_handle() override final;
-
-  void copy_async_( size_t sz, const void* src, void* dest, 
-                    std::string msg ) override final;
-  void set_zero_( size_t sz, void* data, std::string msg) override final;
-  void set_zero_async_master_queue_( size_t sz, void* data, std::string msg) override final;
-
-  void copy_async_2d_( size_t M, size_t N, const void* A, size_t LDA,
-    void* B, size_t LDB, std::string msg ) override final;
-
-  void check_error_(std::string msg) override final;
-
-  CUDABackend();
-  ~CUDABackend() noexcept;
-
-  // Execution management
-  std::shared_ptr<util::cuda_stream>   master_stream = nullptr;
-  std::shared_ptr<util::cublas_handle> master_handle = nullptr;
-
-  std::vector<std::shared_ptr<util::cuda_stream>>   blas_streams;
-  std::vector<std::shared_ptr<util::cublas_handle>> blas_handles;
-};
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/device_backend.hpp b/third_party/gauxc/src/runtime_environment/device/device_backend.hpp
deleted file mode 100644
index 594b798..0000000
--- a/third_party/gauxc/src/runtime_environment/device/device_backend.hpp
+++ /dev/null
@@ -1,104 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <tuple>
-#include <vector>
-#include <memory>
-#include <string>
-#include "device_queue.hpp"
-#include "device_blas_handle.hpp"
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_MAGMA
-#include "device_specific/magma_util.hpp"
-#endif
-
-namespace GauXC {
-
-class DeviceBackend {
-
-public:
-
-  using device_buffer_t = std::tuple<void*, size_t>;
-
-  virtual device_buffer_t   allocate_device_buffer(int64_t sz) = 0;
-  virtual size_t            get_available_mem() = 0;
-  virtual void              free_device_buffer( void* ptr ) = 0;
-  virtual void              master_queue_synchronize() = 0;
-  virtual void              create_blas_queue_pool(int32_t)   = 0;
-  virtual void              sync_master_with_blas_pool() = 0;
-  virtual void              sync_blas_pool_with_master() = 0;
-  virtual size_t            blas_pool_size() = 0;
-
-  virtual device_queue       queue() = 0;
-  virtual device_queue       blas_pool_queue(int32_t) = 0;
-  virtual device_blas_handle blas_pool_handle(int32_t) = 0;
-  virtual device_blas_handle master_blas_handle() = 0;
-
-  #ifdef GAUXC_HAS_MAGMA
-  inline util::magma_queue* master_magma_queue(){ return master_magma_queue_.get(); }
-  #endif
-
-  virtual ~DeviceBackend() noexcept = default;
-
-  template <typename T>
-  void copy_async( size_t sz, const T* src, T* dest, std::string msg ) {
-    copy_async_( sz * sizeof(T), src, dest, msg );
-  }
-
-  template <typename T>
-  void copy_async_2d( size_t M, size_t N, const T* A, size_t LDA,
-    T* B, size_t LDB, std::string msg ) {
-    copy_async_2d_( M*sizeof(T), N, A, LDA*sizeof(T), B, LDB*sizeof(T), msg );
-  }
-
-  template <typename T>
-  void set_zero(size_t sz, T* data, std::string msg) {
-    set_zero_( sz * sizeof(T), data, msg );
-  }
-
-  template <typename T>
-  void set_zero_async_master_queue(size_t sz, T* data, std::string msg) {
-    set_zero_async_master_queue_( sz * sizeof(T), data, msg );
-  }
-
-  void check_error(std::string msg) {
-    check_error_(msg);
-  }
-
-protected:
-
-
-  #ifdef GAUXC_HAS_MAGMA
-  std::shared_ptr<util::magma_queue> master_magma_queue_;
-  #endif
-
-  virtual void copy_async_( size_t sz, const void* src, void* dest, 
-                            std::string msg ) = 0;
-
-  virtual void copy_async_2d_( size_t M, size_t N, const void* A, size_t LDA,
-    void* B, size_t LDB, std::string msg ) = 0;
-
-
-  virtual void set_zero_( size_t sz, void* data, std::string msg) = 0;
-  virtual void set_zero_async_master_queue_( size_t sz, void* data, 
-    std::string msg) = 0;
-
-  virtual void check_error_(std::string msg) = 0;
-};
-
-
-
-/// Generate the default device backend for this platform
-std::unique_ptr<DeviceBackend> make_device_backend();
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/device_blas_handle.hpp b/third_party/gauxc/src/runtime_environment/device/device_blas_handle.hpp
deleted file mode 100644
index 76368f3..0000000
--- a/third_party/gauxc/src/runtime_environment/device/device_blas_handle.hpp
+++ /dev/null
@@ -1,65 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <any>
-#include <memory>
-#include <type_traits>
-
-namespace GauXC {
-
-class device_blas_handle {
-
-  std::any blas_handle_;
-
-public:
-
-  device_blas_handle() = default;
-
-  template <typename T>
-  device_blas_handle( std::shared_ptr<T> q ) : blas_handle_( std::move(q) ) { }
-
-  template <typename T>
-  inline const T* blas_handle_as_ptr() const { 
-    if( !blas_handle_.has_value() ) return nullptr;
-    if( auto q_ptr = std::any_cast< std::shared_ptr<T> >( &blas_handle_ ) ) {
-      return q_ptr->get();
-    } else {
-      return nullptr;
-    }
-  }
-
-  template <typename T>
-  inline T* blas_handle_as_ptr() { 
-    if( auto q_ptr = std::any_cast< std::shared_ptr<T> >( &blas_handle_ ) ) {
-      return q_ptr->get();
-    } else {
-      return nullptr;
-    }
-  }
-
-  template <typename T>
-  inline const T& blas_handle_as() const {
-    auto ptr = blas_handle_as_ptr<T>();
-    if( not ptr ) throw std::bad_any_cast();
-    return *ptr;
-  }
-
-  template <typename T>
-  inline T& blas_handle_as() {
-    auto ptr = blas_handle_as_ptr<T>();
-    if( not ptr ) throw std::bad_any_cast();
-    return *ptr;
-  }
-
-};
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/device_queue.hpp b/third_party/gauxc/src/runtime_environment/device/device_queue.hpp
deleted file mode 100644
index 51eba1c..0000000
--- a/third_party/gauxc/src/runtime_environment/device/device_queue.hpp
+++ /dev/null
@@ -1,105 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <any>
-#include <memory>
-#include <type_traits>
-
-namespace GauXC {
-
-class device_queue {
-
-  std::any queue_;
-
-public:
-
-  device_queue() = default;
-
-  template <typename T>
-  device_queue( std::shared_ptr<T> q ) : queue_( std::move(q) ) { }
-
-  template <typename T, typename... Args>
-  static device_queue generate( Args&&... args ) {
-    return device_queue( std::make_shared<T>( std::forward<Args>(args)... ) );
-  }
-
-  template <typename T>
-  inline const T* queue_as_ptr() const { 
-    if( !queue_.has_value() ) return nullptr;
-    if( auto q_ptr = std::any_cast< std::shared_ptr<T> >( &queue_ ) ) {
-      return q_ptr->get();
-    } else {
-      return nullptr;
-    }
-  }
-
-  template <typename T>
-  inline T* queue_as_ptr() { 
-    if( !queue_.has_value() ) return nullptr;
-    if( auto q_ptr = std::any_cast< std::shared_ptr<T> >( &queue_ ) ) {
-      return q_ptr->get();
-    } else {
-      return nullptr;
-    }
-  }
-
-  template <typename T>
-  inline const T& queue_as() const {
-    auto ptr = queue_as_ptr<T>();
-    if( not ptr ) throw std::bad_any_cast();
-    return *ptr;
-  }
-
-  template <typename T>
-  inline T& queue_as() {
-    auto ptr = queue_as_ptr<T>();
-    if( not ptr ) throw std::bad_any_cast();
-    return *ptr;
-  }
-
-};
-
-
-
-#if 0
-class device_queue_pool {
-
-  std::vector<device_queue> queues_;
-
-public:
-
-  device_queue_pool() = default;
-  template <typename T, template... Args>
-  device_queue_pool(size_t nq, Args&&... args) {
-    for( auto i = 0ul; i < nq; ++i )
-      queues_.emplace_back( std::make_shared<T>(std::forward<Args>(args)...) );
-  }
-
-  size_t size() const { return queues_.size(); }
-
-  const device_queue& operator[]( size_t i ) const { return queues_.at(i); }
-  device_queue&       operator[]( size_t i )       { return queues_.at(i); }
-
-  template <typename T>
-  const T& at_as( size_t i ) const { return queues_.at(i).queue_as<T>(); }
-  template <typename T>
-  T& at_as( size_t i ) { return queues_.at(i).queue_as<T>(); }
-
-  template <typename T>
-  const T* at_as_ptr( size_t i ) const { return queues_.at(i).queue_as_ptr<T>(); }
-  template <typename T>
-  T* at_as_ptr( size_t i ) { return queues_.at(i).queue_as_ptr<T>(); }
-
-};
-#endif
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/device_runtime_environment.cxx b/third_party/gauxc/src/runtime_environment/device/device_runtime_environment.cxx
deleted file mode 100644
index 88998bd..0000000
--- a/third_party/gauxc/src/runtime_environment/device/device_runtime_environment.cxx
+++ /dev/null
@@ -1,81 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device_runtime_environment_impl.hpp"
-#include <gauxc/exceptions.hpp>
-#include <iostream>
-
-namespace GauXC {
-
-auto* device_runtime_pimpl_cast(detail::RuntimeEnvironmentImpl* ptr) {
-  auto dp = dynamic_cast<detail::DeviceRuntimeEnvironmentImpl*>(ptr);
-  if(!dp) GAUXC_GENERIC_EXCEPTION("Not A Device Implemention");
-  return dp;
-}
-
-
-namespace detail {
-
-DeviceRuntimeEnvironment as_device_runtime(const RuntimeEnvironment& rt) {
-  if( auto* p = dynamic_cast<const DeviceRuntimeEnvironment*>(&rt) ) {
-    // Instance is actually a DeviceRuntimeEnvironment
-    return DeviceRuntimeEnvironment(*p);
-  } else {
-    // Try a PIMPL cast
-    auto pimpl = device_runtime_pimpl_cast(rt.pimpl_.get());
-    (void)pimpl;
-    return DeviceRuntimeEnvironment(rt.pimpl_);
-  }
-}
-
-}
-
-DeviceRuntimeEnvironment::DeviceRuntimeEnvironment(pimpl_ptr_type ptr):
-  RuntimeEnvironment(ptr) {}
-
-DeviceRuntimeEnvironment::DeviceRuntimeEnvironment(
-  GAUXC_MPI_CODE(MPI_Comm c,) void* p, size_t sz ) :
-  RuntimeEnvironment(
-    detail::make_device_runtime( GAUXC_MPI_CODE(c,) p,sz)
-  ) {}
-
-DeviceRuntimeEnvironment::DeviceRuntimeEnvironment(
-  GAUXC_MPI_CODE(MPI_Comm c,) double ff) :
-  RuntimeEnvironment(detail::make_device_runtime(GAUXC_MPI_CODE(c,)ff)) {}
-
-DeviceRuntimeEnvironment::~DeviceRuntimeEnvironment() noexcept = default;
-
-DeviceRuntimeEnvironment::DeviceRuntimeEnvironment(
-  DeviceRuntimeEnvironment&& other) noexcept = default;
-
-DeviceRuntimeEnvironment::DeviceRuntimeEnvironment(
-  const DeviceRuntimeEnvironment& other) = default;
-
-void* DeviceRuntimeEnvironment::device_memory() const {
-  return device_runtime_pimpl_cast(pimpl_.get())->device_memory();
-}
-size_t DeviceRuntimeEnvironment::device_memory_size() const {
-  return device_runtime_pimpl_cast(pimpl_.get())->device_memory_size();
-}
-DeviceBackend* DeviceRuntimeEnvironment::device_backend() const {
-  return device_runtime_pimpl_cast(pimpl_.get())->device_backend();
-}
-bool DeviceRuntimeEnvironment::owns_memory() const {
-  return device_runtime_pimpl_cast(pimpl_.get())->owns_memory();
-}
-void DeviceRuntimeEnvironment::release_buffer() {
-  device_runtime_pimpl_cast(pimpl_.get())->release_buffer();
-}
-void DeviceRuntimeEnvironment::set_buffer(void* p, size_t sz) {
-  device_runtime_pimpl_cast(pimpl_.get())->set_buffer(p, sz);
-}
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/device_runtime_environment_impl.hpp b/third_party/gauxc/src/runtime_environment/device/device_runtime_environment_impl.hpp
deleted file mode 100644
index 9831c5c..0000000
--- a/third_party/gauxc/src/runtime_environment/device/device_runtime_environment_impl.hpp
+++ /dev/null
@@ -1,98 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "../runtime_environment_impl.hpp"
-#include "device_backend.hpp"
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC::detail {
-
-size_t memory_cap();
-
-class DeviceRuntimeEnvironmentImpl : public RuntimeEnvironmentImpl {
-
-private:
-  using parent_type = RuntimeEnvironmentImpl;
-
-  bool  i_own_this_memory_ = false;
-  void* device_memory_;
-  size_t device_memory_size_;
-
-  std::unique_ptr<DeviceBackend> device_backend_;
-
-public:
-
-  DeviceRuntimeEnvironmentImpl(GAUXC_MPI_CODE(MPI_Comm c,) void* p,
-   size_t sz) : parent_type(GAUXC_MPI_CODE(c)), 
-     i_own_this_memory_(false), device_memory_(p), 
-     device_memory_size_(sz),
-     device_backend_{make_device_backend()} {}
-
-
-  explicit DeviceRuntimeEnvironmentImpl(GAUXC_MPI_CODE(MPI_Comm c,)
-    double fill_fraction) :
-    DeviceRuntimeEnvironmentImpl(GAUXC_MPI_CODE(c,) nullptr, 0) {
-
-    // Allocate Device Memory
-    auto avail = device_backend_->get_available_mem();
-    avail = std::min( avail, detail::memory_cap() );
-
-    std::tie( device_memory_, device_memory_size_ ) = 
-      device_backend_->allocate_device_buffer(fill_fraction * avail);
-
-    i_own_this_memory_ = true;
-
-  }
-
-  ~DeviceRuntimeEnvironmentImpl() noexcept {
-    if(i_own_this_memory_ and device_memory_ and device_memory_size_) {
-      device_backend_->free_device_buffer(device_memory_);
-    }
-  }
-
-  inline DeviceBackend* device_backend() { return device_backend_.get(); }
-  inline const DeviceBackend* device_backend() const { return device_backend_.get(); }
-
-  inline void* device_memory() { return device_memory_; }
-  inline void* device_memory() const { return device_memory_; }
-  inline size_t device_memory_size() { return device_memory_size_; }
-  inline size_t device_memory_size() const { return device_memory_size_; }
-  inline bool owns_memory() const { return i_own_this_memory_; }
-
-  inline void release_buffer() {
-    if(i_own_this_memory_ and device_memory_ and device_memory_size_) {
-      device_backend_->free_device_buffer(device_memory_);
-    } else {
-      GAUXC_GENERIC_EXCEPTION("GauXC Cannot Release A Buffer It Does Not Own");
-    }
-  }
-
-  inline void set_buffer(void* p, size_t sz) {
-    if(owns_memory()) {
-      release_buffer();
-      i_own_this_memory_ = false;
-    }
-
-    device_memory_ = p;
-    device_memory_size_ = sz;
-  }
-};
-
-
-template <typename ...Args>
-std::unique_ptr<RuntimeEnvironmentImpl> make_device_runtime(Args&&... args) {
-  return std::make_unique<DeviceRuntimeEnvironmentImpl>(
-    std::forward<Args>(args)...
-  );
-}
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/hip/CMakeLists.txt b/third_party/gauxc/src/runtime_environment/device/hip/CMakeLists.txt
deleted file mode 100644
index 5fd50fc..0000000
--- a/third_party/gauxc/src/runtime_environment/device/hip/CMakeLists.txt
+++ /dev/null
@@ -1,17 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-
-find_package( hip REQUIRED )
-find_package( hipblas REQUIRED )
-
-target_sources( gauxc PRIVATE hip_backend.cxx )
-target_link_libraries( gauxc PUBLIC hip::host roc::hipblas )
diff --git a/third_party/gauxc/src/runtime_environment/device/hip/hip_backend.cxx b/third_party/gauxc/src/runtime_environment/device/hip/hip_backend.cxx
deleted file mode 100644
index 69c3fd2..0000000
--- a/third_party/gauxc/src/runtime_environment/device/hip/hip_backend.cxx
+++ /dev/null
@@ -1,134 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip_backend.hpp"
-
-namespace GauXC {
-
-HIPBackend::HIPBackend() {
-
-  // Create HIP Stream and CUBLAS Handles and make them talk to eachother
-  master_stream = std::make_shared< util::hip_stream >();
-  master_handle = std::make_shared< util::hipblas_handle >();
-
-  hipblasSetStream( *master_handle, *master_stream );
-
-#ifdef GAUXC_HAS_MAGMA
-  // Setup MAGMA queue with CUDA stream / cuBLAS handle
-  master_magma_queue_ = std::make_shared< util::magma_queue >(0, *master_stream, *master_handle);
-#endif
-
-}
-
-HIPBackend::~HIPBackend() noexcept = default;
-
-HIPBackend::device_buffer_t HIPBackend::allocate_device_buffer(int64_t sz) {
-  void* ptr;
-  auto stat = hipMalloc(&ptr, sz);
-  GAUXC_HIP_ERROR( "HIP Malloc Failed", stat );
-  return device_buffer_t{ptr,sz};
-}
-
-size_t HIPBackend::get_available_mem() {
-  size_t hip_avail, hip_total;
-  auto stat = hipMemGetInfo( &hip_avail, &hip_total );
-  GAUXC_HIP_ERROR( "MemInfo Failed", stat );
-  return hip_avail;
-}
-
-void HIPBackend::free_device_buffer( void* ptr ) {
-  auto stat = hipFree(ptr);
-  GAUXC_HIP_ERROR( "Free Failed", stat );
-}
-
-void HIPBackend::master_queue_synchronize() {
-  auto stat = hipStreamSynchronize( *master_stream );
-  GAUXC_HIP_ERROR( "StreamSynchronized Failed", stat );
-}
-
-device_queue HIPBackend::queue() {
-  return device_queue(master_stream);
-}
-
-void HIPBackend::create_blas_queue_pool(int32_t ns) {
-  blas_streams.resize(ns);
-  blas_handles.resize(ns);
-  for( auto i = 0; i < ns; ++i ) {
-    blas_streams[i] = std::make_shared<util::hip_stream>();
-    blas_handles[i] = std::make_shared<util::hipblas_handle>();
-    hipblasSetStream( *blas_handles[i], *blas_streams[i] );
-  }
-}
-
-void HIPBackend::sync_master_with_blas_pool() {
-  const auto n_streams = blas_streams.size();
-  std::vector<util::hip_event> blas_events( n_streams );
-  for( size_t iS = 0; iS < n_streams; ++iS )
-    blas_events[iS].record( *blas_streams[iS] );
-
-  for( auto& event : blas_events ) master_stream->wait(event);
-}
-
-void HIPBackend::sync_blas_pool_with_master() {
-  util::hip_event master_event;
-  master_event.record( *master_stream );
-  for( auto& stream : blas_streams ) stream->wait( master_event );
-}
-
-size_t HIPBackend::blas_pool_size(){ return blas_streams.size(); }
-
-device_queue HIPBackend::blas_pool_queue(int32_t i) {
-  return device_queue( blas_streams.at(i) );
-}
-
-device_blas_handle HIPBackend::blas_pool_handle(int32_t i) {
-  return device_blas_handle( blas_handles.at(i) );
-}
-device_blas_handle HIPBackend::master_blas_handle() {
-  return device_blas_handle( master_handle );
-}
-
-void HIPBackend::copy_async_( size_t sz, const void* src, void* dest,
-  std::string msg ) {
-  auto stat = hipMemcpyAsync( dest, src, sz, hipMemcpyDefault, *master_stream );
-  GAUXC_HIP_ERROR( "HIP Memcpy Async Failed ["+msg+"]", stat );
-}
-
-void HIPBackend::set_zero_(size_t sz, void* data, std::string msg ) {
-  auto stat = hipMemset( data, 0, sz );
-  GAUXC_HIP_ERROR( "HIP Memset Failed ["+msg+"]", stat );
-}
-
-void HIPBackend::set_zero_async_master_queue_(size_t sz, void* data, std::string msg ) {
-  auto stat = hipMemsetAsync( data, 0, sz, *master_stream );
-  GAUXC_HIP_ERROR( "HIP Memset Failed ["+msg+"]", stat );
-}
-
-void HIPBackend::copy_async_2d_( size_t M, size_t N, const void* A, size_t LDA,
-  void* B, size_t LDB, std::string msg ) {
-  auto stat = hipMemcpy2DAsync( B, LDB, A, LDA, M, N, hipMemcpyDefault,
-    *master_stream );
-  GAUXC_HIP_ERROR( "HIP 2D Memcpy Async Failed ["+msg+"]", stat );
-}
-
-
-void HIPBackend::check_error_(std::string msg) {
-  // TODO The source location generated by GAUXC_HIP_ERROR will not be useful
-  // when this used. This should use std::source_location once C++20 support
-  // is more wide spread
-  auto stat = hipGetLastError();
-  GAUXC_HIP_ERROR("HIP Failed ["+msg+"]", stat );
-}
-
-std::unique_ptr<DeviceBackend> make_device_backend() {
-  return std::make_unique<HIPBackend>();
-}
-}
diff --git a/third_party/gauxc/src/runtime_environment/device/hip/hip_backend.hpp b/third_party/gauxc/src/runtime_environment/device/hip/hip_backend.hpp
deleted file mode 100644
index 6b90063..0000000
--- a/third_party/gauxc/src/runtime_environment/device/hip/hip_backend.hpp
+++ /dev/null
@@ -1,57 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/device_backend.hpp"
-#include <memory>
-#include "device_specific/hip_util.hpp"
-#include "device_specific/hipblas_util.hpp"
-
-namespace GauXC {
-
-struct HIPBackend : public DeviceBackend {
-
-  device_buffer_t   allocate_device_buffer(int64_t sz) override final;
-  size_t            get_available_mem() override final;
-  void              free_device_buffer( void* ptr ) override final;
-  void              master_queue_synchronize() override final;
-  void              create_blas_queue_pool(int32_t)   override final;
-  void              sync_master_with_blas_pool() override final;
-  void              sync_blas_pool_with_master() override final;
-  size_t            blas_pool_size() override final;
-
-  device_queue       queue() override final;
-  device_queue       blas_pool_queue(int32_t) override final;
-  device_blas_handle blas_pool_handle(int32_t) override final;
-  device_blas_handle master_blas_handle() override final;
-
-  void copy_async_( size_t sz, const void* src, void* dest, 
-                    std::string msg ) override final;
-  void set_zero_( size_t sz, void* data, std::string msg) override final;
-  void set_zero_async_master_queue_( size_t sz, void* data, std::string msg) override final;
-
-  void copy_async_2d_( size_t M, size_t N, const void* A, size_t LDA,
-    void* B, size_t LDB, std::string msg ) override final;
-
-  void check_error_(std::string msg) override final;
-
-  HIPBackend();
-  ~HIPBackend() noexcept;
-
-  // Execution management
-  std::shared_ptr<util::hip_stream>   master_stream = nullptr;
-  std::shared_ptr<util::hipblas_handle> master_handle = nullptr;
-
-  std::vector<std::shared_ptr<util::hip_stream>>     blas_streams;
-  std::vector<std::shared_ptr<util::hipblas_handle>> blas_handles;
-};
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/cublas_util.hpp b/third_party/gauxc/src/runtime_environment/device_specific/cublas_util.hpp
deleted file mode 100644
index 10fa35b..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/cublas_util.hpp
+++ /dev/null
@@ -1,54 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include "exceptions/cublas_exception.hpp"
-
-#ifdef GAUXC_HAS_CUDA
-
-namespace GauXC {
-namespace util  {
-
-struct cublas_handle {
-
-  cublasHandle_t handle;
-  inline cublas_handle() {
-    auto stat = cublasCreate( &handle );
-    GAUXC_CUBLAS_ERROR("CUBLAS Handle Create Failed", stat);
-  }
-
-  inline ~cublas_handle() noexcept {
-    if( handle != 0 ) cublasDestroy( handle );
-  }
-
-  cublas_handle( const cublas_handle& ) = delete;
-  inline cublas_handle( cublas_handle&& other ) noexcept {
-    handle = other.handle;
-    other.handle = 0;
-  };
-
-  inline operator cublasHandle_t() const { return handle; }
-
-};
-
-
-inline static cudaStream_t get_stream( cublasHandle_t handle ) {
-  cudaStream_t stream;
-  auto stat = cublasGetStream(handle, &stream );  
-  GAUXC_CUBLAS_ERROR("CUBLAS GET STREAM FAILED", stat );
-  return stream;
-}
-
-}
-}
-
-#endif
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/cuda_device_constants.hpp b/third_party/gauxc/src/runtime_environment/device_specific/cuda_device_constants.hpp
deleted file mode 100644
index 3b4ac8e..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/cuda_device_constants.hpp
+++ /dev/null
@@ -1,25 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cstdint>
-
-namespace GauXC {
-namespace cuda  {
-
-static constexpr uint32_t warp_size = 32;
-static constexpr uint32_t max_threads_per_thread_block = 1024;
-static constexpr uint32_t max_warps_per_thread_block = 
-  max_threads_per_thread_block / warp_size;
-
-}
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/cuda_util.hpp b/third_party/gauxc/src/runtime_environment/device_specific/cuda_util.hpp
deleted file mode 100644
index 7d133e5..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/cuda_util.hpp
+++ /dev/null
@@ -1,200 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include "exceptions/cuda_exception.hpp"
-
-#ifdef GAUXC_HAS_CUDA
-
-namespace GauXC {
-namespace util  {
-
-struct cuda_stream;
-struct cuda_event;
-
-struct cuda_stream {
-
-  cudaStream_t stream;
-  inline cuda_stream() {
-    auto stat = cudaStreamCreate( &stream );
-    GAUXC_CUDA_ERROR("CUDA Stream Create Failed", stat);
-  }
-
-  inline ~cuda_stream() noexcept {
-    if( stream != 0 ) cudaStreamDestroy( stream );
-  }
-
-  cuda_stream( const cuda_stream& ) = delete;
-  inline cuda_stream( cuda_stream&& other ) noexcept {
-    stream = other.stream;
-    other.stream = 0;
-  };
-
-  inline operator cudaStream_t() const { return stream; }
-
-  inline void wait( cudaEvent_t event ) {
-    auto stat = cudaStreamWaitEvent( stream, event, 0 );
-    GAUXC_CUDA_ERROR("STREAM WAIT FAILED", stat );
-  }
-};
-
-
-struct cuda_event {
-
-  cudaEvent_t event;
-  inline cuda_event() {
-    auto stat = cudaEventCreate( &event );
-    GAUXC_CUDA_ERROR("CUDA Event Create Failed", stat);
-  }
-
-  inline ~cuda_event() noexcept {
-    if( event != 0 ) cudaEventDestroy( event );
-  }
-
-  cuda_event( const cuda_event& ) = delete;
-  inline cuda_event( cuda_event&& other ) noexcept {
-    event = other.event;
-    other.event = 0;
-  };
-
-  inline operator cudaEvent_t() const { return event; }
-
-  inline void record( cudaStream_t stream ) {
-    auto stat = cudaEventRecord( event, stream );
-    GAUXC_CUDA_ERROR("Event Record Failed", stat );
-  }
-
-};
-
-
-
-
-
-template <typename T>
-inline T* cuda_malloc( size_t n ) {
-
-  T* ptr;
-  auto stat = cudaMalloc( (void**)&ptr, n * sizeof(T) );
-  GAUXC_CUDA_ERROR( "CUDA Malloc Failed", stat );
-
-  return ptr;
-}
-
-template <typename T>
-inline T* cuda_malloc_host( size_t n ) {
-
-  T* ptr;
-  auto stat = cudaMallocHost( (void**)&ptr, n * sizeof(T) );
-  GAUXC_CUDA_ERROR( "CUDA Malloc Host Failed", stat );
-
-  return ptr;
-}
-
-
-
-
-
-
-template <typename T>
-inline void cuda_free( T*& ptr ) {
-  auto stat = cudaFree( (void*)ptr );
-  GAUXC_CUDA_ERROR( "CUDA Free Failed", stat );
-  ptr = nullptr;
-}
-
-template <typename T, typename... Args>
-inline void cuda_free( T*& ptr, Args&&... args ) {
-  cuda_free(ptr);
-  cuda_free(std::forward<Args>(args)...);
-}
-
-template <typename T>
-inline void cuda_free_host( T*& ptr ) {
-  auto stat = cudaFreeHost( (void*)ptr );
-  //GAUXC_CUDA_ERROR( "CUDA Free Host Failed", stat );
-  ptr = nullptr;
-}
-
-template <typename T, typename... Args>
-inline void cuda_free_host( T*& ptr, Args&&... args ) {
-  cuda_free_host(ptr);
-  cuda_free_host(std::forward<Args>(args)...);
-}
-
-
-
-
-template <typename T>
-inline void cuda_copy( size_t len, T* dest, const T* src, std::string m = "") {
-  auto stat = cudaMemcpy( dest, src, len * sizeof(T), cudaMemcpyDefault );
-  GAUXC_CUDA_ERROR( "CUDA Memcpy Failed ["+m+"]", stat );
-}
-
-template <typename T>
-inline void cuda_copy_async( size_t len, T* dest, const T* src, cudaStream_t s,
-                             std::string m = "" ) {
-  auto stat = cudaMemcpyAsync( dest, src, len * sizeof(T), cudaMemcpyDefault, s );
-  GAUXC_CUDA_ERROR( "CUDA Memcpy Async Failed ["+m+"]", stat );
-}
-
-
-template <typename T>
-inline void cuda_copy_2d( T* dest, size_t dest_pitch, const T* src, size_t src_pitch,
-                          size_t width, size_t height, std::string m = "" ) {
-  auto stat = cudaMemcpy2D( dest, dest_pitch, src, src_pitch, width, height, cudaMemcpyDefault);
-  GAUXC_CUDA_ERROR( "CUDA 2D Memcpy Failed ["+m+"]", stat );
-}
-
-template <typename T>
-inline void cuda_copy_2d_async( T* dest, size_t dest_pitch, const T* src, size_t src_pitch,
-                                size_t width, size_t height, cudaStream_t s,
-                                std::string m = "" ) {
-  auto stat = cudaMemcpy2DAsync( dest, dest_pitch, src, src_pitch, width, height, cudaMemcpyDefault, s);
-  GAUXC_CUDA_ERROR( "CUDA 2D Memcpy Async Failed ["+m+"]", stat );
-}
-
-
-template <typename T>
-inline void cuda_set_zero( size_t len, T* ptr, std::string m = "" ) {
-  auto stat = cudaMemset( ptr, 0, len * sizeof(T) );
-  GAUXC_CUDA_ERROR( "CUDA Memset Failed ["+m+"]", stat );
-}
-
-template <typename T>
-inline void cuda_set_zero_async( size_t len, T* ptr, cudaStream_t stream, 
-                                 std::string m = "" ) {
-  auto stat = cudaMemsetAsync( ptr, 0, len * sizeof(T), stream );
-  GAUXC_CUDA_ERROR( "CUDA Memset Async Failed ["+m+"]", stat );
-}
-
-
-
-inline void cuda_device_sync() {
-  auto stat = cudaDeviceSynchronize();
-  GAUXC_CUDA_ERROR( "CUDA Device Sync Failed", stat );
-}
-
-
-
-template <typename T>
-inline int cuda_kernel_max_threads_per_block( T* func ) {
-  cudaFuncAttributes attr;
-  auto stat = cudaFuncGetAttributes(&attr, func);
-
-  GAUXC_CUDA_ERROR( "GetAttr Failed", stat ); 
-  return attr.maxThreadsPerBlock;
-}
-
-}
-}
-
-#endif
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/fast_exp.hpp b/third_party/gauxc/src/runtime_environment/device_specific/fast_exp.hpp
deleted file mode 100644
index 5bc7d56..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/fast_exp.hpp
+++ /dev/null
@@ -1,84 +0,0 @@
-#pragma once
-/*
-  Copyright (c) 2015-2017, Norbert Juffa
-  All rights reserved.
-
-  Redistribution and use in source and binary forms, with or without 
-  modification, are permitted provided that the following conditions
-  are met:
-
-  1. Redistributions of source code must retain the above copyright 
-     notice, this list of conditions and the following disclaimer.
-
-  2. Redistributions in binary form must reproduce the above copyright
-     notice, this list of conditions and the following disclaimer in the
-     documentation and/or other materials provided with the distribution.
-
-  THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS 
-  "AS IS" AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT 
-  LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR
-  A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL THE COPYRIGHT
-  HOLDER OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
-  SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT 
-  LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE,
-  DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY
-  THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT 
-  (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
-  OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-*/
-
-/* Compute exponential function. maximum ulp error observed = 0.89028 */
-__device__ __noinline__ double my_exp (double a)
-{
-    const double ln2_hi = 6.9314718055829871e-01;
-    const double ln2_lo = 1.6465949582897082e-12;
-    const double l2e = 1.4426950408889634; // log2(e)
-    const double cvt = 6755399441055744.0; // 3 * 2**51
-    double f, j, p, r;
-    int i;
-
-    // exp(a) = 2**i * exp(f); i = rint (a / log(2))
-    j = fma (l2e, a, cvt);
-    i = __double2loint (j);
-    j = j - cvt;
-    f = fma (j, -ln2_hi, a);
-    f = fma (j, -ln2_lo, f);
-
-    // approximate p = exp(f) on interval [-log(2)/2, +log(2)/2]
-    p =            2.5022018235176802e-8;
-    p = fma (p, f, 2.7630903481118922e-7);
-    p = fma (p, f, 2.7557514543922205e-6);
-    p = fma (p, f, 2.4801491039429033e-5);
-    p = fma (p, f, 1.9841269589083001e-4);
-    p = fma (p, f, 1.3888888945916664e-3);
-    p = fma (p, f, 8.3333333334557492e-3);
-    p = fma (p, f, 4.1666666666519782e-2);
-    p = fma (p, f, 1.6666666666666477e-1);
-    p = fma (p, f, 5.0000000000000122e-1);
-    p = fma (p, f, 1.0000000000000000e+0);
-    p = fma (p, f, 1.0000000000000000e+0);
-
-    // exp(a) = 2**i * exp(f);
-    int rlo = __double2loint (p);
-    int rhi = (i << 20) + __double2hiint (p);
-    r = __hiloint2double (rhi, rlo);
-
-    // handle special cases
-    int ia = __double2hiint (a);
-    int ib = __double2hiint (708.0); // |a| >= 708 requires double scaling
-    int ic = __double2hiint (746.0); // |a| >= 746 severe overflow / underflow
-    float fa = __int_as_float (ia);
-    float fb = __int_as_float (ib);
-    float fc = __int_as_float (ic);
-
-    if (! (fabsf (fa) < fb)) { // !(|a| < 708)
-        i = (i > 0) ?  0 : 0x80300000;
-        r = __hiloint2double (0x7fe00000 + i, 0);
-        r = r * __hiloint2double (rhi - i - 0x3ff00000, rlo);
-        if (! (fabsf (fa) < fc)) { // !(|a| < 746)
-            r = __hiloint2double ((ia > 0) ? 0x7ff00000 : 0, 0); // +INF, +0
-            if (isnan (a)) r = a + a;
-        }
-    }
-    return r;
-}
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/hip_device_constants.hpp b/third_party/gauxc/src/runtime_environment/device_specific/hip_device_constants.hpp
deleted file mode 100644
index 38ff387..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/hip_device_constants.hpp
+++ /dev/null
@@ -1,24 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cstdint>
-
-namespace GauXC {
-namespace hip  {
-
-static constexpr uint32_t warp_size = 64;
-static constexpr uint32_t max_threads_per_thread_block = 1024;
-static constexpr uint32_t max_warps_per_thread_block = 
-  max_threads_per_thread_block / warp_size;
-
-}
-}
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/hip_util.hpp b/third_party/gauxc/src/runtime_environment/device_specific/hip_util.hpp
deleted file mode 100644
index 61ea9e0..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/hip_util.hpp
+++ /dev/null
@@ -1,184 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include "exceptions/hip_exception.hpp"
-
-#ifdef GAUXC_HAS_HIP
-
-namespace GauXC {
-namespace util  {
-
-struct hip_stream;
-struct hip_event;
-
-struct hip_stream {
-
-  hipStream_t stream;
-  inline hip_stream() {
-    auto stat = hipStreamCreate( &stream );
-    GAUXC_HIP_ERROR("HIP Stream Create Failed", stat);
-  }
-
-  inline ~hip_stream() noexcept {
-    if( stream != 0 ) {
-      auto stat = hipStreamDestroy( stream );
-      (void)(stat);
-    }
-  }
-
-  hip_stream( const hip_stream& ) = delete;
-  inline hip_stream( hip_stream&& other ) noexcept {
-    stream = other.stream;
-    other.stream = 0;
-  };
-
-  inline operator hipStream_t() const { return stream; }
-
-  inline void wait( hipEvent_t event ) {
-    auto stat = hipStreamWaitEvent( stream, event, 0 );
-    GAUXC_HIP_ERROR("STREAM WAIT FAILED", stat );
-  }
-};
-
-
-struct hip_event {
-
-  hipEvent_t event;
-  inline hip_event() {
-    auto stat = hipEventCreate( &event );
-    GAUXC_HIP_ERROR("HIP Event Create Failed", stat);
-  }
-
-  inline ~hip_event() noexcept {
-    if( event != 0 ) {
-      auto stat = hipEventDestroy( event );
-      (void)(stat);
-    }
-  }
-
-  hip_event( const hip_event& ) = delete;
-  inline hip_event( hip_event&& other ) noexcept {
-    event = other.event;
-    other.event = 0;
-  };
-
-  inline operator hipEvent_t() const { return event; }
-
-  inline void record( hipStream_t stream ) {
-    auto stat = hipEventRecord( event, stream );
-    GAUXC_HIP_ERROR("Event Record Failed", stat );
-  }
-
-};
-
-
-
-
-
-template <typename T>
-inline T* hip_malloc( size_t n ) {
-
-  T* ptr;
-  auto stat = hipMalloc( (void**)&ptr, n * sizeof(T) );
-  GAUXC_HIP_ERROR( "HIP Malloc Failed", stat );
-
-  return ptr;
-}
-
-
-
-
-
-
-template <typename T>
-inline void hip_free( T*& ptr ) {
-  auto stat = hipFree( (void*)ptr );
-  GAUXC_HIP_ERROR( "HIP Free Failed", stat );
-  ptr = nullptr;
-}
-
-template <typename T, typename... Args>
-inline void hip_free( T*& ptr, Args&&... args ) {
-  hip_free(ptr);
-  hip_free(std::forward<Args>(args)...);
-}
-
-
-
-
-
-template <typename T>
-inline void hip_copy( size_t len, T* dest, const T* src, std::string m = "") {
-  auto stat = hipMemcpy( dest, src, len * sizeof(T), hipMemcpyDefault );
-  GAUXC_HIP_ERROR( "HIP Memcpy Failed ["+m+"]", stat );
-}
-
-template <typename T>
-inline void hip_copy_async( size_t len, T* dest, const T* src, hipStream_t s,
-                             std::string m = "" ) {
-  auto stat = hipMemcpyAsync( dest, src, len * sizeof(T), hipMemcpyDefault, s );
-  GAUXC_HIP_ERROR( "HIP Memcpy Async Failed ["+m+"]", stat );
-}
-
-
-template <typename T>
-inline void hip_copy_2d( T* dest, size_t dest_pitch, const T* src, size_t src_pitch,
-                          size_t width, size_t height, std::string m = "" ) {
-  auto stat = hipMemcpy2D( dest, dest_pitch, src, src_pitch, width, height, hipMemcpyDefault);
-  GAUXC_HIP_ERROR( "HIP 2D Memcpy Failed ["+m+"]", stat );
-}
-
-template <typename T>
-inline void hip_copy_2d_async( T* dest, size_t dest_pitch, const T* src, size_t src_pitch,
-                                size_t width, size_t height, hipStream_t s,
-                                std::string m = "" ) {
-  auto stat = hipMemcpy2DAsync( dest, dest_pitch, src, src_pitch, width, height, hipMemcpyDefault, s);
-  GAUXC_HIP_ERROR( "HIP 2D Memcpy Async Failed ["+m+"]", stat );
-}
-
-
-template <typename T>
-inline void hip_set_zero( size_t len, T* ptr, std::string m = "" ) {
-  auto stat = hipMemset( ptr, 0, len * sizeof(T) );
-  GAUXC_HIP_ERROR( "HIP Memset Failed ["+m+"]", stat );
-}
-
-template <typename T>
-inline void hip_set_zero_async( size_t len, T* ptr, hipStream_t stream, 
-                                 std::string m = "" ) {
-  auto stat = hipMemsetAsync( ptr, 0, len * sizeof(T), stream );
-  GAUXC_HIP_ERROR( "HIP Memset Async Failed ["+m+"]", stat );
-}
-
-
-
-inline void hip_device_sync() {
-  auto stat = hipDeviceSynchronize();
-  GAUXC_HIP_ERROR( "HIP Device Sync Failed", stat );
-}
-
-
-
-template <typename T>
-inline int hip_kernel_max_threads_per_block( T* func ) {
-  hipFuncAttributes attr;
-  auto stat = hipFuncGetAttributes(&attr, reinterpret_cast<const void*>(func));
-
-  GAUXC_HIP_ERROR( "GetAttr Failed", stat ); 
-  return attr.maxThreadsPerBlock;
-}
-
-}
-}
-
-#endif
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/hipblas_util.hpp b/third_party/gauxc/src/runtime_environment/device_specific/hipblas_util.hpp
deleted file mode 100644
index d9b324d..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/hipblas_util.hpp
+++ /dev/null
@@ -1,54 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include "exceptions/hipblas_exception.hpp"
-
-#ifdef GAUXC_HAS_HIP
-
-namespace GauXC {
-namespace util  {
-
-struct hipblas_handle {
-
-  hipblasHandle_t handle;
-  inline hipblas_handle() {
-    auto stat = hipblasCreate( &handle );
-    GAUXC_HIPBLAS_ERROR("HIPBLAS Handle Create Failed", stat);
-  }
-
-  inline ~hipblas_handle() noexcept {
-    if( handle != 0 ) hipblasDestroy( handle );
-  }
-
-  hipblas_handle( const hipblas_handle& ) = delete;
-  inline hipblas_handle( hipblas_handle&& other ) noexcept {
-    handle = other.handle;
-    other.handle = 0;
-  };
-
-  inline operator hipblasHandle_t() const { return handle; }
-
-};
-
-
-inline static hipStream_t get_stream( hipblasHandle_t handle ) {
-  hipStream_t stream;
-  auto stat = hipblasGetStream(handle, &stream );  
-  GAUXC_HIPBLAS_ERROR("HIPBLAS GET STREAM FAILED", stat );
-  return stream;
-}
-
-}
-}
-
-#endif
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/magma_util.hpp b/third_party/gauxc/src/runtime_environment/device_specific/magma_util.hpp
deleted file mode 100644
index ca4f4f1..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/magma_util.hpp
+++ /dev/null
@@ -1,68 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_MAGMA
-#include <magma_v2.h>
-#include "exceptions/magma_exception.hpp"
-
-
-namespace GauXC {
-namespace util  {
-
-struct magma_queue {
-
-  magma_queue_t queue;
-
-  
-
-  inline magma_queue(magma_int_t dev) {
-    magma_queue_create( dev, &queue );
-  }
-
-  inline magma_queue() : magma_queue(0) { }
-
-#ifdef GAUXC_HAS_CUDA
-  inline magma_queue( magma_int_t dev, cudaStream_t stream, cublasHandle_t handle ) {
-    magma_queue_create_from_cuda( dev, stream, handle, NULL, &queue );
-  }
-
-  inline magma_queue( cudaStream_t stream, cublasHandle_t handle ) :
-    magma_queue( 0, stream, handle ) { }
-#elif defined(GAUXC_HAS_HIP)
-  inline magma_queue( magma_int_t dev, hipStream_t stream, hipblasHandle_t handle ) {
-    magma_queue_create_from_hip( dev, stream, handle, NULL, &queue );
-  }
-
-  inline magma_queue( hipStream_t stream, hipblasHandle_t handle ) :
-    magma_queue( 0, stream, handle ) { }
-#endif
-
-  inline ~magma_queue() noexcept {
-    if( queue != 0 ) magma_queue_destroy( queue );
-  }
-
-  magma_queue( const magma_queue& ) = delete;
-  inline magma_queue( magma_queue&& other ) noexcept {
-    queue = other.queue;
-    other.queue = 0;
-  };
-
-  inline operator magma_queue_t() const { return queue; }
-
-};
-
-}
-}
-
-#endif
diff --git a/third_party/gauxc/src/runtime_environment/device_specific/nccl_util.hpp b/third_party/gauxc/src/runtime_environment/device_specific/nccl_util.hpp
deleted file mode 100644
index f4b8783..0000000
--- a/third_party/gauxc/src/runtime_environment/device_specific/nccl_util.hpp
+++ /dev/null
@@ -1,58 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_CUDA
-#ifdef GAUXC_HAS_MPI
-#ifdef GAUXC_HAS_NCCL
-
-#include <nccl.h>
-
-namespace GauXC {
-namespace util  {
-
-struct nccl_comm {
-
-  ncclComm_t comm;
-  
-  inline nccl_comm( MPI_Comm mpi_comm ) { 
-    int32_t world_rank, world_size;
-    MPI_Comm_rank( mpi_comm, &world_rank );
-    MPI_Comm_size( mpi_comm, &world_size );
-
-    ncclUniqueId id;
-    if (world_rank == 0) ncclGetUniqueId(&id);
-    MPI_Bcast(&id, sizeof(id), MPI_BYTE, 0, MPI_COMM_WORLD);
-
-    ncclCommInitRank(&comm, world_size, id, world_rank);
-  }
-
-  inline ~nccl_comm() noexcept {
-    if( comm != 0 ) ncclCommDestroy(comm);
-  }
-
-  nccl_comm( const nccl_comm& ) = delete;
-  inline nccl_comm( nccl_comm&& other ) noexcept {
-    comm = other.comm;
-    other.comm = 0;
-  };
-
-  inline operator ncclComm_t() const { return comm; }
-};
-
-}
-}
-
-#endif
-#endif
-#endif
diff --git a/third_party/gauxc/src/runtime_environment/runtime_environment.cxx b/third_party/gauxc/src/runtime_environment/runtime_environment.cxx
deleted file mode 100644
index 21d3910..0000000
--- a/third_party/gauxc/src/runtime_environment/runtime_environment.cxx
+++ /dev/null
@@ -1,48 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/runtime_environment.hpp>
-#include "runtime_environment_impl.hpp"
-
-namespace GauXC {
-
-RuntimeEnvironment::RuntimeEnvironment( pimpl_ptr_type ptr ) :
-  pimpl_(ptr) {}
-
-RuntimeEnvironment::RuntimeEnvironment(GAUXC_MPI_CODE(MPI_Comm c)) :
-  RuntimeEnvironment( std::make_unique<detail::RuntimeEnvironmentImpl>(GAUXC_MPI_CODE(c)) ) {}
-
-RuntimeEnvironment::~RuntimeEnvironment() noexcept = default;
-
-RuntimeEnvironment::RuntimeEnvironment(const RuntimeEnvironment& other) :
-  pimpl_(other.pimpl_) {}
-RuntimeEnvironment::RuntimeEnvironment(RuntimeEnvironment&& other) noexcept :
-  RuntimeEnvironment(std::move(other.pimpl_)) {}
-
-#ifdef GAUXC_HAS_MPI
-MPI_Comm RuntimeEnvironment::comm() const {
-  return pimpl_->comm();
-}
-#endif
-
-int RuntimeEnvironment::comm_rank() const {
-  return pimpl_->comm_rank();
-}
-
-int RuntimeEnvironment::comm_size() const {
-  return pimpl_->comm_size();
-}
-
-int RuntimeEnvironment::shared_usage_count() const {
-  return pimpl_.use_count();
-}
-
-}
diff --git a/third_party/gauxc/src/runtime_environment/runtime_environment_impl.hpp b/third_party/gauxc/src/runtime_environment/runtime_environment_impl.hpp
deleted file mode 100644
index 6afa888..0000000
--- a/third_party/gauxc/src/runtime_environment/runtime_environment_impl.hpp
+++ /dev/null
@@ -1,48 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/runtime_environment.hpp>
-
-namespace GauXC::detail {
-
-class RuntimeEnvironmentImpl {
-
-protected:
-  GAUXC_MPI_CODE(MPI_Comm comm_;)
-  int comm_rank_;
-  int comm_size_;
-
-public:
-
-  explicit RuntimeEnvironmentImpl(GAUXC_MPI_CODE(MPI_Comm c)) : 
-    GAUXC_MPI_CODE(comm_(c),)
-    comm_rank_(0), comm_size_(1) {
-
-  #ifdef GAUXC_HAS_MPI
-    MPI_Comm_rank( comm_, &comm_rank_ );
-    MPI_Comm_size( comm_, &comm_size_ );
-  #endif
-
-  }
-
-  virtual ~RuntimeEnvironmentImpl() noexcept = default;
-
-#ifdef GAUXC_HAS_MPI
-  inline MPI_Comm comm() const { return comm_; }
-#endif
-
-  inline int comm_rank() const { return comm_rank_; }
-  inline int comm_size() const { return comm_size_; }
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/CMakeLists.txt
deleted file mode 100644
index 9bc36d2..0000000
--- a/third_party/gauxc/src/xc_integrator/CMakeLists.txt
+++ /dev/null
@@ -1,21 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-add_subdirectory(integrator_util)
-add_subdirectory(local_work_driver)
-add_subdirectory(shell_batched)
-add_subdirectory(replicated)
-add_subdirectory(xc_data)
-
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/integrator_util/CMakeLists.txt
deleted file mode 100644
index 01b617a..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/CMakeLists.txt
+++ /dev/null
@@ -1,15 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE integrator_common.cxx integral_bounds.cxx 
-                            exx_screening.cxx 
-                            spherical_harmonics.cxx 
-                            onedft_util.cxx )
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/exx_screening.cxx b/third_party/gauxc/src/xc_integrator/integrator_util/exx_screening.cxx
deleted file mode 100644
index 5c7efcd..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/exx_screening.cxx
+++ /dev/null
@@ -1,327 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "exx_screening.hpp"
-#include "host/blas.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include <chrono>
-//#include <mpi.h>
-//#include <fstream>
-#ifdef GAUXC_HAS_CUDA
-#include "exceptions/cuda_exception.hpp"
-#endif
-
-namespace std {
-template <typename T>
-ostream& operator<<( ostream& out, const vector<T>& v ) {
-  for( auto _v : v ) out << _v << " ";
-  return out;
-}
-}
-
-namespace GauXC {
-
-void exx_ek_screening( 
-  const BasisSet<double>& basis, const BasisSetMap& basis_map,
-  const ShellPairCollection<double>& shpairs,
-  const double* P_abs, size_t ldp, const double* V_shell_max, size_t ldv,
-  double eps_E, double eps_K, LocalHostWorkDriver* lwd, 
-  exx_detail::host_task_iterator task_begin,
-  exx_detail::host_task_iterator task_end ) {
-
-  //int world_rank; MPI_Comm_rank(MPI_COMM_WORLD, &world_rank);
-  const size_t nbf     = basis.nbf();
-  const size_t nshells = basis.nshells();
-  const size_t ntasks  = std::distance(task_begin, task_end);
-
-  std::vector<double> task_max_bf_sum(ntasks);
-  std::vector<double> task_max_bfn(nbf * ntasks);
-
-  //using hrt_t = std::chrono::high_resolution_clock;
-  //using dur_t = std::chrono::duration<double>;
-
-  //auto coll_st = hrt_t::now();
-  #pragma omp parallel
-  { // Scope temp mem
-  std::vector<double> basis_eval;
-  std::vector<double> bfn_max_grid(nbf);
-
-  #pragma omp for schedule(dynamic)
-  for(size_t i_task = 0; i_task < ntasks; ++i_task) {
-    //std::cout << "ITASK = " << i_task << std::endl;
-
-    const auto& task = *(task_begin + i_task);
-    const auto npts = task.points.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-
-    // Basis function shell list
-    auto shell_list_bfn_ = task.bfn_screening.shell_list;
-    int32_t* shell_list_bfn = shell_list_bfn_.data();
-    size_t nshells_bfn = shell_list_bfn_.size();
-    size_t nbe_bfn     = 
-      basis.nbf_subset( shell_list_bfn_.begin(), shell_list_bfn_.end() );
-
-    // Resize scratch
-    basis_eval.resize( nbe_bfn * npts );
-
-
-    // Evaluate basis functions
-    lwd->eval_collocation( npts, nshells_bfn, nbe_bfn, points, basis,
-      shell_list_bfn, basis_eval.data() );
-
-    // Compute max bfn sum
-    // MBFS = max_i sqrt(W[i]) * \sum_mu B(mu,i)
-    double max_bfn_sum = 0.;
-    for( auto ipt = 0ul; ipt < npts; ++ipt ) {
-      double tmp = 0.;
-      for( auto ibf = 0ul; ibf < nbe_bfn; ++ibf ) {
-        tmp += std::abs( basis_eval[ ibf + ipt*nbe_bfn ] );
-      }
-      max_bfn_sum = std::max( max_bfn_sum, std::sqrt(weights[ipt])*tmp );
-    }
-    task_max_bf_sum[i_task] = max_bfn_sum;
-
-    // Compute max value for each bfn over grid
-    bfn_max_grid.resize(nbe_bfn);
-    for( auto ibf = 0ul; ibf < nbe_bfn; ++ibf ) {
-      double tmp = 0.;
-      for( auto ipt = 0ul; ipt < npts; ++ipt ) {
-        tmp = std::max(tmp,
-          std::sqrt(weights[ipt]) *
-          std::abs(basis_eval[ibf + ipt*nbe_bfn])
-        );
-      }
-      bfn_max_grid[ibf] = tmp;
-    }
-
-    // Place max bfn into larger array
-    auto task_max_bfn_it = task_max_bfn.data() + i_task*nbf;
-    size_t ibf = 0ul;
-    for( auto i = 0ul; i < nshells_bfn; ++i ) {
-      const auto ish = shell_list_bfn[i];
-      const auto sh_sz = basis_map.shell_size(ish);
-      const auto sh_off = basis_map.shell_to_first_ao(ish);
-
-      for( auto j = 0; j < sh_sz; ++j ) {
-        task_max_bfn_it[j + sh_off] = bfn_max_grid[j + ibf];
-      }
-
-      ibf += sh_sz;
-    }
-
-  } // Loop over tasks
-  } // Memory Scope
-  //auto coll_en = hrt_t::now();
-  //std::cout << "... done " << dur_t(coll_en-coll_st).count() << std::endl;
-
-  // Compute approx F_i^(k) = |P_ij| * B_j^(k) 
-  //auto gemm_st = hrt_t::now();
-  std::vector<double> task_approx_f( nbf * ntasks );
-  blas::gemm( 'N', 'N', nbf, ntasks, nbf, 1., P_abs, ldp,
-    task_max_bfn.data(), nbf, 0., task_approx_f.data(), nbf );
-  //auto gemm_en = hrt_t::now();
-  //std::cout << "... done " << dur_t(gemm_en-gemm_st).count() << std::endl;
-
-
-  //std::ofstream fmax_file("cpu_fmax." + std::to_string(world_rank) + ".txt");
-  //std::cout << "CPU FMAX SHELLS = ";
-  //auto list_st = hrt_t::now();
-  #pragma omp parallel for schedule(dynamic)
-  for(size_t i_task = 0; i_task < ntasks; ++i_task) {
-    //std::cout << "ITASK = " << i_task << std::endl;
-    std::vector<uint32_t> task_ek_shells(util::div_ceil(nshells,32),0);
-    std::vector<double> max_F_shells(nshells);
-
-    // Collapse max_F over shells
-    const double* max_F_approx_bfn = task_approx_f.data() + i_task*nbf;
-    for( auto ish = 0ul, ibf = 0ul; ish < nshells; ++ish) {
-      const auto sh_sz = basis[ish].size();
-      double tmp = 0.;
-      for( auto i = 0; i < sh_sz; ++i ) {
-        tmp = std::max( tmp, std::abs(max_F_approx_bfn[ibf + i]) );
-      }
-      max_F_shells[ish] = tmp;
-      ibf += sh_sz;
-    }
-    //for(auto x : max_F_shells) std::cout << x << " ";
-    //#if 1
-    //for( auto x : max_F_shells ) {
-    //  fmax_file << i_task << " " << x << std::endl;
-    //}
-    //#else
-    //for(auto i = 0; i < nbf; ++i) {
-    //  fmax_file << i_task << " " << max_F_approx_bfn[i] << std::endl;
-    //}
-    //#endif
-
-    auto task_it = task_begin + i_task;
-    // Compute important shell set
-    const double max_bf_sum = task_max_bf_sum[i_task];
-    for( auto i = 0ul; i < nshells; ++i ) {
-    //for( auto j = 0ul; j <= i;      ++j ) 
-      auto row_st = shpairs.row_ptr()[i];
-      auto row_en = shpairs.row_ptr()[i+1];
-      for(auto _j = row_st; _j < row_en; ++_j)
-    {
-      const auto j = shpairs.col_ind()[_j];
-      const auto V_ij = V_shell_max[i + j*ldv];
-      const auto F_i  = max_F_shells[i];
-      const auto F_j  = max_F_shells[j];
-
-      const double eps_E_compare = F_i * F_j * V_ij;
-      const double eps_K_compare = std::max(F_i, F_j) * V_ij * max_bf_sum;
-      if( eps_K_compare > eps_K or eps_E_compare > eps_E)  {
-        size_t i_block = i / 32;
-        size_t j_block = j / 32;
-        size_t i_local = i % 32;
-        size_t j_local = j % 32;
-
-        task_ek_shells[i_block] |= (1u << i_local); 
-        task_ek_shells[j_block] |= (1u << j_local); 
-        task_it->cou_screening.shell_pair_list.emplace_back(i,j);
-        task_it->cou_screening.shell_pair_idx_list.emplace_back(_j);
-      }
-    }
-    }
-
-    uint32_t total_shells = 0;
-    for( auto x : task_ek_shells ) total_shells += __builtin_popcount(x);
-
-    std::vector<uint32_t> ek_shells; ek_shells.reserve(total_shells);
-    for( auto i_block = 0u; i_block < util::div_ceil(nshells,32); ++i_block ) {
-    for( unsigned i_local = 0; i_local < 32; ++i_local ) 
-    if( task_ek_shells[i_block] & (1u << i_local) ) {
-      ek_shells.emplace_back(i_local + i_block*32);
-    }
-    }
-
-
-    // Append to list
-    task_it->cou_screening.shell_list =
-      decltype(task_it->cou_screening.shell_list)(ek_shells.begin(), ek_shells.end());
-    task_it->cou_screening.nbe = 
-      basis.nbf_subset( ek_shells.begin(), ek_shells.end() );
-
-  } // Loop over tasks
-  //auto list_en = hrt_t::now();
-  //std::cout << "... done " << dur_t(list_en-list_st).count() << std::endl;
-
-  //{
-  //std::ofstream ofile("cpu_max_bfn." + std::to_string(world_rank) + ".txt");
-  //for(auto i = 0; i < ntasks; ++i) {
-  //  ofile << i << " " << task_max_bf_sum[i] << std::endl;
-  //}
-  //}
-  //{
-  //std::ofstream ofile("cpu_counts." + std::to_string(world_rank) + ".txt");
-  //for(auto i = 0; i < ntasks; ++i) {
-  //  ofile << i << " " << (task_begin+i)->cou_screening.shell_pair_list.size() << std::endl;
-  //}
-  //}
-  //{
-  //std::ofstream ofile("cpu_rc_counts." + std::to_string(world_rank) + ".txt");
-  //for(auto i = 0; i < ntasks; ++i) {
-  //  ofile << i << " " << (task_begin+i)->cou_screening.shell_list.size() << std::endl;
-  //}
-  //}
-
-
-}
-
-
-#ifdef GAUXC_HAS_DEVICE
-void exx_ek_screening( 
-  const BasisSet<double>& basis, const BasisSetMap& basis_map,
-  const ShellPairCollection<double>& shpairs,
-  const double* P_abs, size_t ldp, const double* V_shell_max, size_t ldv,
-  double eps_E, double eps_K, XCDeviceData& device_data, 
-  LocalDeviceWorkDriver* lwd, 
-  exx_detail::host_task_iterator task_begin,
-  exx_detail::host_task_iterator task_end ) {
-
-  const size_t nbf = basis.nbf();
-  const auto nshells = basis.nshells();
-  const size_t ntasks  = std::distance(task_begin, task_end);
-
-  const size_t task_batch_size = 10000;
-
-  // Setup EXX EK Screening memory on the device
-  device_data.reset_allocations();
-  device_data.allocate_static_data_exx_ek_screening( ntasks, nbf, nshells, 
-    shpairs.npairs(), basis_map.max_l() );
-  device_data.send_static_data_density_basis( P_abs, ldp, nullptr, 0, nullptr, 0, nullptr, 0,  basis );
-  device_data.send_static_data_exx_ek_screening( V_shell_max, ldv, basis_map,
-    shpairs );
-
-  integrator_term_tracker enabled_terms;
-  enabled_terms.exx_ek_screening = true;
-
-
-
-  auto task_batch_begin = task_begin;
-  while(task_batch_begin != task_end) {
-
-    size_t nleft = std::distance(task_batch_begin, task_end);
-    exx_detail::host_task_iterator task_batch_end;
-    if(nleft > task_batch_size) 
-      task_batch_end = task_batch_begin + task_batch_size;
-    else 
-      task_batch_end = task_end;
-
-    device_data.zero_exx_ek_screening_intermediates();
-
-
-    // Loop over tasks and form basis-related buffers
-    auto task_it = task_batch_begin;
-    while( task_it != task_batch_end ) {
-
-      // Determine next task patch, send relevant data (EXX_EK only)
-      task_it = device_data.generate_buffers( enabled_terms, basis_map, task_it, 
-        task_batch_end );
-
-      // Evaluate collocation
-      lwd->eval_collocation( &device_data );
-
-      // Evaluate EXX EK Screening Basis Statistics
-      lwd->eval_exx_ek_screening_bfn_stats( &device_data );
-
-    }
-
-
-    lwd->exx_ek_shellpair_collision( eps_E, eps_K, &device_data, task_batch_begin, 
-      task_batch_end, shpairs );
-    task_batch_begin = task_batch_end;
-  }
-
-  //GAUXC_CUDA_ERROR("End Sync", cudaDeviceSynchronize());
-
-  //std::cout << "GPU MBS = ";
-  //for( auto x : task_max_bfn_sum) std::cout << x << " ";
-  //std::cout << std::endl;
-
-  //std::cout << "GPU FMAX BFN = ";
-  //for(int i = 0; i < ntasks; ++i)
-  //for(int j = 0; j < nbf;    ++j) std::cout << task_f_bfn_max[i + j*ntasks] << " ";
-  //std::cout << std::endl;
-
-  //std::cout << "GPU FMAX SHELLS = ";
-  //for(int i = 0; i < ntasks; ++i)
-  //for(int j = 0; j < nshells;    ++j) std::cout << task_f_shl_max[i + j*ntasks] << " ";
-  //std::cout << std::endl;
-  
-  
-}
-#endif
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/exx_screening.hpp b/third_party/gauxc/src/xc_integrator/integrator_util/exx_screening.hpp
deleted file mode 100644
index 5c55c3a..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/exx_screening.hpp
+++ /dev/null
@@ -1,44 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_task.hpp>
-#include <host/local_host_work_driver.hpp>
-#ifdef GAUXC_HAS_DEVICE
-#include <device/local_device_work_driver.hpp>
-#endif
-
-namespace GauXC {
-namespace exx_detail {
-  using host_task_container = std::vector<XCTask>;
-  using host_task_iterator  = typename host_task_container::iterator;
-}
-
-void exx_ek_screening( 
-  const BasisSet<double>& basis, const BasisSetMap& basis_map,
-  const ShellPairCollection<double>& shpairs,
-  const double* P_abs, size_t ldp, const double* V_shell_max, size_t ldv,
-  double eps_E, double eps_K, LocalHostWorkDriver* lwd, 
-  exx_detail::host_task_iterator task_begin,
-  exx_detail::host_task_iterator task_end );
-
-#ifdef GAUXC_HAS_DEVICE
-void exx_ek_screening( 
-  const BasisSet<double>& basis, const BasisSetMap& basis_map,
-  const ShellPairCollection<double>& shpairs,
-  const double* P_abs, size_t ldp, const double* V_shell_max, size_t ldv,
-  double eps_E, double eps_K, XCDeviceData& device_data, 
-  LocalDeviceWorkDriver* lwd, 
-  exx_detail::host_task_iterator task_begin,
-  exx_detail::host_task_iterator task_end );
-#endif
- 
-}
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/integral_bounds.cxx b/third_party/gauxc/src/xc_integrator/integrator_util/integral_bounds.cxx
deleted file mode 100644
index 680c353..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/integral_bounds.cxx
+++ /dev/null
@@ -1,171 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "integral_bounds.hpp"
-#include <vector>
-#include <gauxc/util/geometry.hpp>
-#include <gauxc/util/constexpr_math.hpp>
-#include <gauxc/exceptions.hpp>
-#include <gauxc/shell_pair.hpp>
-
-
-namespace GauXC {
-namespace util  {
-
-
-inline constexpr double max_coulomb_20( double Rab, double alpha, double beta, 
-  double gamma ) {
-  (void)alpha;
-  return 1.0 * ( gamma + Rab * integral_pow<2>(beta) ) / integral_pow<2>(gamma);
-}
-
-inline constexpr double max_coulomb_22( double Rab, double alpha, double beta, 
-  double gamma ) {
-  return 1.0 / integral_pow<4>(gamma) * 
-    ( Rab * integral_pow<3>(alpha) +
-      alpha * beta * (4. - Rab*beta ) +
-      integral_pow<2>(beta) * (2.  + Rab * beta ) +
-      integral_pow<2>(alpha) * (2. - Rab * beta + Rab*Rab * beta*beta)
-    );
-}
-
-inline constexpr double max_coulomb_40( double Rab, double alpha, double beta, 
-  double gamma ) {
-  return 1.0 / integral_pow<4>(gamma) *
-  (
-    2.*gamma*gamma +
-    4.*beta*beta * gamma * Rab +
-    beta*beta* integral_pow<2>(alpha - gamma) * Rab*Rab
-  );
-}
-inline constexpr double max_coulomb_42( double Rab, double alpha, double beta, 
-  double gamma ) {
-  return -1.0 / integral_pow<6>(gamma) *
-  (
-    -6.   * integral_pow<3>(gamma) +
-    -2.   * (3.*alpha - 2.*gamma) * gamma*gamma * (gamma - 3.*beta) * Rab +
-    -beta * (3.*beta  - 2.*gamma) * gamma * (3.*alpha*alpha - 4.*alpha*gamma + gamma*gamma) * Rab*Rab +
-    alpha * beta*beta * integral_pow<2>(alpha - gamma) * (beta - gamma) * Rab*Rab*Rab
-  );
-}
-
-inline constexpr double max_coulomb_44( double Rab, double alpha, double beta, 
-  double gamma ) {
-  return 1.0 / integral_pow<8>(gamma) *
-  (
-    24. * integral_pow<4>(gamma) +
-    24. * (2.*alpha - gamma) * integral_pow<3>(gamma) * (gamma - 2.*beta) * Rab +
-    2. * gamma*gamma * (6.*alpha*alpha - 6.*alpha*gamma + gamma*gamma) *
-      (6.*beta*beta - 6.*beta*gamma + gamma*gamma) *Rab*Rab +
-    -4. * alpha * beta * gamma * (2.*alpha*alpha - 3.*alpha*gamma + gamma*gamma) *
-      (2.*beta*beta - 3.*beta*gamma + gamma*gamma) * Rab*Rab*Rab +
-    alpha*alpha*beta*beta * integral_pow<2>(alpha-gamma) * integral_pow<2>(beta-gamma) *
-      Rab*Rab*Rab*Rab
-  );
-}
-
-
-inline double max_coulomb( int l_a, int l_b, double Rab, double alpha, 
-  double beta, double gamma ) {
-
-  if( l_a == 0 and l_b == 0 ) return 1.0;
-  if( l_a == 2 and l_b == 2 ) return max_coulomb_22( Rab, alpha, beta, gamma );
-  if( l_a == 2 and l_b == 0 ) return max_coulomb_20( Rab, alpha, beta, gamma );
-  if( l_a == 0 and l_b == 2 ) return max_coulomb_20( Rab, beta, alpha, gamma );
-  if( l_a == 4 and l_b == 4 ) return max_coulomb_44( Rab, alpha, beta, gamma );
-  if( l_a == 4 and l_b == 0 ) return max_coulomb_40( Rab, alpha, beta, gamma );
-  if( l_a == 0 and l_b == 4 ) return max_coulomb_40( Rab, beta, alpha, gamma );
-  if( l_a == 4 and l_b == 2 ) return max_coulomb_42( Rab, alpha, beta, gamma );
-  if( l_a == 2 and l_b == 4 ) return max_coulomb_42( Rab, beta, alpha, gamma );
-
-  const int l_a_p = l_a + (l_a % 2);
-  const int l_b_p = l_b + (l_b % 2);
-
-  const int l_a_m = l_a - (l_a % 2);
-  const int l_b_m = l_b - (l_b % 2);
-
-  if( l_a_p > 4 or l_b_p > 4 ) GAUXC_GENERIC_EXCEPTION("Case Not Handled"); 
-
-  double V_pm = std::numeric_limits<double>::infinity();
-  if( l_a_p == 0 and l_b_m == 0 ) 
-    V_pm = 1.0;
-  else if( l_a_p == 2 and l_b_m == 0 ) 
-    V_pm = max_coulomb_20( Rab, alpha, beta, gamma );
-  else if( l_a_p == 0 and l_b_m == 2 ) 
-    V_pm = max_coulomb_20( Rab, beta, alpha, gamma );
-  else if( l_a_p == 2 and l_b_m == 2 )
-    V_pm = max_coulomb_22( Rab, alpha, beta, gamma );
-  else if( l_a_p == 4 and l_b_m == 0 ) 
-    V_pm = max_coulomb_40( Rab, alpha, beta, gamma );
-  else if( l_a_p == 0 and l_b_m == 4 ) 
-    V_pm = max_coulomb_40( Rab, beta, alpha, gamma );
-  else if( l_a_p == 4 and l_b_m == 2 ) 
-    V_pm = max_coulomb_42( Rab, alpha, beta, gamma );
-  else if( l_a_p == 2 and l_b_m == 4 ) 
-    V_pm = max_coulomb_42( Rab, beta, alpha, gamma );
-  else if( l_a_p == 4 and l_b_m == 4 )
-    V_pm = max_coulomb_44( Rab, alpha, beta, gamma );
-
-  double V_mp = std::numeric_limits<double>::infinity();
-  if( l_a_m == 0 and l_b_p == 0 ) 
-    V_mp = 1.0;
-  else if( l_a_m == 2 and l_b_p == 0 ) 
-    V_mp = max_coulomb_20( Rab, alpha, beta, gamma );
-  else if( l_a_m == 0 and l_b_p == 2 ) 
-    V_mp = max_coulomb_20( Rab, beta, alpha, gamma );
-  else if( l_a_m == 2 and l_b_p == 2 )
-    V_mp = max_coulomb_22( Rab, alpha, beta, gamma );
-  else if( l_a_m == 4 and l_b_p == 0 ) 
-    V_mp = max_coulomb_40( Rab, alpha, beta, gamma );
-  else if( l_a_m == 0 and l_b_p == 4 ) 
-    V_mp = max_coulomb_40( Rab, beta, alpha, gamma );
-  else if( l_a_m == 4 and l_b_p == 2 ) 
-    V_mp = max_coulomb_42( Rab, alpha, beta, gamma );
-  else if( l_a_m == 2 and l_b_p == 4 ) 
-    V_mp = max_coulomb_42( Rab, beta, alpha, gamma );
-  else if( l_a_m == 4 and l_b_p == 4 )
-    V_mp = max_coulomb_44( Rab, alpha, beta, gamma );
-
-  return std::sqrt(V_pm * V_mp);
-}
-
-
-template <typename T>
-T max_coulomb( const Shell<T>& bra, const Shell<T>& ket) {
-
-  const auto A = bra.O();
-  const auto B = ket.O();
-  const auto RAB = std::pow(geometry::euclidean_dist( A, B ),2);
-
-  double max_val = 0.;
-  for( auto i = 0; i < bra.nprim(); ++i )
-  for( auto j = 0; j < ket.nprim(); ++j ) {
-    const auto alpha = bra.alpha()[i];
-    const auto beta  = ket.alpha()[j];
-    const auto gamma = alpha + beta;
-
-    const auto Kab = std::exp( - alpha*beta*RAB / gamma );
-
-    const auto c_a = bra.coeff()[i];
-    const auto c_b = ket.coeff()[j];
-    const auto c = 2 * M_PI * Kab * std::abs( c_a * c_b / gamma );
-
-    max_val += c * max_coulomb( bra.l(), ket.l(), RAB, alpha, beta, gamma );
-  }
-
-  return max_val;
-}
-
-
-template double max_coulomb( const Shell<double>&, const Shell<double>& );
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/integral_bounds.hpp b/third_party/gauxc/src/xc_integrator/integrator_util/integral_bounds.hpp
deleted file mode 100644
index 02c6cae..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/integral_bounds.hpp
+++ /dev/null
@@ -1,25 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/shell.hpp>
-
-namespace GauXC {
-namespace util  {
-
-template <typename T>
-T max_coulomb( const Shell<T>& bra, const Shell<T>& ket);
-
-extern template double max_coulomb( const Shell<double>&, const Shell<double>& );
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/integrator_common.cxx b/third_party/gauxc/src/xc_integrator/integrator_util/integrator_common.cxx
deleted file mode 100644
index e919d91..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/integrator_common.cxx
+++ /dev/null
@@ -1,148 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "integrator_common.hpp"
-
-#include <tuple>
-#include <array>
-#include <vector>
-#include <cstdint>
-
-namespace GauXC      {
-
-std::tuple< std::vector< std::array<int32_t, 3> > , std::vector< int32_t > >
-  gen_compressed_submat_map( const BasisSetMap&       basis_map,
-                             const std::vector< int32_t >& shell_mask,
-                             const int32_t LDA, const int32_t block_size ) {
-
-
-  std::vector< std::pair<int32_t, int32_t> > submat_map;
-
-  // Init as if there is no screening
-  submat_map.emplace_back(
-    basis_map.shell_to_ao_range( shell_mask.front() ).first,
-    basis_map.shell_to_ao_range( shell_mask.back()  ).second
-  );
-
-
-  for( auto sh_it =  shell_mask.begin(); sh_it != shell_mask.end()-1; ++sh_it ) {
-
-    if( *(sh_it+1) - *(sh_it) != 1 ) {
-
-      submat_map.back().second = basis_map.shell_to_ao_range(*sh_it).second;
-        
-      submat_map.emplace_back(
-        basis_map.shell_to_ao_range( *(sh_it+1) ).first,
-        basis_map.shell_to_ao_range( shell_mask.back()  ).second
-      );
-
-    }
-
-
-
-  }
-
-
-  if( shell_mask.size() == 1 )
-    submat_map.back().second = 
-      basis_map.shell_to_ao_range(shell_mask[0]).second;
-
-
-  /*
-   * This code block does post-processing for the submatrix optimizations
-   *
-   * It first adds the index within the small matrix as another pair in the vector.
-   * This allows the kernel to process multiple cuts concurrently within the same
-   * task. Additionally, it adds artificial breaks in the cut at the given interval
-   * This is to reduce the amount of bookkeeping that the kernel is required to do.
-   *
-   * While the small matrix start indices are stored in the additional pair, the second 
-   * value is blank as the delta can be reused from the big matrix start and stop points.
-   *
-   * It also creates an additional vector which stores the mapping from big matrix block 
-   * to cut index. As a kernel only processes a single block of the big matrix, it can
-   * look up the starting and ending cut indices and ignore all other cuts.
-   *
-   */
-  std::vector< std::array<int32_t, 3> > submat_map_expand;
-  std::vector< int32_t > submat_block_idx;
-  submat_block_idx.push_back(0);
-  const int end_point = LDA; 
-
-  size_t cut_index = 0;
-  int cut_expand_index = 0;
-  int small_index = 0;
-  int delta;
-  for (int block_start = 0; block_start < end_point; block_start += block_size) {
-    const int block_end = block_start + block_size;
-    
-    if( cut_index < submat_map.size() ) {
-
-    int cut_start = submat_map[cut_index].first;
-    int cut_end   = submat_map[cut_index].second;
-    while (cut_index < submat_map.size() && cut_start < block_end) {
-      if (cut_start < block_start && cut_end < block_start) {
-        // In this case the cut starts and stops before the block starts.
-	      // This should never happen as the cut should already have been processed.
-	      // But I included this case as a sanity check.
-	      std::cout << "Something is wrong constructing the extended cut map " << std::endl;
-      } else if (cut_start < block_start && cut_end > block_end) {
-        // In this case, the cut spans the entire block. The cut index is not
-	      // incremented because we need to process the rest of it.
-	      delta = block_end - block_start;
-	      submat_map_expand.push_back({block_start, delta, small_index});
-        small_index += delta;
-
-	      cut_expand_index++;
-	      break;
-      } else if (cut_start < block_start) {
-	      // In this case the cut begins before the block, but ends within
-	      // this block
-	      delta = cut_end - block_start;
-	      submat_map_expand.push_back({block_start, delta, small_index});
-              small_index += delta;
-
-	      cut_index++;
-	      cut_expand_index++;
-      } else if (cut_end > block_end) {
-	      // In this case, the cut starts within the block, but extends
-	      // into the next block. Again, the cut index is not incremented
-	      delta = block_end - cut_start;
-	      submat_map_expand.push_back({cut_start, delta, small_index});
-        small_index += delta;
-
-	      cut_expand_index++;
-	      break;
-      } else {
-	      // In this case, the cut starts and ends within the block
-	      delta = cut_end - cut_start;
-	      submat_map_expand.push_back({cut_start, delta, small_index});
-        small_index += delta;
-
-	      cut_index++;
-	      cut_expand_index++;
-      }
-
-      if( cut_index < submat_map.size() ) {
-        cut_start = submat_map[cut_index].first;
-        cut_end   = submat_map[cut_index].second;
-      }
-    }
-
-    } // guard on submat_map access
-    submat_block_idx.push_back(cut_expand_index);
-  }
-  return {submat_map_expand, submat_block_idx};
-}
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/integrator_common.hpp b/third_party/gauxc/src/xc_integrator/integrator_util/integrator_common.hpp
deleted file mode 100644
index 079e3d6..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/integrator_common.hpp
+++ /dev/null
@@ -1,24 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/basisset_map.hpp>
-
-namespace GauXC      {
-
-std::tuple< std::vector< std::array<int32_t, 3> >, std::vector< int32_t > >
-  gen_compressed_submat_map( const BasisSetMap&       basis_set,
-                             const std::vector< int32_t >& shell_mask,
-		             const int32_t LDA, const int32_t block_size ); 
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/onedft_util.cxx b/third_party/gauxc/src/xc_integrator/integrator_util/onedft_util.cxx
deleted file mode 100644
index f776558..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/onedft_util.cxx
+++ /dev/null
@@ -1,394 +0,0 @@
-#include <gauxc/gauxc_config.hpp>
-#include "onedft_util.hpp"
-#ifdef GAUXC_HAS_CUDA
-#include <cuda_runtime.h>
-#endif
-#include <iostream>
-#include <gauxc/exceptions.hpp>
-#include <gauxc/util/mpi.hpp>
-namespace GauXC {
-
-void print_memory_stats(size_t device_id) {
-#ifdef GAUXC_HAS_CUDA
-    size_t free_mem, total_mem;
-    cudaMemGetInfo(&free_mem, &total_mem);
-    // std::cout << "Device ID: " << device_id << std::endl;
-    // std::cout << "Total Memory: " << total_mem / (1024 * 1024) << " MB" << std::endl;
-    // std::cout << "Free Memory: " << free_mem / (1024 * 1024) << " MB" << std::endl;
-#endif
-}
-bool valueExists(const std::string& value) {
-    for (const auto& pair : feat_map) {
-        if (pair.second == value) {
-            return true;
-        }
-    }
-    return false;
-}
-
-// map model to GAUXC_ONEDFT_MODEL_PATH / model.fun
-std::string map_model(const std::string& model, torch::DeviceType device) {
-    if (std::filesystem::exists(model)) {
-        return model;
-    } 
-    // find model in GAUXC_ONEDFT_MODEL_PATH or GAUXC_ONEDFT_MODEL_PATH_INSTALL
-    std::string model_path = std::string(GAUXC_ONEDFT_MODEL_PATH);
-    if (!std::filesystem::exists(model_path)) {
-        if (std::filesystem::exists(GAUXC_ONEDFT_MODEL_PATH_INSTALL)) {
-            model_path = std::string(GAUXC_ONEDFT_MODEL_PATH_INSTALL);
-        } else {
-            GAUXC_GENERIC_EXCEPTION("Neither GAUXC_ONEDFT_MODEL_PATH nor GAUXC_ONEDFT_MODEL_PATH_INSTALL exist");
-        }
-    }
-    if (std::filesystem::exists(model_path + "/" + model)) {
-        return model_path + "/" + model;
-    }
-    // check if model is in the form of "PBE", "TPSS", "LDA", "ONEDFT"
-    if (model == "PBE") {
-        return model_path + "/pbe.fun";
-    } else if (model == "TPSS") {
-        return model_path + "/tpss.fun";
-    } else if (model == "LDA") {
-        return model_path + "/lda.fun";
-    } else {
-        GAUXC_GENERIC_EXCEPTION("Model " + model + " not found in " + model_path);
-    }
-}
-
-std::tuple<torch::jit::Method, std::vector<std::string>>
-load_model(const std::string filename, torch::DeviceType device)
-{    
-    torch::jit::script::Module mod;
-    torch::jit::ExtraFilesMap extra_files{{"features", ""}, {"protocol_version", ""}};
-    std::vector<std::string> keys;
-    std::string model = map_model(filename, device);
-    try {
-        // Deserialize the ScriptModule from a file using torch::jit::load().
-        mod = torch::jit::load(model, device, extra_files);
-    }
-    catch (const c10::Error& e) {
-        GAUXC_GENERIC_EXCEPTION("error loading onedft model: " + std::string(e.what()));
-    }
-
-    auto version = json::parse(extra_files.at("protocol_version")).get<int>();
-    if (version != 2) {
-        GAUXC_GENERIC_EXCEPTION("Unsupported protocol version " + std::to_string(version));
-    }
-
-    auto features = json::parse(extra_files.at("features"));
-    // check if features is array
-    if (!features.is_array()) {
-        GAUXC_GENERIC_EXCEPTION("features is not an array");
-    }
-    for (const auto& feature : features) {
-        if (!feature.is_string()) {
-            GAUXC_GENERIC_EXCEPTION("feature is not a string");
-        }
-        keys.push_back(feature.get<std::string>());
-    }
-
-    return std::make_tuple(mod.get_method("get_exc_density"), keys);
-}
-
-at::Tensor
-get_exc(torch::jit::Method exc_func, FeatureDict features) {
-    IValueList args;
-    IValueMap kwargs;
-    kwargs["mol"] = features;
-    return exc_func(args, kwargs).toTensor();
-}
-
-int mpi_scatter_onedft_outputs(const FeatureDict features_dict, // only exist in rank 0
-                          const int world_rank, const int world_size,
-                          std::vector<int> recvcounts, std::vector<int> displs,
-                          std::vector<double>& den_eval, std::vector<double>& dden_eval, std::vector<double>& tau) {
-  // store data
-  std::vector<double> recv_den_eval, recv_dden_eval, recv_tau;
-
-  int total_npts;
-  bool is_gga, is_mgga;
-  if (world_rank == 0) {
-    total_npts = features_dict.at(feat_map.at(ONEDFT_FEATURE::DEN)).size(1);
-    is_gga = (features_dict.find(feat_map.at(ONEDFT_FEATURE::DDEN)) != features_dict.end());
-    is_mgga = (features_dict.find(feat_map.at(ONEDFT_FEATURE::TAU)) != features_dict.end());
-    
-    recv_den_eval.resize(total_npts * 2);
-    if (is_gga | is_mgga) {
-      recv_dden_eval.resize(total_npts * 2 * 3);
-    }
-    if (is_mgga) {
-      recv_tau.resize(total_npts * 2);
-    }
-  }
-  #ifdef GAUXC_HAS_MPI
-  MPI_Bcast(&is_gga, 1, MPI_C_BOOL, 0, MPI_COMM_WORLD);
-  MPI_Bcast(&is_mgga, 1, MPI_C_BOOL, 0, MPI_COMM_WORLD);
-  MPI_Bcast(&total_npts, 1, MPI_INT, 0, MPI_COMM_WORLD);
-  #endif
-
-  double* recv_den_eval_a = recv_den_eval.data();
-  double* recv_den_eval_b = recv_den_eval.data() + total_npts;
-  double* recv_dden_x_eval_a = recv_dden_eval.data();
-  double* recv_dden_y_eval_a = recv_dden_eval.data() + total_npts;
-  double* recv_dden_z_eval_a = recv_dden_eval.data() + total_npts * 2;
-  double* recv_dden_x_eval_b = recv_dden_eval.data() + total_npts * 3;
-  double* recv_dden_y_eval_b = recv_dden_eval.data() + total_npts * 4;
-  double* recv_dden_z_eval_b = recv_dden_eval.data() + total_npts * 5;
-  double* recv_tau_a = recv_tau.data();
-  double* recv_tau_b = recv_tau.data() + total_npts;
-
-  if (world_rank == 0) {
-    at::Tensor den_grad_tensor = features_dict.at(feat_map.at(ONEDFT_FEATURE::DEN)).grad().cpu().contiguous();
-    std::memcpy(recv_den_eval_a, den_grad_tensor.data_ptr<double>(), total_npts * sizeof(double));
-    std::memcpy(recv_den_eval_b, den_grad_tensor.data_ptr<double>() + total_npts, total_npts * sizeof(double));
-
-    if (is_gga || is_mgga) {
-      at::Tensor dden_grad_tensor = features_dict.at(feat_map.at(ONEDFT_FEATURE::DDEN)).grad().cpu().contiguous();
-      std::memcpy(recv_dden_x_eval_a, dden_grad_tensor.data_ptr<double>(), total_npts * sizeof(double));
-      std::memcpy(recv_dden_y_eval_a, dden_grad_tensor.data_ptr<double>() + total_npts, total_npts * sizeof(double));
-      std::memcpy(recv_dden_z_eval_a, dden_grad_tensor.data_ptr<double>() + total_npts * 2, total_npts * sizeof(double));
-      std::memcpy(recv_dden_x_eval_b, dden_grad_tensor.data_ptr<double>() + total_npts * 3, total_npts * sizeof(double));
-      std::memcpy(recv_dden_y_eval_b, dden_grad_tensor.data_ptr<double>() + total_npts * 4, total_npts * sizeof(double));
-      std::memcpy(recv_dden_z_eval_b, dden_grad_tensor.data_ptr<double>() + total_npts * 5, total_npts * sizeof(double));
-    }
-    if (is_mgga) {
-      at::Tensor tau_grad_tensor = features_dict.at(feat_map.at(ONEDFT_FEATURE::TAU)).grad().cpu().contiguous();
-      std::memcpy(recv_tau_a, tau_grad_tensor.data_ptr<double>(), total_npts * sizeof(double));
-      std::memcpy(recv_tau_b, tau_grad_tensor.data_ptr<double>() + total_npts, total_npts * sizeof(double));
-    }
-  }
-  
-  if (world_size == 1) {
-    // If only one rank, no need to scatter
-    den_eval = std::move(recv_den_eval);
-    dden_eval = std::move(recv_dden_eval);
-    tau = std::move(recv_tau);
-    return total_npts;
-  }
-  // Prepare for scattering
-#ifdef GAUXC_HAS_MPI
-  MPI_Scatter(recvcounts.data(), 1, MPI_INT, &total_npts, 1, MPI_INT, 0, MPI_COMM_WORLD);
-  den_eval.resize(total_npts * 2);
-  dden_eval.resize(total_npts * 6);
-  tau.resize(total_npts * 2);
-
-  MPI_Scatterv(recv_den_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    den_eval.data(), total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-  MPI_Scatterv(recv_den_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    den_eval.data() + total_npts, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-
-  if (is_gga | is_mgga) {
-    MPI_Scatterv(recv_dden_x_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    dden_eval.data(), total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Scatterv(recv_dden_y_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    dden_eval.data() + total_npts, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Scatterv(recv_dden_z_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    dden_eval.data() + total_npts * 2, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Scatterv(recv_dden_x_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    dden_eval.data() + total_npts * 3, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Scatterv(recv_dden_y_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    dden_eval.data() + total_npts * 4, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Scatterv(recv_dden_z_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    dden_eval.data() + total_npts * 5, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-  }
-
-  if (is_mgga) {
-    MPI_Scatterv(recv_tau_a, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    tau.data(), total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Scatterv(recv_tau_b, recvcounts.data(), displs.data(), MPI_DOUBLE,
-    tau.data() + total_npts, total_npts, MPI_DOUBLE, 0, MPI_COMM_WORLD);
-  }
-  MPI_Barrier(MPI_COMM_WORLD);
-#endif
-  return total_npts;
-}
-
-int mpi_gather_onedft_inputs_gpu(std::vector<double>& den_eval, std::vector<double>& dden_eval,
-                          std::vector<double>& tau, std::vector<double>& grid_coords,
-                          std::vector<double>& grid_weights, const int total_npts,
-                          const int world_rank, const int world_size,
-                          std::vector<int>& recvcounts, std::vector<int>& displs) {
-#ifdef GAUXC_HAS_MPI
-
-    const bool is_gga = (dden_eval.size() > 0);
-    const bool is_mgga = (tau.size() > 0);
-    std::vector<double> recv_grid_weights, recv_grid_coords, recv_den_eval, recv_dden_eval, 
-        recv_tau;
-    std::vector<int> recvcounts_coords, displs_coords;
-    int total_npts_sum = 0;
-    MPI_Allreduce(&total_npts, &total_npts_sum, 1, MPI_INT, MPI_SUM, MPI_COMM_WORLD);
-    if (world_rank == 0) {
-      recv_grid_weights.resize(total_npts_sum);
-      recv_grid_coords.resize(total_npts_sum * 3);
-      recv_den_eval.resize(total_npts_sum * 2);
-      if (is_gga | is_mgga) {
-        recv_dden_eval.resize(total_npts_sum * 2 * 3);
-      }
-      if (is_mgga) {
-        recv_tau.resize(total_npts_sum * 2);
-      }
-      recvcounts_coords.resize(world_size);
-      displs_coords.resize(world_size);
-    }
-
-    size_t displ = 0;
-    MPI_Scan(&total_npts, &displ, 1, MPI_INT, MPI_SUM, MPI_COMM_WORLD);
-    displ -= total_npts;
-    MPI_Gather(&total_npts, 1, MPI_INT, recvcounts.data(), 1, MPI_INT, 0, MPI_COMM_WORLD);
-    MPI_Gather(&displ, 1, MPI_INT, displs.data(), 1, MPI_INT, 0, MPI_COMM_WORLD);
-    if (world_rank == 0) {
-      for (int i = 0; i < world_size; ++i) {
-        displs_coords[i] = displs[i] * 3;
-        recvcounts_coords[i] = recvcounts[i] * 3;
-      }
-    }
-
-    double* den_eval_a   = den_eval.data();
-    double* den_eval_b   = den_eval_a + total_npts;
-
-    double* recv_den_eval_a = recv_den_eval.data();
-    double* recv_den_eval_b = recv_den_eval_a + total_npts_sum;
-
-    MPI_Gatherv(den_eval_a, total_npts, MPI_DOUBLE,
-      recv_den_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Gatherv(den_eval_b, total_npts, MPI_DOUBLE,
-      recv_den_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-
-    double* dden_x_eval_a = dden_eval.data();
-    double* dden_y_eval_a = dden_x_eval_a + total_npts;
-    double* dden_z_eval_a = dden_x_eval_a + total_npts*2;
-    double* dden_x_eval_b = dden_x_eval_a + total_npts*3;
-    double* dden_y_eval_b = dden_x_eval_a + total_npts*4;
-    double* dden_z_eval_b = dden_x_eval_a + total_npts*5;
-
-    double* recv_dden_x_eval_a = recv_dden_eval.data();
-    double* recv_dden_y_eval_a = recv_dden_x_eval_a + total_npts_sum;
-    double* recv_dden_z_eval_a = recv_dden_x_eval_a + total_npts_sum*2;
-    double* recv_dden_x_eval_b = recv_dden_x_eval_a + total_npts_sum*3;
-    double* recv_dden_y_eval_b = recv_dden_x_eval_a + total_npts_sum*4;
-    double* recv_dden_z_eval_b = recv_dden_x_eval_a + total_npts_sum*5;
-
-    if (is_gga || is_mgga) {
-      MPI_Gatherv(dden_x_eval_a, total_npts, MPI_DOUBLE,
-        recv_dden_x_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-      MPI_Gatherv(dden_y_eval_a, total_npts, MPI_DOUBLE,
-        recv_dden_y_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-      MPI_Gatherv(dden_z_eval_a, total_npts, MPI_DOUBLE,
-        recv_dden_z_eval_a, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-      MPI_Gatherv(dden_x_eval_b, total_npts, MPI_DOUBLE,
-        recv_dden_x_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-      MPI_Gatherv(dden_y_eval_b, total_npts, MPI_DOUBLE,
-        recv_dden_y_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-      MPI_Gatherv(dden_z_eval_b, total_npts, MPI_DOUBLE,
-        recv_dden_z_eval_b, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    }
-
-    double* tau_a        = tau.data();
-    double* tau_b        = tau_a + total_npts;
-
-    double* recv_tau_a   = recv_tau.data();
-    double* recv_tau_b   = recv_tau_a + total_npts_sum;
-    if (is_mgga) {
-      MPI_Gatherv(tau_a, total_npts, MPI_DOUBLE,
-        recv_tau_a, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-      MPI_Gatherv(tau_b, total_npts, MPI_DOUBLE,
-        recv_tau_b, recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    }
-    
-    MPI_Gatherv(grid_weights.data(), total_npts, MPI_DOUBLE,
-     recv_grid_weights.data(), recvcounts.data(), displs.data(), MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    MPI_Gatherv(grid_coords.data(), total_npts * 3, MPI_DOUBLE,
-      recv_grid_coords.data(), recvcounts_coords.data(), displs_coords.data(), 
-      MPI_DOUBLE, 0, MPI_COMM_WORLD);
-
-    if (world_rank == 0) {
-        den_eval        = std::move(recv_den_eval);
-        dden_eval       = std::move(recv_dden_eval);
-        tau             = std::move(recv_tau);
-        grid_coords     = std::move(recv_grid_coords);
-        grid_weights    = std::move(recv_grid_weights);
-    }
-    return total_npts_sum;
-#endif
-}
-
-int mpi_gather_onedft_inputs(std::vector<double>& den_eval, std::vector<double>& dden_eval,
-                          std::vector<double>& tau, std::vector<double>& grid_coords,
-                          std::vector<double>& grid_weights, const int total_npts,
-                          const int world_rank, const int world_size,
-                          std::vector<int>& sendcounts, std::vector<int>& displs) {
-#ifdef GAUXC_HAS_MPI
-    const bool is_gga = (dden_eval.size() > 0);
-    const bool is_mgga = (tau.size() > 0);
-    // store gathered data temporarily
-    std::vector<double> recv_grid_weights, recv_grid_coords, recv_den_eval, recv_dden_eval, recv_tau;
-    int total_npts_sum = 0;
-    MPI_Allreduce(&total_npts, &total_npts_sum, 1, MPI_INT, MPI_SUM, MPI_COMM_WORLD);
-    std::vector<int> sendcounts2(world_size), displs2(world_size), sendcounts3(world_size), displs3(world_size);
-    std::vector<int> sendcounts_coords(world_size), displs_coords(world_size);
-    MPI_Gather(&total_npts, 1, MPI_INT, sendcounts.data(), 1, MPI_INT, 0, MPI_COMM_WORLD);
-    if (world_rank == 0) {
-        displs[0] = 0;
-        displs2[0] = 0;
-        displs3[0] = 0;
-        for (int i = 1; i < world_size; ++i) {
-            displs[i] = displs[i-1] + sendcounts[i-1];
-        }
-        for (int i = 0; i < world_size; ++i) {
-            sendcounts2[i] = sendcounts[i] * 2;        // den_eval, tau (2 values per pt)
-            displs2[i] = displs[i] * 2;
-            sendcounts3[i] = sendcounts[i] * 6;        // dden_eval (6 values per pt)
-            displs3[i] = displs[i] * 6;
-            sendcounts_coords[i] = sendcounts[i] * 3;
-            displs_coords[i] = displs[i] * 3;
-        }
-
-        recv_grid_weights.resize(total_npts_sum);
-        recv_grid_coords.resize(total_npts_sum * 3);
-        recv_den_eval.resize(total_npts_sum * 2);
-        if (is_gga || is_mgga)
-            recv_dden_eval.resize(total_npts_sum * 6);
-        if (is_mgga)
-            recv_tau.resize(total_npts_sum * 2);
-    }
-    // grid_weights (1 per point)
-    MPI_Gatherv(grid_weights.data(), total_npts, MPI_DOUBLE,
-                recv_grid_weights.data(), sendcounts.data(), displs.data(),
-                MPI_DOUBLE, 0, MPI_COMM_WORLD);
-
-    // den_eval (2 per point)
-    MPI_Gatherv(den_eval.data(), total_npts * 2, MPI_DOUBLE,
-                recv_den_eval.data(), sendcounts2.data(), displs2.data(),
-                MPI_DOUBLE, 0, MPI_COMM_WORLD);
-
-    // tau (2 per point)
-    if (is_mgga) {
-    MPI_Gatherv(tau.data(), total_npts * 2, MPI_DOUBLE,
-                recv_tau.data(), sendcounts2.data(), displs2.data(),
-                MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    }
-
-    // dden_eval (6 per point)
-    if (is_gga || is_mgga) {
-    MPI_Gatherv(dden_eval.data(), total_npts * 6, MPI_DOUBLE,
-                recv_dden_eval.data(), sendcounts3.data(), displs3.data(),
-                MPI_DOUBLE, 0, MPI_COMM_WORLD);
-    }
-
-    MPI_Gatherv(grid_coords.data(), total_npts * 3, MPI_DOUBLE,
-                recv_grid_coords.data(), sendcounts_coords.data(), displs_coords.data(),
-                MPI_DOUBLE, 0, MPI_COMM_WORLD);
-  
-    if (world_rank == 0) {
-        den_eval        = std::move(recv_den_eval);
-        dden_eval       = std::move(recv_dden_eval);
-        tau             = std::move(recv_tau);
-        grid_coords     = std::move(recv_grid_coords);
-        grid_weights    = std::move(recv_grid_weights);
-    }
-  return total_npts_sum;
-#endif
-}
-
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/onedft_util.hpp b/third_party/gauxc/src/xc_integrator/integrator_util/onedft_util.hpp
deleted file mode 100644
index ccd5b2c..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/onedft_util.hpp
+++ /dev/null
@@ -1,67 +0,0 @@
-#include <gauxc/gauxc_config.hpp>
-#include <torch/script.h>
-#include <torch/torch.h>
-#ifdef GAUXC_HAS_CUDA
-#include <torch/csrc/cuda/CUDAPluggableAllocator.h>
-#endif
-#include <nlohmann/json.hpp>
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-
-using json = nlohmann::json;
-using IValueList = std::vector<c10::IValue>;
-using IValueMap = std::unordered_map<std::string, c10::IValue>;
-using FeatureDict = c10::Dict<std::string, at::Tensor>;
-
-namespace GauXC {
-
-  //  custom allocator for torch::Tensor  
-  // enum store onedft feature keys and our feature keys
-  // TODO add laplacian ?
-  void print_memory_stats(size_t device_id);
-  
-  enum ONEDFT_FEATURE { DEN, DDEN, TAU, POINTS, WEIGHTS, COORDS };
-
-  // Mapping enums to string values
-  inline const std::map<ONEDFT_FEATURE, std::string> feat_map = {
-    {DEN, "density"},
-    {DDEN, "grad"},
-    {TAU, "kin"},
-    {POINTS, "grid_coords"},
-    {WEIGHTS, "grid_weights"},
-    {COORDS, "coarse_0_atomic_coords"}
-  };
-
-  inline const std::map<std::string, ONEDFT_FEATURE> reverse_feat_map = {
-    {"density", DEN},
-    {"grad", DDEN},
-    {"kin", TAU},
-    {"grid_coords", POINTS},
-    {"grid_weights", WEIGHTS},
-    {"coarse_0_atomic_coords", COORDS}
-  };
-  
-int mpi_scatter_onedft_outputs(const FeatureDict features_dict,
-                          const int world_rank, const int world_size,
-                          std::vector<int> recvcounts, std::vector<int> displs,
-                          std::vector<double>& den_eval, std::vector<double>& dden_eval, 
-                          std::vector<double>& tau);
-
-int mpi_gather_onedft_inputs(std::vector<double>& den_eval, std::vector<double>& dden_eval,
-                          std::vector<double>& tau, std::vector<double>& grid_coords,
-                          std::vector<double>& grid_weights, const int total_npts,
-                          const int world_rank, const int world_size,
-                          std::vector<int>& sendcounts, std::vector<int>& displs);
-                          
-int mpi_gather_onedft_inputs_gpu(std::vector<double>& den_eval, std::vector<double>& dden_eval,
-                          std::vector<double>& tau, std::vector<double>& grid_coords,
-                          std::vector<double>& grid_weights, const int total_npts,
-                          const int world_rank, const int world_size,
-                          std::vector<int>& recvcounts, std::vector<int>& displs) ;
-  bool valueExists(const std::string& value);
-
-  std::tuple<torch::jit::Method, std::vector<std::string>>
-    load_model(const std::string filename, torch::DeviceType device);
-
-  at::Tensor
-    get_exc(torch::jit::Method exc_func, FeatureDict features);
-} // namespace GauXC
\ No newline at end of file
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/spherical_harmonics.cxx b/third_party/gauxc/src/xc_integrator/integrator_util/spherical_harmonics.cxx
deleted file mode 100644
index bbc838e..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/spherical_harmonics.cxx
+++ /dev/null
@@ -1,171 +0,0 @@
-#include "spherical_harmonics.hpp"
-// Computes the normalization constants N(l,m) for spherical harmonics up to degree lmax
-// N(l,m) = sqrt((2l + 1) / (4π) * ( (l - m)! / (l + m)! ) )
-// for m = 0, N(l,0) = sqrt(4π / (2l + 1))
-// for m > 0, N(l,m) = -N(l,m-1) / sqrt((l - m + 1) * (l + m))
-std::vector<double> sph_nlm(const int lmax) {
-    std::vector<double> nlm((lmax + 1) * (lmax + 1), 0.0);
-    for (int l = 0; l <= lmax; ++l) {
-        // For m = 0
-        int ind = l*l+l;
-        double tmp = std::sqrt( 4.0 * M_PI / (2 * l + 1) );
-        nlm[ind] = 1 / tmp;
-        // For m != 0
-        tmp = nlm[ind] * std::sqrt(2.0);
-        for (int m = 1; m <= l; ++m) {
-            tmp = -tmp / std::sqrt(static_cast<double>((l - m + 1) * (l + m)));
-            nlm[ind + m ] = tmp;
-        }
-    }
-    return nlm;
-}
-
-// Computes associated Legendre polynomials P_l^m(cos(theta)) up to degree lmax
-// // Input:
-// // - cos_theta: cos(theta), where -1 <= cos_theta <= 1
-// // - sin_theta: sin(theta), where 0 <= sin_theta <= 1
-// // - lmax: maximum degree of the polynomials to compute, lmax >= 0
-// // Output:
-// // - Returns a vector with values of associated Legendre polynomials, flattened to 1D with size (lmax+1)*(lmax+1)
-std::vector<double> sph_plm (const double cos_theta, const double sin_theta, const int lmax) {
-    std::vector<double> plms((lmax + 1) * (lmax + 1), 0.0);
-    
-    // Base cases
-    plms[0] = 1.0;  // P_0^0 = 1
-    if (lmax == 0) return plms;
-
-    plms[2] = cos_theta;   // P_1^0 = cos(theta)
-    plms[3] = -sin_theta;  // P_1^1 = -sin(theta)
-    if (lmax == 1) return plms;
-
-    double cos_theta2 = cos_theta * cos_theta;
-    plms[6] = 1.5 * cos_theta2 - 0.5; // P_2^0 (cos(theta)) = 1.5 * cos^2(theta) - 0.5, idx = 2*2 + 2 + 0 = 6
-    plms[7] = -3 * sin_theta * cos_theta; // P_2^1 (cos(theta)) = -3 * sin(theta) * cos(theta)
-    plms[8] = 3 * sin_theta * sin_theta; // P_2^2 (cos(theta)) = -3 * sin^2(theta)
-    if (lmax == 2) return plms;
-    
-    plms[12] = 2.5 * cos_theta2 * cos_theta - 1.5 * cos_theta; // P_3^0 (cos(theta)) = 2.5 * cos^3(theta) - 1.5 * cos(theta)
-    plms[13] = -7.5 * cos_theta2 * sin_theta + 1.5 * sin_theta ; // P_3^1 (cos(theta)) = -7.5 * cos^2(theta) * sin(theta) + 1.5 * sin(theta)
-    plms[14] = -5.0 * sin_theta * plms[7]; // P_3^2 (cos(theta)) = -5.0 * sin(theta) * P_2^1 (cos(theta))
-    plms[15] = -5.0 * sin_theta * plms[8]; // P_3^3 (cos(theta)) = -5.0 * sin(theta) * P_2^2 (cos(theta))
-    if (lmax == 3) return plms;
-    // Recurrence calculation for larger p
-    for (int l = 4; l <= lmax; ++l) {
-        double work = (2.0 * l - 1) * cos_theta;
-        for (int m = 0; m < l; ++m) {
-            int ind = l * l + l + m;
-            int pl1m_ind = (l - 1) * (l - 1) + l - 1 + m;
-            int pl2m_ind = (l - 2) * (l - 2) + l - 2 + m;
-            plms[ind] = (work * plms[pl1m_ind] - (l + m - 1) * plms[pl2m_ind]) / (l - m);
-        }
-        // Special case for m = l, P_m^m = -sin_theta * (2*m+1) * P_{m-1}^{m-1}
-        plms[(l+1)*(l+1) - 1] = -sin_theta * (2 * (l - 1) + 1) * plms[l*l-1];
-    }
-    return plms;
-}
-
-// Computes spherical harmonics Y_l^m(theta, phi) = N(l,m) P_l^m(cos(theta)) e^(imphi)
-// up to degree lmax at point x, with scaling factors nlm
-// - Returns a vector with size (lmax+1)*(lmax+1)
-void sph_legendre(const int lmax, const std::array<double, 3> x, const std::vector<double>& nlm, double* ylms) {
-    assert(x.size() == 3);
-    double rho = sqrt(x[0] * x[0] + x[1] * x[1] + x[2] * x[2]);
-    if (rho == 0.0) {
-        return;
-    }
-    double sin_theta = sqrt(x[0] * x[0] + x[1] * x[1]) / rho; // sin(theta) = r_xy/rho
-    if (sin_theta != 0.0) {
-        double cos_theta = x[2] / rho;
-        std::vector<double> plm = sph_plm(cos_theta, sin_theta, lmax);
-        for (int l = 0; l <= lmax; l++) {
-            int ind = l * l + l;
-            ylms[ind] = plm[ind] * nlm[ind]; // m = 0 implicitly uses `vcos(1) = 1`
-            for (int m = 1; m <= l; ++m) {
-                ylms[ind + m] = plm[ind + m] * nlm[ind + m];
-                ylms[ind - m] = ylms[ind + m];
-            }
-        }
-    } else {
-        // x = 0, y = 0, z != 0
-        double cos_theta = (x[2] > 0.0) ? 1.0 : -1.0;
-        for (int l = 0; l <= lmax; l ++) {
-            int ind = l * l + l;
-            ylms[ind] = nlm[ind];
-            if (l % 2 != 0) {
-                ylms[ind] *= cos_theta;
-            }
-        }
-    }
-}
-
-// compute scaled spherical harmonics, with precomputed normalization factors
-//    4π     |x - a|^l
-//  ------  ----------- Y_l^m(|x - a|)
-//  2l + 1       r^l
-void scaled_ylm_new(const int lmax, const std::array<double, 3> x, const std::array<double, 3> a, const double r, const std::vector<double>& nlm, double* ylm) {
-    std::array<double, 3> delta = {x[0] - a[0], x[1] - a[1], x[2] - a[2]};
-    double dnorm = sqrt(delta[0]*delta[0] + delta[1]*delta[1] + delta[2]*delta[2]);
-    assert(dnorm != 0.0);   
-    std::array<double, 3> delta_norm = {delta[0] / dnorm, delta[1] / dnorm, delta[2] / dnorm};
-    double phi = atan2(delta_norm[1], delta_norm[0]);
-    sph_legendre(lmax, delta_norm, nlm, ylm);
-    for (int l = 0; l <= lmax; l++) {
-        double ratio = pow(dnorm / r, l) * 4.0 * M_PI / (2 * l + 1);
-        for (int m = -l; m <= l; m++) {
-            int ind = l * l + l + m;
-            if (m == 0) {
-              ylm[ind] *= ratio;
-            } else if (m < 0) {
-              ylm[ind] *= - ratio * sin(m * phi);
-            } else {
-              ylm[ind] *= ratio * cos(m * phi);
-            }
-        }
-    }
-}
-
-// compute scaled spherical harmonics, with standard library functions
-// DISABLED ON MACOS: std::sph_legendre not available in Apple's libc++
-// This function is unused. Added in commit 66784a4 (Feb 2025), never called.
-// Production uses scaled_ylm_new() above.
-#ifndef __APPLE__
-std::vector<double> scaled_ylm_std(int lmax, std::array<double, 3> x, std::array<double, 3> a, double r) {
-
-    std::vector<double> delta = {x[0] - a[0], x[1] - a[1], x[2] - a[2]};
-    double dnorm = sqrt(delta[0]*delta[0] + delta[1]*delta[1] + delta[2]*delta[2]);
-    assert(dnorm != 0.0);
-    std::vector<double> delta_norm = {delta[0] / dnorm, delta[1] / dnorm, delta[2] / dnorm};
-
-    double rho = sqrt(delta_norm[0] * delta_norm[0] + delta_norm[1] * delta_norm[1] + delta_norm[2] * delta_norm[2]);
-    double theta = acos(delta_norm[2] / rho);
-    double phi = atan2(delta_norm[1], delta_norm[0]);
-
-    std::vector<double> ylm((lmax + 1) * (lmax + 1), 0.0);
-    for (int l = 0; l <= lmax; l++) {
-        double ratio = pow(dnorm / r, l) * 4.0 * M_PI / (2 * l + 1);
-        for (int m = 0; m <= l; m++) {
-            double sph = std::sph_legendre(l, m, theta) * ratio;
-            if (m == 0) {
-              ylm[l * l + l] = sph;
-            } else {
-              if (m % 2 != 0) {
-                  sph *= -1;
-              }
-              sph *= sqrt(2.0);
-              ylm[l * l + l - m ] = sph * sin(m * phi);
-              ylm[l * l + l + m ] = sph * cos(m * phi);
-            }
-        }
-    }
-    return ylm;
-}
-#endif // __APPLE__
-
-void scaled_ylm_matrix(const int lmax, const double* points, const int32_t  npts, const std::array<double, 3> center, const double radius, double* ylm_matrix) {
-  int nharmonics = (lmax + 1) * (lmax + 1);
-  auto nlm = sph_nlm(lmax);
-  for (int i = 0; i < npts; ++i) {
-    const std::array<double, 3> x = {points[3 * i], points[3 * i + 1], points[3 * i + 2]};
-    scaled_ylm_new(lmax, x, center, radius, nlm, ylm_matrix + i * nharmonics);
-  }
-}
\ No newline at end of file
diff --git a/third_party/gauxc/src/xc_integrator/integrator_util/spherical_harmonics.hpp b/third_party/gauxc/src/xc_integrator/integrator_util/spherical_harmonics.hpp
deleted file mode 100644
index 7ce495d..0000000
--- a/third_party/gauxc/src/xc_integrator/integrator_util/spherical_harmonics.hpp
+++ /dev/null
@@ -1,7 +0,0 @@
-#include <cmath>
-#include <vector>
-#include <array>
-#include <cassert>
-
-
-void scaled_ylm_matrix(const int lmax, const double* points, const int32_t  npts, const std::array<double, 3> center, const double radius, double* ylm_matrix);
\ No newline at end of file
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/CMakeLists.txt
deleted file mode 100644
index e0e5385..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/CMakeLists.txt
+++ /dev/null
@@ -1,21 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-add_subdirectory(host)
-if(GAUXC_HAS_DEVICE)
-  add_subdirectory(device)
-endif()
-
-target_sources( gauxc PRIVATE factory.cxx )
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/common/integrator_constants.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/common/integrator_constants.hpp
deleted file mode 100644
index 6229db7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/common/integrator_constants.hpp
+++ /dev/null
@@ -1,23 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC      {
-namespace integrator {
-
-template <typename F = double>
-constexpr F magic_ssf_factor = 0.64;
-
-constexpr double ssf_weight_tol = 1e-13;
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/device/CMakeLists.txt
deleted file mode 100644
index 0911dff..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/CMakeLists.txt
+++ /dev/null
@@ -1,37 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  local_device_work_driver.cxx
-  local_device_work_driver_pimpl.cxx
-
-  scheme1_base.cxx
-  scheme1_data_base.cxx
-)
-
-if( GAUXC_ENABLE_MAGMA )
-  find_package( MAGMA REQUIRED )
-  target_link_libraries( gauxc PUBLIC MAGMA::magma )
-  set(GAUXC_HAS_MAGMA TRUE CACHE BOOL "GauXC has MAGMA" FORCE)
-
-  target_sources( gauxc PRIVATE 
-    scheme1_magma_base.cxx
-    scheme1_magma_data_base.cxx
-  )
-endif()
-
-if(GAUXC_HAS_CUDA)
-  add_subdirectory( cuda )
-endif()
-
-if(GAUXC_HAS_HIP)
-  add_subdirectory( hip )
-endif()
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/collocation_device.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/collocation_device.hpp
deleted file mode 100644
index ef705d0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/collocation_device.hpp
+++ /dev/null
@@ -1,108 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/shell.hpp>
-#include "device/xc_device_task.hpp"
-#include "device/device_queue.hpp"
-#include "shell_to_task.hpp"
-
-namespace GauXC {
-
-
-template <typename T>
-void eval_collocation_masked(
-  size_t            nshells,
-  size_t            nbf,
-  size_t            npts,
-  const Shell<T>*   shells_device,
-  const size_t*     mask_device,
-  const size_t*     offs_device,
-  const T*          pts_device,
-  T*                eval_device,
-  device_queue queue );
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t            nshells,
-  size_t            nbf,
-  size_t            npts,
-  const Shell<T>*   shells_device,
-  const size_t*     mask_device,
-  const size_t*     offs_device,
-  const T*          pts_device,
-  T*                eval_device,
-  T*                deval_device_x,
-  T*                deval_device_y,
-  T*                deval_device_z,
-  device_queue queue );
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<T>*         shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue );
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t        ntasks,
-  size_t        npts_max,
-  size_t        nshells_max,
-  Shell<T>*     shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue );
-
-
-
-
-
-
-
-
-void eval_collocation_shell_to_task(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue );
-
-void eval_collocation_shell_to_task_gradient(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue );
-
-void eval_collocation_shell_to_task_hessian(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue );
-
-void eval_collocation_shell_to_task_laplacian(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue );
-
-void eval_collocation_shell_to_task_lapgrad(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue );
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/device_blas.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/device_blas.hpp
deleted file mode 100644
index dc1f0d8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/device_blas.hpp
+++ /dev/null
@@ -1,76 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/device_blas_handle.hpp"
-
-namespace GauXC {
-
-enum class DeviceBlasOp : unsigned char {
-  NoTrans,
-  Trans
-};
-
-enum class DeviceBlasUplo : unsigned char {
-  Upper,
-  Lower
-};
-
-template <typename T>
-void increment( device_blas_handle generic_handle, const T* X, T* Y, int N );
-
-
-template <typename T>
-void dot( device_blas_handle handle,
-          int            N,
-          const T*       X,
-          int            INCX,
-          const T*       Y,
-          int            INCY,
-          T*             RES );
-
-template <typename T>
-void gdot( device_blas_handle handle,
-          int            N,
-           const T*       X,
-           int            INCX,
-           const T*       Y,
-           int            INCY,
-           T*             SCR,
-           T*             RES );
-
-
-template <typename T>
-void hadamard_product( device_blas_handle handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB );
-                       
-
-template <typename T>
-void gemm( device_blas_handle handle, 
-           DeviceBlasOp TA, DeviceBlasOp TB,
-           int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB,
-           T BETA, T* C, int LDC );
-
-template <typename T>
-void syr2k( device_blas_handle handle, 
-            DeviceBlasUplo UPLO, DeviceBlasOp Trans,
-            int M, int K, T ALPHA, 
-            const T* A, int LDA, const T* B, int LDB,
-            T BETA, T* C, int LDC );
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/exx_ek_screening.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/exx_ek_screening.hpp
deleted file mode 100644
index cb069a7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/exx_ek_screening.hpp
+++ /dev/null
@@ -1,55 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/xc_device_task.hpp"
-#include "device/device_queue.hpp"
-#include "device/device_blas_handle.hpp"
-#include <gauxc/shell.hpp>
-#include <gauxc/shell_pair.hpp>
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC {
-using host_task_iterator = std::vector<XCTask>::iterator;
-
-void exx_ek_screening_bfn_stats( size_t        ntasks,
-                                 XCDeviceTask* tasks_device,
-                                 double      * max_bfn_sum_device,
-                                 double      * bfn_max_device,
-                                 size_t        LDBFM,
-                                 device_queue queue );
-
-void exx_ek_shellpair_collision(
-  int32_t       ntasks,
-  int32_t       nshells,
-  int32_t       nbf,
-  const double* abs_dmat_device,
-  size_t        LDP,
-  const double* V_max_sparse_device,
-  const size_t* sp_row_ind_device,
-  const size_t* sp_col_ind_device,
-  const double* max_bf_sum_device,
-  const double* bfn_max_device,
-  size_t        LDBM,
-  const Shell<double>* shells_device,
-  const int32_t* shell_to_bf_device,
-  const int32_t* shell_sizes_device,
-  double        eps_E,
-  double        eps_K,
-  void*         dyn_stack,
-  size_t        dyn_size,
-  host_task_iterator tb,
-  host_task_iterator te,
-  const ShellPairCollection<double>& shpairs,
-  device_queue  queue,
-  device_blas_handle handle
-);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/inc_potential.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/inc_potential.hpp
deleted file mode 100644
index c7c84b3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/inc_potential.hpp
+++ /dev/null
@@ -1,32 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/xc_device_task.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void sym_task_inc_potential( size_t        ntasks,
-                         XCDeviceTask* device_tasks,
-                         double*       V_device,
-                         size_t        LDV,
-                         size_t        submat_block,
-                         device_queue  queue );
-                               
-void asym_task_inc_potential( size_t        ntasks,
-                         XCDeviceTask* device_tasks,
-                         double*       V_device,
-                         size_t        LDV,
-                         size_t        submat_block,
-                         device_queue  queue );
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/increment_exc_grad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/increment_exc_grad.hpp
deleted file mode 100644
index 7f78ebc..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/increment_exc_grad.hpp
+++ /dev/null
@@ -1,29 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/shell.hpp>
-#include "device/xc_device_task.hpp"
-#include "device/xc_device_data.hpp"
-#include "device/device_queue.hpp"
-#include "shell_to_task.hpp"
-
-namespace GauXC {
-
-void increment_exc_grad_lda( integrator_ks_scheme ks_scheme, size_t nshell, ShellToTaskDevice* shell_to_task,
-  XCDeviceTask* device_tasks, double* EXC_GRAD, bool with_weight_derivatives, device_queue );
-void increment_exc_grad_gga( integrator_ks_scheme ks_scheme, size_t nshell, ShellToTaskDevice* shell_to_task,
-  XCDeviceTask* device_tasks, double* EXC_GRAD, bool with_weight_derivatives, device_queue );
-void increment_exc_grad_mgga( integrator_ks_scheme ks_scheme, size_t nshell, bool need_lapl, ShellToTaskDevice* shell_to_task,
-  XCDeviceTask* device_tasks, double* EXC_GRAD, bool with_weight_derivatives, device_queue );
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/onedft.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/onedft.hpp
deleted file mode 100644
index 221a2aa..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/onedft.hpp
+++ /dev/null
@@ -1,28 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy). All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/xc_device_task.hpp"
-#include "device/xc_device_data.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void sz_to_ab(  size_t sz,
-                const void* src_a,
-                const void* src_b,
-                void* dest_a,
-                void* dest_b,
-                device_queue queue );
-
-void zmat_onedft_vxc( size_t          ntasks,
-    int32_t           max_nbf,
-    int32_t           max_npts,
-    XCDeviceTask*     tasks_device,
-    integrator_xc_approx scheme,
-    density_id sel,
-    device_queue queue );
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/pack_submat.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/pack_submat.hpp
deleted file mode 100644
index 8664c4b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/pack_submat.hpp
+++ /dev/null
@@ -1,22 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/xc_device_task.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void sym_pack_submat( size_t ntasks, XCDeviceTask* device_tasks, const double* A,
-  int32_t LDA, int32_t submat_block_size, device_queue queue );
-
-void asym_pack_submat( size_t ntasks, XCDeviceTask* device_tasks, const double* A,
-  int32_t LDA, int32_t submat_block_size, device_queue queue );
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/shell_pair_to_task.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/shell_pair_to_task.hpp
deleted file mode 100644
index 28517b0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/shell_pair_to_task.hpp
+++ /dev/null
@@ -1,104 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once 
-#include <gauxc/shell_pair.hpp>
-
-namespace GauXC {
-
-struct ShellPairToTaskHost {
-  using shell_pair = ShellPair<double>;
-  using point      = detail::cartesian_point;
-  std::vector<int32_t> task_idx;
-  std::vector<int32_t> task_shell_off_row;
-  std::vector<int32_t> task_shell_off_col;
-  shell_pair* shell_pair_device;
-
-  int32_t idx_bra, idx_ket;
-  int32_t lA, lB;
-  point rA, rB;
-
-  void clear() {
-    task_idx.clear();
-    task_shell_off_row.clear();
-    task_shell_off_col.clear();
-    shell_pair_device = nullptr;
-  }
-};
-
-struct ShellPairToTaskDevice {
-  using shell_pair = ShellPair<double>;
-  using point      = detail::cartesian_point;
-  int32_t* task_idx_device;
-  int32_t* task_shell_off_row_device;
-  int32_t* task_shell_off_col_device;
-  int32_t nprim_pairs;
-  GauXC::PrimitivePair<double>* prim_pairs_device;
-  int32_t ntask;
-
-  double X_AB, Y_AB, Z_AB;
-};
-
-struct AngularMomentumShellPairToTaskBatch {
-  size_t ntask_average;
-  size_t npts_average;
-  size_t nshells_in_batch;
-  ShellPairToTaskDevice* shell_pair_to_task_device;
-
-  int lA, lB;
-};
-
-struct TaskToShellPairHost {
-  using shell_pair = ShellPair<double>;
-  using point      = detail::cartesian_point;
-  std::vector<int32_t> shell_pair_linear_idx;
-  std::vector<int32_t> task_shell_off_row;
-  std::vector<int32_t> task_shell_off_col;
-  int32_t nsp;
-  int32_t nsp_filled;
-
-  void clear() {
-    shell_pair_linear_idx.clear();
-    task_shell_off_row.clear();
-    task_shell_off_col.clear();
-  };
-};
-
-struct TaskToShellPairDevice {
-  using shell_pair = ShellPair<double>;
-
-  int32_t* shell_pair_linear_idx_device;
-  int32_t* task_shell_off_row_device;
-  int32_t* task_shell_off_col_device;
-
-  int32_t nsp;
-};
-
-struct AngularMomentumTaskToShellPairBatchHost {
-  std::vector<TaskToShellPairHost> task_to_shell_pair;
-
-  int lA, lB;
-  int max_prim_pairs;
-
-  void clear() {
-    task_to_shell_pair.clear();
-  }
-};
-
-
-struct AngularMomentumTaskToShellPairBatch {
-  TaskToShellPairDevice* task_to_shell_pair_device;
-
-  int max_prim_pairs;
-  int lA, lB;
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/shell_to_task.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/shell_to_task.hpp
deleted file mode 100644
index 38a0fb0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/shell_to_task.hpp
+++ /dev/null
@@ -1,34 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/shell.hpp>
-
-namespace GauXC {
-
-struct ShellToTaskDevice {
-  int32_t  ntask;
-  int32_t  center_idx;
-  int32_t  true_idx;
-  int32_t*  task_idx_device;
-  int32_t*  task_shell_offs_device;
-  Shell<double>*   shell_device;
-};
-
-struct AngularMomentumShellToTaskBatch {
-  size_t             ntask_average;
-  size_t             npts_average;
-  size_t             nshells_in_batch;
-  ShellToTaskDevice* shell_to_task_device;
-  uint32_t           pure;
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/symmetrize_mat.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/symmetrize_mat.hpp
deleted file mode 100644
index c26059f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/symmetrize_mat.hpp
+++ /dev/null
@@ -1,21 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void symmetrize_matrix( int32_t N, double* A, size_t LDA, device_queue queue );
-void symmetrize_matrix_inc( int32_t N, double* A, size_t LDA, device_queue queue );
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/uvvars.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/uvvars.hpp
deleted file mode 100644
index 2505722..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/uvvars.hpp
+++ /dev/null
@@ -1,52 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/xc_device_task.hpp"
-#include "device/xc_device_data.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-
-void eval_uvars_lda( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_uvars_gga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_uvars_mgga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue );
-
-
-void eval_vvars_lda( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_vvars_gga( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_vvars_mgga( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue );
-
-  
-
-void eval_tmat_lda( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_tmat_gga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_tmat_mgga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue );
-
-
-void eval_vvars_lda_trial( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_vvars_gga_trial( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue );
-void eval_vvars_mgga_trial( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/xc_functional_eval_wrapper.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/xc_functional_eval_wrapper.hpp
deleted file mode 100644
index 18b189f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/xc_functional_eval_wrapper.hpp
+++ /dev/null
@@ -1,40 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/types.hpp>
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void eval_kern_exc_vxc_lda( const functional_type& func, size_t npts,
-  const double* rho, double* eps, double* vrho, device_queue queue );
-void eval_kern_exc_vxc_gga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, double* eps, double* vrho,
-  double* vgamma, device_queue queue );
-void eval_kern_exc_vxc_mgga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, const double* tau, const double* lapl,
-  double* eps, double* vrho, double* vgamma, double* vtau, double* vlapl,
-  device_queue queue );
-
-void eval_kern_vxc_fxc_lda( const functional_type& func, size_t npts,
-  const double* rho, double* vrho, double* v2rho2, device_queue queue );
-void eval_kern_vxc_fxc_gga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, double* vrho, double* vgamma,
-  double* v2rho2, double* v2rhogamma, double* v2gamma2, device_queue queue );
-void eval_kern_vxc_fxc_mgga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, const double* lapl, const double* tau,
-  double* vrho, double* vgamma, double* vlapl, double* vtau,
-  double* v2rho2, double* v2rhogamma, double* v2rholapl, double* v2rhotau,
-  double* v2gamma2, double* v2gammalapl, double* v2gammatau, double* v2lapl2,
-  double* v2lapltau, double* v2tau2, device_queue queue );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/zmat_fxc.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/zmat_fxc.hpp
deleted file mode 100644
index 739afc8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/zmat_fxc.hpp
+++ /dev/null
@@ -1,47 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/xc_device_task.hpp"
-#include "device/xc_device_data.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void zmat_lda_fxc( size_t        ntasks,
-                   int32_t       max_nbf,
-                   int32_t       max_npts,
-                   XCDeviceTask* tasks_device,
-                   density_id sel,
-                   device_queue queue );
-
-void zmat_gga_fxc( size_t        ntasks,
-                   int32_t       max_nbf,
-                   int32_t       max_npts,
-                   XCDeviceTask* tasks_device,
-                   density_id sel,
-                   device_queue queue );
-
-void zmat_mgga_fxc( size_t        ntasks,
-                    int32_t       max_nbf,
-                    int32_t       max_npts,
-                    XCDeviceTask* tasks_device,
-                    bool          do_lapl,
-                    density_id sel,
-                    device_queue queue );
-
-void mmat_mgga_fxc( size_t        ntasks,
-                    int32_t       max_nbf,
-                    int32_t       max_npts,
-                    XCDeviceTask* tasks_device,
-                    bool          do_lapl,
-                    density_id sel,
-                    device_queue queue );
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/zmat_vxc.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/zmat_vxc.hpp
deleted file mode 100644
index d0a296b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/common/zmat_vxc.hpp
+++ /dev/null
@@ -1,52 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/xc_device_task.hpp"
-#include "device/xc_device_data.hpp"
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-void zmat_lda_vxc( size_t        ntasks,
-                   int32_t       max_nbf,
-                   int32_t       max_npts,
-                   XCDeviceTask* tasks_device,
-                   integrator_ks_scheme s,
-                   density_id sel,
-                   device_queue queue );
-
-void zmat_gga_vxc( size_t        ntasks,
-                   int32_t       max_nbf,
-                   int32_t       max_npts,
-                   XCDeviceTask* tasks_device,
-                   integrator_ks_scheme s,
-                   density_id sel,
-                   device_queue queue );
-
-void zmat_mgga_vxc( size_t        ntasks,
-                    int32_t       max_nbf,
-                    int32_t       max_npts,
-                    XCDeviceTask* tasks_device,
-                    bool          do_lapl,
-                    integrator_ks_scheme s,
-                    density_id sel,
-                    device_queue queue );
-
-void mmat_mgga_vxc( size_t        ntasks,
-                    int32_t       max_nbf,
-                    int32_t       max_npts,
-                    XCDeviceTask* tasks_device,
-                    bool          do_lapl,
-                    integrator_ks_scheme s,
-                    density_id sel,
-                    device_queue queue );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/CMakeLists.txt
deleted file mode 100644
index e557037..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/CMakeLists.txt
+++ /dev/null
@@ -1,57 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources(gauxc PRIVATE
-  cuda_aos_scheme1_data.cxx
-  cuda_aos_scheme1.cxx
-
-  xc_functional_eval_wrapper.cxx
-
-  kernels/collocation_device.cu
-  #kernels/cuda_weights.cu
-  kernels/grid_to_center.cu
-  kernels/cuda_ssf_1d.cu
-  cuda_aos_scheme1_weights.cu # cuda_ssf_2d w/ CudaAoSScheme1 constants
-  kernels/pack_submat.cu
-  kernels/cublas_extensions.cu
-  kernels/uvvars.cu
-  kernels/zmat_vxc.cu
-  kernels/zmat_fxc.cu
-  kernels/cuda_inc_potential.cu
-  kernels/symmetrize_mat.cu
-  kernels/increment_exc_grad.cu
-  kernels/exx_ek_screening_bfn_stats.cu
-  kernels/onedft.cu
-)
-
-# Check if CMAKE_CUDA_ARCHITECTURES is set
-if( NOT DEFINED CMAKE_CUDA_ARCHITECTURES )
-  message( FATAL_ERROR "CMAKE_CUDA_ARCHITECTURES Must Be Set" )
-endif()
-
-# Check that only CUDA CC 6.0+ is enabled
-foreach( cuda_arch ${CMAKE_CUDA_ARCHITECTURES} )
-  if( cuda_arch LESS 60 )
-    message(FATAL_ERROR "GauXC Requires CUDA CC 6.0+ For FP64 Atomics")
-  endif()
-endforeach()
-
-add_subdirectory(obara_saika)
-if(GAUXC_ENABLE_CUTLASS)
-    include( gauxc-cutlass )
-    target_link_libraries( gauxc PRIVATE $<BUILD_INTERFACE:gauxc_cutlass> )
-    target_sources( gauxc PRIVATE
-      scheme1_cutlass_base.cxx 
-      scheme1_cutlass_data_base.cxx   
-
-      kernels/cutlass_wrapper.cu
-    )
-endif()
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1.cxx
deleted file mode 100644
index 4e01b37..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1.cxx
+++ /dev/null
@@ -1,91 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cuda_aos_scheme1.hpp"
-#include "device/cuda/cuda_backend.hpp"
-#include "cuda_aos_scheme1_weights.hpp"
-#include "device/common/device_blas.hpp"
-
-namespace GauXC {
-
-template <typename Base>
-std::unique_ptr<XCDeviceData> CudaAoSScheme1<Base>::create_device_data(const DeviceRuntimeEnvironment& rt) {
-  return std::make_unique<Data>(rt);
-}
-
-template <typename Base> 
-void CudaAoSScheme1<Base>::partition_weights( XCDeviceData* _data ) {
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  auto device_backend = dynamic_cast<CUDABackend*>(data->device_backend_);
-  if( !device_backend ) GAUXC_BAD_BACKEND_CAST();
-
-
-  // Compute distances from grid to atomic centers
-  const auto ldatoms = data->get_ldatoms();
-  auto base_stack    = data->base_stack;
-  auto static_stack  = data->static_stack;
-  auto scheme1_stack = data->scheme1_stack;
-  cuda_aos_scheme1_weights_wrapper( data->total_npts_task_batch, data->global_dims.natoms,
-    base_stack.points_x_device, base_stack.points_y_device, base_stack.points_z_device,
-    static_stack.rab_device, ldatoms, static_stack.coords_device, 
-    scheme1_stack.dist_scratch_device, ldatoms, scheme1_stack.iparent_device, 
-    scheme1_stack.dist_nearest_device, base_stack.weights_device, *device_backend->master_stream );
-}
-
-template <typename Base> 
-void CudaAoSScheme1<Base>::eval_weight_1st_deriv_contracted( XCDeviceData* _data, XCWeightAlg alg ) {
-  if( alg != XCWeightAlg::SSF ) {
-    GAUXC_GENERIC_EXCEPTION("Weight Algorithm NYI for CUDA AoS Scheme1");
-  }
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  auto device_backend = dynamic_cast<CUDABackend*>(data->device_backend_);
-  if( !device_backend ) GAUXC_BAD_BACKEND_CAST();
-
-  // make w times f vector
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-  auto base_stack    = data->base_stack;
-  if( is_pol )
-    increment( data->device_backend_->master_blas_handle(), base_stack.den_z_eval_device, 
-    base_stack.den_s_eval_device, data->total_npts_task_batch ); 
-
-  hadamard_product(data->device_backend_->master_blas_handle(), data->total_npts_task_batch, 1, base_stack.den_s_eval_device, 1, 
-    base_stack.eps_eval_device, 1); 
-
-
-  // Compute distances from grid to atomic centers
-  const auto ldatoms = data->get_ldatoms();
-  auto static_stack  = data->static_stack;
-  auto scheme1_stack = data->scheme1_stack;
-  cuda_aos_scheme1_weight_1st_deriv_wrapper( data->total_npts_task_batch, data->global_dims.natoms,
-    base_stack.points_x_device, base_stack.points_y_device, base_stack.points_z_device,
-    static_stack.rab_device, ldatoms, static_stack.coords_device, 
-    scheme1_stack.dist_scratch_device, ldatoms, scheme1_stack.iparent_device, 
-    scheme1_stack.dist_nearest_device, base_stack.eps_eval_device, static_stack.exc_grad_device, *device_backend->master_stream );
-}
-
-
-template struct CudaAoSScheme1<AoSScheme1Base>;
-#ifdef GAUXC_HAS_MAGMA
-template struct CudaAoSScheme1<AoSScheme1MAGMABase>;
-#endif
-#ifdef GAUXC_HAS_CUTLASS
-template struct CudaAoSScheme1<AoSScheme1CUTLASSBase>;
-#endif
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1.hpp
deleted file mode 100644
index cba52e1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1.hpp
+++ /dev/null
@@ -1,79 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/scheme1_base.hpp"
-#include "device/scheme1_magma_base.hpp"
-#include "device/cuda/scheme1_cutlass_base.hpp"
-
-namespace GauXC {
-
-namespace alg_constants {
-
-struct CudaAoSScheme1 {
-  static constexpr uint32_t weight_unroll = 4;
-  static constexpr uint32_t weight_thread_block = 640;
-  static constexpr uint32_t weight_thread_block_per_sm = 2;
-  static constexpr uint32_t max_submat_blocks = 10;
-
-  struct ObaraSaika {
-    static constexpr int points_per_subtask = 256;
-  };
-
-};
-
-}
-
-template <typename Base = AoSScheme1Base>
-struct CudaAoSScheme1 : public Base {
-
-  // API Overrides
-  void partition_weights( XCDeviceData* ) override final;
-  void eval_weight_1st_deriv_contracted( XCDeviceData*, XCWeightAlg ) override final;
-
-  std::unique_ptr<XCDeviceData> create_device_data(const DeviceRuntimeEnvironment&) override final;
-
-  struct Data;
-
-};
-
-extern template struct CudaAoSScheme1<AoSScheme1Base>;
-#ifdef GAUXC_HAS_MAGMA
-extern template struct CudaAoSScheme1<AoSScheme1MAGMABase>;
-#endif
-#ifdef GAUXC_HAS_CUTLASS
-extern template struct CudaAoSScheme1<AoSScheme1CUTLASSBase>;
-#endif
-
-template <typename Base>
-struct CudaAoSScheme1<Base>::Data : public Base::Data {
-
-  virtual ~Data() noexcept;
-  Data() = delete;
-  Data(const DeviceRuntimeEnvironment& rt);
-
-  // Final overrides
-  size_t get_submat_chunk_size(int32_t,int32_t) override final;
-  size_t get_ldatoms() override final;
-  size_t get_rab_align() override final;
-  int get_points_per_subtask() override final;
-
-};
-
-extern template struct CudaAoSScheme1<AoSScheme1Base>::Data;
-#ifdef GAUXC_HAS_MAGMA
-extern template struct CudaAoSScheme1<AoSScheme1MAGMABase>::Data;
-#endif
-#ifdef GAUXC_HAS_CUTLASS
-extern template struct CudaAoSScheme1<AoSScheme1CUTLASSBase>::Data;
-#endif
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_data.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_data.cxx
deleted file mode 100644
index 9da703a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_data.cxx
+++ /dev/null
@@ -1,73 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cuda_aos_scheme1.hpp"
-#include "buffer_adaptor.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device/cuda/cuda_backend.hpp"
-
-namespace GauXC {
-
-template <typename Base>
-CudaAoSScheme1<Base>::Data::~Data() noexcept = default;
-
-template <typename Base>
-CudaAoSScheme1<Base>::Data::Data(const DeviceRuntimeEnvironment& rt) :
-  Base::Data( rt ) { }
-
-template <typename Base>
-size_t CudaAoSScheme1<Base>::Data::get_ldatoms() {
-  constexpr auto weight_unroll = alg_constants::CudaAoSScheme1::weight_unroll;
-  return util::div_ceil( this->global_dims.natoms, weight_unroll ) * weight_unroll;
-}
-
-template <typename Base>
-size_t CudaAoSScheme1<Base>::Data::get_rab_align() {
-  return sizeof(double2);
-}
-
-template <typename Base>
-int CudaAoSScheme1<Base>::Data::get_points_per_subtask() {
-  return alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask;
-}
-
-
-
-template <typename Base>
-size_t CudaAoSScheme1<Base>::Data::get_submat_chunk_size(int32_t LDA, 
-  int32_t dev_id) {
-
-  constexpr auto max_submat_blocks = 
-    alg_constants::CudaAoSScheme1::max_submat_blocks;
-
-  int l2_cache_size;
-  cudaDeviceGetAttribute(&l2_cache_size, cudaDevAttrL2CacheSize, dev_id);
-
-  int l2_block_size = (int) sqrt(0.75 * ((double) l2_cache_size / 8));
-  int min_block_size = LDA / max_submat_blocks;
-
-  int block_size = std::max(l2_block_size, min_block_size);
-  block_size = std::min(block_size, LDA);
-
-  return block_size;
-
-}
-
-template struct CudaAoSScheme1<AoSScheme1Base>::Data;
-#ifdef GAUXC_HAS_MAGMA
-template struct CudaAoSScheme1<AoSScheme1MAGMABase>::Data;
-#endif
-#ifdef GAUXC_HAS_CUTLASS
-template struct CudaAoSScheme1<AoSScheme1CUTLASSBase>::Data;
-#endif
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_weights.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_weights.cu
deleted file mode 100644
index deeba83..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_weights.cu
+++ /dev/null
@@ -1,84 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cuda_aos_scheme1.hpp"
-#include "device/cuda/cuda_backend.hpp"
-#include "kernels/grid_to_center.hpp"
-#include "kernels/cuda_ssf_2d.hu"
-#include "kernels/cuda_ssf_1d.hpp"
-#include "cuda_aos_scheme1_weights.hpp"
- 
-namespace GauXC {
-
-void cuda_aos_scheme1_weights_wrapper( int32_t npts, int32_t natoms,
-  const double* points_x, const double* points_y, const double* points_z, 
-  const double* RAB, int32_t ldRAB, const double* coords, 
-  double* dist, int32_t lddist, const int32_t* iparent,
-  const double* dist_nearest, double* weights, cudaStream_t stream ) {
-
-  constexpr auto weight_unroll = 
-    alg_constants::CudaAoSScheme1::weight_unroll;
-  constexpr auto weight_thread_block = 
-    alg_constants::CudaAoSScheme1::weight_thread_block;
-  constexpr auto weight_thread_block_per_sm = 
-    alg_constants::CudaAoSScheme1::weight_thread_block_per_sm;
-
-
-
-  // Compute distances from grid to atomic centers
-  compute_grid_to_center_dist( npts, natoms, coords, points_x, points_y, points_z, 
-   dist, lddist, stream );
-
-#if 0
-  // Get the number of SM's on the device
-  int num_sm;
-  int dev_id = 0;
-  cudaDeviceGetAttribute(&num_sm, cudaDevAttrMultiProcessorCount, dev_id);
-
-  // Modify weights
-  dim3 threads( cuda::warp_size, weight_thread_block / cuda::warp_size );
-  dim3 blocks ( 1, num_sm * weight_thread_block_per_sm );
-  modify_weights_ssf_kernel_2d
-    <weight_unroll, weight_thread_block, weight_thread_block_per_sm>
-    <<< blocks, threads, 0, stream >>> (
-      npts, natoms, RAB, ldRAB, coords, dist, lddist, iparent, dist_nearest,
-      weights
-    );
-#else
-  partition_weights_ssf_1d( npts, natoms, RAB, ldRAB, coords, dist, lddist,
-    iparent, dist_nearest, weights, stream );
-#endif
-
-}
-
-
-void cuda_aos_scheme1_weight_1st_deriv_wrapper(
-  int32_t npts, int32_t natoms,
-  const double* points_x, const double* points_y, const double* points_z,
-  const double* RAB, int32_t ldRAB, const double* coords, 
-  double* dist, int32_t lddist, const int32_t* iparent,
-  const double* dist_nearest, const double* w_times_f,
-  double* exc_grad_w, cudaStream_t stream ){
-
-  // Compute distances from grid to atomic centers
-  compute_grid_to_center_dist( npts, natoms, coords, points_x, points_y, points_z, 
-   dist, lddist, stream );
-
-  eval_weight_1st_deriv_contracted_ssf_1d( npts, natoms, RAB, ldRAB, coords, points_x, points_y, points_z, dist, lddist,
-    iparent, dist_nearest, w_times_f, exc_grad_w, stream );
-
-}
-
-
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_weights.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_weights.hpp
deleted file mode 100644
index affd940..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/cuda_aos_scheme1_weights.hpp
+++ /dev/null
@@ -1,28 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-namespace GauXC {
-
-void cuda_aos_scheme1_weights_wrapper( int32_t npts, int32_t natoms,
-  const double* points_x, const double* points_y, const double* points_z,
-  const double* RAB, int32_t ldRAB, const double* coords, 
-  double* dist, int32_t lddist, const int32_t* iparent,
-  const double* dist_nearest, double* weights, cudaStream_t stream );
-
-void cuda_aos_scheme1_weight_1st_deriv_wrapper(
-  int32_t npts, int32_t natoms,
-  const double* points_x, const double* points_y, const double* points_z,
-  const double* RAB, int32_t ldRAB, const double* coords, 
-  double* dist, int32_t lddist, const int32_t* iparent,
-  const double* dist_nearest, const double* w_times_f,
-  double* exc_grad_w, cudaStream_t stream );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_angular_cartesian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_angular_cartesian.hpp
deleted file mode 100644
index 2ef1889..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_angular_cartesian.hpp
+++ /dev/null
@@ -1,417 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x;
-  eval[npts * 1] = bf*y;
-  eval[npts * 2] = bf*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf + bf_x*x;
-  eval_x[npts * 1] = bf_x*y;
-  eval_x[npts * 2] = bf_x*z;
-
-  eval_y[npts * 0] = bf_y*x;
-  eval_y[npts * 1] = bf + bf_y*y;
-  eval_y[npts * 2] = bf_y*z;
-
-  eval_z[npts * 0] = bf_z*x;
-  eval_z[npts * 1] = bf_z*y;
-  eval_z[npts * 2] = bf + bf_z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x;
-  eval[npts * 1] = bf*x*y;
-  eval[npts * 2] = bf*x*z;
-  eval[npts * 3] = bf*y*y;
-  eval[npts * 4] = bf*y*z;
-  eval[npts * 5] = bf*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*(2*bf + bf_x*x);
-  eval_x[npts * 1] = y*(bf + bf_x*x);
-  eval_x[npts * 2] = z*(bf + bf_x*x);
-  eval_x[npts * 3] = bf_x*y*y;
-  eval_x[npts * 4] = bf_x*y*z;
-  eval_x[npts * 5] = bf_x*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x;
-  eval_y[npts * 1] = x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*z;
-  eval_y[npts * 3] = y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x;
-  eval_z[npts * 1] = bf_z*x*y;
-  eval_z[npts * 2] = x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*y*y;
-  eval_z[npts * 4] = y*(bf + bf_z*z);
-  eval_z[npts * 5] = z*(2*bf + bf_z*z);
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x*x;
-  eval[npts * 1] = bf*x*x*y;
-  eval[npts * 2] = bf*x*x*z;
-  eval[npts * 3] = bf*x*y*y;
-  eval[npts * 4] = bf*x*y*z;
-  eval[npts * 5] = bf*x*z*z;
-  eval[npts * 6] = bf*y*y*y;
-  eval[npts * 7] = bf*y*y*z;
-  eval[npts * 8] = bf*y*z*z;
-  eval[npts * 9] = bf*z*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*x*(3*bf + bf_x*x);
-  eval_x[npts * 1] = x*y*(2*bf + bf_x*x);
-  eval_x[npts * 2] = x*z*(2*bf + bf_x*x);
-  eval_x[npts * 3] = y*y*(bf + bf_x*x);
-  eval_x[npts * 4] = y*z*(bf + bf_x*x);
-  eval_x[npts * 5] = z*z*(bf + bf_x*x);
-  eval_x[npts * 6] = bf_x*y*y*y;
-  eval_x[npts * 7] = bf_x*y*y*z;
-  eval_x[npts * 8] = bf_x*y*z*z;
-  eval_x[npts * 9] = bf_x*z*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x*x;
-  eval_y[npts * 1] = x*x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*x*z;
-  eval_y[npts * 3] = x*y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = x*z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*x*z*z;
-  eval_y[npts * 6] = y*y*(3*bf + bf_y*y);
-  eval_y[npts * 7] = y*z*(2*bf + bf_y*y);
-  eval_y[npts * 8] = z*z*(bf + bf_y*y);
-  eval_y[npts * 9] = bf_y*z*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x*x;
-  eval_z[npts * 1] = bf_z*x*x*y;
-  eval_z[npts * 2] = x*x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*x*y*y;
-  eval_z[npts * 4] = x*y*(bf + bf_z*z);
-  eval_z[npts * 5] = x*z*(2*bf + bf_z*z);
-  eval_z[npts * 6] = bf_z*y*y*y;
-  eval_z[npts * 7] = y*y*(bf + bf_z*z);
-  eval_z[npts * 8] = y*z*(2*bf + bf_z*z);
-  eval_z[npts * 9] = z*z*(3*bf + bf_z*z);
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_4(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x*x*x;
-  eval[npts * 1] = bf*x*x*x*y;
-  eval[npts * 2] = bf*x*x*x*z;
-  eval[npts * 3] = bf*x*x*y*y;
-  eval[npts * 4] = bf*x*x*y*z;
-  eval[npts * 5] = bf*x*x*z*z;
-  eval[npts * 6] = bf*x*y*y*y;
-  eval[npts * 7] = bf*x*y*y*z;
-  eval[npts * 8] = bf*x*y*z*z;
-  eval[npts * 9] = bf*x*z*z*z;
-  eval[npts * 10] = bf*y*y*y*y;
-  eval[npts * 11] = bf*y*y*y*z;
-  eval[npts * 12] = bf*y*y*z*z;
-  eval[npts * 13] = bf*y*z*z*z;
-  eval[npts * 14] = bf*z*z*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_4_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*x*x*(4*bf + bf_x*x);
-  eval_x[npts * 1] = x*x*y*(3*bf + bf_x*x);
-  eval_x[npts * 2] = x*x*z*(3*bf + bf_x*x);
-  eval_x[npts * 3] = x*y*y*(2*bf + bf_x*x);
-  eval_x[npts * 4] = x*y*z*(2*bf + bf_x*x);
-  eval_x[npts * 5] = x*z*z*(2*bf + bf_x*x);
-  eval_x[npts * 6] = y*y*y*(bf + bf_x*x);
-  eval_x[npts * 7] = y*y*z*(bf + bf_x*x);
-  eval_x[npts * 8] = y*z*z*(bf + bf_x*x);
-  eval_x[npts * 9] = z*z*z*(bf + bf_x*x);
-  eval_x[npts * 10] = bf_x*y*y*y*y;
-  eval_x[npts * 11] = bf_x*y*y*y*z;
-  eval_x[npts * 12] = bf_x*y*y*z*z;
-  eval_x[npts * 13] = bf_x*y*z*z*z;
-  eval_x[npts * 14] = bf_x*z*z*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x*x*x;
-  eval_y[npts * 1] = x*x*x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*x*x*z;
-  eval_y[npts * 3] = x*x*y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = x*x*z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*x*x*z*z;
-  eval_y[npts * 6] = x*y*y*(3*bf + bf_y*y);
-  eval_y[npts * 7] = x*y*z*(2*bf + bf_y*y);
-  eval_y[npts * 8] = x*z*z*(bf + bf_y*y);
-  eval_y[npts * 9] = bf_y*x*z*z*z;
-  eval_y[npts * 10] = y*y*y*(4*bf + bf_y*y);
-  eval_y[npts * 11] = y*y*z*(3*bf + bf_y*y);
-  eval_y[npts * 12] = y*z*z*(2*bf + bf_y*y);
-  eval_y[npts * 13] = z*z*z*(bf + bf_y*y);
-  eval_y[npts * 14] = bf_y*z*z*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x*x*x;
-  eval_z[npts * 1] = bf_z*x*x*x*y;
-  eval_z[npts * 2] = x*x*x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*x*x*y*y;
-  eval_z[npts * 4] = x*x*y*(bf + bf_z*z);
-  eval_z[npts * 5] = x*x*z*(2*bf + bf_z*z);
-  eval_z[npts * 6] = bf_z*x*y*y*y;
-  eval_z[npts * 7] = x*y*y*(bf + bf_z*z);
-  eval_z[npts * 8] = x*y*z*(2*bf + bf_z*z);
-  eval_z[npts * 9] = x*z*z*(3*bf + bf_z*z);
-  eval_z[npts * 10] = bf_z*y*y*y*y;
-  eval_z[npts * 11] = y*y*y*(bf + bf_z*z);
-  eval_z[npts * 12] = y*y*z*(2*bf + bf_z*z);
-  eval_z[npts * 13] = y*z*z*(3*bf + bf_z*z);
-  eval_z[npts * 14] = z*z*z*(4*bf + bf_z*z);
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-
-      } else if( l == 4 ) {
-  
-        collocation_cartesian_angular_4( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 4 ) {
-  
-        collocation_cartesian_angular_4( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_4_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular_deriv1
-
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_angular_spherical_unnorm.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_angular_spherical_unnorm.hpp
deleted file mode 100644
index 71b17b6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_angular_spherical_unnorm.hpp
+++ /dev/null
@@ -1,377 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*y;
-  eval[npts * 1] = bf*z;
-  eval[npts * 2] = bf*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x*y;
-  eval_x[npts * 1] = bf_x*z;
-  eval_x[npts * 2] = bf + bf_x*x;
-
-  eval_y[npts * 0] = bf + bf_y*y;
-  eval_y[npts * 1] = bf_y*z;
-  eval_y[npts * 2] = bf_y*x;
-
-  eval_z[npts * 0] = bf_z*y;
-  eval_z[npts * 1] = bf + bf_z*z;
-  eval_z[npts * 2] = bf_z*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_3*bf*x*y;
-  eval[npts * 1] = sqrt_3*bf*y*z;
-  eval[npts * 2] = bf*(-x*x - y*y + 2*z*z)/2;
-  eval[npts * 3] = sqrt_3*bf*x*z;
-  eval[npts * 4] = sqrt_3*bf*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_3*y*(bf + bf_x*x);
-  eval_x[npts * 1] = sqrt_3*bf_x*y*z;
-  eval_x[npts * 2] = -bf*x - bf_x*(x*x + y*y - 2*z*z)/2;
-  eval_x[npts * 3] = sqrt_3*z*(bf + bf_x*x);
-  eval_x[npts * 4] = sqrt_3*(bf*x + bf_x*(x*x - y*y)/2);
-
-  eval_y[npts * 0] = sqrt_3*x*(bf + bf_y*y);
-  eval_y[npts * 1] = sqrt_3*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -bf*y - bf_y*(x*x + y*y - 2*z*z)/2;
-  eval_y[npts * 3] = sqrt_3*bf_y*x*z;
-  eval_y[npts * 4] = sqrt_3*(-bf*y + bf_y*(x*x - y*y)/2);
-
-  eval_z[npts * 0] = sqrt_3*bf_z*x*y;
-  eval_z[npts * 1] = sqrt_3*y*(bf + bf_z*z);
-  eval_z[npts * 2] = 2*bf*z - bf_z*(x*x + y*y - 2*z*z)/2;
-  eval_z[npts * 3] = sqrt_3*x*(bf + bf_z*z);
-  eval_z[npts * 4] = sqrt_3*bf_z*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_10*bf*y*(3*x*x - y*y)/4;
-  eval[npts * 1] = sqrt_15*bf*x*y*z;
-  eval[npts * 2] = sqrt_6*bf*y*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 3] = bf*z*(-3*x*x - 3*y*y + 2*z*z)/2;
-  eval[npts * 4] = sqrt_6*bf*x*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 5] = sqrt_15*bf*z*(x*x - y*y)/2;
-  eval[npts * 6] = sqrt_10*bf*x*(x*x - 3*y*y)/4;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_10*y*(6*bf*x + bf_x*(3*x*x - y*y))/4;
-  eval_x[npts * 1] = sqrt_15*y*z*(bf + bf_x*x);
-  eval_x[npts * 2] = sqrt_6*y*(-2*bf*x - bf_x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 3] = z*(-6*bf*x - bf_x*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_x[npts * 4] = sqrt_6*(-bf*(3*x*x + y*y - 4*z*z) - bf_x*x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 5] = sqrt_15*z*(2*bf*x + bf_x*(x*x - y*y))/2;
-  eval_x[npts * 6] = sqrt_10*(3*bf*(x*x - y*y) + bf_x*x*(x*x - 3*y*y))/4;
-
-  eval_y[npts * 0] = sqrt_10*(-3*bf*(-x*x + y*y) + bf_y*y*(3*x*x - y*y))/4;
-  eval_y[npts * 1] = sqrt_15*x*z*(bf + bf_y*y);
-  eval_y[npts * 2] = sqrt_6*(-bf*(x*x + 3*y*y - 4*z*z) - bf_y*y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 3] = z*(-6*bf*y - bf_y*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_y[npts * 4] = sqrt_6*x*(-2*bf*y - bf_y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 5] = sqrt_15*z*(-2*bf*y + bf_y*(x*x - y*y))/2;
-  eval_y[npts * 6] = sqrt_10*x*(-6*bf*y + bf_y*(x*x - 3*y*y))/4;
-
-  eval_z[npts * 0] = sqrt_10*bf_z*y*(3*x*x - y*y)/4;
-  eval_z[npts * 1] = sqrt_15*x*y*(bf + bf_z*z);
-  eval_z[npts * 2] = sqrt_6*y*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 3] = -3*bf*(x*x + y*y - 2*z*z)/2 - bf_z*z*(3*x*x + 3*y*y - 2*z*z)/2;
-  eval_z[npts * 4] = sqrt_6*x*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 5] = sqrt_15*(bf + bf_z*z)*(x*x - y*y)/2;
-  eval_z[npts * 6] = sqrt_10*bf_z*x*(x*x - 3*y*y)/4;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_4(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_35*bf*x*y*(x*x - y*y)/2;
-  eval[npts * 1] = sqrt_70*bf*y*z*(3*x*x - y*y)/4;
-  eval[npts * 2] = sqrt_5*bf*x*y*(-x*x - y*y + 6*z*z)/2;
-  eval[npts * 3] = sqrt_10*bf*y*z*(-3*x*x - 3*y*y + 4*z*z)/4;
-  eval[npts * 4] = bf*(3*x*x*x*x + 6*x*x*y*y - 24*x*x*z*z + 3*y*y*y*y - 24*y*y*z*z + 8*z*z*z*z)/8;
-  eval[npts * 5] = sqrt_10*bf*x*z*(-3*x*x - 3*y*y + 4*z*z)/4;
-  eval[npts * 6] = sqrt_5*bf*(-x*x*x*x + 6*x*x*z*z + y*y*y*y - 6*y*y*z*z)/4;
-  eval[npts * 7] = sqrt_70*bf*x*z*(x*x - 3*y*y)/4;
-  eval[npts * 8] = sqrt_35*bf*(x*x*x*x - 6*x*x*y*y + y*y*y*y)/8;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_4_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_35*y*(bf*(3*x*x - y*y) + bf_x*x*(x*x - y*y))/2;
-  eval_x[npts * 1] = sqrt_70*y*z*(6*bf*x + bf_x*(3*x*x - y*y))/4;
-  eval_x[npts * 2] = sqrt_5*y*(-bf*(3*x*x + y*y - 6*z*z) - bf_x*x*(x*x + y*y - 6*z*z))/2;
-  eval_x[npts * 3] = sqrt_10*y*z*(-6*bf*x - bf_x*(3*x*x + 3*y*y - 4*z*z))/4;
-  eval_x[npts * 4] = 3*bf*x*(x*x + y*y - 4*z*z)/2 + bf_x*(3*x*x*x*x + 6*x*x*y*y - 24*x*x*z*z + 3*y*y*y*y - 24*y*y*z*z + 8*z*z*z*z)/8;
-  eval_x[npts * 5] = sqrt_10*z*(-bf*(9*x*x + 3*y*y - 4*z*z) - bf_x*x*(3*x*x + 3*y*y - 4*z*z))/4;
-  eval_x[npts * 6] = sqrt_5*(-bf*x*(x*x - 3*z*z) - bf_x*(x*x*x*x - 6*x*x*z*z - y*y*y*y + 6*y*y*z*z)/4);
-  eval_x[npts * 7] = sqrt_70*z*(3*bf*(x*x - y*y) + bf_x*x*(x*x - 3*y*y))/4;
-  eval_x[npts * 8] = sqrt_35*(4*bf*x*(x*x - 3*y*y) + bf_x*(x*x*x*x - 6*x*x*y*y + y*y*y*y))/8;
-
-  eval_y[npts * 0] = sqrt_35*x*(-bf*(-x*x + 3*y*y) + bf_y*y*(x*x - y*y))/2;
-  eval_y[npts * 1] = sqrt_70*z*(-3*bf*(-x*x + y*y) + bf_y*y*(3*x*x - y*y))/4;
-  eval_y[npts * 2] = sqrt_5*x*(-bf*(x*x + 3*y*y - 6*z*z) - bf_y*y*(x*x + y*y - 6*z*z))/2;
-  eval_y[npts * 3] = sqrt_10*z*(-bf*(3*x*x + 9*y*y - 4*z*z) - bf_y*y*(3*x*x + 3*y*y - 4*z*z))/4;
-  eval_y[npts * 4] = 3*bf*y*(x*x + y*y - 4*z*z)/2 + bf_y*(3*x*x*x*x + 6*x*x*y*y - 24*x*x*z*z + 3*y*y*y*y - 24*y*y*z*z + 8*z*z*z*z)/8;
-  eval_y[npts * 5] = sqrt_10*x*z*(-6*bf*y - bf_y*(3*x*x + 3*y*y - 4*z*z))/4;
-  eval_y[npts * 6] = sqrt_5*(bf*y*(y*y - 3*z*z) - bf_y*(x*x*x*x - 6*x*x*z*z - y*y*y*y + 6*y*y*z*z)/4);
-  eval_y[npts * 7] = sqrt_70*x*z*(-6*bf*y + bf_y*(x*x - 3*y*y))/4;
-  eval_y[npts * 8] = sqrt_35*(-4*bf*y*(3*x*x - y*y) + bf_y*(x*x*x*x - 6*x*x*y*y + y*y*y*y))/8;
-
-  eval_z[npts * 0] = sqrt_35*bf_z*x*y*(x*x - y*y)/2;
-  eval_z[npts * 1] = sqrt_70*y*(bf + bf_z*z)*(3*x*x - y*y)/4;
-  eval_z[npts * 2] = sqrt_5*x*y*(12*bf*z - bf_z*(x*x + y*y - 6*z*z))/2;
-  eval_z[npts * 3] = sqrt_10*y*(3*bf*(-x*x - y*y + 4*z*z) - bf_z*z*(3*x*x + 3*y*y - 4*z*z))/4;
-  eval_z[npts * 4] = -2*bf*z*(3*x*x + 3*y*y - 2*z*z) + bf_z*(3*x*x*x*x + 6*x*x*y*y - 24*x*x*z*z + 3*y*y*y*y - 24*y*y*z*z + 8*z*z*z*z)/8;
-  eval_z[npts * 5] = sqrt_10*x*(3*bf*(-x*x - y*y + 4*z*z) - bf_z*z*(3*x*x + 3*y*y - 4*z*z))/4;
-  eval_z[npts * 6] = sqrt_5*(12*bf*z*(x*x - y*y) - bf_z*(x*x*x*x - 6*x*x*z*z - y*y*y*y + 6*y*y*z*z))/4;
-  eval_z[npts * 7] = sqrt_70*x*(bf + bf_z*z)*(x*x - 3*y*y)/4;
-  eval_z[npts * 8] = sqrt_35*bf_z*(x*x*x*x - 6*x*x*y*y + y*y*y*y)/8;
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-
-      } else if( l == 4 ) {
-  
-        collocation_spherical_unnorm_angular_4( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 4 ) {
-  
-        collocation_spherical_unnorm_angular_4( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_4_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular_deriv1
-
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_device_constants.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_device_constants.hpp
deleted file mode 100644
index 216a632..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_device_constants.hpp
+++ /dev/null
@@ -1,24 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC      {
-
-  constexpr double sqrt_3 = 1.7320508075688772;
-  constexpr double sqrt_5 = 2.23606797749979;
-  constexpr double sqrt_15 = 3.872983346207417;
-  constexpr double sqrt_10 = 3.1622776601683795;
-  constexpr double sqrt_6 = 2.449489742783178;
-  constexpr double sqrt_35 = 5.916079783099616;
-  constexpr double sqrt_70 = 8.366600265340756;
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_radial.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_radial.hpp
deleted file mode 100644
index 8196849..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_radial.hpp
+++ /dev/null
@@ -1,104 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-
-namespace GauXC {
-
-__inline__ __device__ void collocation_device_radial_eval(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  for( uint32_t i = 0; i < nprim; ++i )
-    tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-  *eval_device = tmp;
-
-}
-
-
-
-__inline__ __device__ void collocation_device_radial_eval_deriv1(
-  const Shell<double>&   shell,
-  const double*  pt,
-  double*        x,
-  double*        y,
-  double*        z,
-  double*        eval_device,
-  double*        deval_device_x,
-  double*        deval_device_y,
-  double*        deval_device_z
-) {
-
-  const auto* O     = shell.O_data();
-  const auto* alpha = shell.alpha_data();
-  const auto* coeff = shell.coeff_data();
-
-  const double xc = pt[0] - O[0];
-  const double yc = pt[1] - O[1];
-  const double zc = pt[2] - O[2];
-  *x = xc;
-  *y = yc;
-  *z = zc;
-  
-  const double rsq = xc*xc + yc*yc + zc*zc;
-  
-  const uint32_t nprim = shell.nprim(); 
-  double tmp = 0.;
-  double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-  for( uint32_t i = 0; i < nprim; ++i ) {
-
-    const double a = alpha[i];
-    const double e = coeff[i] * std::exp( - a * rsq );
-
-    const double ae = 2. * a * e;
-
-    tmp   += e;
-    tmp_x -= ae * xc;
-    tmp_y -= ae * yc;
-    tmp_z -= ae * zc;
-
-  }
-
-  *eval_device    = tmp;
-  *deval_device_x = tmp_x;
-  *deval_device_y = tmp_y;
-  *deval_device_z = tmp_z;
-
-}
-
-} // namespace GauXC
-
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0.hpp
deleted file mode 100644
index 17b201a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0.hpp
+++ /dev/null
@@ -1,133 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_cartesian_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_gradient.hpp
deleted file mode 100644
index 627a793..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_gradient.hpp
+++ /dev/null
@@ -1,156 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_cartesian_gradient_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_hessian.hpp
deleted file mode 100644
index 7543270..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_hessian.hpp
+++ /dev/null
@@ -1,186 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_cartesian_hessian_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha_squared*(x*x); 
-      const auto x1 = radial_eval_alpha_squared*x; 
-      const auto x2 = radial_eval_alpha_squared*(y*y); 
-      const auto x3 = radial_eval_alpha_squared*(z*z); 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = radial_eval_alpha + x0;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x1*y;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x1*z;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = radial_eval_alpha + x2;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*y*z;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = radial_eval_alpha + x3;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_lapgrad.hpp
deleted file mode 100644
index d12623d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_lapgrad.hpp
+++ /dev/null
@@ -1,208 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_cartesian_lapgrad_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = radial_eval_alpha_squared*x0; 
-      const auto x2 = radial_eval_alpha_squared*x; 
-      const auto x3 = y*y; 
-      const auto x4 = radial_eval_alpha_squared*x3; 
-      const auto x5 = radial_eval_alpha_squared*y; 
-      const auto x6 = z*z; 
-      const auto x7 = radial_eval_alpha_squared*x6; 
-      const auto x8 = radial_eval_alpha_cubed*x; 
-      const auto x9 = radial_eval_alpha_cubed*y; 
-      const auto x10 = radial_eval_alpha_cubed*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = radial_eval_alpha + x1;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x2*y;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x2*z;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = radial_eval_alpha + x4;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x5*z;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = radial_eval_alpha + x7;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = 3.0*radial_eval_alpha + x1 + x4 + x7;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = radial_eval_alpha_cubed*(x*x*x) + 5.0*x2 + x3*x8 + x6*x8;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = radial_eval_alpha_cubed*(y*y*y) + x0*x9 + 5.0*x5 + x6*x9;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = radial_eval_alpha_cubed*(z*z*z) + 5.0*radial_eval_alpha_squared*z + x0*x10 + x10*x3;
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_laplacian.hpp
deleted file mode 100644
index 6fe1ec2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l0_laplacian.hpp
+++ /dev/null
@@ -1,166 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_cartesian_laplacian_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha_squared*(x*x); 
-      const auto x1 = radial_eval_alpha_squared*x; 
-      const auto x2 = radial_eval_alpha_squared*(y*y); 
-      const auto x3 = radial_eval_alpha_squared*(z*z); 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = 3.0*radial_eval_alpha + x0 + x2 + x3;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1.hpp
deleted file mode 100644
index b2b4672..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1.hpp
+++ /dev/null
@@ -1,141 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_cartesian_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x;
-      basis_eval[ipt + 1*npts] = radial_eval*y;
-      basis_eval[ipt + 2*npts] = radial_eval*z;
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*x;
-      ang_eval_1 = radial_eval*y;
-      ang_eval_2 = radial_eval*z;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_gradient.hpp
deleted file mode 100644
index 2aaabc2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_gradient.hpp
+++ /dev/null
@@ -1,188 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_cartesian_gradient_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha*x; 
-      const auto x1 = x0*y; 
-      const auto x2 = x0*z; 
-      const auto x3 = radial_eval_alpha*y*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x;
-      basis_eval[ipt + 1*npts] = radial_eval*y;
-      basis_eval[ipt + 2*npts] = radial_eval*z;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*(x*x);
-      basis_x_eval[ipt + 1*npts] = x1;
-      basis_x_eval[ipt + 2*npts] = x2;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x1;
-      basis_y_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*(y*y);
-      basis_y_eval[ipt + 2*npts] = x3;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x2;
-      basis_z_eval[ipt + 1*npts] = x3;
-      basis_z_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*(z*z);
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*x;
-      ang_eval_1 = radial_eval*y;
-      ang_eval_2 = radial_eval*z;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = radial_eval + radial_eval_alpha*(x*x);
-      dang_eval_y_0 = x1;
-      dang_eval_z_0 = x2;
-      dang_eval_x_1 = x1;
-      dang_eval_y_1 = radial_eval + radial_eval_alpha*(y*y);
-      dang_eval_z_1 = x3;
-      dang_eval_x_2 = x2;
-      dang_eval_y_2 = x3;
-      dang_eval_z_2 = radial_eval + radial_eval_alpha*(z*z);
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_hessian.hpp
deleted file mode 100644
index 2047493..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_hessian.hpp
+++ /dev/null
@@ -1,245 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_hessian_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = radial_eval_alpha*x; 
-      const auto x2 = x1*y; 
-      const auto x3 = x1*z; 
-      const auto x4 = y*y; 
-      const auto x5 = y*z; 
-      const auto x6 = radial_eval_alpha*x5; 
-      const auto x7 = z*z; 
-      const auto x8 = 3.0*radial_eval_alpha; 
-      const auto x9 = radial_eval_alpha_squared*x0; 
-      const auto x10 = radial_eval_alpha + x9; 
-      const auto x11 = x10*y; 
-      const auto x12 = x10*z; 
-      const auto x13 = radial_eval_alpha_squared*x4; 
-      const auto x14 = radial_eval_alpha + x13; 
-      const auto x15 = x*x14; 
-      const auto x16 = radial_eval_alpha_squared*x*x5; 
-      const auto x17 = radial_eval_alpha_squared*x7; 
-      const auto x18 = radial_eval_alpha + x17; 
-      const auto x19 = x*x18; 
-      const auto x20 = x14*z; 
-      const auto x21 = x18*y; 
-      const auto x22 = 5.0*radial_eval_alpha + x13 + x17 + x9; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x;
-      basis_eval[ipt + 1*npts] = radial_eval*y;
-      basis_eval[ipt + 2*npts] = radial_eval*z;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*x0;
-      basis_x_eval[ipt + 1*npts] = x2;
-      basis_x_eval[ipt + 2*npts] = x3;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x2;
-      basis_y_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*x4;
-      basis_y_eval[ipt + 2*npts] = x6;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x3;
-      basis_z_eval[ipt + 1*npts] = x6;
-      basis_z_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*x7;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x*(x8 + x9);
-      basis_xx_eval[ipt + 1*npts] = x11;
-      basis_xx_eval[ipt + 2*npts] = x12;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x11;
-      basis_xy_eval[ipt + 1*npts] = x15;
-      basis_xy_eval[ipt + 2*npts] = x16;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x12;
-      basis_xz_eval[ipt + 1*npts] = x16;
-      basis_xz_eval[ipt + 2*npts] = x19;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x15;
-      basis_yy_eval[ipt + 1*npts] = y*(x13 + x8);
-      basis_yy_eval[ipt + 2*npts] = x20;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x16;
-      basis_yz_eval[ipt + 1*npts] = x20;
-      basis_yz_eval[ipt + 2*npts] = x21;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x19;
-      basis_zz_eval[ipt + 1*npts] = x21;
-      basis_zz_eval[ipt + 2*npts] = z*(x17 + x8);
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*x;
-      ang_eval_1 = radial_eval*y;
-      ang_eval_2 = radial_eval*z;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = radial_eval + radial_eval_alpha*x0;
-      dang_eval_y_0 = x2;
-      dang_eval_z_0 = x3;
-      dang_eval_x_1 = x2;
-      dang_eval_y_1 = radial_eval + radial_eval_alpha*x4;
-      dang_eval_z_1 = x6;
-      dang_eval_x_2 = x3;
-      dang_eval_y_2 = x6;
-      dang_eval_z_2 = radial_eval + radial_eval_alpha*x7;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_lapgrad.hpp
deleted file mode 100644
index 9e6ea4c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_lapgrad.hpp
+++ /dev/null
@@ -1,285 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_lapgrad_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = x0; 
-      const auto x2 = radial_eval_alpha*x; 
-      const auto x3 = x2*y; 
-      const auto x4 = x2*z; 
-      const auto x5 = y*y; 
-      const auto x6 = x5; 
-      const auto x7 = y*z; 
-      const auto x8 = radial_eval_alpha*x7; 
-      const auto x9 = z*z; 
-      const auto x10 = x9; 
-      const auto x11 = 3.0*radial_eval_alpha; 
-      const auto x12 = radial_eval_alpha_squared*x1; 
-      const auto x13 = radial_eval_alpha + x12; 
-      const auto x14 = x13*y; 
-      const auto x15 = x13*z; 
-      const auto x16 = radial_eval_alpha_squared*x6; 
-      const auto x17 = radial_eval_alpha + x16; 
-      const auto x18 = x*x17; 
-      const auto x19 = radial_eval_alpha_squared*x*x7; 
-      const auto x20 = radial_eval_alpha_squared*x10; 
-      const auto x21 = radial_eval_alpha + x20; 
-      const auto x22 = x*x21; 
-      const auto x23 = x17*z; 
-      const auto x24 = x21*y; 
-      const auto x25 = 5.0*radial_eval_alpha; 
-      const auto x26 = x16 + x20 + x25; 
-      const auto x27 = x12 + x26; 
-      const auto x28 = 3.0*radial_eval_alpha_squared; 
-      const auto x29 = radial_eval_alpha_cubed*(x*x*x); 
-      const auto x30 = radial_eval_alpha_cubed*x6 + radial_eval_alpha_squared; 
-      const auto x31 = radial_eval_alpha_cubed*x10 + radial_eval_alpha_squared; 
-      const auto x32 = 5.0*radial_eval_alpha_squared; 
-      const auto x33 = x*x30 + x*x31 + x*x32 + x29; 
-      const auto x34 = radial_eval_alpha_cubed*(y*y*y); 
-      const auto x35 = radial_eval_alpha_cubed*x1 + radial_eval_alpha_squared; 
-      const auto x36 = x31*y + x32*y + x34 + x35*y; 
-      const auto x37 = x12 + x25; 
-      const auto x38 = radial_eval_alpha_cubed*(z*z*z); 
-      const auto x39 = x30*z + x32*z + x35*z + x38; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x;
-      basis_eval[ipt + 1*npts] = radial_eval*y;
-      basis_eval[ipt + 2*npts] = radial_eval*z;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*x1;
-      basis_x_eval[ipt + 1*npts] = x3;
-      basis_x_eval[ipt + 2*npts] = x4;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x3;
-      basis_y_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*x6;
-      basis_y_eval[ipt + 2*npts] = x8;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x4;
-      basis_z_eval[ipt + 1*npts] = x8;
-      basis_z_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*x10;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x*(x11 + x12);
-      basis_xx_eval[ipt + 1*npts] = x14;
-      basis_xx_eval[ipt + 2*npts] = x15;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x14;
-      basis_xy_eval[ipt + 1*npts] = x18;
-      basis_xy_eval[ipt + 2*npts] = x19;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x15;
-      basis_xz_eval[ipt + 1*npts] = x19;
-      basis_xz_eval[ipt + 2*npts] = x22;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x18;
-      basis_yy_eval[ipt + 1*npts] = y*(x11 + x16);
-      basis_yy_eval[ipt + 2*npts] = x23;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x19;
-      basis_yz_eval[ipt + 1*npts] = x23;
-      basis_yz_eval[ipt + 2*npts] = x24;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x22;
-      basis_zz_eval[ipt + 1*npts] = x24;
-      basis_zz_eval[ipt + 2*npts] = z*(x11 + x20);
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x*x27;
-      basis_lapl_eval[ipt + 1*npts] = x27*y;
-      basis_lapl_eval[ipt + 2*npts] = x27*z;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x*(x*x28 + x29) + x0*x30 + x0*x31 + x1*x28 + x26;
-      basis_lapl_x_eval[ipt + 1*npts] = x33*y;
-      basis_lapl_x_eval[ipt + 2*npts] = x33*z;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x*x36;
-      basis_lapl_y_eval[ipt + 1*npts] = x20 + x28*x6 + x31*x5 + x35*x5 + x37 + y*(x28*y + x34);
-      basis_lapl_y_eval[ipt + 2*npts] = x36*z;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x*x39;
-      basis_lapl_z_eval[ipt + 1*npts] = x39*y;
-      basis_lapl_z_eval[ipt + 2*npts] = x10*x28 + x16 + x30*x9 + x35*x9 + x37 + z*(x28*z + x38);
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*x;
-      ang_eval_1 = radial_eval*y;
-      ang_eval_2 = radial_eval*z;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = radial_eval + radial_eval_alpha*x1;
-      dang_eval_y_0 = x3;
-      dang_eval_z_0 = x4;
-      dang_eval_x_1 = x3;
-      dang_eval_y_1 = radial_eval + radial_eval_alpha*x6;
-      dang_eval_z_1 = x8;
-      dang_eval_x_2 = x4;
-      dang_eval_y_2 = x8;
-      dang_eval_z_2 = radial_eval + radial_eval_alpha*x10;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_laplacian.hpp
deleted file mode 100644
index ae4d6cc..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l1_laplacian.hpp
+++ /dev/null
@@ -1,215 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_laplacian_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = radial_eval_alpha*x; 
-      const auto x2 = x1*y; 
-      const auto x3 = x1*z; 
-      const auto x4 = y*y; 
-      const auto x5 = y*z; 
-      const auto x6 = radial_eval_alpha*x5; 
-      const auto x7 = z*z; 
-      const auto x8 = 3.0*radial_eval_alpha; 
-      const auto x9 = radial_eval_alpha_squared*x0; 
-      const auto x10 = radial_eval_alpha + x9; 
-      const auto x11 = x10*y; 
-      const auto x12 = x10*z; 
-      const auto x13 = radial_eval_alpha_squared*x4; 
-      const auto x14 = radial_eval_alpha + x13; 
-      const auto x15 = x*x14; 
-      const auto x16 = radial_eval_alpha_squared*x*x5; 
-      const auto x17 = radial_eval_alpha_squared*x7; 
-      const auto x18 = radial_eval_alpha + x17; 
-      const auto x19 = x*x18; 
-      const auto x20 = x14*z; 
-      const auto x21 = x18*y; 
-      const auto x22 = 5.0*radial_eval_alpha + x13 + x17 + x9; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x;
-      basis_eval[ipt + 1*npts] = radial_eval*y;
-      basis_eval[ipt + 2*npts] = radial_eval*z;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*x0;
-      basis_x_eval[ipt + 1*npts] = x2;
-      basis_x_eval[ipt + 2*npts] = x3;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x2;
-      basis_y_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*x4;
-      basis_y_eval[ipt + 2*npts] = x6;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x3;
-      basis_z_eval[ipt + 1*npts] = x6;
-      basis_z_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*x7;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x*x22;
-      basis_lapl_eval[ipt + 1*npts] = x22*y;
-      basis_lapl_eval[ipt + 2*npts] = x22*z;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*x;
-      ang_eval_1 = radial_eval*y;
-      ang_eval_2 = radial_eval*z;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = radial_eval + radial_eval_alpha*x0;
-      dang_eval_y_0 = x2;
-      dang_eval_z_0 = x3;
-      dang_eval_x_1 = x2;
-      dang_eval_y_1 = radial_eval + radial_eval_alpha*x4;
-      dang_eval_z_1 = x6;
-      dang_eval_x_2 = x3;
-      dang_eval_y_2 = x6;
-      dang_eval_z_2 = radial_eval + radial_eval_alpha*x7;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2.hpp
deleted file mode 100644
index 504a0c4..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2.hpp
+++ /dev/null
@@ -1,153 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_cartesian_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-      const auto x0 = radial_eval*x; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*(x*x);
-      basis_eval[ipt + 1*npts] = x0*y;
-      basis_eval[ipt + 2*npts] = x0*z;
-      basis_eval[ipt + 3*npts] = radial_eval*(y*y);
-      basis_eval[ipt + 4*npts] = radial_eval*y*z;
-      basis_eval[ipt + 5*npts] = radial_eval*(z*z);
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*(x*x);
-      ang_eval_1 = x0*y;
-      ang_eval_2 = x0*z;
-      ang_eval_3 = radial_eval*(y*y);
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*y*z;
-      ang_eval_1 = radial_eval*(z*z);
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_gradient.hpp
deleted file mode 100644
index 8eb1cdc..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_gradient.hpp
+++ /dev/null
@@ -1,236 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_cartesian_gradient_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = radial_eval*x; 
-      const auto x2 = y*y; 
-      const auto x3 = radial_eval*y; 
-      const auto x4 = z*z; 
-      const auto x5 = radial_eval + radial_eval_alpha*x0; 
-      const auto x6 = radial_eval_alpha*x; 
-      const auto x7 = x6*y*z; 
-      const auto x8 = radial_eval_alpha*y; 
-      const auto x9 = radial_eval + radial_eval_alpha*x2; 
-      const auto x10 = radial_eval_alpha*z; 
-      const auto x11 = radial_eval + radial_eval_alpha*x4; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*y;
-      basis_eval[ipt + 2*npts] = x1*z;
-      basis_eval[ipt + 3*npts] = radial_eval*x2;
-      basis_eval[ipt + 4*npts] = x3*z;
-      basis_eval[ipt + 5*npts] = radial_eval*x4;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*(x*x*x) + 2.0*x1;
-      basis_x_eval[ipt + 1*npts] = x5*y;
-      basis_x_eval[ipt + 2*npts] = x5*z;
-      basis_x_eval[ipt + 3*npts] = x2*x6;
-      basis_x_eval[ipt + 4*npts] = x7;
-      basis_x_eval[ipt + 5*npts] = x4*x6;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x8;
-      basis_y_eval[ipt + 1*npts] = x*x9;
-      basis_y_eval[ipt + 2*npts] = x7;
-      basis_y_eval[ipt + 3*npts] = radial_eval_alpha*(y*y*y) + 2.0*x3;
-      basis_y_eval[ipt + 4*npts] = x9*z;
-      basis_y_eval[ipt + 5*npts] = x4*x8;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x10;
-      basis_z_eval[ipt + 1*npts] = x7;
-      basis_z_eval[ipt + 2*npts] = x*x11;
-      basis_z_eval[ipt + 3*npts] = x10*x2;
-      basis_z_eval[ipt + 4*npts] = x11*y;
-      basis_z_eval[ipt + 5*npts] = z*(2.0*radial_eval + radial_eval_alpha*(z*z));
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*y;
-      ang_eval_2 = x1*z;
-      ang_eval_3 = radial_eval*x2;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x3*z;
-      ang_eval_1 = radial_eval*x4;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*(x*x*x) + 2.0*x1;
-      dang_eval_y_0 = x0*x8;
-      dang_eval_z_0 = x0*x10;
-      dang_eval_x_1 = x5*y;
-      dang_eval_y_1 = x*x9;
-      dang_eval_z_1 = x7;
-      dang_eval_x_2 = x5*z;
-      dang_eval_y_2 = x7;
-      dang_eval_z_2 = x*x11;
-      dang_eval_x_3 = x2*x6;
-      dang_eval_y_3 = radial_eval_alpha*(y*y*y) + 2.0*x3;
-      dang_eval_z_3 = x10*x2;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x7;
-      dang_eval_y_0 = x9*z;
-      dang_eval_z_0 = x11*y;
-      dang_eval_x_1 = x4*x6;
-      dang_eval_y_1 = x4*x8;
-      dang_eval_z_1 = z*(2.0*radial_eval + radial_eval_alpha*(z*z));
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_hessian.hpp
deleted file mode 100644
index 8c76ac5..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_hessian.hpp
+++ /dev/null
@@ -1,326 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_hessian_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = x*y; 
-      const auto x2 = x*z; 
-      const auto x3 = y*y; 
-      const auto x4 = y*z; 
-      const auto x5 = z*z; 
-      const auto x6 = 2.0*radial_eval; 
-      const auto x7 = x*x*x; 
-      const auto x8 = radial_eval + radial_eval_alpha*x0; 
-      const auto x9 = radial_eval_alpha*x; 
-      const auto x10 = x4*x9; 
-      const auto x11 = radial_eval_alpha*y; 
-      const auto x12 = radial_eval_alpha*x3; 
-      const auto x13 = radial_eval + x12; 
-      const auto x14 = y*y*y; 
-      const auto x15 = radial_eval_alpha*z; 
-      const auto x16 = radial_eval_alpha*x5; 
-      const auto x17 = radial_eval + x16; 
-      const auto x18 = z*z*z; 
-      const auto x19 = 4.0*radial_eval_alpha; 
-      const auto x20 = radial_eval_alpha_squared*x0; 
-      const auto x21 = radial_eval_alpha + x20; 
-      const auto x22 = x0*x19 + x0*x21 + x6; 
-      const auto x23 = 3.0*radial_eval_alpha; 
-      const auto x24 = x20 + x23; 
-      const auto x25 = x21*x3; 
-      const auto x26 = x21*x4; 
-      const auto x27 = x21*x5; 
-      const auto x28 = radial_eval_alpha_squared*x7 + 2.0*x9; 
-      const auto x29 = radial_eval_alpha_squared*x14 + 2.0*x11; 
-      const auto x30 = radial_eval_alpha_squared*x3; 
-      const auto x31 = radial_eval_alpha + x30; 
-      const auto x32 = x2*x31; 
-      const auto x33 = radial_eval_alpha_squared*x5; 
-      const auto x34 = radial_eval_alpha + x33; 
-      const auto x35 = x1*x34; 
-      const auto x36 = radial_eval_alpha_squared*x18 + 2.0*x15; 
-      const auto x37 = x0*x31; 
-      const auto x38 = x23 + x30; 
-      const auto x39 = x19*x3 + x3*x31 + x6; 
-      const auto x40 = x31*x5; 
-      const auto x41 = x0*x34; 
-      const auto x42 = x23 + x33; 
-      const auto x43 = x3*x34; 
-      const auto x44 = x19*x5 + x34*x5 + x6; 
-      const auto x45 = 7.0*radial_eval_alpha + x20 + x30 + x33; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = radial_eval*x1;
-      basis_eval[ipt + 2*npts] = radial_eval*x2;
-      basis_eval[ipt + 3*npts] = radial_eval*x3;
-      basis_eval[ipt + 4*npts] = radial_eval*x4;
-      basis_eval[ipt + 5*npts] = radial_eval*x5;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x7 + x*x6;
-      basis_x_eval[ipt + 1*npts] = x8*y;
-      basis_x_eval[ipt + 2*npts] = x8*z;
-      basis_x_eval[ipt + 3*npts] = x3*x9;
-      basis_x_eval[ipt + 4*npts] = x10;
-      basis_x_eval[ipt + 5*npts] = x5*x9;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x11;
-      basis_y_eval[ipt + 1*npts] = x*x13;
-      basis_y_eval[ipt + 2*npts] = x10;
-      basis_y_eval[ipt + 3*npts] = radial_eval_alpha*x14 + x6*y;
-      basis_y_eval[ipt + 4*npts] = x13*z;
-      basis_y_eval[ipt + 5*npts] = x11*x5;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x15;
-      basis_z_eval[ipt + 1*npts] = x10;
-      basis_z_eval[ipt + 2*npts] = x*x17;
-      basis_z_eval[ipt + 3*npts] = x15*x3;
-      basis_z_eval[ipt + 4*npts] = x17*y;
-      basis_z_eval[ipt + 5*npts] = radial_eval_alpha*x18 + x6*z;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x22;
-      basis_xx_eval[ipt + 1*npts] = x1*x24;
-      basis_xx_eval[ipt + 2*npts] = x2*x24;
-      basis_xx_eval[ipt + 3*npts] = x25;
-      basis_xx_eval[ipt + 4*npts] = x26;
-      basis_xx_eval[ipt + 5*npts] = x27;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x28*y;
-      basis_xy_eval[ipt + 1*npts] = radial_eval_alpha_squared*x0*x3 + x12 + x8;
-      basis_xy_eval[ipt + 2*npts] = x26;
-      basis_xy_eval[ipt + 3*npts] = x*x29;
-      basis_xy_eval[ipt + 4*npts] = x32;
-      basis_xy_eval[ipt + 5*npts] = radial_eval_alpha_squared*x1*x5;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x28*z;
-      basis_xz_eval[ipt + 1*npts] = x26;
-      basis_xz_eval[ipt + 2*npts] = radial_eval_alpha_squared*x0*x5 + x16 + x8;
-      basis_xz_eval[ipt + 3*npts] = radial_eval_alpha_squared*x2*x3;
-      basis_xz_eval[ipt + 4*npts] = x35;
-      basis_xz_eval[ipt + 5*npts] = x*x36;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x37;
-      basis_yy_eval[ipt + 1*npts] = x1*x38;
-      basis_yy_eval[ipt + 2*npts] = x32;
-      basis_yy_eval[ipt + 3*npts] = x39;
-      basis_yy_eval[ipt + 4*npts] = x38*x4;
-      basis_yy_eval[ipt + 5*npts] = x40;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*x0*x4;
-      basis_yz_eval[ipt + 1*npts] = x32;
-      basis_yz_eval[ipt + 2*npts] = x35;
-      basis_yz_eval[ipt + 3*npts] = x29*z;
-      basis_yz_eval[ipt + 4*npts] = radial_eval_alpha_squared*x3*x5 + x13 + x16;
-      basis_yz_eval[ipt + 5*npts] = x36*y;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x41;
-      basis_zz_eval[ipt + 1*npts] = x35;
-      basis_zz_eval[ipt + 2*npts] = x2*x42;
-      basis_zz_eval[ipt + 3*npts] = x43;
-      basis_zz_eval[ipt + 4*npts] = x4*x42;
-      basis_zz_eval[ipt + 5*npts] = x44;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = radial_eval*x1;
-      ang_eval_2 = radial_eval*x2;
-      ang_eval_3 = radial_eval*x3;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x4;
-      ang_eval_1 = radial_eval*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x7 + x*x6;
-      dang_eval_y_0 = x0*x11;
-      dang_eval_z_0 = x0*x15;
-      dang_eval_x_1 = x8*y;
-      dang_eval_y_1 = x*x13;
-      dang_eval_z_1 = x10;
-      dang_eval_x_2 = x8*z;
-      dang_eval_y_2 = x10;
-      dang_eval_z_2 = x*x17;
-      dang_eval_x_3 = x3*x9;
-      dang_eval_y_3 = radial_eval_alpha*x14 + x6*y;
-      dang_eval_z_3 = x15*x3;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x10;
-      dang_eval_y_0 = x13*z;
-      dang_eval_z_0 = x17*y;
-      dang_eval_x_1 = x5*x9;
-      dang_eval_y_1 = x11*x5;
-      dang_eval_z_1 = radial_eval_alpha*x18 + x6*z;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_lapgrad.hpp
deleted file mode 100644
index faa65ea..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_lapgrad.hpp
+++ /dev/null
@@ -1,400 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_lapgrad_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = x0; 
-      const auto x2 = x*y; 
-      const auto x3 = x*z; 
-      const auto x4 = y*y; 
-      const auto x5 = x4; 
-      const auto x6 = y*z; 
-      const auto x7 = z*z; 
-      const auto x8 = x7; 
-      const auto x9 = 2.0*radial_eval; 
-      const auto x10 = x*x*x; 
-      const auto x11 = radial_eval + radial_eval_alpha*x1; 
-      const auto x12 = radial_eval_alpha*x; 
-      const auto x13 = x12*x6; 
-      const auto x14 = radial_eval_alpha*y; 
-      const auto x15 = radial_eval_alpha*x5; 
-      const auto x16 = radial_eval + x15; 
-      const auto x17 = y*y*y; 
-      const auto x18 = radial_eval_alpha*z; 
-      const auto x19 = radial_eval_alpha*x8; 
-      const auto x20 = radial_eval + x19; 
-      const auto x21 = z*z*z; 
-      const auto x22 = 4.0*radial_eval_alpha; 
-      const auto x23 = radial_eval_alpha_squared*x1; 
-      const auto x24 = radial_eval_alpha + x23; 
-      const auto x25 = x1*x22 + x1*x24 + x9; 
-      const auto x26 = 3.0*radial_eval_alpha; 
-      const auto x27 = x23 + x26; 
-      const auto x28 = x24*x5; 
-      const auto x29 = x24*x6; 
-      const auto x30 = x24*x8; 
-      const auto x31 = 2.0*x12; 
-      const auto x32 = radial_eval_alpha_squared*x10 + x31; 
-      const auto x33 = 2.0*x14; 
-      const auto x34 = radial_eval_alpha_squared*x17 + x33; 
-      const auto x35 = radial_eval_alpha_squared*x5; 
-      const auto x36 = radial_eval_alpha + x35; 
-      const auto x37 = x3*x36; 
-      const auto x38 = radial_eval_alpha_squared*x8; 
-      const auto x39 = radial_eval_alpha + x38; 
-      const auto x40 = x2*x39; 
-      const auto x41 = 2.0*x18; 
-      const auto x42 = radial_eval_alpha_squared*x21 + x41; 
-      const auto x43 = x1*x36; 
-      const auto x44 = x26 + x35; 
-      const auto x45 = x22*x5 + x36*x5 + x9; 
-      const auto x46 = x36*x8; 
-      const auto x47 = x1*x39; 
-      const auto x48 = x26 + x38; 
-      const auto x49 = x39*x5; 
-      const auto x50 = x22*x8 + x39*x8 + x9; 
-      const auto x51 = x35 + x38; 
-      const auto x52 = 7.0*radial_eval_alpha + x23 + x51; 
-      const auto x53 = 2.0*x; 
-      const auto x54 = radial_eval_alpha_cubed*x5 + radial_eval_alpha_squared; 
-      const auto x55 = x1*x54; 
-      const auto x56 = radial_eval_alpha_cubed*x8 + radial_eval_alpha_squared; 
-      const auto x57 = x1*x56; 
-      const auto x58 = radial_eval_alpha_squared*x; 
-      const auto x59 = radial_eval_alpha_cubed*x10; 
-      const auto x60 = 3.0*x58 + x59; 
-      const auto x61 = 2.0*radial_eval_alpha_squared; 
-      const auto x62 = x*x60 + x0*x54 + x0*x56 + x1*x61 + x22 + 3.0*x24 + x51; 
-      const auto x63 = 4.0*x58; 
-      const auto x64 = x5*x54; 
-      const auto x65 = x5*x56; 
-      const auto x66 = x54*x8; 
-      const auto x67 = x56*x8; 
-      const auto x68 = radial_eval_alpha_squared*y; 
-      const auto x69 = 4.0*x68; 
-      const auto x70 = radial_eval_alpha_cubed*x1 + radial_eval_alpha_squared; 
-      const auto x71 = x1*x70; 
-      const auto x72 = radial_eval_alpha_cubed*x17; 
-      const auto x73 = 3.0*x68 + x72; 
-      const auto x74 = x22 + x23; 
-      const auto x75 = 3.0*x36 + x38 + x4*x56 + x4*x70 + x5*x61 + x73*y + x74; 
-      const auto x76 = 2.0*y; 
-      const auto x77 = x5*x70; 
-      const auto x78 = x70*x8; 
-      const auto x79 = radial_eval_alpha_squared*z; 
-      const auto x80 = 4.0*x79; 
-      const auto x81 = radial_eval_alpha_cubed*x21; 
-      const auto x82 = 3.0*x79 + x81; 
-      const auto x83 = x35 + 3.0*x39 + x54*x7 + x61*x8 + x7*x70 + x74 + x82*z; 
-      const auto x84 = 2.0*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1;
-      basis_eval[ipt + 1*npts] = radial_eval*x2;
-      basis_eval[ipt + 2*npts] = radial_eval*x3;
-      basis_eval[ipt + 3*npts] = radial_eval*x5;
-      basis_eval[ipt + 4*npts] = radial_eval*x6;
-      basis_eval[ipt + 5*npts] = radial_eval*x8;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x10 + x*x9;
-      basis_x_eval[ipt + 1*npts] = x11*y;
-      basis_x_eval[ipt + 2*npts] = x11*z;
-      basis_x_eval[ipt + 3*npts] = x12*x5;
-      basis_x_eval[ipt + 4*npts] = x13;
-      basis_x_eval[ipt + 5*npts] = x12*x8;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x1*x14;
-      basis_y_eval[ipt + 1*npts] = x*x16;
-      basis_y_eval[ipt + 2*npts] = x13;
-      basis_y_eval[ipt + 3*npts] = radial_eval_alpha*x17 + x9*y;
-      basis_y_eval[ipt + 4*npts] = x16*z;
-      basis_y_eval[ipt + 5*npts] = x14*x8;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x1*x18;
-      basis_z_eval[ipt + 1*npts] = x13;
-      basis_z_eval[ipt + 2*npts] = x*x20;
-      basis_z_eval[ipt + 3*npts] = x18*x5;
-      basis_z_eval[ipt + 4*npts] = x20*y;
-      basis_z_eval[ipt + 5*npts] = radial_eval_alpha*x21 + x9*z;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x25;
-      basis_xx_eval[ipt + 1*npts] = x2*x27;
-      basis_xx_eval[ipt + 2*npts] = x27*x3;
-      basis_xx_eval[ipt + 3*npts] = x28;
-      basis_xx_eval[ipt + 4*npts] = x29;
-      basis_xx_eval[ipt + 5*npts] = x30;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x32*y;
-      basis_xy_eval[ipt + 1*npts] = radial_eval_alpha_squared*x1*x5 + x11 + x15;
-      basis_xy_eval[ipt + 2*npts] = x29;
-      basis_xy_eval[ipt + 3*npts] = x*x34;
-      basis_xy_eval[ipt + 4*npts] = x37;
-      basis_xy_eval[ipt + 5*npts] = radial_eval_alpha_squared*x2*x8;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x32*z;
-      basis_xz_eval[ipt + 1*npts] = x29;
-      basis_xz_eval[ipt + 2*npts] = radial_eval_alpha_squared*x1*x8 + x11 + x19;
-      basis_xz_eval[ipt + 3*npts] = radial_eval_alpha_squared*x3*x5;
-      basis_xz_eval[ipt + 4*npts] = x40;
-      basis_xz_eval[ipt + 5*npts] = x*x42;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x43;
-      basis_yy_eval[ipt + 1*npts] = x2*x44;
-      basis_yy_eval[ipt + 2*npts] = x37;
-      basis_yy_eval[ipt + 3*npts] = x45;
-      basis_yy_eval[ipt + 4*npts] = x44*x6;
-      basis_yy_eval[ipt + 5*npts] = x46;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*x1*x6;
-      basis_yz_eval[ipt + 1*npts] = x37;
-      basis_yz_eval[ipt + 2*npts] = x40;
-      basis_yz_eval[ipt + 3*npts] = x34*z;
-      basis_yz_eval[ipt + 4*npts] = radial_eval_alpha_squared*x5*x8 + x16 + x19;
-      basis_yz_eval[ipt + 5*npts] = x42*y;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x47;
-      basis_zz_eval[ipt + 1*npts] = x40;
-      basis_zz_eval[ipt + 2*npts] = x3*x48;
-      basis_zz_eval[ipt + 3*npts] = x49;
-      basis_zz_eval[ipt + 4*npts] = x48*x6;
-      basis_zz_eval[ipt + 5*npts] = x50;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x25 + x43 + x47;
-      basis_lapl_eval[ipt + 1*npts] = x2*x52;
-      basis_lapl_eval[ipt + 2*npts] = x3*x52;
-      basis_lapl_eval[ipt + 3*npts] = x28 + x45 + x49;
-      basis_lapl_eval[ipt + 4*npts] = x52*x6;
-      basis_lapl_eval[ipt + 5*npts] = x30 + x46 + x50;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = 6.0*x*x24 + x*x55 + x*x57 + x1*x60 + 6.0*x12 + x36*x53 + x39*x53;
-      basis_lapl_x_eval[ipt + 1*npts] = x62*y;
-      basis_lapl_x_eval[ipt + 2*npts] = x62*z;
-      basis_lapl_x_eval[ipt + 3*npts] = x*x64 + x*x65 + x31 + x5*x60 + x5*x63;
-      basis_lapl_x_eval[ipt + 4*npts] = x6*(x*x54 + x*x56 + 7.0*x58 + x59);
-      basis_lapl_x_eval[ipt + 5*npts] = x*x66 + x*x67 + x31 + x60*x8 + x63*x8;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x1*x69 + x1*x73 + x33 + x57*y + x71*y;
-      basis_lapl_y_eval[ipt + 1*npts] = x*x75;
-      basis_lapl_y_eval[ipt + 2*npts] = x3*(x56*y + 7.0*x68 + x70*y + x72);
-      basis_lapl_y_eval[ipt + 3*npts] = 6.0*x14 + x24*x76 + 6.0*x36*y + x39*x76 + x5*x73 + x65*y + x77*y;
-      basis_lapl_y_eval[ipt + 4*npts] = x75*z;
-      basis_lapl_y_eval[ipt + 5*npts] = x33 + x67*y + x69*x8 + x73*x8 + x78*y;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x1*x80 + x1*x82 + x41 + x55*z + x71*z;
-      basis_lapl_z_eval[ipt + 1*npts] = x2*(x54*z + x70*z + 7.0*x79 + x81);
-      basis_lapl_z_eval[ipt + 2*npts] = x*x83;
-      basis_lapl_z_eval[ipt + 3*npts] = x41 + x5*x80 + x5*x82 + x64*z + x77*z;
-      basis_lapl_z_eval[ipt + 4*npts] = x83*y;
-      basis_lapl_z_eval[ipt + 5*npts] = 6.0*x18 + x24*x84 + x36*x84 + 6.0*x39*z + x66*z + x78*z + x8*x82;
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1;
-      ang_eval_1 = radial_eval*x2;
-      ang_eval_2 = radial_eval*x3;
-      ang_eval_3 = radial_eval*x5;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x6;
-      ang_eval_1 = radial_eval*x8;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x10 + x*x9;
-      dang_eval_y_0 = x1*x14;
-      dang_eval_z_0 = x1*x18;
-      dang_eval_x_1 = x11*y;
-      dang_eval_y_1 = x*x16;
-      dang_eval_z_1 = x13;
-      dang_eval_x_2 = x11*z;
-      dang_eval_y_2 = x13;
-      dang_eval_z_2 = x*x20;
-      dang_eval_x_3 = x12*x5;
-      dang_eval_y_3 = radial_eval_alpha*x17 + x9*y;
-      dang_eval_z_3 = x18*x5;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x13;
-      dang_eval_y_0 = x16*z;
-      dang_eval_z_0 = x20*y;
-      dang_eval_x_1 = x12*x8;
-      dang_eval_y_1 = x14*x8;
-      dang_eval_z_1 = radial_eval_alpha*x21 + x9*z;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_laplacian.hpp
deleted file mode 100644
index e789b5f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l2_laplacian.hpp
+++ /dev/null
@@ -1,281 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_laplacian_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = x*y; 
-      const auto x2 = x*z; 
-      const auto x3 = y*y; 
-      const auto x4 = y*z; 
-      const auto x5 = z*z; 
-      const auto x6 = 2.0*radial_eval; 
-      const auto x7 = x*x*x; 
-      const auto x8 = radial_eval + radial_eval_alpha*x0; 
-      const auto x9 = radial_eval_alpha*x; 
-      const auto x10 = x4*x9; 
-      const auto x11 = radial_eval_alpha*y; 
-      const auto x12 = radial_eval_alpha*x3; 
-      const auto x13 = radial_eval + x12; 
-      const auto x14 = y*y*y; 
-      const auto x15 = radial_eval_alpha*z; 
-      const auto x16 = radial_eval_alpha*x5; 
-      const auto x17 = radial_eval + x16; 
-      const auto x18 = z*z*z; 
-      const auto x19 = 4.0*radial_eval_alpha; 
-      const auto x20 = radial_eval_alpha_squared*x0; 
-      const auto x21 = radial_eval_alpha + x20; 
-      const auto x22 = x0*x19 + x0*x21 + x6; 
-      const auto x23 = 3.0*radial_eval_alpha; 
-      const auto x24 = x20 + x23; 
-      const auto x25 = x21*x3; 
-      const auto x26 = x21*x4; 
-      const auto x27 = x21*x5; 
-      const auto x28 = radial_eval_alpha_squared*x7 + 2.0*x9; 
-      const auto x29 = radial_eval_alpha_squared*x14 + 2.0*x11; 
-      const auto x30 = radial_eval_alpha_squared*x3; 
-      const auto x31 = radial_eval_alpha + x30; 
-      const auto x32 = x2*x31; 
-      const auto x33 = radial_eval_alpha_squared*x5; 
-      const auto x34 = radial_eval_alpha + x33; 
-      const auto x35 = x1*x34; 
-      const auto x36 = radial_eval_alpha_squared*x18 + 2.0*x15; 
-      const auto x37 = x0*x31; 
-      const auto x38 = x23 + x30; 
-      const auto x39 = x19*x3 + x3*x31 + x6; 
-      const auto x40 = x31*x5; 
-      const auto x41 = x0*x34; 
-      const auto x42 = x23 + x33; 
-      const auto x43 = x3*x34; 
-      const auto x44 = x19*x5 + x34*x5 + x6; 
-      const auto x45 = 7.0*radial_eval_alpha + x20 + x30 + x33; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = radial_eval*x1;
-      basis_eval[ipt + 2*npts] = radial_eval*x2;
-      basis_eval[ipt + 3*npts] = radial_eval*x3;
-      basis_eval[ipt + 4*npts] = radial_eval*x4;
-      basis_eval[ipt + 5*npts] = radial_eval*x5;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x7 + x*x6;
-      basis_x_eval[ipt + 1*npts] = x8*y;
-      basis_x_eval[ipt + 2*npts] = x8*z;
-      basis_x_eval[ipt + 3*npts] = x3*x9;
-      basis_x_eval[ipt + 4*npts] = x10;
-      basis_x_eval[ipt + 5*npts] = x5*x9;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x11;
-      basis_y_eval[ipt + 1*npts] = x*x13;
-      basis_y_eval[ipt + 2*npts] = x10;
-      basis_y_eval[ipt + 3*npts] = radial_eval_alpha*x14 + x6*y;
-      basis_y_eval[ipt + 4*npts] = x13*z;
-      basis_y_eval[ipt + 5*npts] = x11*x5;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x15;
-      basis_z_eval[ipt + 1*npts] = x10;
-      basis_z_eval[ipt + 2*npts] = x*x17;
-      basis_z_eval[ipt + 3*npts] = x15*x3;
-      basis_z_eval[ipt + 4*npts] = x17*y;
-      basis_z_eval[ipt + 5*npts] = radial_eval_alpha*x18 + x6*z;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x22 + x37 + x41;
-      basis_lapl_eval[ipt + 1*npts] = x1*x45;
-      basis_lapl_eval[ipt + 2*npts] = x2*x45;
-      basis_lapl_eval[ipt + 3*npts] = x25 + x39 + x43;
-      basis_lapl_eval[ipt + 4*npts] = x4*x45;
-      basis_lapl_eval[ipt + 5*npts] = x27 + x40 + x44;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = radial_eval*x1;
-      ang_eval_2 = radial_eval*x2;
-      ang_eval_3 = radial_eval*x3;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x4;
-      ang_eval_1 = radial_eval*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x7 + x*x6;
-      dang_eval_y_0 = x0*x11;
-      dang_eval_z_0 = x0*x15;
-      dang_eval_x_1 = x8*y;
-      dang_eval_y_1 = x*x13;
-      dang_eval_z_1 = x10;
-      dang_eval_x_2 = x8*z;
-      dang_eval_y_2 = x10;
-      dang_eval_z_2 = x*x17;
-      dang_eval_x_3 = x3*x9;
-      dang_eval_y_3 = radial_eval_alpha*x14 + x6*y;
-      dang_eval_z_3 = x15*x3;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x10;
-      dang_eval_y_0 = x13*z;
-      dang_eval_z_0 = x17*y;
-      dang_eval_x_1 = x5*x9;
-      dang_eval_y_1 = x11*x5;
-      dang_eval_z_1 = radial_eval_alpha*x18 + x6*z;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3.hpp
deleted file mode 100644
index 38339b6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3.hpp
+++ /dev/null
@@ -1,171 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_cartesian_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-      const auto x0 = radial_eval*y; 
-      const auto x1 = x*x; 
-      const auto x2 = radial_eval*z; 
-      const auto x3 = radial_eval*x; 
-      const auto x4 = y*y; 
-      const auto x5 = z*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*(x*x*x);
-      basis_eval[ipt + 1*npts] = x0*x1;
-      basis_eval[ipt + 2*npts] = x1*x2;
-      basis_eval[ipt + 3*npts] = x3*x4;
-      basis_eval[ipt + 4*npts] = x*x0*z;
-      basis_eval[ipt + 5*npts] = x3*x5;
-      basis_eval[ipt + 6*npts] = radial_eval*(y*y*y);
-      basis_eval[ipt + 7*npts] = x2*x4;
-      basis_eval[ipt + 8*npts] = x0*x5;
-      basis_eval[ipt + 9*npts] = radial_eval*(z*z*z);
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*(x*x*x);
-      ang_eval_1 = x0*x1;
-      ang_eval_2 = x1*x2;
-      ang_eval_3 = x3*x4;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x*x0*z;
-      ang_eval_1 = x3*x5;
-      ang_eval_2 = radial_eval*(y*y*y);
-      ang_eval_3 = x2*x4;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x0*x5;
-      ang_eval_1 = radial_eval*(z*z*z);
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_gradient.hpp
deleted file mode 100644
index 633e1bb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_gradient.hpp
+++ /dev/null
@@ -1,301 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_cartesian_gradient_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = radial_eval*x; 
-      const auto x5 = y*y; 
-      const auto x6 = x*z; 
-      const auto x7 = z*z; 
-      const auto x8 = y*y*y; 
-      const auto x9 = z*z*z; 
-      const auto x10 = 3.0*radial_eval; 
-      const auto x11 = radial_eval_alpha*x0 + 2.0*x4; 
-      const auto x12 = radial_eval*x5; 
-      const auto x13 = radial_eval_alpha*x2*x5; 
-      const auto x14 = y*z; 
-      const auto x15 = radial_eval*x7; 
-      const auto x16 = radial_eval_alpha*x2*x7; 
-      const auto x17 = radial_eval_alpha*x; 
-      const auto x18 = x17*x5*z; 
-      const auto x19 = x17*x7*y; 
-      const auto x20 = radial_eval_alpha*y; 
-      const auto x21 = radial_eval*x2; 
-      const auto x22 = radial_eval_alpha*x14*x2; 
-      const auto x23 = radial_eval_alpha*x8 + 2.0*x1; 
-      const auto x24 = radial_eval_alpha*x5*x7; 
-      const auto x25 = radial_eval_alpha*z; 
-      const auto x26 = radial_eval_alpha*x9 + 2.0*x3; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = x4*x5;
-      basis_eval[ipt + 4*npts] = x1*x6;
-      basis_eval[ipt + 5*npts] = x4*x7;
-      basis_eval[ipt + 6*npts] = radial_eval*x8;
-      basis_eval[ipt + 7*npts] = x3*x5;
-      basis_eval[ipt + 8*npts] = x1*x7;
-      basis_eval[ipt + 9*npts] = radial_eval*x9;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*(x*x*x*x) + x10*x2;
-      basis_x_eval[ipt + 1*npts] = x11*y;
-      basis_x_eval[ipt + 2*npts] = x11*z;
-      basis_x_eval[ipt + 3*npts] = x12 + x13;
-      basis_x_eval[ipt + 4*npts] = x14*(radial_eval + radial_eval_alpha*x2);
-      basis_x_eval[ipt + 5*npts] = x15 + x16;
-      basis_x_eval[ipt + 6*npts] = x17*x8;
-      basis_x_eval[ipt + 7*npts] = x18;
-      basis_x_eval[ipt + 8*npts] = x19;
-      basis_x_eval[ipt + 9*npts] = x17*x9;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x20;
-      basis_y_eval[ipt + 1*npts] = x13 + x21;
-      basis_y_eval[ipt + 2*npts] = x22;
-      basis_y_eval[ipt + 3*npts] = x*x23;
-      basis_y_eval[ipt + 4*npts] = x6*(radial_eval + radial_eval_alpha*x5);
-      basis_y_eval[ipt + 5*npts] = x19;
-      basis_y_eval[ipt + 6*npts] = radial_eval_alpha*(y*y*y*y) + x10*x5;
-      basis_y_eval[ipt + 7*npts] = x23*z;
-      basis_y_eval[ipt + 8*npts] = x15 + x24;
-      basis_y_eval[ipt + 9*npts] = x20*x9;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x25;
-      basis_z_eval[ipt + 1*npts] = x22;
-      basis_z_eval[ipt + 2*npts] = x16 + x21;
-      basis_z_eval[ipt + 3*npts] = x18;
-      basis_z_eval[ipt + 4*npts] = x*y*(radial_eval + radial_eval_alpha*x7);
-      basis_z_eval[ipt + 5*npts] = x*x26;
-      basis_z_eval[ipt + 6*npts] = x25*x8;
-      basis_z_eval[ipt + 7*npts] = x12 + x24;
-      basis_z_eval[ipt + 8*npts] = x26*y;
-      basis_z_eval[ipt + 9*npts] = radial_eval_alpha*(z*z*z*z) + x10*x7;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = x4*x5;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x6;
-      ang_eval_1 = x4*x7;
-      ang_eval_2 = radial_eval*x8;
-      ang_eval_3 = x3*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x7;
-      ang_eval_1 = radial_eval*x9;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*(x*x*x*x) + x10*x2;
-      dang_eval_y_0 = x0*x20;
-      dang_eval_z_0 = x0*x25;
-      dang_eval_x_1 = x11*y;
-      dang_eval_y_1 = x13 + x21;
-      dang_eval_z_1 = x22;
-      dang_eval_x_2 = x11*z;
-      dang_eval_y_2 = x22;
-      dang_eval_z_2 = x16 + x21;
-      dang_eval_x_3 = x12 + x13;
-      dang_eval_y_3 = x*x23;
-      dang_eval_z_3 = x18;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x14*(radial_eval + radial_eval_alpha*x2);
-      dang_eval_y_0 = x6*(radial_eval + radial_eval_alpha*x5);
-      dang_eval_z_0 = x*y*(radial_eval + radial_eval_alpha*x7);
-      dang_eval_x_1 = x15 + x16;
-      dang_eval_y_1 = x19;
-      dang_eval_z_1 = x*x26;
-      dang_eval_x_2 = x17*x8;
-      dang_eval_y_2 = radial_eval_alpha*(y*y*y*y) + x10*x5;
-      dang_eval_z_2 = x25*x8;
-      dang_eval_x_3 = x18;
-      dang_eval_y_3 = x23*z;
-      dang_eval_z_3 = x12 + x24;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x19;
-      dang_eval_y_0 = x15 + x24;
-      dang_eval_z_0 = x26*y;
-      dang_eval_x_1 = x17*x9;
-      dang_eval_y_1 = x20*x9;
-      dang_eval_z_1 = radial_eval_alpha*(z*z*z*z) + x10*x7;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_hessian.hpp
deleted file mode 100644
index 6ce4a6c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_hessian.hpp
+++ /dev/null
@@ -1,447 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_hessian_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = radial_eval*x; 
-      const auto x5 = y*y; 
-      const auto x6 = x*z; 
-      const auto x7 = z*z; 
-      const auto x8 = y*y*y; 
-      const auto x9 = z*z*z; 
-      const auto x10 = x*x*x*x; 
-      const auto x11 = 3.0*radial_eval; 
-      const auto x12 = radial_eval_alpha*x0 + 2.0*x4; 
-      const auto x13 = radial_eval*x5; 
-      const auto x14 = x2*x5; 
-      const auto x15 = radial_eval_alpha*x14; 
-      const auto x16 = y*z; 
-      const auto x17 = radial_eval_alpha*x2; 
-      const auto x18 = radial_eval + x17; 
-      const auto x19 = radial_eval*x7; 
-      const auto x20 = x2*x7; 
-      const auto x21 = radial_eval_alpha*x20; 
-      const auto x22 = radial_eval_alpha*x; 
-      const auto x23 = x22*x5*z; 
-      const auto x24 = x22*x7*y; 
-      const auto x25 = radial_eval_alpha*y; 
-      const auto x26 = radial_eval*x2; 
-      const auto x27 = radial_eval_alpha*x16*x2; 
-      const auto x28 = radial_eval_alpha*x8 + 2.0*x1; 
-      const auto x29 = radial_eval_alpha*x5; 
-      const auto x30 = radial_eval + x29; 
-      const auto x31 = y*y*y*y; 
-      const auto x32 = x5*x7; 
-      const auto x33 = radial_eval_alpha*x32; 
-      const auto x34 = radial_eval_alpha*z; 
-      const auto x35 = x*y; 
-      const auto x36 = radial_eval_alpha*x7; 
-      const auto x37 = radial_eval_alpha*x9 + 2.0*x3; 
-      const auto x38 = z*z*z*z; 
-      const auto x39 = 6.0*radial_eval_alpha; 
-      const auto x40 = radial_eval_alpha_squared*x2; 
-      const auto x41 = radial_eval_alpha + x40; 
-      const auto x42 = x0*x39 + x0*x41 + 6.0*x4; 
-      const auto x43 = 4.0*radial_eval_alpha; 
-      const auto x44 = 2.0*radial_eval; 
-      const auto x45 = x2*x41 + x44; 
-      const auto x46 = x2*x43 + x45; 
-      const auto x47 = 2.0*radial_eval_alpha; 
-      const auto x48 = x47*x5; 
-      const auto x49 = x41*x5; 
-      const auto x50 = x*x16; 
-      const auto x51 = 3.0*radial_eval_alpha; 
-      const auto x52 = x47*x7; 
-      const auto x53 = x41*x7; 
-      const auto x54 = x41*x8; 
-      const auto x55 = x41*x9; 
-      const auto x56 = radial_eval_alpha_squared*x10 + x2*x51; 
-      const auto x57 = 2.0*x22; 
-      const auto x58 = x16*(radial_eval_alpha_squared*x0 + x57); 
-      const auto x59 = 2.0*x25; 
-      const auto x60 = radial_eval_alpha_squared*x14; 
-      const auto x61 = x29 + x60; 
-      const auto x62 = radial_eval_alpha_squared*x20; 
-      const auto x63 = x36 + x62; 
-      const auto x64 = radial_eval_alpha_squared*x31 + x5*x51; 
-      const auto x65 = x6*(radial_eval_alpha_squared*x8 + x59); 
-      const auto x66 = radial_eval_alpha_squared*x32; 
-      const auto x67 = x36 + x66; 
-      const auto x68 = 2.0*x34; 
-      const auto x69 = x35*(radial_eval_alpha_squared*x9 + x68); 
-      const auto x70 = radial_eval_alpha_squared*x38 + x51*x7; 
-      const auto x71 = radial_eval_alpha_squared*x5; 
-      const auto x72 = radial_eval_alpha + x71; 
-      const auto x73 = x0*x72; 
-      const auto x74 = x2*x47; 
-      const auto x75 = x2*x72; 
-      const auto x76 = x44 + x5*x72; 
-      const auto x77 = x43*x5 + x76; 
-      const auto x78 = x7*x72; 
-      const auto x79 = 6.0*x1 + x39*x8 + x72*x8; 
-      const auto x80 = x72*x9; 
-      const auto x81 = radial_eval_alpha_squared*x7; 
-      const auto x82 = radial_eval_alpha + x81; 
-      const auto x83 = x0*x82; 
-      const auto x84 = x2*x82; 
-      const auto x85 = x5*x82; 
-      const auto x86 = x44 + x7*x82; 
-      const auto x87 = x43*x7 + x86; 
-      const auto x88 = x8*x82; 
-      const auto x89 = 6.0*x3 + x39*x9 + x82*x9; 
-      const auto x90 = x2*x39 + x45 + x75 + x84; 
-      const auto x91 = x39*x5 + x49 + x76 + x85; 
-      const auto x92 = x39*x7 + x53 + x78 + x86; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = x4*x5;
-      basis_eval[ipt + 4*npts] = x1*x6;
-      basis_eval[ipt + 5*npts] = x4*x7;
-      basis_eval[ipt + 6*npts] = radial_eval*x8;
-      basis_eval[ipt + 7*npts] = x3*x5;
-      basis_eval[ipt + 8*npts] = x1*x7;
-      basis_eval[ipt + 9*npts] = radial_eval*x9;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x10 + x11*x2;
-      basis_x_eval[ipt + 1*npts] = x12*y;
-      basis_x_eval[ipt + 2*npts] = x12*z;
-      basis_x_eval[ipt + 3*npts] = x13 + x15;
-      basis_x_eval[ipt + 4*npts] = x16*x18;
-      basis_x_eval[ipt + 5*npts] = x19 + x21;
-      basis_x_eval[ipt + 6*npts] = x22*x8;
-      basis_x_eval[ipt + 7*npts] = x23;
-      basis_x_eval[ipt + 8*npts] = x24;
-      basis_x_eval[ipt + 9*npts] = x22*x9;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x25;
-      basis_y_eval[ipt + 1*npts] = x15 + x26;
-      basis_y_eval[ipt + 2*npts] = x27;
-      basis_y_eval[ipt + 3*npts] = x*x28;
-      basis_y_eval[ipt + 4*npts] = x30*x6;
-      basis_y_eval[ipt + 5*npts] = x24;
-      basis_y_eval[ipt + 6*npts] = radial_eval_alpha*x31 + x11*x5;
-      basis_y_eval[ipt + 7*npts] = x28*z;
-      basis_y_eval[ipt + 8*npts] = x19 + x33;
-      basis_y_eval[ipt + 9*npts] = x25*x9;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x34;
-      basis_z_eval[ipt + 1*npts] = x27;
-      basis_z_eval[ipt + 2*npts] = x21 + x26;
-      basis_z_eval[ipt + 3*npts] = x23;
-      basis_z_eval[ipt + 4*npts] = x35*(radial_eval + x36);
-      basis_z_eval[ipt + 5*npts] = x*x37;
-      basis_z_eval[ipt + 6*npts] = x34*x8;
-      basis_z_eval[ipt + 7*npts] = x13 + x33;
-      basis_z_eval[ipt + 8*npts] = x37*y;
-      basis_z_eval[ipt + 9*npts] = radial_eval_alpha*x38 + x11*x7;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x42;
-      basis_xx_eval[ipt + 1*npts] = x46*y;
-      basis_xx_eval[ipt + 2*npts] = x46*z;
-      basis_xx_eval[ipt + 3*npts] = x*(x48 + x49);
-      basis_xx_eval[ipt + 4*npts] = x50*(x40 + x51);
-      basis_xx_eval[ipt + 5*npts] = x*(x52 + x53);
-      basis_xx_eval[ipt + 6*npts] = x54;
-      basis_xx_eval[ipt + 7*npts] = x49*z;
-      basis_xx_eval[ipt + 8*npts] = x53*y;
-      basis_xx_eval[ipt + 9*npts] = x55;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x56*y;
-      basis_xy_eval[ipt + 1*npts] = radial_eval_alpha_squared*x0*x5 + x12 + x5*x57;
-      basis_xy_eval[ipt + 2*npts] = x58;
-      basis_xy_eval[ipt + 3*npts] = radial_eval_alpha_squared*x2*x8 + x2*x59 + x28;
-      basis_xy_eval[ipt + 4*npts] = z*(x18 + x61);
-      basis_xy_eval[ipt + 5*npts] = x63*y;
-      basis_xy_eval[ipt + 6*npts] = x*x64;
-      basis_xy_eval[ipt + 7*npts] = x65;
-      basis_xy_eval[ipt + 8*npts] = x*x67;
-      basis_xy_eval[ipt + 9*npts] = radial_eval_alpha_squared*x35*x9;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x56*z;
-      basis_xz_eval[ipt + 1*npts] = x58;
-      basis_xz_eval[ipt + 2*npts] = radial_eval_alpha_squared*x0*x7 + x12 + x57*x7;
-      basis_xz_eval[ipt + 3*npts] = x61*z;
-      basis_xz_eval[ipt + 4*npts] = y*(x18 + x63);
-      basis_xz_eval[ipt + 5*npts] = radial_eval_alpha_squared*x2*x9 + x2*x68 + x37;
-      basis_xz_eval[ipt + 6*npts] = radial_eval_alpha_squared*x6*x8;
-      basis_xz_eval[ipt + 7*npts] = x*(x29 + x66);
-      basis_xz_eval[ipt + 8*npts] = x69;
-      basis_xz_eval[ipt + 9*npts] = x*x70;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x73;
-      basis_yy_eval[ipt + 1*npts] = y*(x74 + x75);
-      basis_yy_eval[ipt + 2*npts] = x75*z;
-      basis_yy_eval[ipt + 3*npts] = x*x77;
-      basis_yy_eval[ipt + 4*npts] = x50*(x51 + x71);
-      basis_yy_eval[ipt + 5*npts] = x*x78;
-      basis_yy_eval[ipt + 6*npts] = x79;
-      basis_yy_eval[ipt + 7*npts] = x77*z;
-      basis_yy_eval[ipt + 8*npts] = y*(x52 + x78);
-      basis_yy_eval[ipt + 9*npts] = x80;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*x0*x16;
-      basis_yz_eval[ipt + 1*npts] = z*(x17 + x60);
-      basis_yz_eval[ipt + 2*npts] = y*(x17 + x62);
-      basis_yz_eval[ipt + 3*npts] = x65;
-      basis_yz_eval[ipt + 4*npts] = x*(x30 + x67);
-      basis_yz_eval[ipt + 5*npts] = x69;
-      basis_yz_eval[ipt + 6*npts] = x64*z;
-      basis_yz_eval[ipt + 7*npts] = radial_eval_alpha_squared*x7*x8 + x28 + x59*x7;
-      basis_yz_eval[ipt + 8*npts] = radial_eval_alpha_squared*x5*x9 + x37 + x5*x68;
-      basis_yz_eval[ipt + 9*npts] = x70*y;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x83;
-      basis_zz_eval[ipt + 1*npts] = x84*y;
-      basis_zz_eval[ipt + 2*npts] = z*(x74 + x84);
-      basis_zz_eval[ipt + 3*npts] = x*x85;
-      basis_zz_eval[ipt + 4*npts] = x50*(x51 + x81);
-      basis_zz_eval[ipt + 5*npts] = x*x87;
-      basis_zz_eval[ipt + 6*npts] = x88;
-      basis_zz_eval[ipt + 7*npts] = z*(x48 + x85);
-      basis_zz_eval[ipt + 8*npts] = x87*y;
-      basis_zz_eval[ipt + 9*npts] = x89;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = x4*x5;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x6;
-      ang_eval_1 = x4*x7;
-      ang_eval_2 = radial_eval*x8;
-      ang_eval_3 = x3*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x7;
-      ang_eval_1 = radial_eval*x9;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x10 + x11*x2;
-      dang_eval_y_0 = x0*x25;
-      dang_eval_z_0 = x0*x34;
-      dang_eval_x_1 = x12*y;
-      dang_eval_y_1 = x15 + x26;
-      dang_eval_z_1 = x27;
-      dang_eval_x_2 = x12*z;
-      dang_eval_y_2 = x27;
-      dang_eval_z_2 = x21 + x26;
-      dang_eval_x_3 = x13 + x15;
-      dang_eval_y_3 = x*x28;
-      dang_eval_z_3 = x23;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x16*x18;
-      dang_eval_y_0 = x30*x6;
-      dang_eval_z_0 = x35*(radial_eval + x36);
-      dang_eval_x_1 = x19 + x21;
-      dang_eval_y_1 = x24;
-      dang_eval_z_1 = x*x37;
-      dang_eval_x_2 = x22*x8;
-      dang_eval_y_2 = radial_eval_alpha*x31 + x11*x5;
-      dang_eval_z_2 = x34*x8;
-      dang_eval_x_3 = x23;
-      dang_eval_y_3 = x28*z;
-      dang_eval_z_3 = x13 + x33;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x24;
-      dang_eval_y_0 = x19 + x33;
-      dang_eval_z_0 = x37*y;
-      dang_eval_x_1 = x22*x9;
-      dang_eval_y_1 = x25*x9;
-      dang_eval_z_1 = radial_eval_alpha*x38 + x11*x7;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_lapgrad.hpp
deleted file mode 100644
index ebeee17..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_lapgrad.hpp
+++ /dev/null
@@ -1,565 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_lapgrad_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x; 
-      const auto x3 = x2; 
-      const auto x4 = radial_eval*z; 
-      const auto x5 = radial_eval*x; 
-      const auto x6 = y*y; 
-      const auto x7 = x6; 
-      const auto x8 = x*z; 
-      const auto x9 = z*z; 
-      const auto x10 = x9; 
-      const auto x11 = y*y*y; 
-      const auto x12 = z*z*z; 
-      const auto x13 = x*x*x*x; 
-      const auto x14 = 3.0*radial_eval; 
-      const auto x15 = radial_eval_alpha*x0 + 2.0*x5; 
-      const auto x16 = radial_eval*x7; 
-      const auto x17 = x3*x7; 
-      const auto x18 = radial_eval_alpha*x17; 
-      const auto x19 = y*z; 
-      const auto x20 = radial_eval_alpha*x3; 
-      const auto x21 = radial_eval + x20; 
-      const auto x22 = radial_eval*x10; 
-      const auto x23 = x10*x3; 
-      const auto x24 = radial_eval_alpha*x23; 
-      const auto x25 = radial_eval_alpha*x; 
-      const auto x26 = x25*x7*z; 
-      const auto x27 = x10*x25*y; 
-      const auto x28 = radial_eval_alpha*y; 
-      const auto x29 = radial_eval*x3; 
-      const auto x30 = radial_eval_alpha*x19*x3; 
-      const auto x31 = radial_eval_alpha*x11 + 2.0*x1; 
-      const auto x32 = radial_eval_alpha*x7; 
-      const auto x33 = radial_eval + x32; 
-      const auto x34 = y*y*y*y; 
-      const auto x35 = x10*x7; 
-      const auto x36 = radial_eval_alpha*x35; 
-      const auto x37 = radial_eval_alpha*z; 
-      const auto x38 = x*y; 
-      const auto x39 = radial_eval_alpha*x10; 
-      const auto x40 = radial_eval_alpha*x12 + 2.0*x4; 
-      const auto x41 = z*z*z*z; 
-      const auto x42 = 6.0*radial_eval_alpha; 
-      const auto x43 = radial_eval_alpha_squared*x3; 
-      const auto x44 = radial_eval_alpha + x43; 
-      const auto x45 = x0*x42 + x0*x44 + 6.0*x5; 
-      const auto x46 = 4.0*radial_eval_alpha; 
-      const auto x47 = 2.0*radial_eval; 
-      const auto x48 = x3*x44; 
-      const auto x49 = x47 + x48; 
-      const auto x50 = x3*x46 + x49; 
-      const auto x51 = 2.0*radial_eval_alpha; 
-      const auto x52 = x51*x7; 
-      const auto x53 = x44*x7; 
-      const auto x54 = x*x19; 
-      const auto x55 = 3.0*radial_eval_alpha; 
-      const auto x56 = x10*x51; 
-      const auto x57 = x10*x44; 
-      const auto x58 = x11*x44; 
-      const auto x59 = x12*x44; 
-      const auto x60 = radial_eval_alpha_squared*x13 + x3*x55; 
-      const auto x61 = 2.0*x25; 
-      const auto x62 = x19*(radial_eval_alpha_squared*x0 + x61); 
-      const auto x63 = 2.0*x28; 
-      const auto x64 = radial_eval_alpha_squared*x17; 
-      const auto x65 = x32 + x64; 
-      const auto x66 = radial_eval_alpha_squared*x23; 
-      const auto x67 = x39 + x66; 
-      const auto x68 = radial_eval_alpha_squared*x34 + x55*x7; 
-      const auto x69 = x8*(radial_eval_alpha_squared*x11 + x63); 
-      const auto x70 = radial_eval_alpha_squared*x35; 
-      const auto x71 = x39 + x70; 
-      const auto x72 = 2.0*x37; 
-      const auto x73 = x38*(radial_eval_alpha_squared*x12 + x72); 
-      const auto x74 = radial_eval_alpha_squared*x41 + x10*x55; 
-      const auto x75 = radial_eval_alpha_squared*x7; 
-      const auto x76 = radial_eval_alpha + x75; 
-      const auto x77 = x0*x76; 
-      const auto x78 = x3*x51; 
-      const auto x79 = x3*x76; 
-      const auto x80 = x7*x76; 
-      const auto x81 = x47 + x80; 
-      const auto x82 = x46*x7 + x81; 
-      const auto x83 = x10*x76; 
-      const auto x84 = 6.0*x1 + x11*x42 + x11*x76; 
-      const auto x85 = x12*x76; 
-      const auto x86 = radial_eval_alpha_squared*x10; 
-      const auto x87 = radial_eval_alpha + x86; 
-      const auto x88 = x0*x87; 
-      const auto x89 = x3*x87; 
-      const auto x90 = x7*x87; 
-      const auto x91 = x10*x87; 
-      const auto x92 = x47 + x91; 
-      const auto x93 = x10*x46 + x92; 
-      const auto x94 = x11*x87; 
-      const auto x95 = x12*x42 + x12*x87 + 6.0*x4; 
-      const auto x96 = x3*x42 + x49 + x79 + x89; 
-      const auto x97 = x42*x7 + x53 + x81 + x90; 
-      const auto x98 = x75 + x86; 
-      const auto x99 = x10*x42 + x57 + x83 + x92; 
-      const auto x100 = 6.0*radial_eval; 
-      const auto x101 = 18.0*radial_eval_alpha; 
-      const auto x102 = 3.0*x79; 
-      const auto x103 = 3.0*x89; 
-      const auto x104 = radial_eval_alpha_cubed*x7 + radial_eval_alpha_squared; 
-      const auto x105 = x0*x104; 
-      const auto x106 = radial_eval_alpha_cubed*x10 + radial_eval_alpha_squared; 
-      const auto x107 = x0*x106; 
-      const auto x108 = 3.0*radial_eval_alpha_squared; 
-      const auto x109 = radial_eval_alpha_cubed*x0 + x*x108; 
-      const auto x110 = 2.0*radial_eval_alpha_squared; 
-      const auto x111 = 6.0*x; 
-      const auto x112 = 2.0*x; 
-      const auto x113 = x104*x3; 
-      const auto x114 = x106*x3; 
-      const auto x115 = x*x113 + x*x114 + x0*x110 + x109*x3 + x111*x44 + x112*x76 + x112*x87 + 10.0*x25; 
-      const auto x116 = 3.0*x53; 
-      const auto x117 = x109*x7; 
-      const auto x118 = x104*x7; 
-      const auto x119 = x106*x7; 
-      const auto x120 = 4.0*radial_eval_alpha_squared; 
-      const auto x121 = x120*x17; 
-      const auto x122 = 3.0*x57; 
-      const auto x123 = x10*x109; 
-      const auto x124 = x10*x104; 
-      const auto x125 = x10*x106; 
-      const auto x126 = x120*x23; 
-      const auto x127 = 6.0*y; 
-      const auto x128 = x127*x25; 
-      const auto x129 = radial_eval_alpha_squared*x111; 
-      const auto x130 = x104*x11; 
-      const auto x131 = x106*x11; 
-      const auto x132 = 6.0*z; 
-      const auto x133 = x132*x25; 
-      const auto x134 = x104*x12; 
-      const auto x135 = x106*x12; 
-      const auto x136 = radial_eval_alpha_squared*x127; 
-      const auto x137 = radial_eval_alpha_cubed*x3 + radial_eval_alpha_squared; 
-      const auto x138 = x0*x137; 
-      const auto x139 = radial_eval_alpha_cubed*x11 + x108*y; 
-      const auto x140 = x139*x3; 
-      const auto x141 = x137*x3; 
-      const auto x142 = 2.0*y; 
-      const auto x143 = x137*x7; 
-      const auto x144 = x11*x110 + x119*y + x127*x76 + x139*x7 + x142*x44 + x142*x87 + x143*y + 10.0*x28; 
-      const auto x145 = x42 + x43; 
-      const auto x146 = x10*x137; 
-      const auto x147 = x10*x139; 
-      const auto x148 = 3.0*x90; 
-      const auto x149 = x11*x137; 
-      const auto x150 = 3.0*x83; 
-      const auto x151 = x120*x35; 
-      const auto x152 = x19*x42; 
-      const auto x153 = x12*x137; 
-      const auto x154 = radial_eval_alpha_squared*x132; 
-      const auto x155 = radial_eval_alpha_cubed*x12 + x108*z; 
-      const auto x156 = x155*x3; 
-      const auto x157 = x155*x7; 
-      const auto x158 = 2.0*z; 
-      const auto x159 = x10*x155 + x110*x12 + x124*z + x132*x87 + x146*z + x158*x44 + x158*x76 + 10.0*x37; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x3;
-      basis_eval[ipt + 2*npts] = x3*x4;
-      basis_eval[ipt + 3*npts] = x5*x7;
-      basis_eval[ipt + 4*npts] = x1*x8;
-      basis_eval[ipt + 5*npts] = x10*x5;
-      basis_eval[ipt + 6*npts] = radial_eval*x11;
-      basis_eval[ipt + 7*npts] = x4*x7;
-      basis_eval[ipt + 8*npts] = x1*x10;
-      basis_eval[ipt + 9*npts] = radial_eval*x12;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x13 + x14*x3;
-      basis_x_eval[ipt + 1*npts] = x15*y;
-      basis_x_eval[ipt + 2*npts] = x15*z;
-      basis_x_eval[ipt + 3*npts] = x16 + x18;
-      basis_x_eval[ipt + 4*npts] = x19*x21;
-      basis_x_eval[ipt + 5*npts] = x22 + x24;
-      basis_x_eval[ipt + 6*npts] = x11*x25;
-      basis_x_eval[ipt + 7*npts] = x26;
-      basis_x_eval[ipt + 8*npts] = x27;
-      basis_x_eval[ipt + 9*npts] = x12*x25;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x28;
-      basis_y_eval[ipt + 1*npts] = x18 + x29;
-      basis_y_eval[ipt + 2*npts] = x30;
-      basis_y_eval[ipt + 3*npts] = x*x31;
-      basis_y_eval[ipt + 4*npts] = x33*x8;
-      basis_y_eval[ipt + 5*npts] = x27;
-      basis_y_eval[ipt + 6*npts] = radial_eval_alpha*x34 + x14*x7;
-      basis_y_eval[ipt + 7*npts] = x31*z;
-      basis_y_eval[ipt + 8*npts] = x22 + x36;
-      basis_y_eval[ipt + 9*npts] = x12*x28;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x37;
-      basis_z_eval[ipt + 1*npts] = x30;
-      basis_z_eval[ipt + 2*npts] = x24 + x29;
-      basis_z_eval[ipt + 3*npts] = x26;
-      basis_z_eval[ipt + 4*npts] = x38*(radial_eval + x39);
-      basis_z_eval[ipt + 5*npts] = x*x40;
-      basis_z_eval[ipt + 6*npts] = x11*x37;
-      basis_z_eval[ipt + 7*npts] = x16 + x36;
-      basis_z_eval[ipt + 8*npts] = x40*y;
-      basis_z_eval[ipt + 9*npts] = radial_eval_alpha*x41 + x10*x14;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x45;
-      basis_xx_eval[ipt + 1*npts] = x50*y;
-      basis_xx_eval[ipt + 2*npts] = x50*z;
-      basis_xx_eval[ipt + 3*npts] = x*(x52 + x53);
-      basis_xx_eval[ipt + 4*npts] = x54*(x43 + x55);
-      basis_xx_eval[ipt + 5*npts] = x*(x56 + x57);
-      basis_xx_eval[ipt + 6*npts] = x58;
-      basis_xx_eval[ipt + 7*npts] = x53*z;
-      basis_xx_eval[ipt + 8*npts] = x57*y;
-      basis_xx_eval[ipt + 9*npts] = x59;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x60*y;
-      basis_xy_eval[ipt + 1*npts] = radial_eval_alpha_squared*x0*x7 + x15 + x61*x7;
-      basis_xy_eval[ipt + 2*npts] = x62;
-      basis_xy_eval[ipt + 3*npts] = radial_eval_alpha_squared*x11*x3 + x3*x63 + x31;
-      basis_xy_eval[ipt + 4*npts] = z*(x21 + x65);
-      basis_xy_eval[ipt + 5*npts] = x67*y;
-      basis_xy_eval[ipt + 6*npts] = x*x68;
-      basis_xy_eval[ipt + 7*npts] = x69;
-      basis_xy_eval[ipt + 8*npts] = x*x71;
-      basis_xy_eval[ipt + 9*npts] = radial_eval_alpha_squared*x12*x38;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x60*z;
-      basis_xz_eval[ipt + 1*npts] = x62;
-      basis_xz_eval[ipt + 2*npts] = radial_eval_alpha_squared*x0*x10 + x10*x61 + x15;
-      basis_xz_eval[ipt + 3*npts] = x65*z;
-      basis_xz_eval[ipt + 4*npts] = y*(x21 + x67);
-      basis_xz_eval[ipt + 5*npts] = radial_eval_alpha_squared*x12*x3 + x3*x72 + x40;
-      basis_xz_eval[ipt + 6*npts] = radial_eval_alpha_squared*x11*x8;
-      basis_xz_eval[ipt + 7*npts] = x*(x32 + x70);
-      basis_xz_eval[ipt + 8*npts] = x73;
-      basis_xz_eval[ipt + 9*npts] = x*x74;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x77;
-      basis_yy_eval[ipt + 1*npts] = y*(x78 + x79);
-      basis_yy_eval[ipt + 2*npts] = x79*z;
-      basis_yy_eval[ipt + 3*npts] = x*x82;
-      basis_yy_eval[ipt + 4*npts] = x54*(x55 + x75);
-      basis_yy_eval[ipt + 5*npts] = x*x83;
-      basis_yy_eval[ipt + 6*npts] = x84;
-      basis_yy_eval[ipt + 7*npts] = x82*z;
-      basis_yy_eval[ipt + 8*npts] = y*(x56 + x83);
-      basis_yy_eval[ipt + 9*npts] = x85;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*x0*x19;
-      basis_yz_eval[ipt + 1*npts] = z*(x20 + x64);
-      basis_yz_eval[ipt + 2*npts] = y*(x20 + x66);
-      basis_yz_eval[ipt + 3*npts] = x69;
-      basis_yz_eval[ipt + 4*npts] = x*(x33 + x71);
-      basis_yz_eval[ipt + 5*npts] = x73;
-      basis_yz_eval[ipt + 6*npts] = x68*z;
-      basis_yz_eval[ipt + 7*npts] = radial_eval_alpha_squared*x10*x11 + x10*x63 + x31;
-      basis_yz_eval[ipt + 8*npts] = radial_eval_alpha_squared*x12*x7 + x40 + x7*x72;
-      basis_yz_eval[ipt + 9*npts] = x74*y;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x88;
-      basis_zz_eval[ipt + 1*npts] = x89*y;
-      basis_zz_eval[ipt + 2*npts] = z*(x78 + x89);
-      basis_zz_eval[ipt + 3*npts] = x*x90;
-      basis_zz_eval[ipt + 4*npts] = x54*(x55 + x86);
-      basis_zz_eval[ipt + 5*npts] = x*x93;
-      basis_zz_eval[ipt + 6*npts] = x94;
-      basis_zz_eval[ipt + 7*npts] = z*(x52 + x90);
-      basis_zz_eval[ipt + 8*npts] = x93*y;
-      basis_zz_eval[ipt + 9*npts] = x95;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x45 + x77 + x88;
-      basis_lapl_eval[ipt + 1*npts] = x96*y;
-      basis_lapl_eval[ipt + 2*npts] = x96*z;
-      basis_lapl_eval[ipt + 3*npts] = x*x97;
-      basis_lapl_eval[ipt + 4*npts] = x54*(9.0*radial_eval_alpha + x43 + x98);
-      basis_lapl_eval[ipt + 5*npts] = x*x99;
-      basis_lapl_eval[ipt + 6*npts] = x58 + x84 + x94;
-      basis_lapl_eval[ipt + 7*npts] = x97*z;
-      basis_lapl_eval[ipt + 8*npts] = x99*y;
-      basis_lapl_eval[ipt + 9*npts] = x59 + x85 + x95;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x*x105 + x*x107 + x0*x109 + x100 + x101*x3 + x102 + x103 + 9.0*x48;
-      basis_lapl_x_eval[ipt + 1*npts] = x115*y;
-      basis_lapl_x_eval[ipt + 2*npts] = x115*z;
-      basis_lapl_x_eval[ipt + 3*npts] = x*x117 + x116 + x118*x2 + x119*x2 + x121 + x78 + x82 + x90;
-      basis_lapl_x_eval[ipt + 4*npts] = x19*(x*x109 + x104*x2 + x106*x2 + x120*x3 + x42 + 3.0*x44 + x98);
-      basis_lapl_x_eval[ipt + 5*npts] = x*x123 + x122 + x124*x2 + x125*x2 + x126 + x78 + x83 + x93;
-      basis_lapl_x_eval[ipt + 6*npts] = x*x130 + x*x131 + x109*x11 + x11*x129 + x128;
-      basis_lapl_x_eval[ipt + 7*npts] = z*(x*x118 + x*x119 + x117 + x129*x7 + x61);
-      basis_lapl_x_eval[ipt + 8*npts] = y*(x*x124 + x*x125 + x10*x129 + x123 + x61);
-      basis_lapl_x_eval[ipt + 9*npts] = x*x134 + x*x135 + x109*x12 + x12*x129 + x133;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x0*x136 + x0*x139 + x107*y + x128 + x138*y;
-      basis_lapl_y_eval[ipt + 1*npts] = x102 + x114*x6 + x121 + x140*y + x141*x6 + x50 + x52 + x89;
-      basis_lapl_y_eval[ipt + 2*npts] = z*(x114*y + x136*x3 + x140 + x141*y + x63);
-      basis_lapl_y_eval[ipt + 3*npts] = x*x144;
-      basis_lapl_y_eval[ipt + 4*npts] = x8*(x106*x6 + x120*x7 + x137*x6 + x139*y + x145 + 3.0*x76 + x86);
-      basis_lapl_y_eval[ipt + 5*npts] = x*(x10*x136 + x125*y + x146*y + x147 + x63);
-      basis_lapl_y_eval[ipt + 6*npts] = x100 + x101*x7 + x11*x139 + x116 + x131*y + x148 + x149*y + 9.0*x80;
-      basis_lapl_y_eval[ipt + 7*npts] = x144*z;
-      basis_lapl_y_eval[ipt + 8*npts] = x125*x6 + x146*x6 + x147*y + x150 + x151 + x52 + x57 + x93;
-      basis_lapl_y_eval[ipt + 9*npts] = x12*x136 + x12*x139 + x135*y + x152 + x153*y;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x0*x154 + x0*x155 + x105*z + x133 + x138*z;
-      basis_lapl_z_eval[ipt + 1*npts] = y*(x113*z + x141*z + x154*x3 + x156 + x72);
-      basis_lapl_z_eval[ipt + 2*npts] = x103 + x113*x9 + x126 + x141*x9 + x156*z + x50 + x56 + x79;
-      basis_lapl_z_eval[ipt + 3*npts] = x*(x118*z + x143*z + x154*x7 + x157 + x72);
-      basis_lapl_z_eval[ipt + 4*npts] = x38*(x10*x120 + x104*x9 + x137*x9 + x145 + x155*z + x75 + 3.0*x87);
-      basis_lapl_z_eval[ipt + 5*npts] = x*x159;
-      basis_lapl_z_eval[ipt + 6*npts] = x11*x154 + x11*x155 + x130*z + x149*z + x152;
-      basis_lapl_z_eval[ipt + 7*npts] = x118*x9 + x143*x9 + x148 + x151 + x157*z + x53 + x56 + x82;
-      basis_lapl_z_eval[ipt + 8*npts] = x159*y;
-      basis_lapl_z_eval[ipt + 9*npts] = x10*x101 + x100 + x12*x155 + x122 + x134*z + x150 + x153*z + 9.0*x91;
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x3;
-      ang_eval_2 = x3*x4;
-      ang_eval_3 = x5*x7;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x8;
-      ang_eval_1 = x10*x5;
-      ang_eval_2 = radial_eval*x11;
-      ang_eval_3 = x4*x7;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x10;
-      ang_eval_1 = radial_eval*x12;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x13 + x14*x3;
-      dang_eval_y_0 = x0*x28;
-      dang_eval_z_0 = x0*x37;
-      dang_eval_x_1 = x15*y;
-      dang_eval_y_1 = x18 + x29;
-      dang_eval_z_1 = x30;
-      dang_eval_x_2 = x15*z;
-      dang_eval_y_2 = x30;
-      dang_eval_z_2 = x24 + x29;
-      dang_eval_x_3 = x16 + x18;
-      dang_eval_y_3 = x*x31;
-      dang_eval_z_3 = x26;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x19*x21;
-      dang_eval_y_0 = x33*x8;
-      dang_eval_z_0 = x38*(radial_eval + x39);
-      dang_eval_x_1 = x22 + x24;
-      dang_eval_y_1 = x27;
-      dang_eval_z_1 = x*x40;
-      dang_eval_x_2 = x11*x25;
-      dang_eval_y_2 = radial_eval_alpha*x34 + x14*x7;
-      dang_eval_z_2 = x11*x37;
-      dang_eval_x_3 = x26;
-      dang_eval_y_3 = x31*z;
-      dang_eval_z_3 = x16 + x36;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x27;
-      dang_eval_y_0 = x22 + x36;
-      dang_eval_z_0 = x40*y;
-      dang_eval_x_1 = x12*x25;
-      dang_eval_y_1 = x12*x28;
-      dang_eval_z_1 = radial_eval_alpha*x41 + x10*x14;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_laplacian.hpp
deleted file mode 100644
index 2ef57f3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l3_laplacian.hpp
+++ /dev/null
@@ -1,382 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_laplacian_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = radial_eval*x; 
-      const auto x5 = y*y; 
-      const auto x6 = x*z; 
-      const auto x7 = z*z; 
-      const auto x8 = y*y*y; 
-      const auto x9 = z*z*z; 
-      const auto x10 = x*x*x*x; 
-      const auto x11 = 3.0*radial_eval; 
-      const auto x12 = radial_eval_alpha*x0 + 2.0*x4; 
-      const auto x13 = radial_eval*x5; 
-      const auto x14 = x2*x5; 
-      const auto x15 = radial_eval_alpha*x14; 
-      const auto x16 = y*z; 
-      const auto x17 = radial_eval_alpha*x2; 
-      const auto x18 = radial_eval + x17; 
-      const auto x19 = radial_eval*x7; 
-      const auto x20 = x2*x7; 
-      const auto x21 = radial_eval_alpha*x20; 
-      const auto x22 = radial_eval_alpha*x; 
-      const auto x23 = x22*x5*z; 
-      const auto x24 = x22*x7*y; 
-      const auto x25 = radial_eval_alpha*y; 
-      const auto x26 = radial_eval*x2; 
-      const auto x27 = radial_eval_alpha*x16*x2; 
-      const auto x28 = radial_eval_alpha*x8 + 2.0*x1; 
-      const auto x29 = radial_eval_alpha*x5; 
-      const auto x30 = radial_eval + x29; 
-      const auto x31 = y*y*y*y; 
-      const auto x32 = x5*x7; 
-      const auto x33 = radial_eval_alpha*x32; 
-      const auto x34 = radial_eval_alpha*z; 
-      const auto x35 = x*y; 
-      const auto x36 = radial_eval_alpha*x7; 
-      const auto x37 = radial_eval_alpha*x9 + 2.0*x3; 
-      const auto x38 = z*z*z*z; 
-      const auto x39 = 6.0*radial_eval_alpha; 
-      const auto x40 = radial_eval_alpha_squared*x2; 
-      const auto x41 = radial_eval_alpha + x40; 
-      const auto x42 = x0*x39 + x0*x41 + 6.0*x4; 
-      const auto x43 = 4.0*radial_eval_alpha; 
-      const auto x44 = 2.0*radial_eval; 
-      const auto x45 = x2*x41 + x44; 
-      const auto x46 = x2*x43 + x45; 
-      const auto x47 = 2.0*radial_eval_alpha; 
-      const auto x48 = x47*x5; 
-      const auto x49 = x41*x5; 
-      const auto x50 = x*x16; 
-      const auto x51 = 3.0*radial_eval_alpha; 
-      const auto x52 = x47*x7; 
-      const auto x53 = x41*x7; 
-      const auto x54 = x41*x8; 
-      const auto x55 = x41*x9; 
-      const auto x56 = radial_eval_alpha_squared*x10 + x2*x51; 
-      const auto x57 = 2.0*x22; 
-      const auto x58 = x16*(radial_eval_alpha_squared*x0 + x57); 
-      const auto x59 = 2.0*x25; 
-      const auto x60 = radial_eval_alpha_squared*x14; 
-      const auto x61 = x29 + x60; 
-      const auto x62 = radial_eval_alpha_squared*x20; 
-      const auto x63 = x36 + x62; 
-      const auto x64 = radial_eval_alpha_squared*x31 + x5*x51; 
-      const auto x65 = x6*(radial_eval_alpha_squared*x8 + x59); 
-      const auto x66 = radial_eval_alpha_squared*x32; 
-      const auto x67 = x36 + x66; 
-      const auto x68 = 2.0*x34; 
-      const auto x69 = x35*(radial_eval_alpha_squared*x9 + x68); 
-      const auto x70 = radial_eval_alpha_squared*x38 + x51*x7; 
-      const auto x71 = radial_eval_alpha_squared*x5; 
-      const auto x72 = radial_eval_alpha + x71; 
-      const auto x73 = x0*x72; 
-      const auto x74 = x2*x47; 
-      const auto x75 = x2*x72; 
-      const auto x76 = x44 + x5*x72; 
-      const auto x77 = x43*x5 + x76; 
-      const auto x78 = x7*x72; 
-      const auto x79 = 6.0*x1 + x39*x8 + x72*x8; 
-      const auto x80 = x72*x9; 
-      const auto x81 = radial_eval_alpha_squared*x7; 
-      const auto x82 = radial_eval_alpha + x81; 
-      const auto x83 = x0*x82; 
-      const auto x84 = x2*x82; 
-      const auto x85 = x5*x82; 
-      const auto x86 = x44 + x7*x82; 
-      const auto x87 = x43*x7 + x86; 
-      const auto x88 = x8*x82; 
-      const auto x89 = 6.0*x3 + x39*x9 + x82*x9; 
-      const auto x90 = x2*x39 + x45 + x75 + x84; 
-      const auto x91 = x39*x5 + x49 + x76 + x85; 
-      const auto x92 = x39*x7 + x53 + x78 + x86; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = x4*x5;
-      basis_eval[ipt + 4*npts] = x1*x6;
-      basis_eval[ipt + 5*npts] = x4*x7;
-      basis_eval[ipt + 6*npts] = radial_eval*x8;
-      basis_eval[ipt + 7*npts] = x3*x5;
-      basis_eval[ipt + 8*npts] = x1*x7;
-      basis_eval[ipt + 9*npts] = radial_eval*x9;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x10 + x11*x2;
-      basis_x_eval[ipt + 1*npts] = x12*y;
-      basis_x_eval[ipt + 2*npts] = x12*z;
-      basis_x_eval[ipt + 3*npts] = x13 + x15;
-      basis_x_eval[ipt + 4*npts] = x16*x18;
-      basis_x_eval[ipt + 5*npts] = x19 + x21;
-      basis_x_eval[ipt + 6*npts] = x22*x8;
-      basis_x_eval[ipt + 7*npts] = x23;
-      basis_x_eval[ipt + 8*npts] = x24;
-      basis_x_eval[ipt + 9*npts] = x22*x9;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x25;
-      basis_y_eval[ipt + 1*npts] = x15 + x26;
-      basis_y_eval[ipt + 2*npts] = x27;
-      basis_y_eval[ipt + 3*npts] = x*x28;
-      basis_y_eval[ipt + 4*npts] = x30*x6;
-      basis_y_eval[ipt + 5*npts] = x24;
-      basis_y_eval[ipt + 6*npts] = radial_eval_alpha*x31 + x11*x5;
-      basis_y_eval[ipt + 7*npts] = x28*z;
-      basis_y_eval[ipt + 8*npts] = x19 + x33;
-      basis_y_eval[ipt + 9*npts] = x25*x9;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x34;
-      basis_z_eval[ipt + 1*npts] = x27;
-      basis_z_eval[ipt + 2*npts] = x21 + x26;
-      basis_z_eval[ipt + 3*npts] = x23;
-      basis_z_eval[ipt + 4*npts] = x35*(radial_eval + x36);
-      basis_z_eval[ipt + 5*npts] = x*x37;
-      basis_z_eval[ipt + 6*npts] = x34*x8;
-      basis_z_eval[ipt + 7*npts] = x13 + x33;
-      basis_z_eval[ipt + 8*npts] = x37*y;
-      basis_z_eval[ipt + 9*npts] = radial_eval_alpha*x38 + x11*x7;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x42 + x73 + x83;
-      basis_lapl_eval[ipt + 1*npts] = x90*y;
-      basis_lapl_eval[ipt + 2*npts] = x90*z;
-      basis_lapl_eval[ipt + 3*npts] = x*x91;
-      basis_lapl_eval[ipt + 4*npts] = x50*(9.0*radial_eval_alpha + x40 + x71 + x81);
-      basis_lapl_eval[ipt + 5*npts] = x*x92;
-      basis_lapl_eval[ipt + 6*npts] = x54 + x79 + x88;
-      basis_lapl_eval[ipt + 7*npts] = x91*z;
-      basis_lapl_eval[ipt + 8*npts] = x92*y;
-      basis_lapl_eval[ipt + 9*npts] = x55 + x80 + x89;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = x4*x5;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x6;
-      ang_eval_1 = x4*x7;
-      ang_eval_2 = radial_eval*x8;
-      ang_eval_3 = x3*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x7;
-      ang_eval_1 = radial_eval*x9;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x10 + x11*x2;
-      dang_eval_y_0 = x0*x25;
-      dang_eval_z_0 = x0*x34;
-      dang_eval_x_1 = x12*y;
-      dang_eval_y_1 = x15 + x26;
-      dang_eval_z_1 = x27;
-      dang_eval_x_2 = x12*z;
-      dang_eval_y_2 = x27;
-      dang_eval_z_2 = x21 + x26;
-      dang_eval_x_3 = x13 + x15;
-      dang_eval_y_3 = x*x28;
-      dang_eval_z_3 = x23;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x16*x18;
-      dang_eval_y_0 = x30*x6;
-      dang_eval_z_0 = x35*(radial_eval + x36);
-      dang_eval_x_1 = x19 + x21;
-      dang_eval_y_1 = x24;
-      dang_eval_z_1 = x*x37;
-      dang_eval_x_2 = x22*x8;
-      dang_eval_y_2 = radial_eval_alpha*x31 + x11*x5;
-      dang_eval_z_2 = x34*x8;
-      dang_eval_x_3 = x23;
-      dang_eval_y_3 = x28*z;
-      dang_eval_z_3 = x13 + x33;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x24;
-      dang_eval_y_0 = x19 + x33;
-      dang_eval_z_0 = x37*y;
-      dang_eval_x_1 = x22*x9;
-      dang_eval_y_1 = x25*x9;
-      dang_eval_z_1 = radial_eval_alpha*x38 + x11*x7;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4.hpp
deleted file mode 100644
index 65bb118..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4.hpp
+++ /dev/null
@@ -1,190 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_cartesian_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-      const auto x0 = radial_eval*y; 
-      const auto x1 = x*x*x; 
-      const auto x2 = radial_eval*z; 
-      const auto x3 = x*x; 
-      const auto x4 = y*y; 
-      const auto x5 = z*z; 
-      const auto x6 = radial_eval*x; 
-      const auto x7 = y*y*y; 
-      const auto x8 = z*z*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*(x*x*x*x);
-      basis_eval[ipt + 1*npts] = x0*x1;
-      basis_eval[ipt + 2*npts] = x1*x2;
-      basis_eval[ipt + 3*npts] = radial_eval*x3*x4;
-      basis_eval[ipt + 4*npts] = x0*x3*z;
-      basis_eval[ipt + 5*npts] = radial_eval*x3*x5;
-      basis_eval[ipt + 6*npts] = x6*x7;
-      basis_eval[ipt + 7*npts] = x*x2*x4;
-      basis_eval[ipt + 8*npts] = x*x0*x5;
-      basis_eval[ipt + 9*npts] = x6*x8;
-      basis_eval[ipt + 10*npts] = radial_eval*(y*y*y*y);
-      basis_eval[ipt + 11*npts] = x2*x7;
-      basis_eval[ipt + 12*npts] = radial_eval*x4*x5;
-      basis_eval[ipt + 13*npts] = x0*x8;
-      basis_eval[ipt + 14*npts] = radial_eval*(z*z*z*z);
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*(x*x*x*x);
-      ang_eval_1 = x0*x1;
-      ang_eval_2 = x1*x2;
-      ang_eval_3 = radial_eval*x3*x4;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x0*x3*z;
-      ang_eval_1 = radial_eval*x3*x5;
-      ang_eval_2 = x6*x7;
-      ang_eval_3 = x*x2*x4;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x*x0*x5;
-      ang_eval_1 = x6*x8;
-      ang_eval_2 = radial_eval*(y*y*y*y);
-      ang_eval_3 = x2*x7;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-      basis_eval[ipt + 10*npts] = ang_eval_2;
-      basis_eval[ipt + 11*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x4*x5;
-      ang_eval_1 = x0*x8;
-      ang_eval_2 = radial_eval*(z*z*z*z);
-      basis_eval[ipt + 12*npts] = ang_eval_0;
-      basis_eval[ipt + 13*npts] = ang_eval_1;
-      basis_eval[ipt + 14*npts] = ang_eval_2;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_gradient.hpp
deleted file mode 100644
index ea90a94..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_gradient.hpp
+++ /dev/null
@@ -1,381 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_gradient_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = x*x; 
-      const auto x5 = y*y; 
-      const auto x6 = x4*x5; 
-      const auto x7 = z*z; 
-      const auto x8 = x4*x7; 
-      const auto x9 = radial_eval*x; 
-      const auto x10 = y*y*y; 
-      const auto x11 = z*z*z; 
-      const auto x12 = y*y*y*y; 
-      const auto x13 = x5*x7; 
-      const auto x14 = z*z*z*z; 
-      const auto x15 = 4.0*radial_eval; 
-      const auto x16 = 3.0*radial_eval; 
-      const auto x17 = radial_eval_alpha*x0 + x16*x4; 
-      const auto x18 = 2.0*x9; 
-      const auto x19 = radial_eval_alpha*x2*x5; 
-      const auto x20 = y*z; 
-      const auto x21 = radial_eval_alpha*x2*x7; 
-      const auto x22 = radial_eval*x10; 
-      const auto x23 = radial_eval_alpha*x10*x4; 
-      const auto x24 = radial_eval*x5; 
-      const auto x25 = radial_eval_alpha*x6; 
-      const auto x26 = radial_eval*x7; 
-      const auto x27 = radial_eval_alpha*x8; 
-      const auto x28 = radial_eval*x11; 
-      const auto x29 = radial_eval_alpha*x11*x4; 
-      const auto x30 = radial_eval_alpha*x; 
-      const auto x31 = x10*x30*z; 
-      const auto x32 = x11*x30*y; 
-      const auto x33 = radial_eval_alpha*y; 
-      const auto x34 = radial_eval*x2; 
-      const auto x35 = radial_eval_alpha*x2*x20; 
-      const auto x36 = 2.0*x1; 
-      const auto x37 = radial_eval*x4; 
-      const auto x38 = radial_eval_alpha*x12 + x16*x5; 
-      const auto x39 = radial_eval_alpha*x13; 
-      const auto x40 = radial_eval_alpha*x10*x7; 
-      const auto x41 = radial_eval_alpha*x11*x5; 
-      const auto x42 = radial_eval_alpha*z; 
-      const auto x43 = 2.0*x3; 
-      const auto x44 = radial_eval_alpha*x14 + x16*x7; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = radial_eval*x6;
-      basis_eval[ipt + 4*npts] = x1*x4*z;
-      basis_eval[ipt + 5*npts] = radial_eval*x8;
-      basis_eval[ipt + 6*npts] = x10*x9;
-      basis_eval[ipt + 7*npts] = x*x3*x5;
-      basis_eval[ipt + 8*npts] = x*x1*x7;
-      basis_eval[ipt + 9*npts] = x11*x9;
-      basis_eval[ipt + 10*npts] = radial_eval*x12;
-      basis_eval[ipt + 11*npts] = x10*x3;
-      basis_eval[ipt + 12*npts] = radial_eval*x13;
-      basis_eval[ipt + 13*npts] = x1*x11;
-      basis_eval[ipt + 14*npts] = radial_eval*x14;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*(x*x*x*x*x) + x15*x2;
-      basis_x_eval[ipt + 1*npts] = x17*y;
-      basis_x_eval[ipt + 2*npts] = x17*z;
-      basis_x_eval[ipt + 3*npts] = x18*x5 + x19;
-      basis_x_eval[ipt + 4*npts] = x20*(radial_eval_alpha*x2 + x18);
-      basis_x_eval[ipt + 5*npts] = x18*x7 + x21;
-      basis_x_eval[ipt + 6*npts] = x22 + x23;
-      basis_x_eval[ipt + 7*npts] = z*(x24 + x25);
-      basis_x_eval[ipt + 8*npts] = y*(x26 + x27);
-      basis_x_eval[ipt + 9*npts] = x28 + x29;
-      basis_x_eval[ipt + 10*npts] = x12*x30;
-      basis_x_eval[ipt + 11*npts] = x31;
-      basis_x_eval[ipt + 12*npts] = x13*x30;
-      basis_x_eval[ipt + 13*npts] = x32;
-      basis_x_eval[ipt + 14*npts] = x14*x30;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x33;
-      basis_y_eval[ipt + 1*npts] = x19 + x34;
-      basis_y_eval[ipt + 2*npts] = x35;
-      basis_y_eval[ipt + 3*npts] = x23 + x36*x4;
-      basis_y_eval[ipt + 4*npts] = z*(x25 + x37);
-      basis_y_eval[ipt + 5*npts] = x33*x8;
-      basis_y_eval[ipt + 6*npts] = x*x38;
-      basis_y_eval[ipt + 7*npts] = x*z*(radial_eval_alpha*x10 + x36);
-      basis_y_eval[ipt + 8*npts] = x*(x26 + x39);
-      basis_y_eval[ipt + 9*npts] = x32;
-      basis_y_eval[ipt + 10*npts] = radial_eval_alpha*(y*y*y*y*y) + x10*x15;
-      basis_y_eval[ipt + 11*npts] = x38*z;
-      basis_y_eval[ipt + 12*npts] = x36*x7 + x40;
-      basis_y_eval[ipt + 13*npts] = x28 + x41;
-      basis_y_eval[ipt + 14*npts] = x14*x33;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x42;
-      basis_z_eval[ipt + 1*npts] = x35;
-      basis_z_eval[ipt + 2*npts] = x21 + x34;
-      basis_z_eval[ipt + 3*npts] = x42*x6;
-      basis_z_eval[ipt + 4*npts] = y*(x27 + x37);
-      basis_z_eval[ipt + 5*npts] = x29 + x4*x43;
-      basis_z_eval[ipt + 6*npts] = x31;
-      basis_z_eval[ipt + 7*npts] = x*(x24 + x39);
-      basis_z_eval[ipt + 8*npts] = x*y*(radial_eval_alpha*x11 + x43);
-      basis_z_eval[ipt + 9*npts] = x*x44;
-      basis_z_eval[ipt + 10*npts] = x12*x42;
-      basis_z_eval[ipt + 11*npts] = x22 + x40;
-      basis_z_eval[ipt + 12*npts] = x41 + x43*x5;
-      basis_z_eval[ipt + 13*npts] = x44*y;
-      basis_z_eval[ipt + 14*npts] = radial_eval_alpha*(z*z*z*z*z) + x11*x15;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = radial_eval*x6;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x1*x4*z;
-      ang_eval_1 = radial_eval*x8;
-      ang_eval_2 = x10*x9;
-      ang_eval_3 = x*x3*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x*x1*x7;
-      ang_eval_1 = x11*x9;
-      ang_eval_2 = radial_eval*x12;
-      ang_eval_3 = x10*x3;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-      basis_eval[ipt + 10*npts] = ang_eval_2;
-      basis_eval[ipt + 11*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x13;
-      ang_eval_1 = x1*x11;
-      ang_eval_2 = radial_eval*x14;
-      basis_eval[ipt + 12*npts] = ang_eval_0;
-      basis_eval[ipt + 13*npts] = ang_eval_1;
-      basis_eval[ipt + 14*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*(x*x*x*x*x) + x15*x2;
-      dang_eval_y_0 = x0*x33;
-      dang_eval_z_0 = x0*x42;
-      dang_eval_x_1 = x17*y;
-      dang_eval_y_1 = x19 + x34;
-      dang_eval_z_1 = x35;
-      dang_eval_x_2 = x17*z;
-      dang_eval_y_2 = x35;
-      dang_eval_z_2 = x21 + x34;
-      dang_eval_x_3 = x18*x5 + x19;
-      dang_eval_y_3 = x23 + x36*x4;
-      dang_eval_z_3 = x42*x6;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x20*(radial_eval_alpha*x2 + x18);
-      dang_eval_y_0 = z*(x25 + x37);
-      dang_eval_z_0 = y*(x27 + x37);
-      dang_eval_x_1 = x18*x7 + x21;
-      dang_eval_y_1 = x33*x8;
-      dang_eval_z_1 = x29 + x4*x43;
-      dang_eval_x_2 = x22 + x23;
-      dang_eval_y_2 = x*x38;
-      dang_eval_z_2 = x31;
-      dang_eval_x_3 = z*(x24 + x25);
-      dang_eval_y_3 = x*z*(radial_eval_alpha*x10 + x36);
-      dang_eval_z_3 = x*(x24 + x39);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = y*(x26 + x27);
-      dang_eval_y_0 = x*(x26 + x39);
-      dang_eval_z_0 = x*y*(radial_eval_alpha*x11 + x43);
-      dang_eval_x_1 = x28 + x29;
-      dang_eval_y_1 = x32;
-      dang_eval_z_1 = x*x44;
-      dang_eval_x_2 = x12*x30;
-      dang_eval_y_2 = radial_eval_alpha*(y*y*y*y*y) + x10*x15;
-      dang_eval_z_2 = x12*x42;
-      dang_eval_x_3 = x31;
-      dang_eval_y_3 = x38*z;
-      dang_eval_z_3 = x22 + x40;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 10*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 10*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 10*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 11*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 11*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 11*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x13*x30;
-      dang_eval_y_0 = x36*x7 + x40;
-      dang_eval_z_0 = x41 + x43*x5;
-      dang_eval_x_1 = x32;
-      dang_eval_y_1 = x28 + x41;
-      dang_eval_z_1 = x44*y;
-      dang_eval_x_2 = x14*x30;
-      dang_eval_y_2 = x14*x33;
-      dang_eval_z_2 = radial_eval_alpha*(z*z*z*z*z) + x11*x15;
-      basis_x_eval[ipt + 12*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 12*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 12*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 13*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 13*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 13*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 14*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 14*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 14*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_hessian.hpp
deleted file mode 100644
index 99c58bb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_hessian.hpp
+++ /dev/null
@@ -1,604 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_hessian_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = x*x; 
-      const auto x5 = y*y; 
-      const auto x6 = x4*x5; 
-      const auto x7 = x1*z; 
-      const auto x8 = z*z; 
-      const auto x9 = x4*x8; 
-      const auto x10 = radial_eval*x; 
-      const auto x11 = y*y*y; 
-      const auto x12 = x*x3; 
-      const auto x13 = x*x1; 
-      const auto x14 = z*z*z; 
-      const auto x15 = y*y*y*y; 
-      const auto x16 = x5*x8; 
-      const auto x17 = z*z*z*z; 
-      const auto x18 = x*x*x*x*x; 
-      const auto x19 = 4.0*radial_eval; 
-      const auto x20 = 3.0*radial_eval; 
-      const auto x21 = radial_eval_alpha*x0 + x20*x4; 
-      const auto x22 = 2.0*x10; 
-      const auto x23 = x2*x5; 
-      const auto x24 = radial_eval_alpha*x23; 
-      const auto x25 = y*z; 
-      const auto x26 = radial_eval_alpha*x2; 
-      const auto x27 = x22 + x26; 
-      const auto x28 = x2*x8; 
-      const auto x29 = radial_eval_alpha*x28; 
-      const auto x30 = radial_eval*x11; 
-      const auto x31 = x11*x4; 
-      const auto x32 = radial_eval_alpha*x31; 
-      const auto x33 = radial_eval*x5; 
-      const auto x34 = radial_eval_alpha*x6; 
-      const auto x35 = x33 + x34; 
-      const auto x36 = radial_eval*x8; 
-      const auto x37 = radial_eval_alpha*x9; 
-      const auto x38 = x36 + x37; 
-      const auto x39 = radial_eval*x14; 
-      const auto x40 = x14*x4; 
-      const auto x41 = radial_eval_alpha*x40; 
-      const auto x42 = radial_eval_alpha*x; 
-      const auto x43 = x11*x42*z; 
-      const auto x44 = x14*x42*y; 
-      const auto x45 = radial_eval_alpha*y; 
-      const auto x46 = radial_eval*x2; 
-      const auto x47 = radial_eval_alpha*x2*x25; 
-      const auto x48 = 2.0*x1; 
-      const auto x49 = radial_eval*x4; 
-      const auto x50 = x34 + x49; 
-      const auto x51 = radial_eval_alpha*x15 + x20*x5; 
-      const auto x52 = x*z; 
-      const auto x53 = radial_eval_alpha*x11; 
-      const auto x54 = x48 + x53; 
-      const auto x55 = radial_eval_alpha*x16; 
-      const auto x56 = y*y*y*y*y; 
-      const auto x57 = x11*x8; 
-      const auto x58 = radial_eval_alpha*x57; 
-      const auto x59 = x14*x5; 
-      const auto x60 = radial_eval_alpha*x59; 
-      const auto x61 = radial_eval_alpha*z; 
-      const auto x62 = 2.0*x3; 
-      const auto x63 = x*y; 
-      const auto x64 = radial_eval_alpha*x14; 
-      const auto x65 = x62 + x64; 
-      const auto x66 = radial_eval_alpha*x17 + x20*x8; 
-      const auto x67 = z*z*z*z*z; 
-      const auto x68 = 12.0*radial_eval; 
-      const auto x69 = 8.0*radial_eval_alpha; 
-      const auto x70 = radial_eval_alpha + radial_eval_alpha_squared*x4; 
-      const auto x71 = x0*x69 + x0*x70 + x4*x68; 
-      const auto x72 = 6.0*radial_eval_alpha; 
-      const auto x73 = 6.0*x10 + x2*x70; 
-      const auto x74 = x2*x72 + x73; 
-      const auto x75 = 4.0*radial_eval_alpha; 
-      const auto x76 = x6*x75; 
-      const auto x77 = 2.0*radial_eval; 
-      const auto x78 = x5*x77; 
-      const auto x79 = x4*x5*x70 + x78; 
-      const auto x80 = x4*x70 + x77; 
-      const auto x81 = x75*x9; 
-      const auto x82 = x77*x8; 
-      const auto x83 = x4*x70*x8 + x82; 
-      const auto x84 = 2.0*radial_eval_alpha; 
-      const auto x85 = x11*x84; 
-      const auto x86 = x11*x70; 
-      const auto x87 = x5*x84; 
-      const auto x88 = x5*x70; 
-      const auto x89 = x8*x84; 
-      const auto x90 = x70*x8; 
-      const auto x91 = x14*x84; 
-      const auto x92 = x14*x70; 
-      const auto x93 = x15*x70; 
-      const auto x94 = x5*x70*x8; 
-      const auto x95 = x17*x70; 
-      const auto x96 = radial_eval_alpha_squared*x18 + x2*x75; 
-      const auto x97 = 3.0*radial_eval_alpha; 
-      const auto x98 = x6*x97; 
-      const auto x99 = x25*(radial_eval_alpha_squared*x0 + x4*x97); 
-      const auto x100 = 2.0*x42; 
-      const auto x101 = 2.0*x45; 
-      const auto x102 = radial_eval_alpha_squared*x23; 
-      const auto x103 = x100*x5 + x102; 
-      const auto x104 = radial_eval_alpha_squared*x28; 
-      const auto x105 = x100*x8 + x104; 
-      const auto x106 = radial_eval_alpha_squared*x31; 
-      const auto x107 = x101*x4 + x106; 
-      const auto x108 = radial_eval_alpha_squared*x4*x5*x8; 
-      const auto x109 = x108 + x55; 
-      const auto x110 = radial_eval_alpha_squared*x40; 
-      const auto x111 = radial_eval_alpha_squared*x56 + x11*x75; 
-      const auto x112 = x52*(radial_eval_alpha_squared*x15 + x5*x97); 
-      const auto x113 = radial_eval_alpha_squared*x57; 
-      const auto x114 = x101*x8 + x113; 
-      const auto x115 = radial_eval_alpha_squared*x59; 
-      const auto x116 = x9*x97; 
-      const auto x117 = 2.0*x61; 
-      const auto x118 = x110 + x117*x4; 
-      const auto x119 = x115 + x117*x5; 
-      const auto x120 = x63*(radial_eval_alpha_squared*x17 + x8*x97); 
-      const auto x121 = radial_eval_alpha_squared*x67 + x14*x75; 
-      const auto x122 = radial_eval_alpha + radial_eval_alpha_squared*x5; 
-      const auto x123 = x0*x122; 
-      const auto x124 = x2*x84; 
-      const auto x125 = x122*x2; 
-      const auto x126 = x4*x77; 
-      const auto x127 = x122*x4*x5 + x126; 
-      const auto x128 = x4*x84; 
-      const auto x129 = x122*x4; 
-      const auto x130 = x122*x4*x8; 
-      const auto x131 = 6.0*x1 + x11*x122; 
-      const auto x132 = x11*x72 + x131; 
-      const auto x133 = x122*x5 + x77; 
-      const auto x134 = x122*x8; 
-      const auto x135 = x122*x14; 
-      const auto x136 = x122*x15 + x15*x69 + x5*x68; 
-      const auto x137 = x16*x75; 
-      const auto x138 = x122*x5*x8 + x82; 
-      const auto x139 = x122*x17; 
-      const auto x140 = x16*x97; 
-      const auto x141 = radial_eval_alpha + radial_eval_alpha_squared*x8; 
-      const auto x142 = x0*x141; 
-      const auto x143 = x141*x2; 
-      const auto x144 = x141*x4*x5; 
-      const auto x145 = x141*x4; 
-      const auto x146 = x126 + x141*x4*x8; 
-      const auto x147 = x11*x141; 
-      const auto x148 = x141*x5; 
-      const auto x149 = x141*x8 + x77; 
-      const auto x150 = x14*x141 + 6.0*x3; 
-      const auto x151 = x14*x72 + x150; 
-      const auto x152 = x141*x15; 
-      const auto x153 = x141*x5*x8 + x78; 
-      const auto x154 = x141*x17 + x17*x69 + x68*x8; 
-      const auto x155 = x125 + x143 + x2*x69 + x73; 
-      const auto x156 = x11*x69 + x131 + x147 + x86; 
-      const auto x157 = x135 + x14*x69 + x150 + x92; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = radial_eval*x6;
-      basis_eval[ipt + 4*npts] = x4*x7;
-      basis_eval[ipt + 5*npts] = radial_eval*x9;
-      basis_eval[ipt + 6*npts] = x10*x11;
-      basis_eval[ipt + 7*npts] = x12*x5;
-      basis_eval[ipt + 8*npts] = x13*x8;
-      basis_eval[ipt + 9*npts] = x10*x14;
-      basis_eval[ipt + 10*npts] = radial_eval*x15;
-      basis_eval[ipt + 11*npts] = x11*x3;
-      basis_eval[ipt + 12*npts] = radial_eval*x16;
-      basis_eval[ipt + 13*npts] = x1*x14;
-      basis_eval[ipt + 14*npts] = radial_eval*x17;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x18 + x19*x2;
-      basis_x_eval[ipt + 1*npts] = x21*y;
-      basis_x_eval[ipt + 2*npts] = x21*z;
-      basis_x_eval[ipt + 3*npts] = x22*x5 + x24;
-      basis_x_eval[ipt + 4*npts] = x25*x27;
-      basis_x_eval[ipt + 5*npts] = x22*x8 + x29;
-      basis_x_eval[ipt + 6*npts] = x30 + x32;
-      basis_x_eval[ipt + 7*npts] = x35*z;
-      basis_x_eval[ipt + 8*npts] = x38*y;
-      basis_x_eval[ipt + 9*npts] = x39 + x41;
-      basis_x_eval[ipt + 10*npts] = x15*x42;
-      basis_x_eval[ipt + 11*npts] = x43;
-      basis_x_eval[ipt + 12*npts] = x16*x42;
-      basis_x_eval[ipt + 13*npts] = x44;
-      basis_x_eval[ipt + 14*npts] = x17*x42;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x45;
-      basis_y_eval[ipt + 1*npts] = x24 + x46;
-      basis_y_eval[ipt + 2*npts] = x47;
-      basis_y_eval[ipt + 3*npts] = x32 + x4*x48;
-      basis_y_eval[ipt + 4*npts] = x50*z;
-      basis_y_eval[ipt + 5*npts] = x45*x9;
-      basis_y_eval[ipt + 6*npts] = x*x51;
-      basis_y_eval[ipt + 7*npts] = x52*x54;
-      basis_y_eval[ipt + 8*npts] = x*(x36 + x55);
-      basis_y_eval[ipt + 9*npts] = x44;
-      basis_y_eval[ipt + 10*npts] = radial_eval_alpha*x56 + x11*x19;
-      basis_y_eval[ipt + 11*npts] = x51*z;
-      basis_y_eval[ipt + 12*npts] = x48*x8 + x58;
-      basis_y_eval[ipt + 13*npts] = x39 + x60;
-      basis_y_eval[ipt + 14*npts] = x17*x45;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x61;
-      basis_z_eval[ipt + 1*npts] = x47;
-      basis_z_eval[ipt + 2*npts] = x29 + x46;
-      basis_z_eval[ipt + 3*npts] = x6*x61;
-      basis_z_eval[ipt + 4*npts] = y*(x37 + x49);
-      basis_z_eval[ipt + 5*npts] = x4*x62 + x41;
-      basis_z_eval[ipt + 6*npts] = x43;
-      basis_z_eval[ipt + 7*npts] = x*(x33 + x55);
-      basis_z_eval[ipt + 8*npts] = x63*x65;
-      basis_z_eval[ipt + 9*npts] = x*x66;
-      basis_z_eval[ipt + 10*npts] = x15*x61;
-      basis_z_eval[ipt + 11*npts] = x30 + x58;
-      basis_z_eval[ipt + 12*npts] = x5*x62 + x60;
-      basis_z_eval[ipt + 13*npts] = x66*y;
-      basis_z_eval[ipt + 14*npts] = radial_eval_alpha*x67 + x14*x19;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x71;
-      basis_xx_eval[ipt + 1*npts] = x74*y;
-      basis_xx_eval[ipt + 2*npts] = x74*z;
-      basis_xx_eval[ipt + 3*npts] = x76 + x79;
-      basis_xx_eval[ipt + 4*npts] = x25*(x4*x75 + x80);
-      basis_xx_eval[ipt + 5*npts] = x81 + x83;
-      basis_xx_eval[ipt + 6*npts] = x*(x85 + x86);
-      basis_xx_eval[ipt + 7*npts] = x52*(x87 + x88);
-      basis_xx_eval[ipt + 8*npts] = x63*(x89 + x90);
-      basis_xx_eval[ipt + 9*npts] = x*(x91 + x92);
-      basis_xx_eval[ipt + 10*npts] = x93;
-      basis_xx_eval[ipt + 11*npts] = x86*z;
-      basis_xx_eval[ipt + 12*npts] = x94;
-      basis_xx_eval[ipt + 13*npts] = x92*y;
-      basis_xx_eval[ipt + 14*npts] = x95;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x96*y;
-      basis_xy_eval[ipt + 1*npts] = radial_eval_alpha_squared*x0*x5 + x21 + x98;
-      basis_xy_eval[ipt + 2*npts] = x99;
-      basis_xy_eval[ipt + 3*npts] = radial_eval_alpha_squared*x11*x2 + x100*x11 + x101*x2 + 4.0*x13;
-      basis_xy_eval[ipt + 4*npts] = z*(x103 + x27);
-      basis_xy_eval[ipt + 5*npts] = x105*y;
-      basis_xy_eval[ipt + 6*npts] = radial_eval_alpha_squared*x15*x4 + x51 + x98;
-      basis_xy_eval[ipt + 7*npts] = z*(x107 + x54);
-      basis_xy_eval[ipt + 8*npts] = x109 + x38;
-      basis_xy_eval[ipt + 9*npts] = y*(x110 + x64);
-      basis_xy_eval[ipt + 10*npts] = x*x111;
-      basis_xy_eval[ipt + 11*npts] = x112;
-      basis_xy_eval[ipt + 12*npts] = x*x114;
-      basis_xy_eval[ipt + 13*npts] = x*(x115 + x64);
-      basis_xy_eval[ipt + 14*npts] = radial_eval_alpha_squared*x17*x63;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x96*z;
-      basis_xz_eval[ipt + 1*npts] = x99;
-      basis_xz_eval[ipt + 2*npts] = radial_eval_alpha_squared*x0*x8 + x116 + x21;
-      basis_xz_eval[ipt + 3*npts] = x103*z;
-      basis_xz_eval[ipt + 4*npts] = y*(x105 + x27);
-      basis_xz_eval[ipt + 5*npts] = radial_eval_alpha_squared*x14*x2 + x100*x14 + x117*x2 + 4.0*x12;
-      basis_xz_eval[ipt + 6*npts] = z*(x106 + x53);
-      basis_xz_eval[ipt + 7*npts] = x109 + x35;
-      basis_xz_eval[ipt + 8*npts] = y*(x118 + x65);
-      basis_xz_eval[ipt + 9*npts] = radial_eval_alpha_squared*x17*x4 + x116 + x66;
-      basis_xz_eval[ipt + 10*npts] = radial_eval_alpha_squared*x15*x52;
-      basis_xz_eval[ipt + 11*npts] = x*(x113 + x53);
-      basis_xz_eval[ipt + 12*npts] = x*x119;
-      basis_xz_eval[ipt + 13*npts] = x120;
-      basis_xz_eval[ipt + 14*npts] = x*x121;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x123;
-      basis_yy_eval[ipt + 1*npts] = y*(x124 + x125);
-      basis_yy_eval[ipt + 2*npts] = x125*z;
-      basis_yy_eval[ipt + 3*npts] = x127 + x76;
-      basis_yy_eval[ipt + 4*npts] = x25*(x128 + x129);
-      basis_yy_eval[ipt + 5*npts] = x130;
-      basis_yy_eval[ipt + 6*npts] = x*x132;
-      basis_yy_eval[ipt + 7*npts] = x52*(x133 + x5*x75);
-      basis_yy_eval[ipt + 8*npts] = x63*(x134 + x89);
-      basis_yy_eval[ipt + 9*npts] = x*x135;
-      basis_yy_eval[ipt + 10*npts] = x136;
-      basis_yy_eval[ipt + 11*npts] = x132*z;
-      basis_yy_eval[ipt + 12*npts] = x137 + x138;
-      basis_yy_eval[ipt + 13*npts] = y*(x135 + x91);
-      basis_yy_eval[ipt + 14*npts] = x139;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*x0*x25;
-      basis_yz_eval[ipt + 1*npts] = z*(x102 + x26);
-      basis_yz_eval[ipt + 2*npts] = y*(x104 + x26);
-      basis_yz_eval[ipt + 3*npts] = x107*z;
-      basis_yz_eval[ipt + 4*npts] = x108 + x37 + x50;
-      basis_yz_eval[ipt + 5*npts] = x118*y;
-      basis_yz_eval[ipt + 6*npts] = x112;
-      basis_yz_eval[ipt + 7*npts] = x*(x114 + x54);
-      basis_yz_eval[ipt + 8*npts] = x*(x119 + x65);
-      basis_yz_eval[ipt + 9*npts] = x120;
-      basis_yz_eval[ipt + 10*npts] = x111*z;
-      basis_yz_eval[ipt + 11*npts] = radial_eval_alpha_squared*x15*x8 + x140 + x51;
-      basis_yz_eval[ipt + 12*npts] = radial_eval_alpha_squared*x11*x14 + x101*x14 + x11*x117 + 4.0*x7;
-      basis_yz_eval[ipt + 13*npts] = radial_eval_alpha_squared*x17*x5 + x140 + x66;
-      basis_yz_eval[ipt + 14*npts] = x121*y;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x142;
-      basis_zz_eval[ipt + 1*npts] = x143*y;
-      basis_zz_eval[ipt + 2*npts] = z*(x124 + x143);
-      basis_zz_eval[ipt + 3*npts] = x144;
-      basis_zz_eval[ipt + 4*npts] = x25*(x128 + x145);
-      basis_zz_eval[ipt + 5*npts] = x146 + x81;
-      basis_zz_eval[ipt + 6*npts] = x*x147;
-      basis_zz_eval[ipt + 7*npts] = x52*(x148 + x87);
-      basis_zz_eval[ipt + 8*npts] = x63*(x149 + x75*x8);
-      basis_zz_eval[ipt + 9*npts] = x*x151;
-      basis_zz_eval[ipt + 10*npts] = x152;
-      basis_zz_eval[ipt + 11*npts] = z*(x147 + x85);
-      basis_zz_eval[ipt + 12*npts] = x137 + x153;
-      basis_zz_eval[ipt + 13*npts] = x151*y;
-      basis_zz_eval[ipt + 14*npts] = x154;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = radial_eval*x6;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x4*x7;
-      ang_eval_1 = radial_eval*x9;
-      ang_eval_2 = x10*x11;
-      ang_eval_3 = x12*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x13*x8;
-      ang_eval_1 = x10*x14;
-      ang_eval_2 = radial_eval*x15;
-      ang_eval_3 = x11*x3;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-      basis_eval[ipt + 10*npts] = ang_eval_2;
-      basis_eval[ipt + 11*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x16;
-      ang_eval_1 = x1*x14;
-      ang_eval_2 = radial_eval*x17;
-      basis_eval[ipt + 12*npts] = ang_eval_0;
-      basis_eval[ipt + 13*npts] = ang_eval_1;
-      basis_eval[ipt + 14*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x18 + x19*x2;
-      dang_eval_y_0 = x0*x45;
-      dang_eval_z_0 = x0*x61;
-      dang_eval_x_1 = x21*y;
-      dang_eval_y_1 = x24 + x46;
-      dang_eval_z_1 = x47;
-      dang_eval_x_2 = x21*z;
-      dang_eval_y_2 = x47;
-      dang_eval_z_2 = x29 + x46;
-      dang_eval_x_3 = x22*x5 + x24;
-      dang_eval_y_3 = x32 + x4*x48;
-      dang_eval_z_3 = x6*x61;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x25*x27;
-      dang_eval_y_0 = x50*z;
-      dang_eval_z_0 = y*(x37 + x49);
-      dang_eval_x_1 = x22*x8 + x29;
-      dang_eval_y_1 = x45*x9;
-      dang_eval_z_1 = x4*x62 + x41;
-      dang_eval_x_2 = x30 + x32;
-      dang_eval_y_2 = x*x51;
-      dang_eval_z_2 = x43;
-      dang_eval_x_3 = x35*z;
-      dang_eval_y_3 = x52*x54;
-      dang_eval_z_3 = x*(x33 + x55);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x38*y;
-      dang_eval_y_0 = x*(x36 + x55);
-      dang_eval_z_0 = x63*x65;
-      dang_eval_x_1 = x39 + x41;
-      dang_eval_y_1 = x44;
-      dang_eval_z_1 = x*x66;
-      dang_eval_x_2 = x15*x42;
-      dang_eval_y_2 = radial_eval_alpha*x56 + x11*x19;
-      dang_eval_z_2 = x15*x61;
-      dang_eval_x_3 = x43;
-      dang_eval_y_3 = x51*z;
-      dang_eval_z_3 = x30 + x58;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 10*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 10*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 10*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 11*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 11*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 11*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x16*x42;
-      dang_eval_y_0 = x48*x8 + x58;
-      dang_eval_z_0 = x5*x62 + x60;
-      dang_eval_x_1 = x44;
-      dang_eval_y_1 = x39 + x60;
-      dang_eval_z_1 = x66*y;
-      dang_eval_x_2 = x17*x42;
-      dang_eval_y_2 = x17*x45;
-      dang_eval_z_2 = radial_eval_alpha*x67 + x14*x19;
-      basis_x_eval[ipt + 12*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 12*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 12*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 13*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 13*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 13*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 14*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 14*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 14*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_lapgrad.hpp
deleted file mode 100644
index 50bb788..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_lapgrad.hpp
+++ /dev/null
@@ -1,789 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_lapgrad_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = x*x; 
-      const auto x5 = x4; 
-      const auto x6 = y*y; 
-      const auto x7 = x6; 
-      const auto x8 = x5*x7; 
-      const auto x9 = x1*z; 
-      const auto x10 = z*z; 
-      const auto x11 = x10; 
-      const auto x12 = x11*x5; 
-      const auto x13 = radial_eval*x; 
-      const auto x14 = y*y*y; 
-      const auto x15 = x*x3; 
-      const auto x16 = x*x1; 
-      const auto x17 = z*z*z; 
-      const auto x18 = y*y*y*y; 
-      const auto x19 = x11*x7; 
-      const auto x20 = z*z*z*z; 
-      const auto x21 = x*x*x*x*x; 
-      const auto x22 = 4.0*radial_eval; 
-      const auto x23 = 3.0*radial_eval; 
-      const auto x24 = radial_eval_alpha*x0 + x23*x5; 
-      const auto x25 = 2.0*x13; 
-      const auto x26 = x2*x7; 
-      const auto x27 = radial_eval_alpha*x26; 
-      const auto x28 = y*z; 
-      const auto x29 = radial_eval_alpha*x2; 
-      const auto x30 = x25 + x29; 
-      const auto x31 = x11*x2; 
-      const auto x32 = radial_eval_alpha*x31; 
-      const auto x33 = radial_eval*x14; 
-      const auto x34 = x14*x5; 
-      const auto x35 = radial_eval_alpha*x34; 
-      const auto x36 = radial_eval*x7; 
-      const auto x37 = radial_eval_alpha*x8; 
-      const auto x38 = x36 + x37; 
-      const auto x39 = radial_eval*x11; 
-      const auto x40 = radial_eval_alpha*x12; 
-      const auto x41 = x39 + x40; 
-      const auto x42 = radial_eval*x17; 
-      const auto x43 = x17*x5; 
-      const auto x44 = radial_eval_alpha*x43; 
-      const auto x45 = radial_eval_alpha*x; 
-      const auto x46 = x14*x45*z; 
-      const auto x47 = x17*x45*y; 
-      const auto x48 = radial_eval_alpha*y; 
-      const auto x49 = radial_eval*x2; 
-      const auto x50 = radial_eval_alpha*x2*x28; 
-      const auto x51 = 2.0*x1; 
-      const auto x52 = radial_eval*x5; 
-      const auto x53 = x37 + x52; 
-      const auto x54 = radial_eval_alpha*x18 + x23*x7; 
-      const auto x55 = x*z; 
-      const auto x56 = radial_eval_alpha*x14; 
-      const auto x57 = x51 + x56; 
-      const auto x58 = radial_eval_alpha*x19; 
-      const auto x59 = y*y*y*y*y; 
-      const auto x60 = x11*x14; 
-      const auto x61 = radial_eval_alpha*x60; 
-      const auto x62 = x17*x7; 
-      const auto x63 = radial_eval_alpha*x62; 
-      const auto x64 = radial_eval_alpha*z; 
-      const auto x65 = 2.0*x3; 
-      const auto x66 = x*y; 
-      const auto x67 = radial_eval_alpha*x17; 
-      const auto x68 = x65 + x67; 
-      const auto x69 = radial_eval_alpha*x20 + x11*x23; 
-      const auto x70 = z*z*z*z*z; 
-      const auto x71 = 12.0*radial_eval; 
-      const auto x72 = 8.0*radial_eval_alpha; 
-      const auto x73 = radial_eval_alpha + radial_eval_alpha_squared*x5; 
-      const auto x74 = x0*x72 + x0*x73 + x5*x71; 
-      const auto x75 = 6.0*radial_eval_alpha; 
-      const auto x76 = x2*x73; 
-      const auto x77 = 6.0*x13 + x76; 
-      const auto x78 = x2*x75 + x77; 
-      const auto x79 = 4.0*radial_eval_alpha; 
-      const auto x80 = x79*x8; 
-      const auto x81 = 2.0*radial_eval; 
-      const auto x82 = x7*x81; 
-      const auto x83 = x5*x7*x73 + x82; 
-      const auto x84 = x5*x73; 
-      const auto x85 = x81 + x84; 
-      const auto x86 = x12*x79; 
-      const auto x87 = x11*x81; 
-      const auto x88 = x11*x5*x73 + x87; 
-      const auto x89 = 2.0*radial_eval_alpha; 
-      const auto x90 = x14*x89; 
-      const auto x91 = x14*x73; 
-      const auto x92 = x7*x89; 
-      const auto x93 = x7*x73; 
-      const auto x94 = x11*x89; 
-      const auto x95 = x11*x73; 
-      const auto x96 = x17*x89; 
-      const auto x97 = x17*x73; 
-      const auto x98 = x18*x73; 
-      const auto x99 = x11*x7*x73; 
-      const auto x100 = x20*x73; 
-      const auto x101 = radial_eval_alpha_squared*x21 + x2*x79; 
-      const auto x102 = 3.0*radial_eval_alpha; 
-      const auto x103 = x102*x8; 
-      const auto x104 = x28*(radial_eval_alpha_squared*x0 + x102*x5); 
-      const auto x105 = 2.0*x45; 
-      const auto x106 = 2.0*x48; 
-      const auto x107 = x105*x7; 
-      const auto x108 = radial_eval_alpha_squared*x26; 
-      const auto x109 = x107 + x108; 
-      const auto x110 = x105*x11; 
-      const auto x111 = radial_eval_alpha_squared*x31; 
-      const auto x112 = x110 + x111; 
-      const auto x113 = x106*x5; 
-      const auto x114 = radial_eval_alpha_squared*x34; 
-      const auto x115 = x113 + x114; 
-      const auto x116 = radial_eval_alpha_squared*x11*x5*x7; 
-      const auto x117 = x116 + x58; 
-      const auto x118 = radial_eval_alpha_squared*x43; 
-      const auto x119 = radial_eval_alpha_squared*x59 + x14*x79; 
-      const auto x120 = x55*(radial_eval_alpha_squared*x18 + x102*x7); 
-      const auto x121 = x106*x11; 
-      const auto x122 = radial_eval_alpha_squared*x60; 
-      const auto x123 = x121 + x122; 
-      const auto x124 = radial_eval_alpha_squared*x62; 
-      const auto x125 = x102*x12; 
-      const auto x126 = 2.0*x64; 
-      const auto x127 = x126*x5; 
-      const auto x128 = x118 + x127; 
-      const auto x129 = x126*x7; 
-      const auto x130 = x124 + x129; 
-      const auto x131 = x66*(radial_eval_alpha_squared*x20 + x102*x11); 
-      const auto x132 = radial_eval_alpha_squared*x70 + x17*x79; 
-      const auto x133 = radial_eval_alpha + radial_eval_alpha_squared*x7; 
-      const auto x134 = x0*x133; 
-      const auto x135 = x2*x89; 
-      const auto x136 = x133*x2; 
-      const auto x137 = x5*x81; 
-      const auto x138 = x133*x5*x7 + x137; 
-      const auto x139 = x5*x89; 
-      const auto x140 = x133*x5; 
-      const auto x141 = x11*x133*x5; 
-      const auto x142 = x133*x14; 
-      const auto x143 = 6.0*x1 + x142; 
-      const auto x144 = x14*x75 + x143; 
-      const auto x145 = x133*x7; 
-      const auto x146 = x145 + x81; 
-      const auto x147 = x11*x133; 
-      const auto x148 = x133*x17; 
-      const auto x149 = x133*x18 + x18*x72 + x7*x71; 
-      const auto x150 = x19*x79; 
-      const auto x151 = x11*x133*x7 + x87; 
-      const auto x152 = x133*x20; 
-      const auto x153 = x102*x19; 
-      const auto x154 = radial_eval_alpha + radial_eval_alpha_squared*x11; 
-      const auto x155 = x0*x154; 
-      const auto x156 = x154*x2; 
-      const auto x157 = x154*x5*x7; 
-      const auto x158 = x154*x5; 
-      const auto x159 = x11*x154*x5 + x137; 
-      const auto x160 = x14*x154; 
-      const auto x161 = x154*x7; 
-      const auto x162 = x11*x154; 
-      const auto x163 = x162 + x81; 
-      const auto x164 = x154*x17; 
-      const auto x165 = x164 + 6.0*x3; 
-      const auto x166 = x165 + x17*x75; 
-      const auto x167 = x154*x18; 
-      const auto x168 = x11*x154*x7 + x82; 
-      const auto x169 = x11*x71 + x154*x20 + x20*x72; 
-      const auto x170 = x136 + x156 + x2*x72 + x77; 
-      const auto x171 = x158 + x85; 
-      const auto x172 = x14*x72 + x143 + x160 + x91; 
-      const auto x173 = x146 + x161; 
-      const auto x174 = x147 + x163; 
-      const auto x175 = x148 + x165 + x17*x72 + x97; 
-      const auto x176 = 36.0*radial_eval_alpha; 
-      const auto x177 = radial_eval_alpha_cubed*x7 + radial_eval_alpha_squared; 
-      const auto x178 = x0*x177; 
-      const auto x179 = radial_eval_alpha_cubed*x11 + radial_eval_alpha_squared; 
-      const auto x180 = x0*x179; 
-      const auto x181 = radial_eval_alpha_squared*x; 
-      const auto x182 = radial_eval_alpha_cubed*x2 + 3.0*x181; 
-      const auto x183 = 6.0*radial_eval; 
-      const auto x184 = 24.0*radial_eval_alpha; 
-      const auto x185 = 2.0*radial_eval_alpha_squared; 
-      const auto x186 = 3.0*x140; 
-      const auto x187 = 3.0*x158; 
-      const auto x188 = x177*x2; 
-      const auto x189 = x179*x2; 
-      const auto x190 = x*x188 + x*x189 + x0*x185 + x182*x2 + x183 + x184*x5 + x186 + x187 + 9.0*x84; 
-      const auto x191 = 2.0*x; 
-      const auto x192 = 4.0*radial_eval_alpha_squared; 
-      const auto x193 = 6.0*x; 
-      const auto x194 = 14.0*x45; 
-      const auto x195 = x177*x5*x7; 
-      const auto x196 = x179*x5*x7; 
-      const auto x197 = 4.0*x13 + x135; 
-      const auto x198 = x177*x5; 
-      const auto x199 = x179*x5; 
-      const auto x200 = x11*x177*x5; 
-      const auto x201 = x11*x179*x5; 
-      const auto x202 = x14*x182; 
-      const auto x203 = x14*x177; 
-      const auto x204 = x14*x179; 
-      const auto x205 = 6.0*x48; 
-      const auto x206 = 6.0*radial_eval_alpha_squared; 
-      const auto x207 = 3.0*x93; 
-      const auto x208 = x7*x75; 
-      const auto x209 = x177*x7; 
-      const auto x210 = x179*x7; 
-      const auto x211 = x206*x8; 
-      const auto x212 = 3.0*x95; 
-      const auto x213 = x11*x75; 
-      const auto x214 = x11*x177; 
-      const auto x215 = x11*x179; 
-      const auto x216 = x12*x206; 
-      const auto x217 = x17*x182; 
-      const auto x218 = x17*x177; 
-      const auto x219 = x17*x179; 
-      const auto x220 = 6.0*x64; 
-      const auto x221 = 12.0*x45; 
-      const auto x222 = 8.0*x181; 
-      const auto x223 = x177*x18; 
-      const auto x224 = x179*x18; 
-      const auto x225 = 6.0*y; 
-      const auto x226 = x225*x45; 
-      const auto x227 = x11*x177*x7; 
-      const auto x228 = x11*x179*x7; 
-      const auto x229 = 6.0*z; 
-      const auto x230 = x229*x45; 
-      const auto x231 = x177*x20; 
-      const auto x232 = x179*x20; 
-      const auto x233 = 12.0*x48; 
-      const auto x234 = radial_eval_alpha_squared*y; 
-      const auto x235 = 8.0*x234; 
-      const auto x236 = radial_eval_alpha_cubed*x5 + radial_eval_alpha_squared; 
-      const auto x237 = x0*x236; 
-      const auto x238 = radial_eval_alpha_cubed*x14 + 3.0*x234; 
-      const auto x239 = x2*x238; 
-      const auto x240 = x2*x236; 
-      const auto x241 = 6.0*x45; 
-      const auto x242 = 2.0*y; 
-      const auto x243 = 14.0*x48; 
-      const auto x244 = x236*x5*x7; 
-      const auto x245 = 4.0*x1 + x90; 
-      const auto x246 = x5*x75; 
-      const auto x247 = x236*x5; 
-      const auto x248 = x11*x236*x5; 
-      const auto x249 = 3.0*x161; 
-      const auto x250 = x14*x236; 
-      const auto x251 = x14*x238 + 9.0*x145 + x18*x185 + x183 + x184*x7 + x204*y + x207 + x249 + x250*y; 
-      const auto x252 = x236*x7; 
-      const auto x253 = 3.0*x147; 
-      const auto x254 = x11*x236; 
-      const auto x255 = x19*x206; 
-      const auto x256 = x28*x75; 
-      const auto x257 = x17*x236; 
-      const auto x258 = x17*x238; 
-      const auto x259 = x18*x236; 
-      const auto x260 = x11*x236*x7; 
-      const auto x261 = x20*x236; 
-      const auto x262 = 12.0*x64; 
-      const auto x263 = radial_eval_alpha_squared*z; 
-      const auto x264 = 8.0*x263; 
-      const auto x265 = radial_eval_alpha_cubed*x17 + 3.0*x263; 
-      const auto x266 = x2*x265; 
-      const auto x267 = 2.0*z; 
-      const auto x268 = 14.0*x64; 
-      const auto x269 = 4.0*x3 + x96; 
-      const auto x270 = x14*x265; 
-      const auto x271 = x11*x184 + 9.0*x162 + x17*x265 + x183 + x185*x20 + x212 + x218*z + x253 + x257*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = radial_eval*x8;
-      basis_eval[ipt + 4*npts] = x5*x9;
-      basis_eval[ipt + 5*npts] = radial_eval*x12;
-      basis_eval[ipt + 6*npts] = x13*x14;
-      basis_eval[ipt + 7*npts] = x15*x7;
-      basis_eval[ipt + 8*npts] = x11*x16;
-      basis_eval[ipt + 9*npts] = x13*x17;
-      basis_eval[ipt + 10*npts] = radial_eval*x18;
-      basis_eval[ipt + 11*npts] = x14*x3;
-      basis_eval[ipt + 12*npts] = radial_eval*x19;
-      basis_eval[ipt + 13*npts] = x1*x17;
-      basis_eval[ipt + 14*npts] = radial_eval*x20;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x21 + x2*x22;
-      basis_x_eval[ipt + 1*npts] = x24*y;
-      basis_x_eval[ipt + 2*npts] = x24*z;
-      basis_x_eval[ipt + 3*npts] = x25*x7 + x27;
-      basis_x_eval[ipt + 4*npts] = x28*x30;
-      basis_x_eval[ipt + 5*npts] = x11*x25 + x32;
-      basis_x_eval[ipt + 6*npts] = x33 + x35;
-      basis_x_eval[ipt + 7*npts] = x38*z;
-      basis_x_eval[ipt + 8*npts] = x41*y;
-      basis_x_eval[ipt + 9*npts] = x42 + x44;
-      basis_x_eval[ipt + 10*npts] = x18*x45;
-      basis_x_eval[ipt + 11*npts] = x46;
-      basis_x_eval[ipt + 12*npts] = x19*x45;
-      basis_x_eval[ipt + 13*npts] = x47;
-      basis_x_eval[ipt + 14*npts] = x20*x45;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x48;
-      basis_y_eval[ipt + 1*npts] = x27 + x49;
-      basis_y_eval[ipt + 2*npts] = x50;
-      basis_y_eval[ipt + 3*npts] = x35 + x5*x51;
-      basis_y_eval[ipt + 4*npts] = x53*z;
-      basis_y_eval[ipt + 5*npts] = x12*x48;
-      basis_y_eval[ipt + 6*npts] = x*x54;
-      basis_y_eval[ipt + 7*npts] = x55*x57;
-      basis_y_eval[ipt + 8*npts] = x*(x39 + x58);
-      basis_y_eval[ipt + 9*npts] = x47;
-      basis_y_eval[ipt + 10*npts] = radial_eval_alpha*x59 + x14*x22;
-      basis_y_eval[ipt + 11*npts] = x54*z;
-      basis_y_eval[ipt + 12*npts] = x11*x51 + x61;
-      basis_y_eval[ipt + 13*npts] = x42 + x63;
-      basis_y_eval[ipt + 14*npts] = x20*x48;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x64;
-      basis_z_eval[ipt + 1*npts] = x50;
-      basis_z_eval[ipt + 2*npts] = x32 + x49;
-      basis_z_eval[ipt + 3*npts] = x64*x8;
-      basis_z_eval[ipt + 4*npts] = y*(x40 + x52);
-      basis_z_eval[ipt + 5*npts] = x44 + x5*x65;
-      basis_z_eval[ipt + 6*npts] = x46;
-      basis_z_eval[ipt + 7*npts] = x*(x36 + x58);
-      basis_z_eval[ipt + 8*npts] = x66*x68;
-      basis_z_eval[ipt + 9*npts] = x*x69;
-      basis_z_eval[ipt + 10*npts] = x18*x64;
-      basis_z_eval[ipt + 11*npts] = x33 + x61;
-      basis_z_eval[ipt + 12*npts] = x63 + x65*x7;
-      basis_z_eval[ipt + 13*npts] = x69*y;
-      basis_z_eval[ipt + 14*npts] = radial_eval_alpha*x70 + x17*x22;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x74;
-      basis_xx_eval[ipt + 1*npts] = x78*y;
-      basis_xx_eval[ipt + 2*npts] = x78*z;
-      basis_xx_eval[ipt + 3*npts] = x80 + x83;
-      basis_xx_eval[ipt + 4*npts] = x28*(x5*x79 + x85);
-      basis_xx_eval[ipt + 5*npts] = x86 + x88;
-      basis_xx_eval[ipt + 6*npts] = x*(x90 + x91);
-      basis_xx_eval[ipt + 7*npts] = x55*(x92 + x93);
-      basis_xx_eval[ipt + 8*npts] = x66*(x94 + x95);
-      basis_xx_eval[ipt + 9*npts] = x*(x96 + x97);
-      basis_xx_eval[ipt + 10*npts] = x98;
-      basis_xx_eval[ipt + 11*npts] = x91*z;
-      basis_xx_eval[ipt + 12*npts] = x99;
-      basis_xx_eval[ipt + 13*npts] = x97*y;
-      basis_xx_eval[ipt + 14*npts] = x100;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x101*y;
-      basis_xy_eval[ipt + 1*npts] = radial_eval_alpha_squared*x0*x7 + x103 + x24;
-      basis_xy_eval[ipt + 2*npts] = x104;
-      basis_xy_eval[ipt + 3*npts] = radial_eval_alpha_squared*x14*x2 + x105*x14 + x106*x2 + 4.0*x16;
-      basis_xy_eval[ipt + 4*npts] = z*(x109 + x30);
-      basis_xy_eval[ipt + 5*npts] = x112*y;
-      basis_xy_eval[ipt + 6*npts] = radial_eval_alpha_squared*x18*x5 + x103 + x54;
-      basis_xy_eval[ipt + 7*npts] = z*(x115 + x57);
-      basis_xy_eval[ipt + 8*npts] = x117 + x41;
-      basis_xy_eval[ipt + 9*npts] = y*(x118 + x67);
-      basis_xy_eval[ipt + 10*npts] = x*x119;
-      basis_xy_eval[ipt + 11*npts] = x120;
-      basis_xy_eval[ipt + 12*npts] = x*x123;
-      basis_xy_eval[ipt + 13*npts] = x*(x124 + x67);
-      basis_xy_eval[ipt + 14*npts] = radial_eval_alpha_squared*x20*x66;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x101*z;
-      basis_xz_eval[ipt + 1*npts] = x104;
-      basis_xz_eval[ipt + 2*npts] = radial_eval_alpha_squared*x0*x11 + x125 + x24;
-      basis_xz_eval[ipt + 3*npts] = x109*z;
-      basis_xz_eval[ipt + 4*npts] = y*(x112 + x30);
-      basis_xz_eval[ipt + 5*npts] = radial_eval_alpha_squared*x17*x2 + x105*x17 + x126*x2 + 4.0*x15;
-      basis_xz_eval[ipt + 6*npts] = z*(x114 + x56);
-      basis_xz_eval[ipt + 7*npts] = x117 + x38;
-      basis_xz_eval[ipt + 8*npts] = y*(x128 + x68);
-      basis_xz_eval[ipt + 9*npts] = radial_eval_alpha_squared*x20*x5 + x125 + x69;
-      basis_xz_eval[ipt + 10*npts] = radial_eval_alpha_squared*x18*x55;
-      basis_xz_eval[ipt + 11*npts] = x*(x122 + x56);
-      basis_xz_eval[ipt + 12*npts] = x*x130;
-      basis_xz_eval[ipt + 13*npts] = x131;
-      basis_xz_eval[ipt + 14*npts] = x*x132;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x134;
-      basis_yy_eval[ipt + 1*npts] = y*(x135 + x136);
-      basis_yy_eval[ipt + 2*npts] = x136*z;
-      basis_yy_eval[ipt + 3*npts] = x138 + x80;
-      basis_yy_eval[ipt + 4*npts] = x28*(x139 + x140);
-      basis_yy_eval[ipt + 5*npts] = x141;
-      basis_yy_eval[ipt + 6*npts] = x*x144;
-      basis_yy_eval[ipt + 7*npts] = x55*(x146 + x7*x79);
-      basis_yy_eval[ipt + 8*npts] = x66*(x147 + x94);
-      basis_yy_eval[ipt + 9*npts] = x*x148;
-      basis_yy_eval[ipt + 10*npts] = x149;
-      basis_yy_eval[ipt + 11*npts] = x144*z;
-      basis_yy_eval[ipt + 12*npts] = x150 + x151;
-      basis_yy_eval[ipt + 13*npts] = y*(x148 + x96);
-      basis_yy_eval[ipt + 14*npts] = x152;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*x0*x28;
-      basis_yz_eval[ipt + 1*npts] = z*(x108 + x29);
-      basis_yz_eval[ipt + 2*npts] = y*(x111 + x29);
-      basis_yz_eval[ipt + 3*npts] = x115*z;
-      basis_yz_eval[ipt + 4*npts] = x116 + x40 + x53;
-      basis_yz_eval[ipt + 5*npts] = x128*y;
-      basis_yz_eval[ipt + 6*npts] = x120;
-      basis_yz_eval[ipt + 7*npts] = x*(x123 + x57);
-      basis_yz_eval[ipt + 8*npts] = x*(x130 + x68);
-      basis_yz_eval[ipt + 9*npts] = x131;
-      basis_yz_eval[ipt + 10*npts] = x119*z;
-      basis_yz_eval[ipt + 11*npts] = radial_eval_alpha_squared*x11*x18 + x153 + x54;
-      basis_yz_eval[ipt + 12*npts] = radial_eval_alpha_squared*x14*x17 + x106*x17 + x126*x14 + 4.0*x9;
-      basis_yz_eval[ipt + 13*npts] = radial_eval_alpha_squared*x20*x7 + x153 + x69;
-      basis_yz_eval[ipt + 14*npts] = x132*y;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x155;
-      basis_zz_eval[ipt + 1*npts] = x156*y;
-      basis_zz_eval[ipt + 2*npts] = z*(x135 + x156);
-      basis_zz_eval[ipt + 3*npts] = x157;
-      basis_zz_eval[ipt + 4*npts] = x28*(x139 + x158);
-      basis_zz_eval[ipt + 5*npts] = x159 + x86;
-      basis_zz_eval[ipt + 6*npts] = x*x160;
-      basis_zz_eval[ipt + 7*npts] = x55*(x161 + x92);
-      basis_zz_eval[ipt + 8*npts] = x66*(x11*x79 + x163);
-      basis_zz_eval[ipt + 9*npts] = x*x166;
-      basis_zz_eval[ipt + 10*npts] = x167;
-      basis_zz_eval[ipt + 11*npts] = z*(x160 + x90);
-      basis_zz_eval[ipt + 12*npts] = x150 + x168;
-      basis_zz_eval[ipt + 13*npts] = x166*y;
-      basis_zz_eval[ipt + 14*npts] = x169;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x134 + x155 + x74;
-      basis_lapl_eval[ipt + 1*npts] = x170*y;
-      basis_lapl_eval[ipt + 2*npts] = x170*z;
-      basis_lapl_eval[ipt + 3*npts] = x138 + x157 + x72*x8 + x83;
-      basis_lapl_eval[ipt + 4*npts] = x28*(x140 + x171 + x5*x72);
-      basis_lapl_eval[ipt + 5*npts] = x12*x72 + x141 + x159 + x88;
-      basis_lapl_eval[ipt + 6*npts] = x*x172;
-      basis_lapl_eval[ipt + 7*npts] = x55*(x173 + x7*x72 + x93);
-      basis_lapl_eval[ipt + 8*npts] = x66*(x11*x72 + x174 + x95);
-      basis_lapl_eval[ipt + 9*npts] = x*x175;
-      basis_lapl_eval[ipt + 10*npts] = x149 + x167 + x98;
-      basis_lapl_eval[ipt + 11*npts] = x172*z;
-      basis_lapl_eval[ipt + 12*npts] = x151 + x168 + x19*x72 + x99;
-      basis_lapl_eval[ipt + 13*npts] = x175*y;
-      basis_lapl_eval[ipt + 14*npts] = x100 + x152 + x169;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x*x178 + x*x180 + x0*x182 + 24.0*x13 + 4.0*x136 + 4.0*x156 + x176*x2 + 12.0*x76;
-      basis_lapl_x_eval[ipt + 1*npts] = x190*y;
-      basis_lapl_x_eval[ipt + 2*npts] = x190*z;
-      basis_lapl_x_eval[ipt + 3*npts] = x*x195 + x*x196 + x145*x191 + x161*x191 + x182*x5*x7 + x192*x26 + x193*x93 + x194*x7 + x197;
-      basis_lapl_x_eval[ipt + 4*npts] = x28*(x*x198 + x*x199 + x133*x191 + x154*x191 + x182*x5 + x192*x2 + x193*x73 + x194);
-      basis_lapl_x_eval[ipt + 5*npts] = x*x200 + x*x201 + x11*x182*x5 + x11*x194 + x147*x191 + x162*x191 + x192*x31 + x193*x95 + x197;
-      basis_lapl_x_eval[ipt + 6*npts] = x*x202 + x144 + x160 + x203*x4 + x204*x4 + x205*x5 + x206*x34 + 3.0*x91;
-      basis_lapl_x_eval[ipt + 7*npts] = z*(x*x182*x7 + x139 + x173 + x207 + x208 + x209*x4 + x210*x4 + x211);
-      basis_lapl_x_eval[ipt + 8*npts] = y*(x*x11*x182 + x139 + x174 + x212 + x213 + x214*x4 + x215*x4 + x216);
-      basis_lapl_x_eval[ipt + 9*npts] = x*x217 + x148 + x166 + x206*x43 + x218*x4 + x219*x4 + x220*x5 + 3.0*x97;
-      basis_lapl_x_eval[ipt + 10*npts] = x*x223 + x*x224 + x18*x182 + x18*x222 + x221*x7;
-      basis_lapl_x_eval[ipt + 11*npts] = z*(x*x203 + x*x204 + x14*x222 + x202 + x226);
-      basis_lapl_x_eval[ipt + 12*npts] = x*x227 + x*x228 + x107 + x11*x182*x7 + x110 + x19*x222;
-      basis_lapl_x_eval[ipt + 13*npts] = y*(x*x218 + x*x219 + x17*x222 + x217 + x230);
-      basis_lapl_x_eval[ipt + 14*npts] = x*x231 + x*x232 + x11*x221 + x182*x20 + x20*x222;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x0*x235 + x0*x238 + x180*y + x233*x5 + x237*y;
-      basis_lapl_y_eval[ipt + 1*npts] = 3.0*x136 + x156 + x189*x6 + x206*x26 + x239*y + x240*x6 + x241*x7 + x78;
-      basis_lapl_y_eval[ipt + 2*npts] = z*(x189*y + x2*x235 + x226 + x239 + x240*y);
-      basis_lapl_y_eval[ipt + 3*npts] = x140*x225 + x158*x242 + x192*x34 + x196*y + x238*x5*x7 + x242*x84 + x243*x5 + x244*y + x245;
-      basis_lapl_y_eval[ipt + 4*npts] = z*(x171 + x186 + x199*x6 + x211 + x238*x5*y + x246 + x247*x6 + x92);
-      basis_lapl_y_eval[ipt + 5*npts] = x11*x238*x5 + x113 + x12*x235 + x121 + x201*y + x248*y;
-      basis_lapl_y_eval[ipt + 6*npts] = x*x251;
-      basis_lapl_y_eval[ipt + 7*npts] = x55*(x133*x225 + x14*x192 + x154*x242 + x210*y + x238*x7 + x242*x73 + x243 + x252*y);
-      basis_lapl_y_eval[ipt + 8*npts] = x*(x11*x238*y + x163 + x213 + x215*x6 + x253 + x254*x6 + x255 + x92 + x95);
-      basis_lapl_y_eval[ipt + 9*npts] = x*(x17*x235 + x219*y + x256 + x257*y + x258);
-      basis_lapl_y_eval[ipt + 10*npts] = 24.0*x1 + x14*x176 + 12.0*x142 + 4.0*x160 + x18*x238 + x224*y + x259*y + 4.0*x91;
-      basis_lapl_y_eval[ipt + 11*npts] = x251*z;
-      basis_lapl_y_eval[ipt + 12*npts] = x11*x238*x7 + x11*x243 + x147*x225 + x162*x242 + x192*x60 + x228*y + x242*x95 + x245 + x260*y;
-      basis_lapl_y_eval[ipt + 13*npts] = 3.0*x148 + x166 + x206*x62 + x219*x6 + x220*x7 + x257*x6 + x258*y + x97;
-      basis_lapl_y_eval[ipt + 14*npts] = x11*x233 + x20*x235 + x20*x238 + x232*y + x261*y;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x0*x264 + x0*x265 + x178*z + x237*z + x262*x5;
-      basis_lapl_z_eval[ipt + 1*npts] = y*(x188*z + x2*x264 + x230 + x240*z + x266);
-      basis_lapl_z_eval[ipt + 2*npts] = x10*x188 + x10*x240 + x11*x241 + x136 + 3.0*x156 + x206*x31 + x266*z + x78;
-      basis_lapl_z_eval[ipt + 3*npts] = x127 + x129 + x195*z + x244*z + x264*x8 + x265*x5*x7;
-      basis_lapl_z_eval[ipt + 4*npts] = y*(x10*x198 + x10*x247 + x140 + x187 + x216 + x246 + x265*x5*z + x85 + x94);
-      basis_lapl_z_eval[ipt + 5*npts] = x11*x265*x5 + x140*x267 + x158*x229 + x192*x43 + x200*z + x248*z + x267*x84 + x268*x5 + x269;
-      basis_lapl_z_eval[ipt + 6*npts] = x*(x14*x264 + x203*z + x250*z + x256 + x270);
-      basis_lapl_z_eval[ipt + 7*npts] = x*(x10*x209 + x10*x252 + x146 + x208 + x249 + x255 + x265*x7*z + x93 + x94);
-      basis_lapl_z_eval[ipt + 8*npts] = x66*(x11*x265 + x133*x267 + x154*x229 + x17*x192 + x214*z + x254*z + x267*x73 + x268);
-      basis_lapl_z_eval[ipt + 9*npts] = x*x271;
-      basis_lapl_z_eval[ipt + 10*npts] = x18*x264 + x18*x265 + x223*z + x259*z + x262*x7;
-      basis_lapl_z_eval[ipt + 11*npts] = x10*x203 + x10*x250 + x11*x205 + x144 + 3.0*x160 + x206*x60 + x270*z + x91;
-      basis_lapl_z_eval[ipt + 12*npts] = x11*x265*x7 + x145*x267 + x161*x229 + x192*x62 + x227*z + x260*z + x267*x93 + x268*x7 + x269;
-      basis_lapl_z_eval[ipt + 13*npts] = x271*y;
-      basis_lapl_z_eval[ipt + 14*npts] = 4.0*x148 + 12.0*x164 + x17*x176 + x20*x265 + x231*z + x261*z + 24.0*x3 + 4.0*x97;
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = radial_eval*x8;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x5*x9;
-      ang_eval_1 = radial_eval*x12;
-      ang_eval_2 = x13*x14;
-      ang_eval_3 = x15*x7;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x11*x16;
-      ang_eval_1 = x13*x17;
-      ang_eval_2 = radial_eval*x18;
-      ang_eval_3 = x14*x3;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-      basis_eval[ipt + 10*npts] = ang_eval_2;
-      basis_eval[ipt + 11*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x19;
-      ang_eval_1 = x1*x17;
-      ang_eval_2 = radial_eval*x20;
-      basis_eval[ipt + 12*npts] = ang_eval_0;
-      basis_eval[ipt + 13*npts] = ang_eval_1;
-      basis_eval[ipt + 14*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x21 + x2*x22;
-      dang_eval_y_0 = x0*x48;
-      dang_eval_z_0 = x0*x64;
-      dang_eval_x_1 = x24*y;
-      dang_eval_y_1 = x27 + x49;
-      dang_eval_z_1 = x50;
-      dang_eval_x_2 = x24*z;
-      dang_eval_y_2 = x50;
-      dang_eval_z_2 = x32 + x49;
-      dang_eval_x_3 = x25*x7 + x27;
-      dang_eval_y_3 = x35 + x5*x51;
-      dang_eval_z_3 = x64*x8;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x28*x30;
-      dang_eval_y_0 = x53*z;
-      dang_eval_z_0 = y*(x40 + x52);
-      dang_eval_x_1 = x11*x25 + x32;
-      dang_eval_y_1 = x12*x48;
-      dang_eval_z_1 = x44 + x5*x65;
-      dang_eval_x_2 = x33 + x35;
-      dang_eval_y_2 = x*x54;
-      dang_eval_z_2 = x46;
-      dang_eval_x_3 = x38*z;
-      dang_eval_y_3 = x55*x57;
-      dang_eval_z_3 = x*(x36 + x58);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x41*y;
-      dang_eval_y_0 = x*(x39 + x58);
-      dang_eval_z_0 = x66*x68;
-      dang_eval_x_1 = x42 + x44;
-      dang_eval_y_1 = x47;
-      dang_eval_z_1 = x*x69;
-      dang_eval_x_2 = x18*x45;
-      dang_eval_y_2 = radial_eval_alpha*x59 + x14*x22;
-      dang_eval_z_2 = x18*x64;
-      dang_eval_x_3 = x46;
-      dang_eval_y_3 = x54*z;
-      dang_eval_z_3 = x33 + x61;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 10*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 10*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 10*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 11*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 11*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 11*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x19*x45;
-      dang_eval_y_0 = x11*x51 + x61;
-      dang_eval_z_0 = x63 + x65*x7;
-      dang_eval_x_1 = x47;
-      dang_eval_y_1 = x42 + x63;
-      dang_eval_z_1 = x69*y;
-      dang_eval_x_2 = x20*x45;
-      dang_eval_y_2 = x20*x48;
-      dang_eval_z_2 = radial_eval_alpha*x70 + x17*x22;
-      basis_x_eval[ipt + 12*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 12*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 12*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 13*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 13*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 13*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 14*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 14*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 14*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_laplacian.hpp
deleted file mode 100644
index 52f08f3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_cartesian_l4_laplacian.hpp
+++ /dev/null
@@ -1,514 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_cartesian_laplacian_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = x*x*x*x; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x*x; 
-      const auto x3 = radial_eval*z; 
-      const auto x4 = x*x; 
-      const auto x5 = y*y; 
-      const auto x6 = x4*x5; 
-      const auto x7 = x1*z; 
-      const auto x8 = z*z; 
-      const auto x9 = x4*x8; 
-      const auto x10 = radial_eval*x; 
-      const auto x11 = y*y*y; 
-      const auto x12 = x*x3; 
-      const auto x13 = x*x1; 
-      const auto x14 = z*z*z; 
-      const auto x15 = y*y*y*y; 
-      const auto x16 = x5*x8; 
-      const auto x17 = z*z*z*z; 
-      const auto x18 = x*x*x*x*x; 
-      const auto x19 = 4.0*radial_eval; 
-      const auto x20 = 3.0*radial_eval; 
-      const auto x21 = radial_eval_alpha*x0 + x20*x4; 
-      const auto x22 = 2.0*x10; 
-      const auto x23 = x2*x5; 
-      const auto x24 = radial_eval_alpha*x23; 
-      const auto x25 = y*z; 
-      const auto x26 = radial_eval_alpha*x2; 
-      const auto x27 = x22 + x26; 
-      const auto x28 = x2*x8; 
-      const auto x29 = radial_eval_alpha*x28; 
-      const auto x30 = radial_eval*x11; 
-      const auto x31 = x11*x4; 
-      const auto x32 = radial_eval_alpha*x31; 
-      const auto x33 = radial_eval*x5; 
-      const auto x34 = radial_eval_alpha*x6; 
-      const auto x35 = x33 + x34; 
-      const auto x36 = radial_eval*x8; 
-      const auto x37 = radial_eval_alpha*x9; 
-      const auto x38 = x36 + x37; 
-      const auto x39 = radial_eval*x14; 
-      const auto x40 = x14*x4; 
-      const auto x41 = radial_eval_alpha*x40; 
-      const auto x42 = radial_eval_alpha*x; 
-      const auto x43 = x11*x42*z; 
-      const auto x44 = x14*x42*y; 
-      const auto x45 = radial_eval_alpha*y; 
-      const auto x46 = radial_eval*x2; 
-      const auto x47 = radial_eval_alpha*x2*x25; 
-      const auto x48 = 2.0*x1; 
-      const auto x49 = radial_eval*x4; 
-      const auto x50 = x34 + x49; 
-      const auto x51 = radial_eval_alpha*x15 + x20*x5; 
-      const auto x52 = x*z; 
-      const auto x53 = radial_eval_alpha*x11; 
-      const auto x54 = x48 + x53; 
-      const auto x55 = radial_eval_alpha*x16; 
-      const auto x56 = y*y*y*y*y; 
-      const auto x57 = x11*x8; 
-      const auto x58 = radial_eval_alpha*x57; 
-      const auto x59 = x14*x5; 
-      const auto x60 = radial_eval_alpha*x59; 
-      const auto x61 = radial_eval_alpha*z; 
-      const auto x62 = 2.0*x3; 
-      const auto x63 = x*y; 
-      const auto x64 = radial_eval_alpha*x14; 
-      const auto x65 = x62 + x64; 
-      const auto x66 = radial_eval_alpha*x17 + x20*x8; 
-      const auto x67 = z*z*z*z*z; 
-      const auto x68 = 12.0*radial_eval; 
-      const auto x69 = 8.0*radial_eval_alpha; 
-      const auto x70 = radial_eval_alpha + radial_eval_alpha_squared*x4; 
-      const auto x71 = x0*x69 + x0*x70 + x4*x68; 
-      const auto x72 = 6.0*radial_eval_alpha; 
-      const auto x73 = 6.0*x10 + x2*x70; 
-      const auto x74 = x2*x72 + x73; 
-      const auto x75 = 4.0*radial_eval_alpha; 
-      const auto x76 = x6*x75; 
-      const auto x77 = 2.0*radial_eval; 
-      const auto x78 = x5*x77; 
-      const auto x79 = x4*x5*x70 + x78; 
-      const auto x80 = x4*x70 + x77; 
-      const auto x81 = x75*x9; 
-      const auto x82 = x77*x8; 
-      const auto x83 = x4*x70*x8 + x82; 
-      const auto x84 = 2.0*radial_eval_alpha; 
-      const auto x85 = x11*x84; 
-      const auto x86 = x11*x70; 
-      const auto x87 = x5*x84; 
-      const auto x88 = x5*x70; 
-      const auto x89 = x8*x84; 
-      const auto x90 = x70*x8; 
-      const auto x91 = x14*x84; 
-      const auto x92 = x14*x70; 
-      const auto x93 = x15*x70; 
-      const auto x94 = x5*x70*x8; 
-      const auto x95 = x17*x70; 
-      const auto x96 = radial_eval_alpha_squared*x18 + x2*x75; 
-      const auto x97 = 3.0*radial_eval_alpha; 
-      const auto x98 = x6*x97; 
-      const auto x99 = x25*(radial_eval_alpha_squared*x0 + x4*x97); 
-      const auto x100 = 2.0*x42; 
-      const auto x101 = 2.0*x45; 
-      const auto x102 = radial_eval_alpha_squared*x23; 
-      const auto x103 = x100*x5 + x102; 
-      const auto x104 = radial_eval_alpha_squared*x28; 
-      const auto x105 = x100*x8 + x104; 
-      const auto x106 = radial_eval_alpha_squared*x31; 
-      const auto x107 = x101*x4 + x106; 
-      const auto x108 = radial_eval_alpha_squared*x4*x5*x8; 
-      const auto x109 = x108 + x55; 
-      const auto x110 = radial_eval_alpha_squared*x40; 
-      const auto x111 = radial_eval_alpha_squared*x56 + x11*x75; 
-      const auto x112 = x52*(radial_eval_alpha_squared*x15 + x5*x97); 
-      const auto x113 = radial_eval_alpha_squared*x57; 
-      const auto x114 = x101*x8 + x113; 
-      const auto x115 = radial_eval_alpha_squared*x59; 
-      const auto x116 = x9*x97; 
-      const auto x117 = 2.0*x61; 
-      const auto x118 = x110 + x117*x4; 
-      const auto x119 = x115 + x117*x5; 
-      const auto x120 = x63*(radial_eval_alpha_squared*x17 + x8*x97); 
-      const auto x121 = radial_eval_alpha_squared*x67 + x14*x75; 
-      const auto x122 = radial_eval_alpha + radial_eval_alpha_squared*x5; 
-      const auto x123 = x0*x122; 
-      const auto x124 = x2*x84; 
-      const auto x125 = x122*x2; 
-      const auto x126 = x4*x77; 
-      const auto x127 = x122*x4*x5 + x126; 
-      const auto x128 = x4*x84; 
-      const auto x129 = x122*x4; 
-      const auto x130 = x122*x4*x8; 
-      const auto x131 = 6.0*x1 + x11*x122; 
-      const auto x132 = x11*x72 + x131; 
-      const auto x133 = x122*x5 + x77; 
-      const auto x134 = x122*x8; 
-      const auto x135 = x122*x14; 
-      const auto x136 = x122*x15 + x15*x69 + x5*x68; 
-      const auto x137 = x16*x75; 
-      const auto x138 = x122*x5*x8 + x82; 
-      const auto x139 = x122*x17; 
-      const auto x140 = x16*x97; 
-      const auto x141 = radial_eval_alpha + radial_eval_alpha_squared*x8; 
-      const auto x142 = x0*x141; 
-      const auto x143 = x141*x2; 
-      const auto x144 = x141*x4*x5; 
-      const auto x145 = x141*x4; 
-      const auto x146 = x126 + x141*x4*x8; 
-      const auto x147 = x11*x141; 
-      const auto x148 = x141*x5; 
-      const auto x149 = x141*x8 + x77; 
-      const auto x150 = x14*x141 + 6.0*x3; 
-      const auto x151 = x14*x72 + x150; 
-      const auto x152 = x141*x15; 
-      const auto x153 = x141*x5*x8 + x78; 
-      const auto x154 = x141*x17 + x17*x69 + x68*x8; 
-      const auto x155 = x125 + x143 + x2*x69 + x73; 
-      const auto x156 = x11*x69 + x131 + x147 + x86; 
-      const auto x157 = x135 + x14*x69 + x150 + x92; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x0;
-      basis_eval[ipt + 1*npts] = x1*x2;
-      basis_eval[ipt + 2*npts] = x2*x3;
-      basis_eval[ipt + 3*npts] = radial_eval*x6;
-      basis_eval[ipt + 4*npts] = x4*x7;
-      basis_eval[ipt + 5*npts] = radial_eval*x9;
-      basis_eval[ipt + 6*npts] = x10*x11;
-      basis_eval[ipt + 7*npts] = x12*x5;
-      basis_eval[ipt + 8*npts] = x13*x8;
-      basis_eval[ipt + 9*npts] = x10*x14;
-      basis_eval[ipt + 10*npts] = radial_eval*x15;
-      basis_eval[ipt + 11*npts] = x11*x3;
-      basis_eval[ipt + 12*npts] = radial_eval*x16;
-      basis_eval[ipt + 13*npts] = x1*x14;
-      basis_eval[ipt + 14*npts] = radial_eval*x17;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x18 + x19*x2;
-      basis_x_eval[ipt + 1*npts] = x21*y;
-      basis_x_eval[ipt + 2*npts] = x21*z;
-      basis_x_eval[ipt + 3*npts] = x22*x5 + x24;
-      basis_x_eval[ipt + 4*npts] = x25*x27;
-      basis_x_eval[ipt + 5*npts] = x22*x8 + x29;
-      basis_x_eval[ipt + 6*npts] = x30 + x32;
-      basis_x_eval[ipt + 7*npts] = x35*z;
-      basis_x_eval[ipt + 8*npts] = x38*y;
-      basis_x_eval[ipt + 9*npts] = x39 + x41;
-      basis_x_eval[ipt + 10*npts] = x15*x42;
-      basis_x_eval[ipt + 11*npts] = x43;
-      basis_x_eval[ipt + 12*npts] = x16*x42;
-      basis_x_eval[ipt + 13*npts] = x44;
-      basis_x_eval[ipt + 14*npts] = x17*x42;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*x45;
-      basis_y_eval[ipt + 1*npts] = x24 + x46;
-      basis_y_eval[ipt + 2*npts] = x47;
-      basis_y_eval[ipt + 3*npts] = x32 + x4*x48;
-      basis_y_eval[ipt + 4*npts] = x50*z;
-      basis_y_eval[ipt + 5*npts] = x45*x9;
-      basis_y_eval[ipt + 6*npts] = x*x51;
-      basis_y_eval[ipt + 7*npts] = x52*x54;
-      basis_y_eval[ipt + 8*npts] = x*(x36 + x55);
-      basis_y_eval[ipt + 9*npts] = x44;
-      basis_y_eval[ipt + 10*npts] = radial_eval_alpha*x56 + x11*x19;
-      basis_y_eval[ipt + 11*npts] = x51*z;
-      basis_y_eval[ipt + 12*npts] = x48*x8 + x58;
-      basis_y_eval[ipt + 13*npts] = x39 + x60;
-      basis_y_eval[ipt + 14*npts] = x17*x45;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x0*x61;
-      basis_z_eval[ipt + 1*npts] = x47;
-      basis_z_eval[ipt + 2*npts] = x29 + x46;
-      basis_z_eval[ipt + 3*npts] = x6*x61;
-      basis_z_eval[ipt + 4*npts] = y*(x37 + x49);
-      basis_z_eval[ipt + 5*npts] = x4*x62 + x41;
-      basis_z_eval[ipt + 6*npts] = x43;
-      basis_z_eval[ipt + 7*npts] = x*(x33 + x55);
-      basis_z_eval[ipt + 8*npts] = x63*x65;
-      basis_z_eval[ipt + 9*npts] = x*x66;
-      basis_z_eval[ipt + 10*npts] = x15*x61;
-      basis_z_eval[ipt + 11*npts] = x30 + x58;
-      basis_z_eval[ipt + 12*npts] = x5*x62 + x60;
-      basis_z_eval[ipt + 13*npts] = x66*y;
-      basis_z_eval[ipt + 14*npts] = radial_eval_alpha*x67 + x14*x19;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x123 + x142 + x71;
-      basis_lapl_eval[ipt + 1*npts] = x155*y;
-      basis_lapl_eval[ipt + 2*npts] = x155*z;
-      basis_lapl_eval[ipt + 3*npts] = x127 + x144 + x6*x69 + x79;
-      basis_lapl_eval[ipt + 4*npts] = x25*(x129 + x145 + x4*x69 + x80);
-      basis_lapl_eval[ipt + 5*npts] = x130 + x146 + x69*x9 + x83;
-      basis_lapl_eval[ipt + 6*npts] = x*x156;
-      basis_lapl_eval[ipt + 7*npts] = x52*(x133 + x148 + x5*x69 + x88);
-      basis_lapl_eval[ipt + 8*npts] = x63*(x134 + x149 + x69*x8 + x90);
-      basis_lapl_eval[ipt + 9*npts] = x*x157;
-      basis_lapl_eval[ipt + 10*npts] = x136 + x152 + x93;
-      basis_lapl_eval[ipt + 11*npts] = x156*z;
-      basis_lapl_eval[ipt + 12*npts] = x138 + x153 + x16*x69 + x94;
-      basis_lapl_eval[ipt + 13*npts] = x157*y;
-      basis_lapl_eval[ipt + 14*npts] = x139 + x154 + x95;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x0;
-      ang_eval_1 = x1*x2;
-      ang_eval_2 = x2*x3;
-      ang_eval_3 = radial_eval*x6;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x4*x7;
-      ang_eval_1 = radial_eval*x9;
-      ang_eval_2 = x10*x11;
-      ang_eval_3 = x12*x5;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = x13*x8;
-      ang_eval_1 = x10*x14;
-      ang_eval_2 = radial_eval*x15;
-      ang_eval_3 = x11*x3;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-      basis_eval[ipt + 9*npts] = ang_eval_1;
-      basis_eval[ipt + 10*npts] = ang_eval_2;
-      basis_eval[ipt + 11*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x16;
-      ang_eval_1 = x1*x14;
-      ang_eval_2 = radial_eval*x17;
-      basis_eval[ipt + 12*npts] = ang_eval_0;
-      basis_eval[ipt + 13*npts] = ang_eval_1;
-      basis_eval[ipt + 14*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = radial_eval_alpha*x18 + x19*x2;
-      dang_eval_y_0 = x0*x45;
-      dang_eval_z_0 = x0*x61;
-      dang_eval_x_1 = x21*y;
-      dang_eval_y_1 = x24 + x46;
-      dang_eval_z_1 = x47;
-      dang_eval_x_2 = x21*z;
-      dang_eval_y_2 = x47;
-      dang_eval_z_2 = x29 + x46;
-      dang_eval_x_3 = x22*x5 + x24;
-      dang_eval_y_3 = x32 + x4*x48;
-      dang_eval_z_3 = x6*x61;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x25*x27;
-      dang_eval_y_0 = x50*z;
-      dang_eval_z_0 = y*(x37 + x49);
-      dang_eval_x_1 = x22*x8 + x29;
-      dang_eval_y_1 = x45*x9;
-      dang_eval_z_1 = x4*x62 + x41;
-      dang_eval_x_2 = x30 + x32;
-      dang_eval_y_2 = x*x51;
-      dang_eval_z_2 = x43;
-      dang_eval_x_3 = x35*z;
-      dang_eval_y_3 = x52*x54;
-      dang_eval_z_3 = x*(x33 + x55);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x38*y;
-      dang_eval_y_0 = x*(x36 + x55);
-      dang_eval_z_0 = x63*x65;
-      dang_eval_x_1 = x39 + x41;
-      dang_eval_y_1 = x44;
-      dang_eval_z_1 = x*x66;
-      dang_eval_x_2 = x15*x42;
-      dang_eval_y_2 = radial_eval_alpha*x56 + x11*x19;
-      dang_eval_z_2 = x15*x61;
-      dang_eval_x_3 = x43;
-      dang_eval_y_3 = x51*z;
-      dang_eval_z_3 = x30 + x58;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 9*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 9*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 9*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 10*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 10*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 10*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 11*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 11*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 11*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x16*x42;
-      dang_eval_y_0 = x48*x8 + x58;
-      dang_eval_z_0 = x5*x62 + x60;
-      dang_eval_x_1 = x44;
-      dang_eval_y_1 = x39 + x60;
-      dang_eval_z_1 = x66*y;
-      dang_eval_x_2 = x17*x42;
-      dang_eval_y_2 = x17*x45;
-      dang_eval_z_2 = radial_eval_alpha*x67 + x14*x19;
-      basis_x_eval[ipt + 12*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 12*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 12*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 13*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 13*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 13*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 14*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 14*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 14*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0.hpp
deleted file mode 100644
index 2dd909d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0.hpp
+++ /dev/null
@@ -1,133 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_spherical_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_gradient.hpp
deleted file mode 100644
index 2b74a4f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_gradient.hpp
+++ /dev/null
@@ -1,156 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_spherical_gradient_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_hessian.hpp
deleted file mode 100644
index bb15617..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_hessian.hpp
+++ /dev/null
@@ -1,186 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_spherical_hessian_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha_squared*(x*x); 
-      const auto x1 = radial_eval_alpha_squared*x; 
-      const auto x2 = radial_eval_alpha_squared*(y*y); 
-      const auto x3 = radial_eval_alpha_squared*(z*z); 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = radial_eval_alpha + x0;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x1*y;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x1*z;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = radial_eval_alpha + x2;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = radial_eval_alpha_squared*y*z;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = radial_eval_alpha + x3;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_lapgrad.hpp
deleted file mode 100644
index a6f5542..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_lapgrad.hpp
+++ /dev/null
@@ -1,208 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_spherical_lapgrad_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = x*x; 
-      const auto x1 = radial_eval_alpha_squared*x0; 
-      const auto x2 = radial_eval_alpha_squared*x; 
-      const auto x3 = y*y; 
-      const auto x4 = radial_eval_alpha_squared*x3; 
-      const auto x5 = radial_eval_alpha_squared*y; 
-      const auto x6 = z*z; 
-      const auto x7 = radial_eval_alpha_squared*x6; 
-      const auto x8 = radial_eval_alpha_cubed*x; 
-      const auto x9 = radial_eval_alpha_cubed*y; 
-      const auto x10 = radial_eval_alpha_cubed*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = radial_eval_alpha + x1;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x2*y;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x2*z;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = radial_eval_alpha + x4;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x5*z;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = radial_eval_alpha + x7;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = 3.0*radial_eval_alpha + x1 + x4 + x7;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = radial_eval_alpha_cubed*(x*x*x) + 5.0*x2 + x3*x8 + x6*x8;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = radial_eval_alpha_cubed*(y*y*y) + x0*x9 + 5.0*x5 + x6*x9;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = radial_eval_alpha_cubed*(z*z*z) + 5.0*radial_eval_alpha_squared*z + x0*x10 + x10*x3;
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_laplacian.hpp
deleted file mode 100644
index fad0a51..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l0_laplacian.hpp
+++ /dev/null
@@ -1,166 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_spherical_laplacian_0(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha_squared*(x*x); 
-      const auto x1 = radial_eval_alpha_squared*x; 
-      const auto x2 = radial_eval_alpha_squared*(y*y); 
-      const auto x3 = radial_eval_alpha_squared*(z*z); 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = radial_eval_alpha*x;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval_alpha*y;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = radial_eval_alpha*z;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = 3.0*radial_eval_alpha + x0 + x2 + x3;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-
-
-      ang_eval_0 = radial_eval;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-
-      dang_eval_x_0 = radial_eval_alpha*x;
-      dang_eval_y_0 = radial_eval_alpha*y;
-      dang_eval_z_0 = radial_eval_alpha*z;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1.hpp
deleted file mode 100644
index 9e86799..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1.hpp
+++ /dev/null
@@ -1,141 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_spherical_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*y;
-      basis_eval[ipt + 1*npts] = radial_eval*z;
-      basis_eval[ipt + 2*npts] = radial_eval*x;
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*y;
-      ang_eval_1 = radial_eval*z;
-      ang_eval_2 = radial_eval*x;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_gradient.hpp
deleted file mode 100644
index bed3c69..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_gradient.hpp
+++ /dev/null
@@ -1,188 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_spherical_gradient_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha*x; 
-      const auto x1 = x0*y; 
-      const auto x2 = x0*z; 
-      const auto x3 = radial_eval_alpha*y*z; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*y;
-      basis_eval[ipt + 1*npts] = radial_eval*z;
-      basis_eval[ipt + 2*npts] = radial_eval*x;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1;
-      basis_x_eval[ipt + 1*npts] = x2;
-      basis_x_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*(x*x);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*(y*y);
-      basis_y_eval[ipt + 1*npts] = x3;
-      basis_y_eval[ipt + 2*npts] = x1;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x3;
-      basis_z_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*(z*z);
-      basis_z_eval[ipt + 2*npts] = x2;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*y;
-      ang_eval_1 = radial_eval*z;
-      ang_eval_2 = radial_eval*x;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = x1;
-      dang_eval_y_0 = radial_eval + radial_eval_alpha*(y*y);
-      dang_eval_z_0 = x3;
-      dang_eval_x_1 = x2;
-      dang_eval_y_1 = x3;
-      dang_eval_z_1 = radial_eval + radial_eval_alpha*(z*z);
-      dang_eval_x_2 = radial_eval + radial_eval_alpha*(x*x);
-      dang_eval_y_2 = x1;
-      dang_eval_z_2 = x2;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_hessian.hpp
deleted file mode 100644
index 273f5df..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_hessian.hpp
+++ /dev/null
@@ -1,245 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_hessian_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha*x; 
-      const auto x1 = x0*y; 
-      const auto x2 = x0*z; 
-      const auto x3 = x*x; 
-      const auto x4 = y*y; 
-      const auto x5 = y*z; 
-      const auto x6 = radial_eval_alpha*x5; 
-      const auto x7 = z*z; 
-      const auto x8 = radial_eval_alpha_squared*x3; 
-      const auto x9 = radial_eval_alpha + x8; 
-      const auto x10 = x9*y; 
-      const auto x11 = x9*z; 
-      const auto x12 = 3.0*radial_eval_alpha; 
-      const auto x13 = radial_eval_alpha_squared*x4; 
-      const auto x14 = radial_eval_alpha + x13; 
-      const auto x15 = x*x14; 
-      const auto x16 = radial_eval_alpha_squared*x*x5; 
-      const auto x17 = radial_eval_alpha_squared*x7; 
-      const auto x18 = radial_eval_alpha + x17; 
-      const auto x19 = x*x18; 
-      const auto x20 = x14*z; 
-      const auto x21 = x18*y; 
-      const auto x22 = 5.0*radial_eval_alpha + x13 + x17 + x8; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*y;
-      basis_eval[ipt + 1*npts] = radial_eval*z;
-      basis_eval[ipt + 2*npts] = radial_eval*x;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1;
-      basis_x_eval[ipt + 1*npts] = x2;
-      basis_x_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*x3;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*x4;
-      basis_y_eval[ipt + 1*npts] = x6;
-      basis_y_eval[ipt + 2*npts] = x1;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x6;
-      basis_z_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*x7;
-      basis_z_eval[ipt + 2*npts] = x2;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x10;
-      basis_xx_eval[ipt + 1*npts] = x11;
-      basis_xx_eval[ipt + 2*npts] = x*(x12 + x8);
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x15;
-      basis_xy_eval[ipt + 1*npts] = x16;
-      basis_xy_eval[ipt + 2*npts] = x10;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x16;
-      basis_xz_eval[ipt + 1*npts] = x19;
-      basis_xz_eval[ipt + 2*npts] = x11;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = y*(x12 + x13);
-      basis_yy_eval[ipt + 1*npts] = x20;
-      basis_yy_eval[ipt + 2*npts] = x15;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x20;
-      basis_yz_eval[ipt + 1*npts] = x21;
-      basis_yz_eval[ipt + 2*npts] = x16;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x21;
-      basis_zz_eval[ipt + 1*npts] = z*(x12 + x17);
-      basis_zz_eval[ipt + 2*npts] = x19;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*y;
-      ang_eval_1 = radial_eval*z;
-      ang_eval_2 = radial_eval*x;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = x1;
-      dang_eval_y_0 = radial_eval + radial_eval_alpha*x4;
-      dang_eval_z_0 = x6;
-      dang_eval_x_1 = x2;
-      dang_eval_y_1 = x6;
-      dang_eval_z_1 = radial_eval + radial_eval_alpha*x7;
-      dang_eval_x_2 = radial_eval + radial_eval_alpha*x3;
-      dang_eval_y_2 = x1;
-      dang_eval_z_2 = x2;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_lapgrad.hpp
deleted file mode 100644
index e0983fe..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_lapgrad.hpp
+++ /dev/null
@@ -1,285 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_lapgrad_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha*x; 
-      const auto x1 = x0*y; 
-      const auto x2 = x0*z; 
-      const auto x3 = x*x; 
-      const auto x4 = x3; 
-      const auto x5 = y*y; 
-      const auto x6 = x5; 
-      const auto x7 = y*z; 
-      const auto x8 = radial_eval_alpha*x7; 
-      const auto x9 = z*z; 
-      const auto x10 = x9; 
-      const auto x11 = radial_eval_alpha_squared*x4; 
-      const auto x12 = radial_eval_alpha + x11; 
-      const auto x13 = x12*y; 
-      const auto x14 = x12*z; 
-      const auto x15 = 3.0*radial_eval_alpha; 
-      const auto x16 = radial_eval_alpha_squared*x6; 
-      const auto x17 = radial_eval_alpha + x16; 
-      const auto x18 = x*x17; 
-      const auto x19 = radial_eval_alpha_squared*x*x7; 
-      const auto x20 = radial_eval_alpha_squared*x10; 
-      const auto x21 = radial_eval_alpha + x20; 
-      const auto x22 = x*x21; 
-      const auto x23 = x17*z; 
-      const auto x24 = x21*y; 
-      const auto x25 = 5.0*radial_eval_alpha; 
-      const auto x26 = x16 + x20 + x25; 
-      const auto x27 = x11 + x26; 
-      const auto x28 = 5.0*radial_eval_alpha_squared; 
-      const auto x29 = radial_eval_alpha_cubed*(x*x*x); 
-      const auto x30 = radial_eval_alpha_cubed*x6 + radial_eval_alpha_squared; 
-      const auto x31 = radial_eval_alpha_cubed*x10 + radial_eval_alpha_squared; 
-      const auto x32 = x*x28 + x*x30 + x*x31 + x29; 
-      const auto x33 = 3.0*radial_eval_alpha_squared; 
-      const auto x34 = radial_eval_alpha_cubed*(y*y*y); 
-      const auto x35 = radial_eval_alpha_cubed*x4 + radial_eval_alpha_squared; 
-      const auto x36 = x11 + x25; 
-      const auto x37 = x28*y + x31*y + x34 + x35*y; 
-      const auto x38 = radial_eval_alpha_cubed*(z*z*z); 
-      const auto x39 = x28*z + x30*z + x35*z + x38; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*y;
-      basis_eval[ipt + 1*npts] = radial_eval*z;
-      basis_eval[ipt + 2*npts] = radial_eval*x;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1;
-      basis_x_eval[ipt + 1*npts] = x2;
-      basis_x_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*x4;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*x6;
-      basis_y_eval[ipt + 1*npts] = x8;
-      basis_y_eval[ipt + 2*npts] = x1;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x8;
-      basis_z_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*x10;
-      basis_z_eval[ipt + 2*npts] = x2;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x13;
-      basis_xx_eval[ipt + 1*npts] = x14;
-      basis_xx_eval[ipt + 2*npts] = x*(x11 + x15);
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x18;
-      basis_xy_eval[ipt + 1*npts] = x19;
-      basis_xy_eval[ipt + 2*npts] = x13;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x19;
-      basis_xz_eval[ipt + 1*npts] = x22;
-      basis_xz_eval[ipt + 2*npts] = x14;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = y*(x15 + x16);
-      basis_yy_eval[ipt + 1*npts] = x23;
-      basis_yy_eval[ipt + 2*npts] = x18;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x23;
-      basis_yz_eval[ipt + 1*npts] = x24;
-      basis_yz_eval[ipt + 2*npts] = x19;
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x24;
-      basis_zz_eval[ipt + 1*npts] = z*(x15 + x20);
-      basis_zz_eval[ipt + 2*npts] = x22;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x27*y;
-      basis_lapl_eval[ipt + 1*npts] = x27*z;
-      basis_lapl_eval[ipt + 2*npts] = x*x27;
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x32*y;
-      basis_lapl_x_eval[ipt + 1*npts] = x32*z;
-      basis_lapl_x_eval[ipt + 2*npts] = x*(x*x33 + x29) + x26 + x3*x30 + x3*x31 + x33*x4;
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x20 + x31*x5 + x33*x6 + x35*x5 + x36 + y*(x33*y + x34);
-      basis_lapl_y_eval[ipt + 1*npts] = x37*z;
-      basis_lapl_y_eval[ipt + 2*npts] = x*x37;
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x39*y;
-      basis_lapl_z_eval[ipt + 1*npts] = x10*x33 + x16 + x30*x9 + x35*x9 + x36 + z*(x33*z + x38);
-      basis_lapl_z_eval[ipt + 2*npts] = x*x39;
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*y;
-      ang_eval_1 = radial_eval*z;
-      ang_eval_2 = radial_eval*x;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = x1;
-      dang_eval_y_0 = radial_eval + radial_eval_alpha*x6;
-      dang_eval_z_0 = x8;
-      dang_eval_x_1 = x2;
-      dang_eval_y_1 = x8;
-      dang_eval_z_1 = radial_eval + radial_eval_alpha*x10;
-      dang_eval_x_2 = radial_eval + radial_eval_alpha*x4;
-      dang_eval_y_2 = x1;
-      dang_eval_z_2 = x2;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_laplacian.hpp
deleted file mode 100644
index 2da0a73..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l1_laplacian.hpp
+++ /dev/null
@@ -1,215 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_laplacian_1(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = radial_eval_alpha*x; 
-      const auto x1 = x0*y; 
-      const auto x2 = x0*z; 
-      const auto x3 = x*x; 
-      const auto x4 = y*y; 
-      const auto x5 = y*z; 
-      const auto x6 = radial_eval_alpha*x5; 
-      const auto x7 = z*z; 
-      const auto x8 = radial_eval_alpha_squared*x3; 
-      const auto x9 = radial_eval_alpha + x8; 
-      const auto x10 = x9*y; 
-      const auto x11 = x9*z; 
-      const auto x12 = 3.0*radial_eval_alpha; 
-      const auto x13 = radial_eval_alpha_squared*x4; 
-      const auto x14 = radial_eval_alpha + x13; 
-      const auto x15 = x*x14; 
-      const auto x16 = radial_eval_alpha_squared*x*x5; 
-      const auto x17 = radial_eval_alpha_squared*x7; 
-      const auto x18 = radial_eval_alpha + x17; 
-      const auto x19 = x*x18; 
-      const auto x20 = x14*z; 
-      const auto x21 = x18*y; 
-      const auto x22 = 5.0*radial_eval_alpha + x13 + x17 + x8; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*y;
-      basis_eval[ipt + 1*npts] = radial_eval*z;
-      basis_eval[ipt + 2*npts] = radial_eval*x;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1;
-      basis_x_eval[ipt + 1*npts] = x2;
-      basis_x_eval[ipt + 2*npts] = radial_eval + radial_eval_alpha*x3;
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = radial_eval + radial_eval_alpha*x4;
-      basis_y_eval[ipt + 1*npts] = x6;
-      basis_y_eval[ipt + 2*npts] = x1;
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x6;
-      basis_z_eval[ipt + 1*npts] = radial_eval + radial_eval_alpha*x7;
-      basis_z_eval[ipt + 2*npts] = x2;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x22*y;
-      basis_lapl_eval[ipt + 1*npts] = x22*z;
-      basis_lapl_eval[ipt + 2*npts] = x*x22;
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-
-
-      ang_eval_0 = radial_eval*y;
-      ang_eval_1 = radial_eval*z;
-      ang_eval_2 = radial_eval*x;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-
-      dang_eval_x_0 = x1;
-      dang_eval_y_0 = radial_eval + radial_eval_alpha*x4;
-      dang_eval_z_0 = x6;
-      dang_eval_x_1 = x2;
-      dang_eval_y_1 = x6;
-      dang_eval_z_1 = radial_eval + radial_eval_alpha*x7;
-      dang_eval_x_2 = radial_eval + radial_eval_alpha*x3;
-      dang_eval_y_2 = x1;
-      dang_eval_z_2 = x2;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2.hpp
deleted file mode 100644
index 38e1677..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2.hpp
+++ /dev/null
@@ -1,153 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_spherical_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-      const auto x0 = radial_eval*sqrt_3*y; 
-      const auto x1 = 0.5*radial_eval; 
-      const auto x2 = x*x; 
-      const auto x3 = y*y; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = x*x0;
-      basis_eval[ipt + 1*npts] = x0*z;
-      basis_eval[ipt + 2*npts] = -x1*(x2 + x3 - 2.0*z*z);
-      basis_eval[ipt + 3*npts] = radial_eval*sqrt_3*x*z;
-      basis_eval[ipt + 4*npts] = sqrt_3*x1*(x2 - x3);
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = x*x0;
-      ang_eval_1 = x0*z;
-      ang_eval_2 = -x1*(x2 + x3 - 2.0*z*z);
-      ang_eval_3 = radial_eval*sqrt_3*x*z;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_3*x1*(x2 - x3);
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_gradient.hpp
deleted file mode 100644
index 52ddc60..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_gradient.hpp
+++ /dev/null
@@ -1,232 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_spherical_gradient_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = sqrt_3*y; 
-      const auto x1 = radial_eval*x0; 
-      const auto x2 = 0.5*radial_eval; 
-      const auto x3 = x*x; 
-      const auto x4 = y*y; 
-      const auto x5 = z*z; 
-      const auto x6 = -x3 - x4 + 2.0*x5; 
-      const auto x7 = sqrt_3*z; 
-      const auto x8 = x3 - x4; 
-      const auto x9 = radial_eval + radial_eval_alpha*x3; 
-      const auto x10 = radial_eval_alpha*x*x0*z; 
-      const auto x11 = 0.5*x; 
-      const auto x12 = 2.0*radial_eval; 
-      const auto x13 = -x12; 
-      const auto x14 = radial_eval_alpha*x6; 
-      const auto x15 = x13 + x14; 
-      const auto x16 = radial_eval_alpha*x8; 
-      const auto x17 = sqrt_3*x; 
-      const auto x18 = radial_eval + radial_eval_alpha*x4; 
-      const auto x19 = radial_eval + radial_eval_alpha*x5; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = x*x1;
-      basis_eval[ipt + 1*npts] = x1*z;
-      basis_eval[ipt + 2*npts] = x2*x6;
-      basis_eval[ipt + 3*npts] = radial_eval*x*x7;
-      basis_eval[ipt + 4*npts] = sqrt_3*x2*x8;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x0*x9;
-      basis_x_eval[ipt + 1*npts] = x10;
-      basis_x_eval[ipt + 2*npts] = x11*x15;
-      basis_x_eval[ipt + 3*npts] = x7*x9;
-      basis_x_eval[ipt + 4*npts] = sqrt_3*x11*(x12 + x16);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x17*x18;
-      basis_y_eval[ipt + 1*npts] = x18*x7;
-      basis_y_eval[ipt + 2*npts] = 0.5*x15*y;
-      basis_y_eval[ipt + 3*npts] = x10;
-      basis_y_eval[ipt + 4*npts] = 0.5*x0*(x13 + x16);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x10;
-      basis_z_eval[ipt + 1*npts] = x0*x19;
-      basis_z_eval[ipt + 2*npts] = 0.5*z*(4.0*radial_eval + x14);
-      basis_z_eval[ipt + 3*npts] = x17*x19;
-      basis_z_eval[ipt + 4*npts] = 0.5*radial_eval_alpha*x7*x8;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = x*x1;
-      ang_eval_1 = x1*z;
-      ang_eval_2 = x2*x6;
-      ang_eval_3 = radial_eval*x*x7;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_3*x2*x8;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x0*x9;
-      dang_eval_y_0 = x17*x18;
-      dang_eval_z_0 = x10;
-      dang_eval_x_1 = x10;
-      dang_eval_y_1 = x18*x7;
-      dang_eval_z_1 = x0*x19;
-      dang_eval_x_2 = x11*x15;
-      dang_eval_y_2 = 0.5*x15*y;
-      dang_eval_z_2 = 0.5*z*(4.0*radial_eval + x14);
-      dang_eval_x_3 = x7*x9;
-      dang_eval_y_3 = x10;
-      dang_eval_z_3 = x17*x19;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = sqrt_3*x11*(x12 + x16);
-      dang_eval_y_0 = 0.5*x0*(x13 + x16);
-      dang_eval_z_0 = 0.5*radial_eval_alpha*x7*x8;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_hessian.hpp
deleted file mode 100644
index 329138f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_hessian.hpp
+++ /dev/null
@@ -1,317 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_hessian_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = sqrt_3*y; 
-      const auto x1 = x*x0; 
-      const auto x2 = x0*z; 
-      const auto x3 = 0.5*radial_eval; 
-      const auto x4 = x*x; 
-      const auto x5 = y*y; 
-      const auto x6 = z*z; 
-      const auto x7 = -x4 - x5 + 2.0*x6; 
-      const auto x8 = sqrt_3*z; 
-      const auto x9 = x*x8; 
-      const auto x10 = x4 - x5; 
-      const auto x11 = radial_eval + radial_eval_alpha*x4; 
-      const auto x12 = radial_eval_alpha*x1*z; 
-      const auto x13 = 0.5*x; 
-      const auto x14 = 2.0*radial_eval; 
-      const auto x15 = -x14; 
-      const auto x16 = radial_eval_alpha*x7; 
-      const auto x17 = x15 + x16; 
-      const auto x18 = radial_eval_alpha*x10; 
-      const auto x19 = sqrt_3*x; 
-      const auto x20 = radial_eval_alpha*x5; 
-      const auto x21 = radial_eval + x20; 
-      const auto x22 = 0.5*y; 
-      const auto x23 = radial_eval_alpha*x6; 
-      const auto x24 = radial_eval + x23; 
-      const auto x25 = 0.5*z; 
-      const auto x26 = 4.0*radial_eval; 
-      const auto x27 = 3.0*radial_eval_alpha; 
-      const auto x28 = radial_eval_alpha_squared*x4; 
-      const auto x29 = x27 + x28; 
-      const auto x30 = radial_eval_alpha + x28; 
-      const auto x31 = x2*x30; 
-      const auto x32 = 4.0*radial_eval_alpha; 
-      const auto x33 = x32*x4; 
-      const auto x34 = x14 + x33; 
-      const auto x35 = 0.5*sqrt_3; 
-      const auto x36 = x10*x30; 
-      const auto x37 = radial_eval_alpha_squared*x5; 
-      const auto x38 = radial_eval_alpha + x37; 
-      const auto x39 = x38*x9; 
-      const auto x40 = radial_eval_alpha_squared*x7; 
-      const auto x41 = radial_eval_alpha_squared*x6; 
-      const auto x42 = radial_eval_alpha + x41; 
-      const auto x43 = x1*x42; 
-      const auto x44 = 2.0*radial_eval_alpha; 
-      const auto x45 = x40 + x44; 
-      const auto x46 = radial_eval_alpha_squared*x10; 
-      const auto x47 = x27 + x37; 
-      const auto x48 = x32*x5; 
-      const auto x49 = x14 + x48; 
-      const auto x50 = x27 + x41; 
-      const auto x51 = 8.0*radial_eval_alpha*x6 + x42*x7; 
-      const auto x52 = x10*x42; 
-      const auto x53 = 7.0*radial_eval_alpha + x28 + x37 + x41; 
-      const auto x54 = -x48; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1;
-      basis_eval[ipt + 1*npts] = radial_eval*x2;
-      basis_eval[ipt + 2*npts] = x3*x7;
-      basis_eval[ipt + 3*npts] = radial_eval*x9;
-      basis_eval[ipt + 4*npts] = sqrt_3*x10*x3;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x0*x11;
-      basis_x_eval[ipt + 1*npts] = x12;
-      basis_x_eval[ipt + 2*npts] = x13*x17;
-      basis_x_eval[ipt + 3*npts] = x11*x8;
-      basis_x_eval[ipt + 4*npts] = sqrt_3*x13*(x14 + x18);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x19*x21;
-      basis_y_eval[ipt + 1*npts] = x21*x8;
-      basis_y_eval[ipt + 2*npts] = x17*x22;
-      basis_y_eval[ipt + 3*npts] = x12;
-      basis_y_eval[ipt + 4*npts] = 0.5*x0*(x15 + x18);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x12;
-      basis_z_eval[ipt + 1*npts] = x0*x24;
-      basis_z_eval[ipt + 2*npts] = x25*(x16 + x26);
-      basis_z_eval[ipt + 3*npts] = x19*x24;
-      basis_z_eval[ipt + 4*npts] = 0.5*radial_eval_alpha*x10*x8;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x1*x29;
-      basis_xx_eval[ipt + 1*npts] = x31;
-      basis_xx_eval[ipt + 2*npts] = 0.5*x30*x7 - 0.5*x34;
-      basis_xx_eval[ipt + 3*npts] = x29*x9;
-      basis_xx_eval[ipt + 4*npts] = x35*(x34 + x36);
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = sqrt_3*(radial_eval_alpha_squared*x4*x5 + x11 + x20);
-      basis_xy_eval[ipt + 1*npts] = x39;
-      basis_xy_eval[ipt + 2*npts] = x13*y*(-x32 + x40);
-      basis_xy_eval[ipt + 3*npts] = x31;
-      basis_xy_eval[ipt + 4*npts] = radial_eval_alpha_squared*x0*x10*x13;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x31;
-      basis_xz_eval[ipt + 1*npts] = x43;
-      basis_xz_eval[ipt + 2*npts] = x13*x45*z;
-      basis_xz_eval[ipt + 3*npts] = sqrt_3*(radial_eval_alpha_squared*x4*x6 + x11 + x23);
-      basis_xz_eval[ipt + 4*npts] = x13*x8*(x44 + x46);
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x1*x47;
-      basis_yy_eval[ipt + 1*npts] = x2*x47;
-      basis_yy_eval[ipt + 2*npts] = 0.5*x38*x7 - 0.5*x49;
-      basis_yy_eval[ipt + 3*npts] = x39;
-      basis_yy_eval[ipt + 4*npts] = x35*(x10*x38 - x49);
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x39;
-      basis_yz_eval[ipt + 1*npts] = sqrt_3*(radial_eval_alpha_squared*x5*x6 + x21 + x23);
-      basis_yz_eval[ipt + 2*npts] = x22*x45*z;
-      basis_yz_eval[ipt + 3*npts] = x43;
-      basis_yz_eval[ipt + 4*npts] = x0*x25*(-x44 + x46);
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x43;
-      basis_zz_eval[ipt + 1*npts] = x2*x50;
-      basis_zz_eval[ipt + 2*npts] = 0.5*x26 + 0.5*x51;
-      basis_zz_eval[ipt + 3*npts] = x50*x9;
-      basis_zz_eval[ipt + 4*npts] = x35*x52;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1;
-      ang_eval_1 = radial_eval*x2;
-      ang_eval_2 = x3*x7;
-      ang_eval_3 = radial_eval*x9;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_3*x10*x3;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x0*x11;
-      dang_eval_y_0 = x19*x21;
-      dang_eval_z_0 = x12;
-      dang_eval_x_1 = x12;
-      dang_eval_y_1 = x21*x8;
-      dang_eval_z_1 = x0*x24;
-      dang_eval_x_2 = x13*x17;
-      dang_eval_y_2 = x17*x22;
-      dang_eval_z_2 = x25*(x16 + x26);
-      dang_eval_x_3 = x11*x8;
-      dang_eval_y_3 = x12;
-      dang_eval_z_3 = x19*x24;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = sqrt_3*x13*(x14 + x18);
-      dang_eval_y_0 = 0.5*x0*(x15 + x18);
-      dang_eval_z_0 = 0.5*radial_eval_alpha*x10*x8;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_lapgrad.hpp
deleted file mode 100644
index 9a28457..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_lapgrad.hpp
+++ /dev/null
@@ -1,386 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_lapgrad_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = sqrt_3*y; 
-      const auto x1 = x*x0; 
-      const auto x2 = x0*z; 
-      const auto x3 = 0.5*radial_eval; 
-      const auto x4 = x*x; 
-      const auto x5 = x4; 
-      const auto x6 = y*y; 
-      const auto x7 = x6; 
-      const auto x8 = z*z; 
-      const auto x9 = x8; 
-      const auto x10 = -x5 - x7 + 2.0*x9; 
-      const auto x11 = sqrt_3*z; 
-      const auto x12 = x*x11; 
-      const auto x13 = x5 - x7; 
-      const auto x14 = radial_eval + radial_eval_alpha*x5; 
-      const auto x15 = radial_eval_alpha*x1*z; 
-      const auto x16 = 0.5*x; 
-      const auto x17 = 2.0*radial_eval; 
-      const auto x18 = -x17; 
-      const auto x19 = radial_eval_alpha*x10; 
-      const auto x20 = x18 + x19; 
-      const auto x21 = radial_eval_alpha*x13; 
-      const auto x22 = sqrt_3*x; 
-      const auto x23 = radial_eval_alpha*x7; 
-      const auto x24 = radial_eval + x23; 
-      const auto x25 = 0.5*y; 
-      const auto x26 = radial_eval_alpha*x9; 
-      const auto x27 = radial_eval + x26; 
-      const auto x28 = 0.5*z; 
-      const auto x29 = 4.0*radial_eval; 
-      const auto x30 = 3.0*radial_eval_alpha; 
-      const auto x31 = radial_eval_alpha_squared*x5; 
-      const auto x32 = x30 + x31; 
-      const auto x33 = radial_eval_alpha + x31; 
-      const auto x34 = x2*x33; 
-      const auto x35 = 4.0*radial_eval_alpha; 
-      const auto x36 = x35*x5; 
-      const auto x37 = x17 + x36; 
-      const auto x38 = 0.5*sqrt_3; 
-      const auto x39 = x13*x33; 
-      const auto x40 = radial_eval_alpha_squared*x7; 
-      const auto x41 = radial_eval_alpha + x40; 
-      const auto x42 = x12*x41; 
-      const auto x43 = radial_eval_alpha_squared*x10; 
-      const auto x44 = radial_eval_alpha_squared*x9; 
-      const auto x45 = radial_eval_alpha + x44; 
-      const auto x46 = x1*x45; 
-      const auto x47 = 2.0*radial_eval_alpha; 
-      const auto x48 = x43 + x47; 
-      const auto x49 = radial_eval_alpha_squared*x13; 
-      const auto x50 = x30 + x40; 
-      const auto x51 = x35*x7; 
-      const auto x52 = x17 + x51; 
-      const auto x53 = x30 + x44; 
-      const auto x54 = 8.0*radial_eval_alpha; 
-      const auto x55 = x10*x45 + x54*x9; 
-      const auto x56 = x13*x45; 
-      const auto x57 = x40 + x44; 
-      const auto x58 = 7.0*radial_eval_alpha + x31 + x57; 
-      const auto x59 = -x51; 
-      const auto x60 = radial_eval_alpha_squared*x; 
-      const auto x61 = radial_eval_alpha_cubed*(x*x*x); 
-      const auto x62 = 3.0*x60 + x61; 
-      const auto x63 = radial_eval_alpha_cubed*x7 + radial_eval_alpha_squared; 
-      const auto x64 = radial_eval_alpha_cubed*x9 + radial_eval_alpha_squared; 
-      const auto x65 = 2.0*radial_eval_alpha_squared; 
-      const auto x66 = x*x62 + 3.0*x33 + x35 + x4*x63 + x4*x64 + x5*x65 + x57; 
-      const auto x67 = 4.0*x60*x7; 
-      const auto x68 = 2.0*x; 
-      const auto x69 = 6.0*x*x33 + x*x35 + x41*x68 + x45*x68; 
-      const auto x70 = x13*x63; 
-      const auto x71 = x13*x64; 
-      const auto x72 = radial_eval_alpha_squared*y; 
-      const auto x73 = radial_eval_alpha_cubed*(y*y*y); 
-      const auto x74 = 3.0*x72 + x73; 
-      const auto x75 = radial_eval_alpha_cubed*x5 + radial_eval_alpha_squared; 
-      const auto x76 = x31 + x35; 
-      const auto x77 = 3.0*x41 + x44 + x6*x64 + x6*x75 + x65*x7 + x74*y + x76; 
-      const auto x78 = x35*y; 
-      const auto x79 = 4.0*x5*x72; 
-      const auto x80 = 2.0*y; 
-      const auto x81 = x33*x80; 
-      const auto x82 = 6.0*x41*y; 
-      const auto x83 = x45*x80; 
-      const auto x84 = x13*x75; 
-      const auto x85 = radial_eval_alpha_squared*z; 
-      const auto x86 = radial_eval_alpha_cubed*(z*z*z); 
-      const auto x87 = 3.0*x85 + x86; 
-      const auto x88 = x40 + 3.0*x45 + x63*x8 + x65*x9 + x75*x8 + x76 + x87*z; 
-      const auto x89 = 4.0*z; 
-      const auto x90 = radial_eval_alpha_squared*x89; 
-      const auto x91 = x5*x90; 
-      const auto x92 = -x7*x90; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1;
-      basis_eval[ipt + 1*npts] = radial_eval*x2;
-      basis_eval[ipt + 2*npts] = x10*x3;
-      basis_eval[ipt + 3*npts] = radial_eval*x12;
-      basis_eval[ipt + 4*npts] = sqrt_3*x13*x3;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x0*x14;
-      basis_x_eval[ipt + 1*npts] = x15;
-      basis_x_eval[ipt + 2*npts] = x16*x20;
-      basis_x_eval[ipt + 3*npts] = x11*x14;
-      basis_x_eval[ipt + 4*npts] = sqrt_3*x16*(x17 + x21);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x22*x24;
-      basis_y_eval[ipt + 1*npts] = x11*x24;
-      basis_y_eval[ipt + 2*npts] = x20*x25;
-      basis_y_eval[ipt + 3*npts] = x15;
-      basis_y_eval[ipt + 4*npts] = 0.5*x0*(x18 + x21);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x15;
-      basis_z_eval[ipt + 1*npts] = x0*x27;
-      basis_z_eval[ipt + 2*npts] = x28*(x19 + x29);
-      basis_z_eval[ipt + 3*npts] = x22*x27;
-      basis_z_eval[ipt + 4*npts] = 0.5*radial_eval_alpha*x11*x13;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x1*x32;
-      basis_xx_eval[ipt + 1*npts] = x34;
-      basis_xx_eval[ipt + 2*npts] = 0.5*x10*x33 - 0.5*x37;
-      basis_xx_eval[ipt + 3*npts] = x12*x32;
-      basis_xx_eval[ipt + 4*npts] = x38*(x37 + x39);
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = sqrt_3*(radial_eval_alpha_squared*x5*x7 + x14 + x23);
-      basis_xy_eval[ipt + 1*npts] = x42;
-      basis_xy_eval[ipt + 2*npts] = x16*y*(-x35 + x43);
-      basis_xy_eval[ipt + 3*npts] = x34;
-      basis_xy_eval[ipt + 4*npts] = radial_eval_alpha_squared*x0*x13*x16;
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x34;
-      basis_xz_eval[ipt + 1*npts] = x46;
-      basis_xz_eval[ipt + 2*npts] = x16*x48*z;
-      basis_xz_eval[ipt + 3*npts] = sqrt_3*(radial_eval_alpha_squared*x5*x9 + x14 + x26);
-      basis_xz_eval[ipt + 4*npts] = x11*x16*(x47 + x49);
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x1*x50;
-      basis_yy_eval[ipt + 1*npts] = x2*x50;
-      basis_yy_eval[ipt + 2*npts] = 0.5*x10*x41 - 0.5*x52;
-      basis_yy_eval[ipt + 3*npts] = x42;
-      basis_yy_eval[ipt + 4*npts] = x38*(x13*x41 - x52);
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x42;
-      basis_yz_eval[ipt + 1*npts] = sqrt_3*(radial_eval_alpha_squared*x7*x9 + x24 + x26);
-      basis_yz_eval[ipt + 2*npts] = x25*x48*z;
-      basis_yz_eval[ipt + 3*npts] = x46;
-      basis_yz_eval[ipt + 4*npts] = x0*x28*(-x47 + x49);
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x46;
-      basis_zz_eval[ipt + 1*npts] = x2*x53;
-      basis_zz_eval[ipt + 2*npts] = 0.5*x29 + 0.5*x55;
-      basis_zz_eval[ipt + 3*npts] = x12*x53;
-      basis_zz_eval[ipt + 4*npts] = x38*x56;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x1*x58;
-      basis_lapl_eval[ipt + 1*npts] = x2*x58;
-      basis_lapl_eval[ipt + 2*npts] = 0.5*x10*x33 + 0.5*x10*x41 - 0.5*x36 + 0.5*x55 + 0.5*x59;
-      basis_lapl_eval[ipt + 3*npts] = x12*x58;
-      basis_lapl_eval[ipt + 4*npts] = x38*(x13*x41 + x36 + x39 + x56 + x59);
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x0*x66;
-      basis_lapl_x_eval[ipt + 1*npts] = x2*(x*x63 + x*x64 + 7.0*x60 + x61);
-      basis_lapl_x_eval[ipt + 2*npts] = 4.0*radial_eval_alpha_squared*x*x9 + 0.5*x*x10*x63 + 0.5*x*x10*x64 + 0.5*x10*x62 - 0.5*x67 - 0.5*x69;
-      basis_lapl_x_eval[ipt + 3*npts] = x11*x66;
-      basis_lapl_x_eval[ipt + 4*npts] = x38*(x*x70 + x*x71 + x13*x62 - x67 + x69);
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x22*x77;
-      basis_lapl_y_eval[ipt + 1*npts] = x11*x77;
-      basis_lapl_y_eval[ipt + 2*npts] = 4.0*radial_eval_alpha_squared*x9*y + 0.5*x10*x64*y + 0.5*x10*x74 + 0.5*x10*x75*y - 0.5*x78 - 0.5*x79 - 0.5*x81 - 0.5*x82 - 0.5*x83;
-      basis_lapl_y_eval[ipt + 3*npts] = x12*(x64*y + 7.0*x72 + x73 + x75*y);
-      basis_lapl_y_eval[ipt + 4*npts] = x38*(x13*x74 + x71*y - x78 + x79 - x81 - x82 - x83 + x84*y);
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x1*(x63*z + x75*z + 7.0*x85 + x86);
-      basis_lapl_z_eval[ipt + 1*npts] = x0*x88;
-      basis_lapl_z_eval[ipt + 2*npts] = 0.5*x10*x63*z + 0.5*x10*x75*z + 0.5*x10*x87 + 0.5*x33*x89 + 0.5*x41*x89 + 6.0*x45*z + 0.5*x54*z - 0.5*x91 + 0.5*x92;
-      basis_lapl_z_eval[ipt + 3*npts] = x22*x88;
-      basis_lapl_z_eval[ipt + 4*npts] = x38*(x13*x87 + x70*z + x84*z + x91 + x92);
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1;
-      ang_eval_1 = radial_eval*x2;
-      ang_eval_2 = x10*x3;
-      ang_eval_3 = radial_eval*x12;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_3*x13*x3;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x0*x14;
-      dang_eval_y_0 = x22*x24;
-      dang_eval_z_0 = x15;
-      dang_eval_x_1 = x15;
-      dang_eval_y_1 = x11*x24;
-      dang_eval_z_1 = x0*x27;
-      dang_eval_x_2 = x16*x20;
-      dang_eval_y_2 = x20*x25;
-      dang_eval_z_2 = x28*(x19 + x29);
-      dang_eval_x_3 = x11*x14;
-      dang_eval_y_3 = x15;
-      dang_eval_z_3 = x22*x27;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = sqrt_3*x16*(x17 + x21);
-      dang_eval_y_0 = 0.5*x0*(x18 + x21);
-      dang_eval_z_0 = 0.5*radial_eval_alpha*x11*x13;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_laplacian.hpp
deleted file mode 100644
index 7c73197..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l2_laplacian.hpp
+++ /dev/null
@@ -1,277 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_laplacian_2(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = sqrt_3*y; 
-      const auto x1 = x*x0; 
-      const auto x2 = x0*z; 
-      const auto x3 = 0.5*radial_eval; 
-      const auto x4 = x*x; 
-      const auto x5 = y*y; 
-      const auto x6 = z*z; 
-      const auto x7 = -x4 - x5 + 2.0*x6; 
-      const auto x8 = sqrt_3*z; 
-      const auto x9 = x*x8; 
-      const auto x10 = x4 - x5; 
-      const auto x11 = radial_eval + radial_eval_alpha*x4; 
-      const auto x12 = radial_eval_alpha*x1*z; 
-      const auto x13 = 0.5*x; 
-      const auto x14 = 2.0*radial_eval; 
-      const auto x15 = -x14; 
-      const auto x16 = radial_eval_alpha*x7; 
-      const auto x17 = x15 + x16; 
-      const auto x18 = radial_eval_alpha*x10; 
-      const auto x19 = sqrt_3*x; 
-      const auto x20 = radial_eval_alpha*x5; 
-      const auto x21 = radial_eval + x20; 
-      const auto x22 = 0.5*y; 
-      const auto x23 = radial_eval_alpha*x6; 
-      const auto x24 = radial_eval + x23; 
-      const auto x25 = 0.5*z; 
-      const auto x26 = 4.0*radial_eval; 
-      const auto x27 = 3.0*radial_eval_alpha; 
-      const auto x28 = radial_eval_alpha_squared*x4; 
-      const auto x29 = x27 + x28; 
-      const auto x30 = radial_eval_alpha + x28; 
-      const auto x31 = x2*x30; 
-      const auto x32 = 4.0*radial_eval_alpha; 
-      const auto x33 = x32*x4; 
-      const auto x34 = x14 + x33; 
-      const auto x35 = 0.5*sqrt_3; 
-      const auto x36 = x10*x30; 
-      const auto x37 = radial_eval_alpha_squared*x5; 
-      const auto x38 = radial_eval_alpha + x37; 
-      const auto x39 = x38*x9; 
-      const auto x40 = radial_eval_alpha_squared*x7; 
-      const auto x41 = radial_eval_alpha_squared*x6; 
-      const auto x42 = radial_eval_alpha + x41; 
-      const auto x43 = x1*x42; 
-      const auto x44 = 2.0*radial_eval_alpha; 
-      const auto x45 = x40 + x44; 
-      const auto x46 = radial_eval_alpha_squared*x10; 
-      const auto x47 = x27 + x37; 
-      const auto x48 = x32*x5; 
-      const auto x49 = x14 + x48; 
-      const auto x50 = x27 + x41; 
-      const auto x51 = 8.0*radial_eval_alpha*x6 + x42*x7; 
-      const auto x52 = x10*x42; 
-      const auto x53 = 7.0*radial_eval_alpha + x28 + x37 + x41; 
-      const auto x54 = -x48; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1;
-      basis_eval[ipt + 1*npts] = radial_eval*x2;
-      basis_eval[ipt + 2*npts] = x3*x7;
-      basis_eval[ipt + 3*npts] = radial_eval*x9;
-      basis_eval[ipt + 4*npts] = sqrt_3*x10*x3;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x0*x11;
-      basis_x_eval[ipt + 1*npts] = x12;
-      basis_x_eval[ipt + 2*npts] = x13*x17;
-      basis_x_eval[ipt + 3*npts] = x11*x8;
-      basis_x_eval[ipt + 4*npts] = sqrt_3*x13*(x14 + x18);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x19*x21;
-      basis_y_eval[ipt + 1*npts] = x21*x8;
-      basis_y_eval[ipt + 2*npts] = x17*x22;
-      basis_y_eval[ipt + 3*npts] = x12;
-      basis_y_eval[ipt + 4*npts] = 0.5*x0*(x15 + x18);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x12;
-      basis_z_eval[ipt + 1*npts] = x0*x24;
-      basis_z_eval[ipt + 2*npts] = x25*(x16 + x26);
-      basis_z_eval[ipt + 3*npts] = x19*x24;
-      basis_z_eval[ipt + 4*npts] = 0.5*radial_eval_alpha*x10*x8;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x1*x53;
-      basis_lapl_eval[ipt + 1*npts] = x2*x53;
-      basis_lapl_eval[ipt + 2*npts] = 0.5*x30*x7 - 0.5*x33 + 0.5*x38*x7 + 0.5*x51 + 0.5*x54;
-      basis_lapl_eval[ipt + 3*npts] = x53*x9;
-      basis_lapl_eval[ipt + 4*npts] = x35*(x10*x38 + x33 + x36 + x52 + x54);
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1;
-      ang_eval_1 = radial_eval*x2;
-      ang_eval_2 = x3*x7;
-      ang_eval_3 = radial_eval*x9;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_3*x10*x3;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x0*x11;
-      dang_eval_y_0 = x19*x21;
-      dang_eval_z_0 = x12;
-      dang_eval_x_1 = x12;
-      dang_eval_y_1 = x21*x8;
-      dang_eval_z_1 = x0*x24;
-      dang_eval_x_2 = x13*x17;
-      dang_eval_y_2 = x17*x22;
-      dang_eval_z_2 = x25*(x16 + x26);
-      dang_eval_x_3 = x11*x8;
-      dang_eval_y_3 = x12;
-      dang_eval_z_3 = x19*x24;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = sqrt_3*x13*(x14 + x18);
-      dang_eval_y_0 = 0.5*x0*(x15 + x18);
-      dang_eval_z_0 = 0.5*radial_eval_alpha*x10*x8;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3.hpp
deleted file mode 100644
index 8c189f2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3.hpp
+++ /dev/null
@@ -1,167 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_spherical_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-      const auto x0 = 0.25*radial_eval; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x; 
-      const auto x3 = 3.0*x2; 
-      const auto x4 = y*y; 
-      const auto x5 = -x4; 
-      const auto x6 = radial_eval*z; 
-      const auto x7 = z*z; 
-      const auto x8 = -x2 - x4 + 4.0*x7; 
-      const auto x9 = 0.5*x6; 
-      const auto x10 = 3.0*x4; 
-      const auto x11 = x*x0; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = sqrt_10*x1*(x3 + x5);
-      basis_eval[ipt + 1*npts] = sqrt_15*x*x6*y;
-      basis_eval[ipt + 2*npts] = sqrt_6*x1*x8;
-      basis_eval[ipt + 3*npts] = -x9*(x10 + x3 - 2.0*x7);
-      basis_eval[ipt + 4*npts] = sqrt_6*x11*x8;
-      basis_eval[ipt + 5*npts] = sqrt_15*x9*(x2 + x5);
-      basis_eval[ipt + 6*npts] = sqrt_10*x11*(-x10 + x2);
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = sqrt_10*x1*(x3 + x5);
-      ang_eval_1 = sqrt_15*x*x6*y;
-      ang_eval_2 = sqrt_6*x1*x8;
-      ang_eval_3 = -x9*(x10 + x3 - 2.0*x7);
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_6*x11*x8;
-      ang_eval_1 = sqrt_15*x9*(x2 + x5);
-      ang_eval_2 = sqrt_10*x11*(-x10 + x2);
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_gradient.hpp
deleted file mode 100644
index bfc1379..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_gradient.hpp
+++ /dev/null
@@ -1,274 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(256,2) void collocation_device_shell_to_task_kernel_spherical_gradient_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[8][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[8][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = 0.25*sqrt_10; 
-      const auto x1 = radial_eval*y; 
-      const auto x2 = x*x; 
-      const auto x3 = 3.0*x2; 
-      const auto x4 = y*y; 
-      const auto x5 = -x4; 
-      const auto x6 = x3 + x5; 
-      const auto x7 = sqrt_15*z; 
-      const auto x8 = x7*y; 
-      const auto x9 = radial_eval*x; 
-      const auto x10 = 0.25*sqrt_6; 
-      const auto x11 = z*z; 
-      const auto x12 = -4.0*x11; 
-      const auto x13 = x12 + x4; 
-      const auto x14 = -x13 - x2; 
-      const auto x15 = 0.5*z; 
-      const auto x16 = 3.0*x4; 
-      const auto x17 = -2.0*x11; 
-      const auto x18 = -x16 - x17 - x3; 
-      const auto x19 = 0.5*sqrt_15; 
-      const auto x20 = x19*z; 
-      const auto x21 = x2 + x5; 
-      const auto x22 = -x16; 
-      const auto x23 = x2 + x22; 
-      const auto x24 = x*y; 
-      const auto x25 = x0*x24; 
-      const auto x26 = 6.0*radial_eval; 
-      const auto x27 = 2.0*radial_eval; 
-      const auto x28 = -x27; 
-      const auto x29 = radial_eval_alpha*x14; 
-      const auto x30 = x10*x24*(x28 + x29); 
-      const auto x31 = -x26; 
-      const auto x32 = radial_eval_alpha*x18 + x31; 
-      const auto x33 = radial_eval_alpha*x21; 
-      const auto x34 = radial_eval*(x22 + x3); 
-      const auto x35 = radial_eval_alpha*x0*z; 
-      const auto x36 = x10*z; 
-      const auto x37 = 8.0*radial_eval + x29; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = x0*x1*x6;
-      basis_eval[ipt + 1*npts] = x8*x9;
-      basis_eval[ipt + 2*npts] = x1*x10*x14;
-      basis_eval[ipt + 3*npts] = radial_eval*x15*x18;
-      basis_eval[ipt + 4*npts] = x10*x14*x9;
-      basis_eval[ipt + 5*npts] = radial_eval*x20*x21;
-      basis_eval[ipt + 6*npts] = x0*x23*x9;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x25*(radial_eval_alpha*x6 + x26);
-      basis_x_eval[ipt + 1*npts] = x8*(radial_eval + radial_eval_alpha*x2);
-      basis_x_eval[ipt + 2*npts] = x30;
-      basis_x_eval[ipt + 3*npts] = x*x15*x32;
-      basis_x_eval[ipt + 4*npts] = -x10*(radial_eval*(x13 + x3) - radial_eval_alpha*x14*x2);
-      basis_x_eval[ipt + 5*npts] = x*x20*(x27 + x33);
-      basis_x_eval[ipt + 6*npts] = x0*(radial_eval_alpha*x2*x23 + x34);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*(radial_eval_alpha*x4*x6 + x34);
-      basis_y_eval[ipt + 1*npts] = x*x7*(radial_eval + radial_eval_alpha*x4);
-      basis_y_eval[ipt + 2*npts] = -x10*(radial_eval*(x12 + x16 + x2) - radial_eval_alpha*x14*x4);
-      basis_y_eval[ipt + 3*npts] = x15*x32*y;
-      basis_y_eval[ipt + 4*npts] = x30;
-      basis_y_eval[ipt + 5*npts] = x20*y*(x28 + x33);
-      basis_y_eval[ipt + 6*npts] = x25*(radial_eval_alpha*x23 + x31);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x35*x6*y;
-      basis_z_eval[ipt + 1*npts] = sqrt_15*x24*(radial_eval + radial_eval_alpha*x11);
-      basis_z_eval[ipt + 2*npts] = x36*x37*y;
-      basis_z_eval[ipt + 3*npts] = -1.5*radial_eval*(x17 + x2 + x4) + 0.5*radial_eval_alpha*x11*x18;
-      basis_z_eval[ipt + 4*npts] = x*x36*x37;
-      basis_z_eval[ipt + 5*npts] = x19*x21*(radial_eval + radial_eval_alpha*x11);
-      basis_z_eval[ipt + 6*npts] = x*x23*x35;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = x0*x1*x6;
-      ang_eval_1 = x8*x9;
-      ang_eval_2 = x1*x10*x14;
-      ang_eval_3 = radial_eval*x15*x18;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x10*x14*x9;
-      ang_eval_1 = radial_eval*x20*x21;
-      ang_eval_2 = x0*x23*x9;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x25*(radial_eval_alpha*x6 + x26);
-      dang_eval_y_0 = x0*(radial_eval_alpha*x4*x6 + x34);
-      dang_eval_z_0 = x35*x6*y;
-      dang_eval_x_1 = x8*(radial_eval + radial_eval_alpha*x2);
-      dang_eval_y_1 = x*x7*(radial_eval + radial_eval_alpha*x4);
-      dang_eval_z_1 = sqrt_15*x24*(radial_eval + radial_eval_alpha*x11);
-      dang_eval_x_2 = x30;
-      dang_eval_y_2 = -x10*(radial_eval*(x12 + x16 + x2) - radial_eval_alpha*x14*x4);
-      dang_eval_z_2 = x36*x37*y;
-      dang_eval_x_3 = x*x15*x32;
-      dang_eval_y_3 = x15*x32*y;
-      dang_eval_z_3 = -1.5*radial_eval*(x17 + x2 + x4) + 0.5*radial_eval_alpha*x11*x18;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = -x10*(radial_eval*(x13 + x3) - radial_eval_alpha*x14*x2);
-      dang_eval_y_0 = x30;
-      dang_eval_z_0 = x*x36*x37;
-      dang_eval_x_1 = x*x20*(x27 + x33);
-      dang_eval_y_1 = x20*y*(x28 + x33);
-      dang_eval_z_1 = x19*x21*(radial_eval + radial_eval_alpha*x11);
-      dang_eval_x_2 = x0*(radial_eval_alpha*x2*x23 + x34);
-      dang_eval_y_2 = x25*(radial_eval_alpha*x23 + x31);
-      dang_eval_z_2 = x*x23*x35;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_hessian.hpp
deleted file mode 100644
index b85b6cb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_hessian.hpp
+++ /dev/null
@@ -1,407 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_hessian_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = 0.25*sqrt_10; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x; 
-      const auto x3 = 3.0*x2; 
-      const auto x4 = y*y; 
-      const auto x5 = -x4; 
-      const auto x6 = x3 + x5; 
-      const auto x7 = sqrt_15*z; 
-      const auto x8 = x7*y; 
-      const auto x9 = x*x8; 
-      const auto x10 = 0.25*sqrt_6; 
-      const auto x11 = x10*y; 
-      const auto x12 = z*z; 
-      const auto x13 = -4.0*x12; 
-      const auto x14 = x13 + x4; 
-      const auto x15 = -x14 - x2; 
-      const auto x16 = 0.5*z; 
-      const auto x17 = 3.0*x4; 
-      const auto x18 = -2.0*x12; 
-      const auto x19 = -x17 - x18 - x3; 
-      const auto x20 = x*x10; 
-      const auto x21 = 0.5*sqrt_15; 
-      const auto x22 = x21*z; 
-      const auto x23 = x2 + x5; 
-      const auto x24 = x*x0; 
-      const auto x25 = -x17; 
-      const auto x26 = x2 + x25; 
-      const auto x27 = x*x1; 
-      const auto x28 = 6.0*radial_eval; 
-      const auto x29 = radial_eval + radial_eval_alpha*x2; 
-      const auto x30 = x*x11; 
-      const auto x31 = 2.0*radial_eval; 
-      const auto x32 = -x31; 
-      const auto x33 = radial_eval_alpha*x15; 
-      const auto x34 = x30*(x32 + x33); 
-      const auto x35 = x*x16; 
-      const auto x36 = -x28; 
-      const auto x37 = radial_eval_alpha*x19 + x36; 
-      const auto x38 = -x14 - x3; 
-      const auto x39 = x15*x2; 
-      const auto x40 = x*x22; 
-      const auto x41 = radial_eval_alpha*x23; 
-      const auto x42 = x31 + x41; 
-      const auto x43 = x25 + x3; 
-      const auto x44 = radial_eval*x43; 
-      const auto x45 = x2*x26; 
-      const auto x46 = x4*x6; 
-      const auto x47 = radial_eval_alpha*x4; 
-      const auto x48 = radial_eval + x47; 
-      const auto x49 = -x13 - x17 - x2; 
-      const auto x50 = x15*x4; 
-      const auto x51 = x32 + x41; 
-      const auto x52 = radial_eval_alpha*z; 
-      const auto x53 = sqrt_15*y; 
-      const auto x54 = radial_eval_alpha*x12; 
-      const auto x55 = 8.0*radial_eval; 
-      const auto x56 = x33 + x55; 
-      const auto x57 = -x18 - x2 - x4; 
-      const auto x58 = x12*x19; 
-      const auto x59 = x12*x23; 
-      const auto x60 = radial_eval_alpha_squared*x2; 
-      const auto x61 = radial_eval_alpha + x60; 
-      const auto x62 = x6*x61; 
-      const auto x63 = 12.0*radial_eval_alpha; 
-      const auto x64 = x2*x63; 
-      const auto x65 = x28 + x64; 
-      const auto x66 = 3.0*radial_eval_alpha; 
-      const auto x67 = 4.0*radial_eval_alpha; 
-      const auto x68 = x2*x67; 
-      const auto x69 = x31 + x68; 
-      const auto x70 = x15*x61; 
-      const auto x71 = 2.0*radial_eval_alpha; 
-      const auto x72 = x38*x71 + x70; 
-      const auto x73 = x23*x61; 
-      const auto x74 = x43*x71; 
-      const auto x75 = x26*x61 + x74; 
-      const auto x76 = 6.0*radial_eval_alpha; 
-      const auto x77 = radial_eval_alpha*x43; 
-      const auto x78 = radial_eval_alpha_squared*x46 + x77; 
-      const auto x79 = radial_eval_alpha*x49 + radial_eval_alpha_squared*x50; 
-      const auto x80 = radial_eval_alpha*x38 + radial_eval_alpha_squared*x39; 
-      const auto x81 = radial_eval_alpha_squared*x45 + x77; 
-      const auto x82 = x27*z; 
-      const auto x83 = x30*z*(radial_eval_alpha_squared*x15 + x76); 
-      const auto x84 = radial_eval_alpha_squared*x58 - x12*x76 + x36 + x57*x66; 
-      const auto x85 = x10*z; 
-      const auto x86 = 8.0*radial_eval_alpha; 
-      const auto x87 = x12*x71; 
-      const auto x88 = radial_eval_alpha_squared*x59; 
-      const auto x89 = x0*z; 
-      const auto x90 = radial_eval_alpha_squared*x4; 
-      const auto x91 = radial_eval_alpha + x90; 
-      const auto x92 = x6*x91 + x74; 
-      const auto x93 = x15*x91; 
-      const auto x94 = x49*x71 + x93; 
-      const auto x95 = x4*x63; 
-      const auto x96 = x28 + x95; 
-      const auto x97 = x4*x67; 
-      const auto x98 = x31 + x97; 
-      const auto x99 = radial_eval_alpha_squared*x12; 
-      const auto x100 = radial_eval_alpha + x99; 
-      const auto x101 = x100*x6; 
-      const auto x102 = 16.0*radial_eval_alpha*x12 + x100*x15; 
-      const auto x103 = x102 + x55; 
-      const auto x104 = x100*x19 + x57*x76; 
-      const auto x105 = x23*(x100 + x71); 
-      const auto x106 = x100*x26; 
-      const auto x107 = -x95; 
-      const auto x108 = -x97; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1*x6;
-      basis_eval[ipt + 1*npts] = radial_eval*x9;
-      basis_eval[ipt + 2*npts] = radial_eval*x11*x15;
-      basis_eval[ipt + 3*npts] = radial_eval*x16*x19;
-      basis_eval[ipt + 4*npts] = radial_eval*x15*x20;
-      basis_eval[ipt + 5*npts] = radial_eval*x22*x23;
-      basis_eval[ipt + 6*npts] = radial_eval*x24*x26;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x27*(radial_eval_alpha*x6 + x28);
-      basis_x_eval[ipt + 1*npts] = x29*x8;
-      basis_x_eval[ipt + 2*npts] = x34;
-      basis_x_eval[ipt + 3*npts] = x35*x37;
-      basis_x_eval[ipt + 4*npts] = x10*(radial_eval*x38 + radial_eval_alpha*x39);
-      basis_x_eval[ipt + 5*npts] = x40*x42;
-      basis_x_eval[ipt + 6*npts] = x0*(radial_eval_alpha*x45 + x44);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*(radial_eval_alpha*x46 + x44);
-      basis_y_eval[ipt + 1*npts] = x*x48*x7;
-      basis_y_eval[ipt + 2*npts] = x10*(radial_eval*x49 + radial_eval_alpha*x50);
-      basis_y_eval[ipt + 3*npts] = x16*x37*y;
-      basis_y_eval[ipt + 4*npts] = x34;
-      basis_y_eval[ipt + 5*npts] = x22*x51*y;
-      basis_y_eval[ipt + 6*npts] = x27*(radial_eval_alpha*x26 + x36);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x1*x52*x6;
-      basis_z_eval[ipt + 1*npts] = x*x53*(radial_eval + x54);
-      basis_z_eval[ipt + 2*npts] = x11*x56*z;
-      basis_z_eval[ipt + 3*npts] = 1.5*radial_eval*x57 + 0.5*radial_eval_alpha*x58;
-      basis_z_eval[ipt + 4*npts] = x20*x56*z;
-      basis_z_eval[ipt + 5*npts] = x21*(radial_eval*x23 + radial_eval_alpha*x59);
-      basis_z_eval[ipt + 6*npts] = x24*x26*x52;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x1*(x62 + x65);
-      basis_xx_eval[ipt + 1*npts] = x9*(x60 + x66);
-      basis_xx_eval[ipt + 2*npts] = x11*(x15*x61 - x69);
-      basis_xx_eval[ipt + 3*npts] = x16*(x19*x61 - x65);
-      basis_xx_eval[ipt + 4*npts] = x20*(x36 + x72);
-      basis_xx_eval[ipt + 5*npts] = x22*(x69 + x73);
-      basis_xx_eval[ipt + 6*npts] = x24*(x28 + x75);
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x24*(x28 + x4*x76 + x78);
-      basis_xy_eval[ipt + 1*npts] = x7*(radial_eval_alpha_squared*x2*x4 + x29 + x47);
-      basis_xy_eval[ipt + 2*npts] = x20*(x32 - x4*x71 + x79);
-      basis_xy_eval[ipt + 3*npts] = x35*y*(radial_eval_alpha_squared*x19 - x63);
-      basis_xy_eval[ipt + 4*npts] = x11*(-x2*x71 + x32 + x80);
-      basis_xy_eval[ipt + 5*npts] = radial_eval_alpha_squared*x23*x40*y;
-      basis_xy_eval[ipt + 6*npts] = x1*(-x2*x76 + x36 + x81);
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x82*(radial_eval_alpha_squared*x6 + x76);
-      basis_xz_eval[ipt + 1*npts] = x53*(radial_eval_alpha_squared*x12*x2 + x29 + x54);
-      basis_xz_eval[ipt + 2*npts] = x83;
-      basis_xz_eval[ipt + 3*npts] = 0.5*x*x84;
-      basis_xz_eval[ipt + 4*npts] = x85*(x2*x86 + x55 + x80);
-      basis_xz_eval[ipt + 5*npts] = x*x21*(x42 + x87 + x88);
-      basis_xz_eval[ipt + 6*npts] = x81*x89;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x1*(x36 + x92);
-      basis_yy_eval[ipt + 1*npts] = x9*(x66 + x90);
-      basis_yy_eval[ipt + 2*npts] = x11*(x36 + x94);
-      basis_yy_eval[ipt + 3*npts] = x16*(x19*x91 - x96);
-      basis_yy_eval[ipt + 4*npts] = x20*(x15*x91 - x98);
-      basis_yy_eval[ipt + 5*npts] = x22*(x23*x91 - x98);
-      basis_yy_eval[ipt + 6*npts] = x24*(x26*x91 - x96);
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x78*x89;
-      basis_yz_eval[ipt + 1*npts] = sqrt_15*x*(radial_eval_alpha_squared*x12*x4 + x48 + x54);
-      basis_yz_eval[ipt + 2*npts] = x85*(x4*x86 + x55 + x79);
-      basis_yz_eval[ipt + 3*npts] = 0.5*x84*y;
-      basis_yz_eval[ipt + 4*npts] = x83;
-      basis_yz_eval[ipt + 5*npts] = x21*y*(x51 - x87 + x88);
-      basis_yz_eval[ipt + 6*npts] = x82*(radial_eval_alpha_squared*x26 - x76);
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x1*x101;
-      basis_zz_eval[ipt + 1*npts] = x9*(x66 + x99);
-      basis_zz_eval[ipt + 2*npts] = x103*x11;
-      basis_zz_eval[ipt + 3*npts] = x16*(12.0*radial_eval + x104);
-      basis_zz_eval[ipt + 4*npts] = x103*x20;
-      basis_zz_eval[ipt + 5*npts] = x105*x22;
-      basis_zz_eval[ipt + 6*npts] = x106*x24;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1*x6;
-      ang_eval_1 = radial_eval*x9;
-      ang_eval_2 = radial_eval*x11*x15;
-      ang_eval_3 = radial_eval*x16*x19;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x15*x20;
-      ang_eval_1 = radial_eval*x22*x23;
-      ang_eval_2 = radial_eval*x24*x26;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x27*(radial_eval_alpha*x6 + x28);
-      dang_eval_y_0 = x0*(radial_eval_alpha*x46 + x44);
-      dang_eval_z_0 = x1*x52*x6;
-      dang_eval_x_1 = x29*x8;
-      dang_eval_y_1 = x*x48*x7;
-      dang_eval_z_1 = x*x53*(radial_eval + x54);
-      dang_eval_x_2 = x34;
-      dang_eval_y_2 = x10*(radial_eval*x49 + radial_eval_alpha*x50);
-      dang_eval_z_2 = x11*x56*z;
-      dang_eval_x_3 = x35*x37;
-      dang_eval_y_3 = x16*x37*y;
-      dang_eval_z_3 = 1.5*radial_eval*x57 + 0.5*radial_eval_alpha*x58;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x10*(radial_eval*x38 + radial_eval_alpha*x39);
-      dang_eval_y_0 = x34;
-      dang_eval_z_0 = x20*x56*z;
-      dang_eval_x_1 = x40*x42;
-      dang_eval_y_1 = x22*x51*y;
-      dang_eval_z_1 = x21*(radial_eval*x23 + radial_eval_alpha*x59);
-      dang_eval_x_2 = x0*(radial_eval_alpha*x45 + x44);
-      dang_eval_y_2 = x27*(radial_eval_alpha*x26 + x36);
-      dang_eval_z_2 = x24*x26*x52;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_lapgrad.hpp
deleted file mode 100644
index a58a8b4..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_lapgrad.hpp
+++ /dev/null
@@ -1,514 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_lapgrad_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = 0.25*sqrt_10; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x; 
-      const auto x3 = x2; 
-      const auto x4 = 3.0*x3; 
-      const auto x5 = y*y; 
-      const auto x6 = x5; 
-      const auto x7 = -x6; 
-      const auto x8 = x4 + x7; 
-      const auto x9 = sqrt_15*z; 
-      const auto x10 = x9*y; 
-      const auto x11 = x*x10; 
-      const auto x12 = 0.25*sqrt_6; 
-      const auto x13 = x12*y; 
-      const auto x14 = z*z; 
-      const auto x15 = x14; 
-      const auto x16 = -4.0*x15; 
-      const auto x17 = x16 + x6; 
-      const auto x18 = -x17 - x3; 
-      const auto x19 = 0.5*z; 
-      const auto x20 = 3.0*x6; 
-      const auto x21 = -2.0*x15; 
-      const auto x22 = -x20 - x21 - x4; 
-      const auto x23 = x*x12; 
-      const auto x24 = 0.5*sqrt_15; 
-      const auto x25 = x24*z; 
-      const auto x26 = x3 + x7; 
-      const auto x27 = x*x0; 
-      const auto x28 = -x20; 
-      const auto x29 = x28 + x3; 
-      const auto x30 = x*x1; 
-      const auto x31 = 6.0*radial_eval; 
-      const auto x32 = radial_eval + radial_eval_alpha*x3; 
-      const auto x33 = x*x13; 
-      const auto x34 = 2.0*radial_eval; 
-      const auto x35 = -x34; 
-      const auto x36 = radial_eval_alpha*x18; 
-      const auto x37 = x33*(x35 + x36); 
-      const auto x38 = x*x19; 
-      const auto x39 = -x31; 
-      const auto x40 = radial_eval_alpha*x22 + x39; 
-      const auto x41 = -x17 - x4; 
-      const auto x42 = x18*x3; 
-      const auto x43 = x*x25; 
-      const auto x44 = radial_eval_alpha*x26; 
-      const auto x45 = x34 + x44; 
-      const auto x46 = x28 + x4; 
-      const auto x47 = radial_eval*x46; 
-      const auto x48 = x29*x3; 
-      const auto x49 = x6*x8; 
-      const auto x50 = x*x9; 
-      const auto x51 = radial_eval_alpha*x6; 
-      const auto x52 = radial_eval + x51; 
-      const auto x53 = -x16 - x20 - x3; 
-      const auto x54 = x18*x6; 
-      const auto x55 = x35 + x44; 
-      const auto x56 = radial_eval_alpha*z; 
-      const auto x57 = sqrt_15*y; 
-      const auto x58 = x*x57; 
-      const auto x59 = radial_eval_alpha*x15; 
-      const auto x60 = 8.0*radial_eval; 
-      const auto x61 = x36 + x60; 
-      const auto x62 = -x21 - x3 - x6; 
-      const auto x63 = x15*x22; 
-      const auto x64 = x15*x26; 
-      const auto x65 = radial_eval_alpha_squared*x3; 
-      const auto x66 = radial_eval_alpha + x65; 
-      const auto x67 = x66*x8; 
-      const auto x68 = 12.0*radial_eval_alpha; 
-      const auto x69 = x3*x68; 
-      const auto x70 = x31 + x69; 
-      const auto x71 = 3.0*radial_eval_alpha; 
-      const auto x72 = 4.0*radial_eval_alpha; 
-      const auto x73 = x3*x72; 
-      const auto x74 = x34 + x73; 
-      const auto x75 = x18*x66; 
-      const auto x76 = 2.0*radial_eval_alpha; 
-      const auto x77 = x41*x76 + x75; 
-      const auto x78 = x26*x66; 
-      const auto x79 = x46*x76; 
-      const auto x80 = x29*x66 + x79; 
-      const auto x81 = 6.0*radial_eval_alpha; 
-      const auto x82 = radial_eval_alpha*x46; 
-      const auto x83 = radial_eval_alpha_squared*x49 + x82; 
-      const auto x84 = x3*x6; 
-      const auto x85 = radial_eval_alpha*x53 + radial_eval_alpha_squared*x54; 
-      const auto x86 = radial_eval_alpha*x41 + radial_eval_alpha_squared*x42; 
-      const auto x87 = radial_eval_alpha_squared*x48 + x82; 
-      const auto x88 = x30*z; 
-      const auto x89 = x15*x3; 
-      const auto x90 = x33*z*(radial_eval_alpha_squared*x18 + x81); 
-      const auto x91 = radial_eval_alpha_squared*x63 - x15*x81 + x39 + x62*x71; 
-      const auto x92 = x12*z; 
-      const auto x93 = 8.0*radial_eval_alpha; 
-      const auto x94 = x15*x76; 
-      const auto x95 = radial_eval_alpha_squared*x64; 
-      const auto x96 = x0*z; 
-      const auto x97 = radial_eval_alpha_squared*x6; 
-      const auto x98 = radial_eval_alpha + x97; 
-      const auto x99 = x79 + x8*x98; 
-      const auto x100 = x18*x98; 
-      const auto x101 = x100 + x53*x76; 
-      const auto x102 = x6*x68; 
-      const auto x103 = x102 + x31; 
-      const auto x104 = x6*x72; 
-      const auto x105 = x104 + x34; 
-      const auto x106 = x15*x6; 
-      const auto x107 = radial_eval_alpha_squared*x15; 
-      const auto x108 = radial_eval_alpha + x107; 
-      const auto x109 = x108*x8; 
-      const auto x110 = 16.0*radial_eval_alpha*x15; 
-      const auto x111 = x108*x18 + x110; 
-      const auto x112 = x111 + x60; 
-      const auto x113 = x108*x22 + x62*x81; 
-      const auto x114 = x108*x26; 
-      const auto x115 = x114 + x26*x76; 
-      const auto x116 = x108*x29; 
-      const auto x117 = x107 + x97; 
-      const auto x118 = -x73; 
-      const auto x119 = -x102; 
-      const auto x120 = -x69; 
-      const auto x121 = x119 + x120; 
-      const auto x122 = -x104; 
-      const auto x123 = x122 + x26*x98 + x73 + x78; 
-      const auto x124 = 3.0*radial_eval_alpha_squared; 
-      const auto x125 = x*(radial_eval_alpha_cubed*(x*x) + x124); 
-      const auto x126 = radial_eval_alpha_cubed*x6 + radial_eval_alpha_squared; 
-      const auto x127 = x126*x8; 
-      const auto x128 = radial_eval_alpha_cubed*x15 + radial_eval_alpha_squared; 
-      const auto x129 = x128*x8; 
-      const auto x130 = 2.0*x; 
-      const auto x131 = radial_eval_alpha_squared*x130; 
-      const auto x132 = 6.0*x; 
-      const auto x133 = 24.0*radial_eval_alpha; 
-      const auto x134 = x*x133 + 18.0*x*x66 + x108*x132 + x132*x98; 
-      const auto x135 = 4.0*radial_eval_alpha_squared; 
-      const auto x136 = x*x93; 
-      const auto x137 = 16.0*radial_eval_alpha_squared; 
-      const auto x138 = x132*x66; 
-      const auto x139 = x130*x98; 
-      const auto x140 = x108*x130; 
-      const auto x141 = x126*x18; 
-      const auto x142 = x128*x18; 
-      const auto x143 = x125*x18; 
-      const auto x144 = 12.0*radial_eval_alpha_squared; 
-      const auto x145 = x110 - x135*x84; 
-      const auto x146 = x126*x26; 
-      const auto x147 = x128*x26; 
-      const auto x148 = x46*x98; 
-      const auto x149 = x46*x66; 
-      const auto x150 = x126*x29; 
-      const auto x151 = x128*x29; 
-      const auto x152 = x144*x84; 
-      const auto x153 = x108*x46 + x119 + x69; 
-      const auto x154 = y*(radial_eval_alpha_cubed*(y*y) + x124); 
-      const auto x155 = radial_eval_alpha_cubed*x3 + radial_eval_alpha_squared; 
-      const auto x156 = x155*x8; 
-      const auto x157 = x65 + x81; 
-      const auto x158 = x154*x18; 
-      const auto x159 = x155*x18; 
-      const auto x160 = x133*y; 
-      const auto x161 = 6.0*y; 
-      const auto x162 = x161*x66; 
-      const auto x163 = 18.0*x98*y; 
-      const auto x164 = x108*x161; 
-      const auto x165 = 2.0*y; 
-      const auto x166 = radial_eval_alpha_squared*x165; 
-      const auto x167 = -x108*x165 - x161*x98 - x165*x66 - x93*y; 
-      const auto x168 = x155*x26; 
-      const auto x169 = x155*x29; 
-      const auto x170 = x144*z; 
-      const auto x171 = 2.0*radial_eval_alpha_squared*z; 
-      const auto x172 = x171*x46; 
-      const auto x173 = z*(radial_eval_alpha_cubed*(z*z) + x124); 
-      const auto x174 = x135*z; 
-      const auto x175 = 8.0*z; 
-      const auto x176 = 24.0*x108*z + x141*z + x159*z + x173*x18 + x175*x66 + x175*x98 + 32.0*x56; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1*x8;
-      basis_eval[ipt + 1*npts] = radial_eval*x11;
-      basis_eval[ipt + 2*npts] = radial_eval*x13*x18;
-      basis_eval[ipt + 3*npts] = radial_eval*x19*x22;
-      basis_eval[ipt + 4*npts] = radial_eval*x18*x23;
-      basis_eval[ipt + 5*npts] = radial_eval*x25*x26;
-      basis_eval[ipt + 6*npts] = radial_eval*x27*x29;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x30*(radial_eval_alpha*x8 + x31);
-      basis_x_eval[ipt + 1*npts] = x10*x32;
-      basis_x_eval[ipt + 2*npts] = x37;
-      basis_x_eval[ipt + 3*npts] = x38*x40;
-      basis_x_eval[ipt + 4*npts] = x12*(radial_eval*x41 + radial_eval_alpha*x42);
-      basis_x_eval[ipt + 5*npts] = x43*x45;
-      basis_x_eval[ipt + 6*npts] = x0*(radial_eval_alpha*x48 + x47);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*(radial_eval_alpha*x49 + x47);
-      basis_y_eval[ipt + 1*npts] = x50*x52;
-      basis_y_eval[ipt + 2*npts] = x12*(radial_eval*x53 + radial_eval_alpha*x54);
-      basis_y_eval[ipt + 3*npts] = x19*x40*y;
-      basis_y_eval[ipt + 4*npts] = x37;
-      basis_y_eval[ipt + 5*npts] = x25*x55*y;
-      basis_y_eval[ipt + 6*npts] = x30*(radial_eval_alpha*x29 + x39);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x1*x56*x8;
-      basis_z_eval[ipt + 1*npts] = x58*(radial_eval + x59);
-      basis_z_eval[ipt + 2*npts] = x13*x61*z;
-      basis_z_eval[ipt + 3*npts] = 1.5*radial_eval*x62 + 0.5*radial_eval_alpha*x63;
-      basis_z_eval[ipt + 4*npts] = x23*x61*z;
-      basis_z_eval[ipt + 5*npts] = x24*(radial_eval*x26 + radial_eval_alpha*x64);
-      basis_z_eval[ipt + 6*npts] = x27*x29*x56;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x1*(x67 + x70);
-      basis_xx_eval[ipt + 1*npts] = x11*(x65 + x71);
-      basis_xx_eval[ipt + 2*npts] = x13*(x18*x66 - x74);
-      basis_xx_eval[ipt + 3*npts] = x19*(x22*x66 - x70);
-      basis_xx_eval[ipt + 4*npts] = x23*(x39 + x77);
-      basis_xx_eval[ipt + 5*npts] = x25*(x74 + x78);
-      basis_xx_eval[ipt + 6*npts] = x27*(x31 + x80);
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x27*(x31 + x6*x81 + x83);
-      basis_xy_eval[ipt + 1*npts] = x9*(radial_eval_alpha_squared*x84 + x32 + x51);
-      basis_xy_eval[ipt + 2*npts] = x23*(x35 - x6*x76 + x85);
-      basis_xy_eval[ipt + 3*npts] = x38*y*(radial_eval_alpha_squared*x22 - x68);
-      basis_xy_eval[ipt + 4*npts] = x13*(-x3*x76 + x35 + x86);
-      basis_xy_eval[ipt + 5*npts] = radial_eval_alpha_squared*x26*x43*y;
-      basis_xy_eval[ipt + 6*npts] = x1*(-x3*x81 + x39 + x87);
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x88*(radial_eval_alpha_squared*x8 + x81);
-      basis_xz_eval[ipt + 1*npts] = x57*(radial_eval_alpha_squared*x89 + x32 + x59);
-      basis_xz_eval[ipt + 2*npts] = x90;
-      basis_xz_eval[ipt + 3*npts] = 0.5*x*x91;
-      basis_xz_eval[ipt + 4*npts] = x92*(x3*x93 + x60 + x86);
-      basis_xz_eval[ipt + 5*npts] = x*x24*(x45 + x94 + x95);
-      basis_xz_eval[ipt + 6*npts] = x87*x96;
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x1*(x39 + x99);
-      basis_yy_eval[ipt + 1*npts] = x11*(x71 + x97);
-      basis_yy_eval[ipt + 2*npts] = x13*(x101 + x39);
-      basis_yy_eval[ipt + 3*npts] = x19*(-x103 + x22*x98);
-      basis_yy_eval[ipt + 4*npts] = x23*(-x105 + x18*x98);
-      basis_yy_eval[ipt + 5*npts] = x25*(-x105 + x26*x98);
-      basis_yy_eval[ipt + 6*npts] = x27*(-x103 + x29*x98);
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x83*x96;
-      basis_yz_eval[ipt + 1*npts] = sqrt_15*x*(radial_eval_alpha_squared*x106 + x52 + x59);
-      basis_yz_eval[ipt + 2*npts] = x92*(x6*x93 + x60 + x85);
-      basis_yz_eval[ipt + 3*npts] = 0.5*x91*y;
-      basis_yz_eval[ipt + 4*npts] = x90;
-      basis_yz_eval[ipt + 5*npts] = x24*y*(x55 - x94 + x95);
-      basis_yz_eval[ipt + 6*npts] = x88*(radial_eval_alpha_squared*x29 - x81);
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x1*x109;
-      basis_zz_eval[ipt + 1*npts] = x11*(x107 + x71);
-      basis_zz_eval[ipt + 2*npts] = x112*x13;
-      basis_zz_eval[ipt + 3*npts] = x19*(12.0*radial_eval + x113);
-      basis_zz_eval[ipt + 4*npts] = x112*x23;
-      basis_zz_eval[ipt + 5*npts] = x115*x25;
-      basis_zz_eval[ipt + 6*npts] = x116*x27;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x1*(x109 + x67 + x69 + x99);
-      basis_lapl_eval[ipt + 1*npts] = x11*(9.0*radial_eval_alpha + x117 + x65);
-      basis_lapl_eval[ipt + 2*npts] = x13*(x101 + x111 + x118 + x75);
-      basis_lapl_eval[ipt + 3*npts] = x19*(x113 + x121 + x22*x66 + x22*x98);
-      basis_lapl_eval[ipt + 4*npts] = x23*(x100 + x111 + x122 + x77);
-      basis_lapl_eval[ipt + 5*npts] = x25*(x115 + x123);
-      basis_lapl_eval[ipt + 6*npts] = x27*(x116 + x119 + x29*x98 + x80);
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x1*(x*x127 + x*x129 + x125*x8 + x131*x46 + x134);
-      basis_lapl_x_eval[ipt + 1*npts] = x10*(x*x125 + x117 + x126*x2 + x128*x2 + x135*x3 + 3.0*x66 + x81);
-      basis_lapl_x_eval[ipt + 2*npts] = x13*(x*x137*x15 + x*x141 + x*x142 + x131*x53 - x136 - x138 - x139 - x140 + x143);
-      basis_lapl_x_eval[ipt + 3*npts] = x19*(6.0*radial_eval_alpha_squared*x*x62 + x*x126*x22 + x*x128*x22 - x*x144*x6 + x125*x22 - x134);
-      basis_lapl_x_eval[ipt + 4*npts] = x12*(x*x143 + x108*x41 + x120 + x122 + x137*x89 + x141*x2 + x142*x2 + x145 + 3.0*x41*x66 + x41*x98);
-      basis_lapl_x_eval[ipt + 5*npts] = x25*(-x*x135*x6 + x*x146 + x*x147 + x125*x26 + x131*x26 + x136 + x138 + x139 + x140);
-      basis_lapl_x_eval[ipt + 6*npts] = x0*(x*x125*x29 + x148 + 3.0*x149 + x150*x2 + x151*x2 - x152 + x153);
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x0*(x129*x5 + 3.0*x148 + x149 + x152 + x153 + x154*x8*y + x156*x5);
-      basis_lapl_y_eval[ipt + 1*npts] = x50*(x107 + x128*x5 + x135*x6 + x154*y + x155*x5 + x157 + 3.0*x98);
-      basis_lapl_y_eval[ipt + 2*npts] = x12*(x106*x137 + x108*x53 + x118 + x119 + x142*x5 + x145 + x158*y + x159*x5 + x53*x66 + 3.0*x53*x98);
-      basis_lapl_y_eval[ipt + 3*npts] = -x19*(-6.0*radial_eval_alpha_squared*x62*y - x128*x22*y + x144*x3*y - x154*x22 - x155*x22*y + x160 + x162 + x163 + x164);
-      basis_lapl_y_eval[ipt + 4*npts] = x23*(x137*x15*y + x142*y + x158 + x159*y + x166*x41 + x167);
-      basis_lapl_y_eval[ipt + 5*npts] = x25*(x135*x3*y + x147*y + x154*x26 + x166*x26 + x167 + x168*y);
-      basis_lapl_y_eval[ipt + 6*npts] = x27*(x151*y + x154*x29 - x160 - x162 - x163 - x164 + x166*x46 + x169*y);
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x1*(x127*z + x156*z + x170*x3 + x172 + x173*x8);
-      basis_lapl_z_eval[ipt + 1*npts] = x58*(3.0*x108 + x126*x14 + x135*x15 + x14*x155 + x157 + x173*z + x97);
-      basis_lapl_z_eval[ipt + 2*npts] = x13*(x171*x53 - x174*x3 + x176);
-      basis_lapl_z_eval[ipt + 3*npts] = -0.5*x106*x144 + 4.5*x108*x62 + 0.5*x121 + 0.5*x126*x14*x22 + 0.5*x133*x15 + 0.5*x14*x155*x22 - 0.5*x144*x89 + 0.5*x173*x22*z + 1.5*x62*x66 + 1.5*x62*x98;
-      basis_lapl_z_eval[ipt + 4*npts] = x23*(x171*x41 - x174*x6 + x176);
-      basis_lapl_z_eval[ipt + 5*npts] = x24*(-x106*x135 + 3.0*x114 + x123 + x135*x89 + x14*x146 + x14*x168 + x173*x26*z);
-      basis_lapl_z_eval[ipt + 6*npts] = x27*(x150*z + x169*z - x170*x6 + x172 + x173*x29);
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1*x8;
-      ang_eval_1 = radial_eval*x11;
-      ang_eval_2 = radial_eval*x13*x18;
-      ang_eval_3 = radial_eval*x19*x22;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x18*x23;
-      ang_eval_1 = radial_eval*x25*x26;
-      ang_eval_2 = radial_eval*x27*x29;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x30*(radial_eval_alpha*x8 + x31);
-      dang_eval_y_0 = x0*(radial_eval_alpha*x49 + x47);
-      dang_eval_z_0 = x1*x56*x8;
-      dang_eval_x_1 = x10*x32;
-      dang_eval_y_1 = x50*x52;
-      dang_eval_z_1 = x58*(radial_eval + x59);
-      dang_eval_x_2 = x37;
-      dang_eval_y_2 = x12*(radial_eval*x53 + radial_eval_alpha*x54);
-      dang_eval_z_2 = x13*x61*z;
-      dang_eval_x_3 = x38*x40;
-      dang_eval_y_3 = x19*x40*y;
-      dang_eval_z_3 = 1.5*radial_eval*x62 + 0.5*radial_eval_alpha*x63;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x12*(radial_eval*x41 + radial_eval_alpha*x42);
-      dang_eval_y_0 = x37;
-      dang_eval_z_0 = x23*x61*z;
-      dang_eval_x_1 = x43*x45;
-      dang_eval_y_1 = x25*x55*y;
-      dang_eval_z_1 = x24*(radial_eval*x26 + radial_eval_alpha*x64);
-      dang_eval_x_2 = x0*(radial_eval_alpha*x48 + x47);
-      dang_eval_y_2 = x30*(radial_eval_alpha*x29 + x39);
-      dang_eval_z_2 = x27*x29*x56;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_laplacian.hpp
deleted file mode 100644
index d5f8f3a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l3_laplacian.hpp
+++ /dev/null
@@ -1,357 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_laplacian_3(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = 0.25*sqrt_10; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x; 
-      const auto x3 = 3.0*x2; 
-      const auto x4 = y*y; 
-      const auto x5 = -x4; 
-      const auto x6 = x3 + x5; 
-      const auto x7 = sqrt_15*z; 
-      const auto x8 = x7*y; 
-      const auto x9 = x*x8; 
-      const auto x10 = 0.25*sqrt_6; 
-      const auto x11 = x10*y; 
-      const auto x12 = z*z; 
-      const auto x13 = -4.0*x12; 
-      const auto x14 = x13 + x4; 
-      const auto x15 = -x14 - x2; 
-      const auto x16 = 0.5*z; 
-      const auto x17 = 3.0*x4; 
-      const auto x18 = -2.0*x12; 
-      const auto x19 = -x17 - x18 - x3; 
-      const auto x20 = x*x10; 
-      const auto x21 = 0.5*sqrt_15; 
-      const auto x22 = x21*z; 
-      const auto x23 = x2 + x5; 
-      const auto x24 = x*x0; 
-      const auto x25 = -x17; 
-      const auto x26 = x2 + x25; 
-      const auto x27 = x*x1; 
-      const auto x28 = 6.0*radial_eval; 
-      const auto x29 = radial_eval + radial_eval_alpha*x2; 
-      const auto x30 = x*x11; 
-      const auto x31 = 2.0*radial_eval; 
-      const auto x32 = -x31; 
-      const auto x33 = radial_eval_alpha*x15; 
-      const auto x34 = x30*(x32 + x33); 
-      const auto x35 = x*x16; 
-      const auto x36 = -x28; 
-      const auto x37 = radial_eval_alpha*x19 + x36; 
-      const auto x38 = -x14 - x3; 
-      const auto x39 = x15*x2; 
-      const auto x40 = x*x22; 
-      const auto x41 = radial_eval_alpha*x23; 
-      const auto x42 = x31 + x41; 
-      const auto x43 = x25 + x3; 
-      const auto x44 = radial_eval*x43; 
-      const auto x45 = x2*x26; 
-      const auto x46 = x4*x6; 
-      const auto x47 = radial_eval_alpha*x4; 
-      const auto x48 = radial_eval + x47; 
-      const auto x49 = -x13 - x17 - x2; 
-      const auto x50 = x15*x4; 
-      const auto x51 = x32 + x41; 
-      const auto x52 = radial_eval_alpha*z; 
-      const auto x53 = sqrt_15*y; 
-      const auto x54 = radial_eval_alpha*x12; 
-      const auto x55 = 8.0*radial_eval; 
-      const auto x56 = x33 + x55; 
-      const auto x57 = -x18 - x2 - x4; 
-      const auto x58 = x12*x19; 
-      const auto x59 = x12*x23; 
-      const auto x60 = radial_eval_alpha_squared*x2; 
-      const auto x61 = radial_eval_alpha + x60; 
-      const auto x62 = x6*x61; 
-      const auto x63 = 12.0*radial_eval_alpha; 
-      const auto x64 = x2*x63; 
-      const auto x65 = x28 + x64; 
-      const auto x66 = 3.0*radial_eval_alpha; 
-      const auto x67 = 4.0*radial_eval_alpha; 
-      const auto x68 = x2*x67; 
-      const auto x69 = x31 + x68; 
-      const auto x70 = x15*x61; 
-      const auto x71 = 2.0*radial_eval_alpha; 
-      const auto x72 = x38*x71 + x70; 
-      const auto x73 = x23*x61; 
-      const auto x74 = x43*x71; 
-      const auto x75 = x26*x61 + x74; 
-      const auto x76 = 6.0*radial_eval_alpha; 
-      const auto x77 = radial_eval_alpha*x43; 
-      const auto x78 = radial_eval_alpha_squared*x46 + x77; 
-      const auto x79 = radial_eval_alpha*x49 + radial_eval_alpha_squared*x50; 
-      const auto x80 = radial_eval_alpha*x38 + radial_eval_alpha_squared*x39; 
-      const auto x81 = radial_eval_alpha_squared*x45 + x77; 
-      const auto x82 = x27*z; 
-      const auto x83 = x30*z*(radial_eval_alpha_squared*x15 + x76); 
-      const auto x84 = radial_eval_alpha_squared*x58 - x12*x76 + x36 + x57*x66; 
-      const auto x85 = x10*z; 
-      const auto x86 = 8.0*radial_eval_alpha; 
-      const auto x87 = x12*x71; 
-      const auto x88 = radial_eval_alpha_squared*x59; 
-      const auto x89 = x0*z; 
-      const auto x90 = radial_eval_alpha_squared*x4; 
-      const auto x91 = radial_eval_alpha + x90; 
-      const auto x92 = x6*x91 + x74; 
-      const auto x93 = x15*x91; 
-      const auto x94 = x49*x71 + x93; 
-      const auto x95 = x4*x63; 
-      const auto x96 = x28 + x95; 
-      const auto x97 = x4*x67; 
-      const auto x98 = x31 + x97; 
-      const auto x99 = radial_eval_alpha_squared*x12; 
-      const auto x100 = radial_eval_alpha + x99; 
-      const auto x101 = x100*x6; 
-      const auto x102 = 16.0*radial_eval_alpha*x12 + x100*x15; 
-      const auto x103 = x102 + x55; 
-      const auto x104 = x100*x19 + x57*x76; 
-      const auto x105 = x23*(x100 + x71); 
-      const auto x106 = x100*x26; 
-      const auto x107 = -x95; 
-      const auto x108 = -x97; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x1*x6;
-      basis_eval[ipt + 1*npts] = radial_eval*x9;
-      basis_eval[ipt + 2*npts] = radial_eval*x11*x15;
-      basis_eval[ipt + 3*npts] = radial_eval*x16*x19;
-      basis_eval[ipt + 4*npts] = radial_eval*x15*x20;
-      basis_eval[ipt + 5*npts] = radial_eval*x22*x23;
-      basis_eval[ipt + 6*npts] = radial_eval*x24*x26;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x27*(radial_eval_alpha*x6 + x28);
-      basis_x_eval[ipt + 1*npts] = x29*x8;
-      basis_x_eval[ipt + 2*npts] = x34;
-      basis_x_eval[ipt + 3*npts] = x35*x37;
-      basis_x_eval[ipt + 4*npts] = x10*(radial_eval*x38 + radial_eval_alpha*x39);
-      basis_x_eval[ipt + 5*npts] = x40*x42;
-      basis_x_eval[ipt + 6*npts] = x0*(radial_eval_alpha*x45 + x44);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x0*(radial_eval_alpha*x46 + x44);
-      basis_y_eval[ipt + 1*npts] = x*x48*x7;
-      basis_y_eval[ipt + 2*npts] = x10*(radial_eval*x49 + radial_eval_alpha*x50);
-      basis_y_eval[ipt + 3*npts] = x16*x37*y;
-      basis_y_eval[ipt + 4*npts] = x34;
-      basis_y_eval[ipt + 5*npts] = x22*x51*y;
-      basis_y_eval[ipt + 6*npts] = x27*(radial_eval_alpha*x26 + x36);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x1*x52*x6;
-      basis_z_eval[ipt + 1*npts] = x*x53*(radial_eval + x54);
-      basis_z_eval[ipt + 2*npts] = x11*x56*z;
-      basis_z_eval[ipt + 3*npts] = 1.5*radial_eval*x57 + 0.5*radial_eval_alpha*x58;
-      basis_z_eval[ipt + 4*npts] = x20*x56*z;
-      basis_z_eval[ipt + 5*npts] = x21*(radial_eval*x23 + radial_eval_alpha*x59);
-      basis_z_eval[ipt + 6*npts] = x24*x26*x52;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x1*(x101 + x62 + x64 + x92);
-      basis_lapl_eval[ipt + 1*npts] = x9*(9.0*radial_eval_alpha + x60 + x90 + x99);
-      basis_lapl_eval[ipt + 2*npts] = x11*(x102 - x68 + x70 + x94);
-      basis_lapl_eval[ipt + 3*npts] = x16*(x104 + x107 + x19*x61 + x19*x91 - x64);
-      basis_lapl_eval[ipt + 4*npts] = x20*(x102 + x108 + x72 + x93);
-      basis_lapl_eval[ipt + 5*npts] = x22*(x105 + x108 + x23*x91 + x68 + x73);
-      basis_lapl_eval[ipt + 6*npts] = x24*(x106 + x107 + x26*x91 + x75);
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x1*x6;
-      ang_eval_1 = radial_eval*x9;
-      ang_eval_2 = radial_eval*x11*x15;
-      ang_eval_3 = radial_eval*x16*x19;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = radial_eval*x15*x20;
-      ang_eval_1 = radial_eval*x22*x23;
-      ang_eval_2 = radial_eval*x24*x26;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x27*(radial_eval_alpha*x6 + x28);
-      dang_eval_y_0 = x0*(radial_eval_alpha*x46 + x44);
-      dang_eval_z_0 = x1*x52*x6;
-      dang_eval_x_1 = x29*x8;
-      dang_eval_y_1 = x*x48*x7;
-      dang_eval_z_1 = x*x53*(radial_eval + x54);
-      dang_eval_x_2 = x34;
-      dang_eval_y_2 = x10*(radial_eval*x49 + radial_eval_alpha*x50);
-      dang_eval_z_2 = x11*x56*z;
-      dang_eval_x_3 = x35*x37;
-      dang_eval_y_3 = x16*x37*y;
-      dang_eval_z_3 = 1.5*radial_eval*x57 + 0.5*radial_eval_alpha*x58;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x10*(radial_eval*x38 + radial_eval_alpha*x39);
-      dang_eval_y_0 = x34;
-      dang_eval_z_0 = x20*x56*z;
-      dang_eval_x_1 = x40*x42;
-      dang_eval_y_1 = x22*x51*y;
-      dang_eval_z_1 = x21*(radial_eval*x23 + radial_eval_alpha*x59);
-      dang_eval_x_2 = x0*(radial_eval_alpha*x45 + x44);
-      dang_eval_y_2 = x27*(radial_eval_alpha*x26 + x36);
-      dang_eval_z_2 = x24*x26*x52;
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4.hpp
deleted file mode 100644
index 1f48ecb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4.hpp
+++ /dev/null
@@ -1,180 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(512,2) void collocation_device_shell_to_task_kernel_spherical_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[16][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[16][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-      }
-
-
-      // Common Subexpressions
-      const auto x0 = 0.5*radial_eval*x*y; 
-      const auto x1 = x*x; 
-      const auto x2 = y*y; 
-      const auto x3 = -x2; 
-      const auto x4 = 0.25*radial_eval; 
-      const auto x5 = x4*z; 
-      const auto x6 = x5*y; 
-      const auto x7 = 3.0*x1; 
-      const auto x8 = z*z; 
-      const auto x9 = 3.0*x2; 
-      const auto x10 = -x7 + 4.0*x8 - x9; 
-      const auto x11 = 0.125*radial_eval; 
-      const auto x12 = x*x*x*x; 
-      const auto x13 = y*y*y*y; 
-      const auto x14 = 6.0*x1*x2; 
-      const auto x15 = x1*x8; 
-      const auto x16 = x2*x8; 
-      const auto x17 = x*x5; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = sqrt_35*x0*(x1 + x3);
-      basis_eval[ipt + 1*npts] = sqrt_70*x6*(x3 + x7);
-      basis_eval[ipt + 2*npts] = -sqrt_5*x0*(x1 + x2 - 6.0*x8);
-      basis_eval[ipt + 3*npts] = sqrt_10*x10*x6;
-      basis_eval[ipt + 4*npts] = x11*(3.0*x12 + 3.0*x13 + x14 - 24.0*x15 - 24.0*x16 + 8.0*(z*z*z*z));
-      basis_eval[ipt + 5*npts] = sqrt_10*x10*x17;
-      basis_eval[ipt + 6*npts] = -sqrt_5*x4*(x12 - x13 - 6.0*x15 + 6.0*x16);
-      basis_eval[ipt + 7*npts] = sqrt_70*x17*(x1 - x9);
-      basis_eval[ipt + 8*npts] = sqrt_35*x11*(x12 + x13 - x14);
-
-
-    
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = sqrt_35*x0*(x1 + x3);
-      ang_eval_1 = sqrt_70*x6*(x3 + x7);
-      ang_eval_2 = -sqrt_5*x0*(x1 + x2 - 6.0*x8);
-      ang_eval_3 = sqrt_10*x10*x6;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x11*(3.0*x12 + 3.0*x13 + x14 - 24.0*x15 - 24.0*x16 + 8.0*(z*z*z*z));
-      ang_eval_1 = sqrt_10*x10*x17;
-      ang_eval_2 = -sqrt_5*x4*(x12 - x13 - 6.0*x15 + 6.0*x16);
-      ang_eval_3 = sqrt_70*x17*(x1 - x9);
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_35*x11*(x12 + x13 - x14);
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_gradient.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_gradient.hpp
deleted file mode 100644
index c826b10..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_gradient.hpp
+++ /dev/null
@@ -1,319 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_gradient_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-      }
-
-      radial_eval_alpha *= -2;
-
-      // Common Subexpressions
-      const auto x0 = 0.5*y; 
-      const auto x1 = sqrt_35*x0; 
-      const auto x2 = radial_eval*x; 
-      const auto x3 = x*x; 
-      const auto x4 = y*y; 
-      const auto x5 = -x4; 
-      const auto x6 = x3 + x5; 
-      const auto x7 = 0.25*z; 
-      const auto x8 = sqrt_70*x7; 
-      const auto x9 = radial_eval*y; 
-      const auto x10 = 3.0*x3; 
-      const auto x11 = x10 + x5; 
-      const auto x12 = sqrt_5*x0; 
-      const auto x13 = z*z; 
-      const auto x14 = -6.0*x13; 
-      const auto x15 = x14 + x4; 
-      const auto x16 = -x15 - x3; 
-      const auto x17 = sqrt_10*x7; 
-      const auto x18 = -4.0*x13; 
-      const auto x19 = 3.0*x4; 
-      const auto x20 = x18 + x19; 
-      const auto x21 = -x10 - x20; 
-      const auto x22 = 0.125*radial_eval; 
-      const auto x23 = x*x*x*x; 
-      const auto x24 = y*y*y*y; 
-      const auto x25 = 6.0*x3*x4; 
-      const auto x26 = x13*x3; 
-      const auto x27 = x13*x4; 
-      const auto x28 = 3.0*x23 + 3.0*x24 + x25 - 24.0*x26 - 24.0*x27 + 8.0*(z*z*z*z); 
-      const auto x29 = 0.25*sqrt_5; 
-      const auto x30 = -x23 + x24 + 6.0*x26 - 6.0*x27; 
-      const auto x31 = -x19; 
-      const auto x32 = x3 + x31; 
-      const auto x33 = x23 + x24 - x25; 
-      const auto x34 = radial_eval*x11; 
-      const auto x35 = x*y; 
-      const auto x36 = x35*x8; 
-      const auto x37 = 6.0*radial_eval; 
-      const auto x38 = -x37; 
-      const auto x39 = x17*x35*(radial_eval_alpha*x21 + x38); 
-      const auto x40 = 12.0*radial_eval; 
-      const auto x41 = x*x*x; 
-      const auto x42 = radial_eval_alpha*x; 
-      const auto x43 = 4.0*radial_eval; 
-      const auto x44 = 3.0*x; 
-      const auto x45 = radial_eval*(x10 + x31); 
-      const auto x46 = 0.125*sqrt_35; 
-      const auto x47 = 0.5*x; 
-      const auto x48 = radial_eval*x32; 
-      const auto x49 = y*y*y; 
-      const auto x50 = radial_eval_alpha*y; 
-      const auto x51 = 3.0*y; 
-      const auto x52 = 0.25*y; 
-      const auto x53 = -radial_eval*(x10 - 12.0*x13 + x19) + radial_eval_alpha*x13*x21; 
-      const auto x54 = 3.0*z; 
-      const auto x55 = radial_eval_alpha*z; 
-      const auto x56 = 0.25*x; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = x1*x2*x6;
-      basis_eval[ipt + 1*npts] = x11*x8*x9;
-      basis_eval[ipt + 2*npts] = x12*x16*x2;
-      basis_eval[ipt + 3*npts] = x17*x21*x9;
-      basis_eval[ipt + 4*npts] = x22*x28;
-      basis_eval[ipt + 5*npts] = x17*x2*x21;
-      basis_eval[ipt + 6*npts] = radial_eval*x29*x30;
-      basis_eval[ipt + 7*npts] = x2*x32*x8;
-      basis_eval[ipt + 8*npts] = sqrt_35*x22*x33;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1*(radial_eval_alpha*x3*x6 + x34);
-      basis_x_eval[ipt + 1*npts] = x36*(radial_eval_alpha*x11 + x37);
-      basis_x_eval[ipt + 2*npts] = -x12*(radial_eval*(x10 + x15) - radial_eval_alpha*x16*x3);
-      basis_x_eval[ipt + 3*npts] = x39;
-      basis_x_eval[ipt + 4*npts] = 0.125*x28*x42 + 0.125*x40*(-4.0*x*x13 + x*x4 + x41);
-      basis_x_eval[ipt + 5*npts] = -x17*(radial_eval*(x20 + 9.0*x3) - radial_eval_alpha*x21*x3);
-      basis_x_eval[ipt + 6*npts] = x29*(x30*x42 + x43*(x13*x44 - x41));
-      basis_x_eval[ipt + 7*npts] = x8*(radial_eval_alpha*x3*x32 + x45);
-      basis_x_eval[ipt + 8*npts] = x46*(x33*x42 - x43*(x4*x44 - x41));
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = sqrt_35*x47*(radial_eval_alpha*x4*x6 + x48);
-      basis_y_eval[ipt + 1*npts] = x8*(radial_eval_alpha*x11*x4 + x45);
-      basis_y_eval[ipt + 2*npts] = -sqrt_5*x47*(radial_eval*(x14 + x19 + x3) - radial_eval_alpha*x16*x4);
-      basis_y_eval[ipt + 3*npts] = -x17*(radial_eval*(x10 + x18 + 9.0*x4) - radial_eval_alpha*x21*x4);
-      basis_y_eval[ipt + 4*npts] = 0.125*x28*x50 + 0.125*x40*(-4.0*x13*y + x3*y + x49);
-      basis_y_eval[ipt + 5*npts] = x39;
-      basis_y_eval[ipt + 6*npts] = x29*(x30*x50 - x43*(x13*x51 - x49));
-      basis_y_eval[ipt + 7*npts] = x36*(radial_eval_alpha*x32 + x38);
-      basis_y_eval[ipt + 8*npts] = x46*(x33*x50 - x43*(x3*x51 - x49));
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x1*x42*x6*z;
-      basis_z_eval[ipt + 1*npts] = sqrt_70*x52*(radial_eval_alpha*x11*x13 + x34);
-      basis_z_eval[ipt + 2*npts] = x*x12*z*(radial_eval_alpha*x16 + x40);
-      basis_z_eval[ipt + 3*npts] = sqrt_10*x52*x53;
-      basis_z_eval[ipt + 4*npts] = -2.0*radial_eval*(x3*x54 + x4*x54 - 2.0*z*z*z) + 0.125*x28*x55;
-      basis_z_eval[ipt + 5*npts] = sqrt_10*x53*x56;
-      basis_z_eval[ipt + 6*npts] = x29*z*(radial_eval_alpha*x30 + x40*x6);
-      basis_z_eval[ipt + 7*npts] = sqrt_70*x56*(radial_eval_alpha*x13*x32 + x48);
-      basis_z_eval[ipt + 8*npts] = x33*x46*x55;
-
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = x1*x2*x6;
-      ang_eval_1 = x11*x8*x9;
-      ang_eval_2 = x12*x16*x2;
-      ang_eval_3 = x17*x21*x9;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x22*x28;
-      ang_eval_1 = x17*x2*x21;
-      ang_eval_2 = radial_eval*x29*x30;
-      ang_eval_3 = x2*x32*x8;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_35*x22*x33;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x1*(radial_eval_alpha*x3*x6 + x34);
-      dang_eval_y_0 = sqrt_35*x47*(radial_eval_alpha*x4*x6 + x48);
-      dang_eval_z_0 = x1*x42*x6*z;
-      dang_eval_x_1 = x36*(radial_eval_alpha*x11 + x37);
-      dang_eval_y_1 = x8*(radial_eval_alpha*x11*x4 + x45);
-      dang_eval_z_1 = sqrt_70*x52*(radial_eval_alpha*x11*x13 + x34);
-      dang_eval_x_2 = -x12*(radial_eval*(x10 + x15) - radial_eval_alpha*x16*x3);
-      dang_eval_y_2 = -sqrt_5*x47*(radial_eval*(x14 + x19 + x3) - radial_eval_alpha*x16*x4);
-      dang_eval_z_2 = x*x12*z*(radial_eval_alpha*x16 + x40);
-      dang_eval_x_3 = x39;
-      dang_eval_y_3 = -x17*(radial_eval*(x10 + x18 + 9.0*x4) - radial_eval_alpha*x21*x4);
-      dang_eval_z_3 = sqrt_10*x52*x53;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = 0.125*x28*x42 + 0.125*x40*(-4.0*x*x13 + x*x4 + x41);
-      dang_eval_y_0 = 0.125*x28*x50 + 0.125*x40*(-4.0*x13*y + x3*y + x49);
-      dang_eval_z_0 = -2.0*radial_eval*(x3*x54 + x4*x54 - 2.0*z*z*z) + 0.125*x28*x55;
-      dang_eval_x_1 = -x17*(radial_eval*(x20 + 9.0*x3) - radial_eval_alpha*x21*x3);
-      dang_eval_y_1 = x39;
-      dang_eval_z_1 = sqrt_10*x53*x56;
-      dang_eval_x_2 = x29*(x30*x42 + x43*(x13*x44 - x41));
-      dang_eval_y_2 = x29*(x30*x50 - x43*(x13*x51 - x49));
-      dang_eval_z_2 = x29*z*(radial_eval_alpha*x30 + x40*x6);
-      dang_eval_x_3 = x8*(radial_eval_alpha*x3*x32 + x45);
-      dang_eval_y_3 = x36*(radial_eval_alpha*x32 + x38);
-      dang_eval_z_3 = sqrt_70*x56*(radial_eval_alpha*x13*x32 + x48);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x46*(x33*x42 - x43*(x4*x44 - x41));
-      dang_eval_y_0 = x46*(x33*x50 - x43*(x3*x51 - x49));
-      dang_eval_z_0 = x33*x46*x55;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_hessian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_hessian.hpp
deleted file mode 100644
index 38db396..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_hessian.hpp
+++ /dev/null
@@ -1,512 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_hessian_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = 0.5*sqrt_35; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x1; 
-      const auto x3 = x*x; 
-      const auto x4 = x3; 
-      const auto x5 = y*y; 
-      const auto x6 = x5; 
-      const auto x7 = -x6; 
-      const auto x8 = x4 + x7; 
-      const auto x9 = 0.25*sqrt_70; 
-      const auto x10 = x9*z; 
-      const auto x11 = x10*y; 
-      const auto x12 = 3.0*x4; 
-      const auto x13 = x12 + x7; 
-      const auto x14 = 0.5*sqrt_5; 
-      const auto x15 = x14*y; 
-      const auto x16 = x*x15; 
-      const auto x17 = z*z; 
-      const auto x18 = x17; 
-      const auto x19 = -6.0*x18; 
-      const auto x20 = x19 + x6; 
-      const auto x21 = -x20 - x4; 
-      const auto x22 = 0.25*sqrt_10; 
-      const auto x23 = x22*z; 
-      const auto x24 = x23*y; 
-      const auto x25 = -4.0*x18; 
-      const auto x26 = 3.0*x6; 
-      const auto x27 = x25 + x26; 
-      const auto x28 = -x12 - x27; 
-      const auto x29 = 0.125*radial_eval; 
-      const auto x30 = x*x*x*x; 
-      const auto x31 = y*y*y*y; 
-      const auto x32 = 6.0*x4*x6; 
-      const auto x33 = x18*x4; 
-      const auto x34 = x18*x6; 
-      const auto x35 = 3.0*x30 + 3.0*x31 + x32 - 24.0*x33 - 24.0*x34 + 8.0*(z*z*z*z); 
-      const auto x36 = x*x23; 
-      const auto x37 = 0.25*sqrt_5; 
-      const auto x38 = -x30 + x31 + 6.0*x33 - 6.0*x34; 
-      const auto x39 = x*x10; 
-      const auto x40 = -x26; 
-      const auto x41 = x4 + x40; 
-      const auto x42 = x30 + x31 - x32; 
-      const auto x43 = radial_eval*x13; 
-      const auto x44 = x4*x8; 
-      const auto x45 = x*x11; 
-      const auto x46 = 6.0*radial_eval; 
-      const auto x47 = radial_eval_alpha*x13; 
-      const auto x48 = x46 + x47; 
-      const auto x49 = -x12 - x20; 
-      const auto x50 = x21*x4; 
-      const auto x51 = -x46; 
-      const auto x52 = x*x24*(radial_eval_alpha*x28 + x51); 
-      const auto x53 = 12.0*radial_eval; 
-      const auto x54 = x*x*x; 
-      const auto x55 = 4.0*x; 
-      const auto x56 = x*x6 - x18*x55 + x54; 
-      const auto x57 = radial_eval_alpha*x; 
-      const auto x58 = 9.0*x4; 
-      const auto x59 = -x27 - x58; 
-      const auto x60 = x28*x4; 
-      const auto x61 = 4.0*radial_eval; 
-      const auto x62 = 3.0*x; 
-      const auto x63 = x18*x62 - x54; 
-      const auto x64 = x12 + x40; 
-      const auto x65 = radial_eval*x64; 
-      const auto x66 = x4*x41; 
-      const auto x67 = radial_eval_alpha*x66 + x65; 
-      const auto x68 = 0.125*sqrt_35; 
-      const auto x69 = x54 - x6*x62; 
-      const auto x70 = x*x0; 
-      const auto x71 = radial_eval*x41; 
-      const auto x72 = x6*x8; 
-      const auto x73 = x13*x6; 
-      const auto x74 = radial_eval_alpha*x73 + x65; 
-      const auto x75 = x*x14; 
-      const auto x76 = x19 + x26; 
-      const auto x77 = -x4 - x76; 
-      const auto x78 = x21*x6; 
-      const auto x79 = 9.0*x6; 
-      const auto x80 = x12 + x25; 
-      const auto x81 = -x79 - x80; 
-      const auto x82 = x28*x6; 
-      const auto x83 = y*y*y; 
-      const auto x84 = 4.0*y; 
-      const auto x85 = -x18*x84 + x4*y + x83; 
-      const auto x86 = radial_eval_alpha*y; 
-      const auto x87 = 3.0*y; 
-      const auto x88 = -x18*x87 + x83; 
-      const auto x89 = radial_eval_alpha*x41; 
-      const auto x90 = x51 + x89; 
-      const auto x91 = -x4*x87 + x83; 
-      const auto x92 = x1*z; 
-      const auto x93 = x9*y; 
-      const auto x94 = x13*x18; 
-      const auto x95 = x22*y; 
-      const auto x96 = -12.0*x18; 
-      const auto x97 = x26 + x96; 
-      const auto x98 = -x12 - x97; 
-      const auto x99 = x18*x28; 
-      const auto x100 = radial_eval*x98 + radial_eval_alpha*x99; 
-      const auto x101 = 3.0*z; 
-      const auto x102 = -x101*x4 - x101*x6 + 2.0*(z*z*z); 
-      const auto x103 = radial_eval_alpha*z; 
-      const auto x104 = x37*z; 
-      const auto x105 = x53*x8; 
-      const auto x106 = x18*x41; 
-      const auto x107 = 2.0*radial_eval_alpha; 
-      const auto x108 = x107*x13; 
-      const auto x109 = radial_eval_alpha + radial_eval_alpha_squared*x4; 
-      const auto x110 = x108 + x109*x8; 
-      const auto x111 = x109*x13; 
-      const auto x112 = 12.0*radial_eval_alpha; 
-      const auto x113 = x112*x4; 
-      const auto x114 = x113 + x46; 
-      const auto x115 = x107*x49 + x109*x21; 
-      const auto x116 = x109*x35 + x53*(x6 + x80) + 24.0*x56*x57; 
-      const auto x117 = -18.0*radial_eval; 
-      const auto x118 = x109*x28; 
-      const auto x119 = x107*x59 + x118; 
-      const auto x120 = -x4; 
-      const auto x121 = 8.0*x57; 
-      const auto x122 = x109*x38 + x121*x63 + x53*(x120 + x18); 
-      const auto x123 = x107*x64; 
-      const auto x124 = x109*x41 + x123; 
-      const auto x125 = x105 + x109*x42 + x121*x69; 
-      const auto x126 = radial_eval_alpha*x3; 
-      const auto x127 = radial_eval_alpha*x5; 
-      const auto x128 = 6.0*radial_eval_alpha; 
-      const auto x129 = x128*x6; 
-      const auto x130 = radial_eval_alpha*x64; 
-      const auto x131 = 24.0*radial_eval; 
-      const auto x132 = x*x131; 
-      const auto x133 = x132*y; 
-      const auto x134 = 12.0*x57; 
-      const auto x135 = 12.0*x86; 
-      const auto x136 = radial_eval_alpha_squared*x; 
-      const auto x137 = x136*y; 
-      const auto x138 = -x128*x4 + x51; 
-      const auto x139 = radial_eval_alpha*x55; 
-      const auto x140 = radial_eval_alpha*x84; 
-      const auto x141 = x*x93; 
-      const auto x142 = x128*x18; 
-      const auto x143 = -x142; 
-      const auto x144 = x*x95*(radial_eval_alpha*x98 + radial_eval_alpha_squared*x99 + x143 + x51); 
-      const auto x145 = 96.0*radial_eval*z; 
-      const auto x146 = 12.0*x103; 
-      const auto x147 = radial_eval_alpha*x17; 
-      const auto x148 = 4.0*radial_eval_alpha; 
-      const auto x149 = x147*x64; 
-      const auto x150 = x68*z; 
-      const auto x151 = x107*x41; 
-      const auto x152 = radial_eval_alpha + radial_eval_alpha_squared*x6; 
-      const auto x153 = x151 + x152*x8; 
-      const auto x154 = x123 + x13*x152; 
-      const auto x155 = x107*x77 + x152*x21; 
-      const auto x156 = x152*x28; 
-      const auto x157 = x107*x81 + x156; 
-      const auto x158 = x152*x35 + x53*(x27 + x4) + 24.0*x85*x86; 
-      const auto x159 = x112*x6; 
-      const auto x160 = x159 + x46; 
-      const auto x161 = 8.0*x86; 
-      const auto x162 = x152*x38 + x161*x88 - x53*(x18 - x6); 
-      const auto x163 = x152*x42 + x161*x91 + x53*(x120 + x6); 
-      const auto x164 = radial_eval_alpha_squared*y; 
-      const auto x165 = radial_eval_alpha + radial_eval_alpha_squared*x18; 
-      const auto x166 = x165*x8; 
-      const auto x167 = x108 + x13*x165; 
-      const auto x168 = 24.0*radial_eval_alpha*x18 + x165*x21; 
-      const auto x169 = x107*x98 + x165*x28; 
-      const auto x170 = x131 + x169; 
-      const auto x171 = -48.0*radial_eval*(-2.0*x18 + x4 + x6) + 32.0*x102*x103 + x165*x35; 
-      const auto x172 = x105 + 24.0*x147*x8 + x165*x38; 
-      const auto x173 = x151 + x165*x41; 
-      const auto x174 = x165*x42; 
-      const auto x175 = -x159; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x2*x8;
-      basis_eval[ipt + 1*npts] = radial_eval*x11*x13;
-      basis_eval[ipt + 2*npts] = radial_eval*x16*x21;
-      basis_eval[ipt + 3*npts] = radial_eval*x24*x28;
-      basis_eval[ipt + 4*npts] = x29*x35;
-      basis_eval[ipt + 5*npts] = radial_eval*x28*x36;
-      basis_eval[ipt + 6*npts] = radial_eval*x37*x38;
-      basis_eval[ipt + 7*npts] = radial_eval*x39*x41;
-      basis_eval[ipt + 8*npts] = sqrt_35*x29*x42;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1*(radial_eval_alpha*x44 + x43);
-      basis_x_eval[ipt + 1*npts] = x45*x48;
-      basis_x_eval[ipt + 2*npts] = x15*(radial_eval*x49 + radial_eval_alpha*x50);
-      basis_x_eval[ipt + 3*npts] = x52;
-      basis_x_eval[ipt + 4*npts] = 0.125*x35*x57 + 0.125*x53*x56;
-      basis_x_eval[ipt + 5*npts] = x23*(radial_eval*x59 + radial_eval_alpha*x60);
-      basis_x_eval[ipt + 6*npts] = x37*(x38*x57 + x61*x63);
-      basis_x_eval[ipt + 7*npts] = x10*x67;
-      basis_x_eval[ipt + 8*npts] = x68*(x42*x57 + x61*x69);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x70*(radial_eval_alpha*x72 + x71);
-      basis_y_eval[ipt + 1*npts] = x10*x74;
-      basis_y_eval[ipt + 2*npts] = x75*(radial_eval*x77 + radial_eval_alpha*x78);
-      basis_y_eval[ipt + 3*npts] = x23*(radial_eval*x81 + radial_eval_alpha*x82);
-      basis_y_eval[ipt + 4*npts] = 0.125*x35*x86 + 0.125*x53*x85;
-      basis_y_eval[ipt + 5*npts] = x52;
-      basis_y_eval[ipt + 6*npts] = x37*(x38*x86 + x61*x88);
-      basis_y_eval[ipt + 7*npts] = x45*x90;
-      basis_y_eval[ipt + 8*npts] = x68*(x42*x86 + x61*x91);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x57*x8*x92;
-      basis_z_eval[ipt + 1*npts] = x93*(radial_eval_alpha*x94 + x43);
-      basis_z_eval[ipt + 2*npts] = x16*z*(radial_eval_alpha*x21 + x53);
-      basis_z_eval[ipt + 3*npts] = x100*x95;
-      basis_z_eval[ipt + 4*npts] = 2.0*radial_eval*x102 + 0.125*x103*x35;
-      basis_z_eval[ipt + 5*npts] = x*x100*x22;
-      basis_z_eval[ipt + 6*npts] = x104*(radial_eval_alpha*x38 + x105);
-      basis_z_eval[ipt + 7*npts] = x*x9*(radial_eval_alpha*x106 + x71);
-      basis_z_eval[ipt + 8*npts] = x103*x42*x68;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x2*(x110 + x46);
-      basis_xx_eval[ipt + 1*npts] = x11*(x111 + x114);
-      basis_xx_eval[ipt + 2*npts] = x16*(x115 + x51);
-      basis_xx_eval[ipt + 3*npts] = x24*(x109*x28 - x114);
-      basis_xx_eval[ipt + 4*npts] = 0.125*x116;
-      basis_xx_eval[ipt + 5*npts] = x36*(x117 + x119);
-      basis_xx_eval[ipt + 6*npts] = x122*x37;
-      basis_xx_eval[ipt + 7*npts] = x39*(x124 + x46);
-      basis_xx_eval[ipt + 8*npts] = x125*x68;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x0*(radial_eval_alpha_squared*x4*x6*x8 + x126*x41 + x127*x13 + x65);
-      basis_xy_eval[ipt + 1*npts] = x39*(radial_eval_alpha_squared*x73 + x129 + x130 + x46);
-      basis_xy_eval[ipt + 2*npts] = x14*(-radial_eval*(x12 + x76) + radial_eval_alpha_squared*x21*x4*x6 + x126*x77 + x127*x49);
-      basis_xy_eval[ipt + 3*npts] = x36*(radial_eval_alpha*x81 + radial_eval_alpha_squared*x82 - x129 + x51);
-      basis_xy_eval[ipt + 4*npts] = 0.125*x133 + 0.125*x134*x85 + 0.125*x135*x56 + 0.125*x137*x35;
-      basis_xy_eval[ipt + 5*npts] = x24*(radial_eval_alpha*x59 + radial_eval_alpha_squared*x60 + x138);
-      basis_xy_eval[ipt + 6*npts] = x37*(x137*x38 + x139*x88 + x140*x63);
-      basis_xy_eval[ipt + 7*npts] = x11*(radial_eval_alpha_squared*x66 + x130 + x138);
-      basis_xy_eval[ipt + 8*npts] = x68*(-x133 + x137*x42 + x139*x91 + x140*x69);
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x92*(radial_eval_alpha_squared*x44 + x47);
-      basis_xz_eval[ipt + 1*npts] = x141*(radial_eval_alpha_squared*x94 + x142 + x48);
-      basis_xz_eval[ipt + 2*npts] = x15*z*(radial_eval_alpha*x49 + radial_eval_alpha_squared*x50 + x113 + x53);
-      basis_xz_eval[ipt + 3*npts] = x144;
-      basis_xz_eval[ipt + 4*npts] = -0.125*x*x145 + 2.0*x102*x57 + 0.125*x136*x35*z + 0.125*x146*x56;
-      basis_xz_eval[ipt + 5*npts] = x22*(-radial_eval*(x58 + x97) + radial_eval_alpha_squared*x18*x28*x4 + x126*x98 + x147*x59);
-      basis_xz_eval[ipt + 6*npts] = x104*(x132 + x134*x8 + x136*x38 + x148*x63);
-      basis_xz_eval[ipt + 7*npts] = x9*(radial_eval_alpha_squared*x18*x4*x41 + x149 + x67);
-      basis_xz_eval[ipt + 8*npts] = x150*(x136*x42 + x148*x69);
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x2*(x153 + x51);
-      basis_yy_eval[ipt + 1*npts] = x11*(x154 + x51);
-      basis_yy_eval[ipt + 2*npts] = x16*(x155 + x51);
-      basis_yy_eval[ipt + 3*npts] = x24*(x117 + x157);
-      basis_yy_eval[ipt + 4*npts] = 0.125*x158;
-      basis_yy_eval[ipt + 5*npts] = x36*(x152*x28 - x160);
-      basis_yy_eval[ipt + 6*npts] = x162*x37;
-      basis_yy_eval[ipt + 7*npts] = x39*(x152*x41 - x160);
-      basis_yy_eval[ipt + 8*npts] = x163*x68;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x70*z*(radial_eval_alpha_squared*x72 + x89);
-      basis_yz_eval[ipt + 1*npts] = x9*(radial_eval_alpha_squared*x13*x18*x6 + x149 + x74);
-      basis_yz_eval[ipt + 2*npts] = x75*z*(radial_eval_alpha*x77 + radial_eval_alpha_squared*x78 + x159 + x53);
-      basis_yz_eval[ipt + 3*npts] = x22*(-radial_eval*(x12 + x79 + x96) + radial_eval_alpha_squared*x18*x28*x6 + x127*x98 + x147*x81);
-      basis_yz_eval[ipt + 4*npts] = 2.0*x102*x86 - 0.125*x145*y + 0.125*x146*x85 + 0.125*x164*x35*z;
-      basis_yz_eval[ipt + 5*npts] = x144;
-      basis_yz_eval[ipt + 6*npts] = x104*(-x131*y + x135*x8 + x148*x88 + x164*x38);
-      basis_yz_eval[ipt + 7*npts] = x141*(radial_eval_alpha_squared*x106 + x143 + x90);
-      basis_yz_eval[ipt + 8*npts] = x150*(x148*x91 + x164*x42);
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x166*x2;
-      basis_zz_eval[ipt + 1*npts] = x11*x167;
-      basis_zz_eval[ipt + 2*npts] = x16*(x168 + x53);
-      basis_zz_eval[ipt + 3*npts] = x170*x24;
-      basis_zz_eval[ipt + 4*npts] = 0.125*x171;
-      basis_zz_eval[ipt + 5*npts] = x170*x36;
-      basis_zz_eval[ipt + 6*npts] = x172*x37;
-      basis_zz_eval[ipt + 7*npts] = x173*x39;
-      basis_zz_eval[ipt + 8*npts] = x174*x68;
-
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x2*x8;
-      ang_eval_1 = radial_eval*x11*x13;
-      ang_eval_2 = radial_eval*x16*x21;
-      ang_eval_3 = radial_eval*x24*x28;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x29*x35;
-      ang_eval_1 = radial_eval*x28*x36;
-      ang_eval_2 = radial_eval*x37*x38;
-      ang_eval_3 = radial_eval*x39*x41;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_35*x29*x42;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x1*(radial_eval_alpha*x44 + x43);
-      dang_eval_y_0 = x70*(radial_eval_alpha*x72 + x71);
-      dang_eval_z_0 = x57*x8*x92;
-      dang_eval_x_1 = x45*x48;
-      dang_eval_y_1 = x10*x74;
-      dang_eval_z_1 = x93*(radial_eval_alpha*x94 + x43);
-      dang_eval_x_2 = x15*(radial_eval*x49 + radial_eval_alpha*x50);
-      dang_eval_y_2 = x75*(radial_eval*x77 + radial_eval_alpha*x78);
-      dang_eval_z_2 = x16*z*(radial_eval_alpha*x21 + x53);
-      dang_eval_x_3 = x52;
-      dang_eval_y_3 = x23*(radial_eval*x81 + radial_eval_alpha*x82);
-      dang_eval_z_3 = x100*x95;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = 0.125*x35*x57 + 0.125*x53*x56;
-      dang_eval_y_0 = 0.125*x35*x86 + 0.125*x53*x85;
-      dang_eval_z_0 = 2.0*radial_eval*x102 + 0.125*x103*x35;
-      dang_eval_x_1 = x23*(radial_eval*x59 + radial_eval_alpha*x60);
-      dang_eval_y_1 = x52;
-      dang_eval_z_1 = x*x100*x22;
-      dang_eval_x_2 = x37*(x38*x57 + x61*x63);
-      dang_eval_y_2 = x37*(x38*x86 + x61*x88);
-      dang_eval_z_2 = x104*(radial_eval_alpha*x38 + x105);
-      dang_eval_x_3 = x10*x67;
-      dang_eval_y_3 = x45*x90;
-      dang_eval_z_3 = x*x9*(radial_eval_alpha*x106 + x71);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x68*(x42*x57 + x61*x69);
-      dang_eval_y_0 = x68*(x42*x86 + x61*x91);
-      dang_eval_z_0 = x103*x42*x68;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_lapgrad.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_lapgrad.hpp
deleted file mode 100644
index b895836..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_lapgrad.hpp
+++ /dev/null
@@ -1,663 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_lapgrad_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-      double radial_eval_alpha_cubed = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-        radial_eval_alpha_cubed += a * a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-      radial_eval_alpha_cubed *= -8;
-
-      // Common Subexpressions
-      const auto x0 = 0.5*sqrt_35; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x1; 
-      const auto x3 = x*x; 
-      const auto x4 = x3; 
-      const auto x5 = y*y; 
-      const auto x6 = x5; 
-      const auto x7 = -x6; 
-      const auto x8 = x4 + x7; 
-      const auto x9 = 0.25*sqrt_70; 
-      const auto x10 = x9*z; 
-      const auto x11 = x10*y; 
-      const auto x12 = 3.0*x4; 
-      const auto x13 = x12 + x7; 
-      const auto x14 = 0.5*sqrt_5; 
-      const auto x15 = x14*y; 
-      const auto x16 = x*x15; 
-      const auto x17 = z*z; 
-      const auto x18 = x17; 
-      const auto x19 = -6.0*x18; 
-      const auto x20 = x19 + x6; 
-      const auto x21 = -x20 - x4; 
-      const auto x22 = 0.25*sqrt_10; 
-      const auto x23 = x22*z; 
-      const auto x24 = x23*y; 
-      const auto x25 = -4.0*x18; 
-      const auto x26 = 3.0*x6; 
-      const auto x27 = x25 + x26; 
-      const auto x28 = -x12 - x27; 
-      const auto x29 = 0.125*radial_eval; 
-      const auto x30 = x*x*x*x; 
-      const auto x31 = y*y*y*y; 
-      const auto x32 = x4*x6; 
-      const auto x33 = 6.0*x32; 
-      const auto x34 = x18*x4; 
-      const auto x35 = x18*x6; 
-      const auto x36 = 3.0*x30 + 3.0*x31 + x33 - 24.0*x34 - 24.0*x35 + 8.0*(z*z*z*z); 
-      const auto x37 = x*x23; 
-      const auto x38 = 0.25*sqrt_5; 
-      const auto x39 = -x30 + x31 + 6.0*x34 - 6.0*x35; 
-      const auto x40 = x*x10; 
-      const auto x41 = -x26; 
-      const auto x42 = x4 + x41; 
-      const auto x43 = x30 + x31 - x33; 
-      const auto x44 = radial_eval*x13; 
-      const auto x45 = x4*x8; 
-      const auto x46 = x*x11; 
-      const auto x47 = 6.0*radial_eval; 
-      const auto x48 = radial_eval_alpha*x13; 
-      const auto x49 = x47 + x48; 
-      const auto x50 = -x12 - x20; 
-      const auto x51 = x21*x4; 
-      const auto x52 = -x47; 
-      const auto x53 = x*x24*(radial_eval_alpha*x28 + x52); 
-      const auto x54 = 12.0*radial_eval; 
-      const auto x55 = x*x*x; 
-      const auto x56 = 4.0*x; 
-      const auto x57 = x*x6 - x18*x56 + x55; 
-      const auto x58 = radial_eval_alpha*x; 
-      const auto x59 = 9.0*x4; 
-      const auto x60 = -x27 - x59; 
-      const auto x61 = x28*x4; 
-      const auto x62 = 4.0*radial_eval; 
-      const auto x63 = 3.0*x; 
-      const auto x64 = x18*x63 - x55; 
-      const auto x65 = x12 + x41; 
-      const auto x66 = radial_eval*x65; 
-      const auto x67 = x4*x42; 
-      const auto x68 = radial_eval_alpha*x67 + x66; 
-      const auto x69 = 0.125*sqrt_35; 
-      const auto x70 = x55 - x6*x63; 
-      const auto x71 = x*x0; 
-      const auto x72 = radial_eval*x42; 
-      const auto x73 = x6*x8; 
-      const auto x74 = x13*x6; 
-      const auto x75 = radial_eval_alpha*x74 + x66; 
-      const auto x76 = x*x14; 
-      const auto x77 = x19 + x26; 
-      const auto x78 = -x4 - x77; 
-      const auto x79 = x21*x6; 
-      const auto x80 = 9.0*x6; 
-      const auto x81 = x12 + x25; 
-      const auto x82 = -x80 - x81; 
-      const auto x83 = x28*x6; 
-      const auto x84 = y*y*y; 
-      const auto x85 = 4.0*y; 
-      const auto x86 = -x18*x85 + x4*y + x84; 
-      const auto x87 = radial_eval_alpha*y; 
-      const auto x88 = 3.0*y; 
-      const auto x89 = -x18*x88 + x84; 
-      const auto x90 = radial_eval_alpha*x42; 
-      const auto x91 = x52 + x90; 
-      const auto x92 = -x4*x88 + x84; 
-      const auto x93 = x1*z; 
-      const auto x94 = x9*y; 
-      const auto x95 = x13*x18; 
-      const auto x96 = x22*y; 
-      const auto x97 = -12.0*x18; 
-      const auto x98 = x26 + x97; 
-      const auto x99 = -x12 - x98; 
-      const auto x100 = x18*x28; 
-      const auto x101 = radial_eval*x99 + radial_eval_alpha*x100; 
-      const auto x102 = z*z*z; 
-      const auto x103 = 3.0*z; 
-      const auto x104 = 2.0*x102 - x103*x4 - x103*x6; 
-      const auto x105 = radial_eval_alpha*z; 
-      const auto x106 = x*x22; 
-      const auto x107 = x38*z; 
-      const auto x108 = x54*x8; 
-      const auto x109 = x*x9; 
-      const auto x110 = x18*x42; 
-      const auto x111 = 2.0*radial_eval_alpha; 
-      const auto x112 = x111*x13; 
-      const auto x113 = radial_eval_alpha + radial_eval_alpha_squared*x4; 
-      const auto x114 = x113*x8; 
-      const auto x115 = x112 + x114; 
-      const auto x116 = x113*x13; 
-      const auto x117 = 12.0*radial_eval_alpha; 
-      const auto x118 = x117*x4; 
-      const auto x119 = x118 + x47; 
-      const auto x120 = x111*x50 + x113*x21; 
-      const auto x121 = x6 + x81; 
-      const auto x122 = x113*x36 + x121*x54 + 24.0*x57*x58; 
-      const auto x123 = -18.0*radial_eval; 
-      const auto x124 = x113*x28; 
-      const auto x125 = x111*x60 + x124; 
-      const auto x126 = -x4; 
-      const auto x127 = x126 + x18; 
-      const auto x128 = 8.0*x58; 
-      const auto x129 = x113*x39 + x127*x54 + x128*x64; 
-      const auto x130 = x111*x65; 
-      const auto x131 = x113*x42 + x130; 
-      const auto x132 = x108 + x113*x43 + x128*x70; 
-      const auto x133 = radial_eval_alpha*x3; 
-      const auto x134 = radial_eval_alpha*x5; 
-      const auto x135 = 6.0*radial_eval_alpha; 
-      const auto x136 = x135*x6; 
-      const auto x137 = radial_eval_alpha*x65; 
-      const auto x138 = -x12 - x77; 
-      const auto x139 = 24.0*radial_eval; 
-      const auto x140 = x*x139; 
-      const auto x141 = x140*y; 
-      const auto x142 = 12.0*x58; 
-      const auto x143 = 12.0*x87; 
-      const auto x144 = radial_eval_alpha_squared*x; 
-      const auto x145 = x144*y; 
-      const auto x146 = -x135*x4 + x52; 
-      const auto x147 = radial_eval_alpha*x56; 
-      const auto x148 = radial_eval_alpha*x85; 
-      const auto x149 = x*x94; 
-      const auto x150 = x135*x18; 
-      const auto x151 = -x150; 
-      const auto x152 = x*x96*(radial_eval_alpha*x99 + radial_eval_alpha_squared*x100 + x151 + x52); 
-      const auto x153 = 96.0*radial_eval*z; 
-      const auto x154 = 12.0*x105; 
-      const auto x155 = x144*z; 
-      const auto x156 = -x59 - x98; 
-      const auto x157 = radial_eval_alpha*x17; 
-      const auto x158 = x142*x8; 
-      const auto x159 = 4.0*radial_eval_alpha; 
-      const auto x160 = x157*x65; 
-      const auto x161 = x69*z; 
-      const auto x162 = x111*x42; 
-      const auto x163 = radial_eval_alpha + radial_eval_alpha_squared*x6; 
-      const auto x164 = x163*x8; 
-      const auto x165 = x162 + x164; 
-      const auto x166 = x13*x163 + x130; 
-      const auto x167 = x111*x78 + x163*x21; 
-      const auto x168 = x163*x28; 
-      const auto x169 = x111*x82 + x168; 
-      const auto x170 = x27 + x4; 
-      const auto x171 = x163*x36 + x170*x54 + 24.0*x86*x87; 
-      const auto x172 = x117*x6; 
-      const auto x173 = x172 + x47; 
-      const auto x174 = -x18 + x6; 
-      const auto x175 = 8.0*x87; 
-      const auto x176 = x163*x39 + x174*x54 + x175*x89; 
-      const auto x177 = x126 + x6; 
-      const auto x178 = x163*x43 + x175*x92 + x177*x54; 
-      const auto x179 = -x12 - x80 - x97; 
-      const auto x180 = radial_eval_alpha_squared*y; 
-      const auto x181 = x180*z; 
-      const auto x182 = x143*x8; 
-      const auto x183 = radial_eval_alpha + radial_eval_alpha_squared*x18; 
-      const auto x184 = x183*x8; 
-      const auto x185 = x13*x183; 
-      const auto x186 = x112 + x185; 
-      const auto x187 = 24.0*radial_eval_alpha*x18; 
-      const auto x188 = x183*x21 + x187; 
-      const auto x189 = x111*x99 + x183*x28; 
-      const auto x190 = x139 + x189; 
-      const auto x191 = 2.0*x18 - x4 - x6; 
-      const auto x192 = 48.0*radial_eval*x191 + 32.0*x104*x105 + x183*x36; 
-      const auto x193 = x108 + 24.0*x157*x8 + x183*x39; 
-      const auto x194 = x183*x42; 
-      const auto x195 = x162 + x194; 
-      const auto x196 = x183*x43; 
-      const auto x197 = x118 + x166; 
-      const auto x198 = x116 + x197; 
-      const auto x199 = -x118; 
-      const auto x200 = -x172; 
-      const auto x201 = x163*x42; 
-      const auto x202 = x131 + x200; 
-      const auto x203 = x201 + x202; 
-      const auto x204 = radial_eval_alpha_cubed*x55 + radial_eval_alpha_squared*x63; 
-      const auto x205 = radial_eval_alpha_cubed*x6 + radial_eval_alpha_squared; 
-      const auto x206 = x205*x8; 
-      const auto x207 = radial_eval_alpha_cubed*x18 + radial_eval_alpha_squared; 
-      const auto x208 = x207*x8; 
-      const auto x209 = 2.0*radial_eval_alpha_squared; 
-      const auto x210 = x209*x3; 
-      const auto x211 = 36.0*x58; 
-      const auto x212 = 18.0*x*x113; 
-      const auto x213 = 6.0*x; 
-      const auto x214 = x163*x213; 
-      const auto x215 = x183*x213; 
-      const auto x216 = 2.0*x144; 
-      const auto x217 = x13*x205; 
-      const auto x218 = x13*x207; 
-      const auto x219 = x205*x21; 
-      const auto x220 = x207*x21; 
-      const auto x221 = 24.0*radial_eval_alpha_squared; 
-      const auto x222 = x111*x138 + x187; 
-      const auto x223 = x205*x28; 
-      const auto x224 = x207*x28; 
-      const auto x225 = x204*x28; 
-      const auto x226 = 48.0*x58; 
-      const auto x227 = x226*x6; 
-      const auto x228 = 24.0*x145; 
-      const auto x229 = x205*x36; 
-      const auto x230 = x207*x36; 
-      const auto x231 = 36.0*radial_eval_alpha; 
-      const auto x232 = x111*x156; 
-      const auto x233 = 12.0*radial_eval_alpha_squared; 
-      const auto x234 = x233*x32; 
-      const auto x235 = -x234; 
-      const auto x236 = x200 + x235; 
-      const auto x237 = 8.0*x145; 
-      const auto x238 = 24.0*x17; 
-      const auto x239 = x205*x39; 
-      const auto x240 = x207*x39; 
-      const auto x241 = x163*x65; 
-      const auto x242 = x113*x65; 
-      const auto x243 = x205*x42; 
-      const auto x244 = x207*x42; 
-      const auto x245 = x118 + x130 + x183*x65; 
-      const auto x246 = x205*x43; 
-      const auto x247 = x207*x43; 
-      const auto x248 = radial_eval_alpha_cubed*x84 + radial_eval_alpha_squared*x88; 
-      const auto x249 = radial_eval_alpha_cubed*x4 + radial_eval_alpha_squared; 
-      const auto x250 = x249*x8; 
-      const auto x251 = x209*x5; 
-      const auto x252 = x13*x249; 
-      const auto x253 = x21*x249; 
-      const auto x254 = x248*x28; 
-      const auto x255 = x249*x28; 
-      const auto x256 = x111*x179 + x199; 
-      const auto x257 = 48.0*x87; 
-      const auto x258 = x257*x4; 
-      const auto x259 = 36.0*x87; 
-      const auto x260 = x249*x36; 
-      const auto x261 = 2.0*x180; 
-      const auto x262 = 6.0*y; 
-      const auto x263 = -x113*x262 - 18.0*x163*y - x183*x262 - x259; 
-      const auto x264 = x249*x39; 
-      const auto x265 = x249*x42; 
-      const auto x266 = x249*x43; 
-      const auto x267 = x209*z; 
-      const auto x268 = radial_eval_alpha_cubed*x102 + radial_eval_alpha_squared*x103; 
-      const auto x269 = x17*x209; 
-      const auto x270 = x269*x65; 
-      const auto x271 = x233*x34; 
-      const auto x272 = 12.0*z; 
-      const auto x273 = 36.0*z; 
-      const auto x274 = 48.0*radial_eval_alpha*x18 + x113*x99 + x163*x99 + x17*x223 + x17*x255 + 3.0*x183*x99 + x268*x28*z; 
-      const auto x275 = 192.0*x105; 
-      const auto x276 = -x233*x35; 
-      const auto x277 = 48.0*x105; 
-      const auto x278 = 8.0*x181; 
-      const auto x279 = 8.0*x155; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x2*x8;
-      basis_eval[ipt + 1*npts] = radial_eval*x11*x13;
-      basis_eval[ipt + 2*npts] = radial_eval*x16*x21;
-      basis_eval[ipt + 3*npts] = radial_eval*x24*x28;
-      basis_eval[ipt + 4*npts] = x29*x36;
-      basis_eval[ipt + 5*npts] = radial_eval*x28*x37;
-      basis_eval[ipt + 6*npts] = radial_eval*x38*x39;
-      basis_eval[ipt + 7*npts] = radial_eval*x40*x42;
-      basis_eval[ipt + 8*npts] = sqrt_35*x29*x43;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1*(radial_eval_alpha*x45 + x44);
-      basis_x_eval[ipt + 1*npts] = x46*x49;
-      basis_x_eval[ipt + 2*npts] = x15*(radial_eval*x50 + radial_eval_alpha*x51);
-      basis_x_eval[ipt + 3*npts] = x53;
-      basis_x_eval[ipt + 4*npts] = 0.125*x36*x58 + 0.125*x54*x57;
-      basis_x_eval[ipt + 5*npts] = x23*(radial_eval*x60 + radial_eval_alpha*x61);
-      basis_x_eval[ipt + 6*npts] = x38*(x39*x58 + x62*x64);
-      basis_x_eval[ipt + 7*npts] = x10*x68;
-      basis_x_eval[ipt + 8*npts] = x69*(x43*x58 + x62*x70);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x71*(radial_eval_alpha*x73 + x72);
-      basis_y_eval[ipt + 1*npts] = x10*x75;
-      basis_y_eval[ipt + 2*npts] = x76*(radial_eval*x78 + radial_eval_alpha*x79);
-      basis_y_eval[ipt + 3*npts] = x23*(radial_eval*x82 + radial_eval_alpha*x83);
-      basis_y_eval[ipt + 4*npts] = 0.125*x36*x87 + 0.125*x54*x86;
-      basis_y_eval[ipt + 5*npts] = x53;
-      basis_y_eval[ipt + 6*npts] = x38*(x39*x87 + x62*x89);
-      basis_y_eval[ipt + 7*npts] = x46*x91;
-      basis_y_eval[ipt + 8*npts] = x69*(x43*x87 + x62*x92);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x58*x8*x93;
-      basis_z_eval[ipt + 1*npts] = x94*(radial_eval_alpha*x95 + x44);
-      basis_z_eval[ipt + 2*npts] = x16*z*(radial_eval_alpha*x21 + x54);
-      basis_z_eval[ipt + 3*npts] = x101*x96;
-      basis_z_eval[ipt + 4*npts] = 2.0*radial_eval*x104 + 0.125*x105*x36;
-      basis_z_eval[ipt + 5*npts] = x101*x106;
-      basis_z_eval[ipt + 6*npts] = x107*(radial_eval_alpha*x39 + x108);
-      basis_z_eval[ipt + 7*npts] = x109*(radial_eval_alpha*x110 + x72);
-      basis_z_eval[ipt + 8*npts] = x105*x43*x69;
-
-      // Evaluate second derivative of bfn wrt xx
-      basis_xx_eval[ipt + 0*npts] = x2*(x115 + x47);
-      basis_xx_eval[ipt + 1*npts] = x11*(x116 + x119);
-      basis_xx_eval[ipt + 2*npts] = x16*(x120 + x52);
-      basis_xx_eval[ipt + 3*npts] = x24*(x113*x28 - x119);
-      basis_xx_eval[ipt + 4*npts] = 0.125*x122;
-      basis_xx_eval[ipt + 5*npts] = x37*(x123 + x125);
-      basis_xx_eval[ipt + 6*npts] = x129*x38;
-      basis_xx_eval[ipt + 7*npts] = x40*(x131 + x47);
-      basis_xx_eval[ipt + 8*npts] = x132*x69;
-
-      // Evaluate second derivative of bfn wrt xy
-      basis_xy_eval[ipt + 0*npts] = x0*(radial_eval_alpha_squared*x4*x6*x8 + x13*x134 + x133*x42 + x66);
-      basis_xy_eval[ipt + 1*npts] = x40*(radial_eval_alpha_squared*x74 + x136 + x137 + x47);
-      basis_xy_eval[ipt + 2*npts] = x14*(radial_eval*x138 + radial_eval_alpha_squared*x21*x4*x6 + x133*x78 + x134*x50);
-      basis_xy_eval[ipt + 3*npts] = x37*(radial_eval_alpha*x82 + radial_eval_alpha_squared*x83 - x136 + x52);
-      basis_xy_eval[ipt + 4*npts] = 0.125*x141 + 0.125*x142*x86 + 0.125*x143*x57 + 0.125*x145*x36;
-      basis_xy_eval[ipt + 5*npts] = x24*(radial_eval_alpha*x60 + radial_eval_alpha_squared*x61 + x146);
-      basis_xy_eval[ipt + 6*npts] = x38*(x145*x39 + x147*x89 + x148*x64);
-      basis_xy_eval[ipt + 7*npts] = x11*(radial_eval_alpha_squared*x67 + x137 + x146);
-      basis_xy_eval[ipt + 8*npts] = x69*(-x141 + x145*x43 + x147*x92 + x148*x70);
-
-      // Evaluate second derivative of bfn wrt xz
-      basis_xz_eval[ipt + 0*npts] = x93*(radial_eval_alpha_squared*x45 + x48);
-      basis_xz_eval[ipt + 1*npts] = x149*(radial_eval_alpha_squared*x95 + x150 + x49);
-      basis_xz_eval[ipt + 2*npts] = x15*z*(radial_eval_alpha*x50 + radial_eval_alpha_squared*x51 + x118 + x54);
-      basis_xz_eval[ipt + 3*npts] = x152;
-      basis_xz_eval[ipt + 4*npts] = -0.125*x*x153 + 2.0*x104*x58 + 0.125*x154*x57 + 0.125*x155*x36;
-      basis_xz_eval[ipt + 5*npts] = x22*(radial_eval*x156 + radial_eval_alpha_squared*x18*x28*x4 + x133*x99 + x157*x60);
-      basis_xz_eval[ipt + 6*npts] = x107*(x140 + x144*x39 + x158 + x159*x64);
-      basis_xz_eval[ipt + 7*npts] = x9*(radial_eval_alpha_squared*x18*x4*x42 + x160 + x68);
-      basis_xz_eval[ipt + 8*npts] = x161*(x144*x43 + x159*x70);
-
-      // Evaluate second derivative of bfn wrt yy
-      basis_yy_eval[ipt + 0*npts] = x2*(x165 + x52);
-      basis_yy_eval[ipt + 1*npts] = x11*(x166 + x52);
-      basis_yy_eval[ipt + 2*npts] = x16*(x167 + x52);
-      basis_yy_eval[ipt + 3*npts] = x24*(x123 + x169);
-      basis_yy_eval[ipt + 4*npts] = 0.125*x171;
-      basis_yy_eval[ipt + 5*npts] = x37*(x163*x28 - x173);
-      basis_yy_eval[ipt + 6*npts] = x176*x38;
-      basis_yy_eval[ipt + 7*npts] = x40*(x163*x42 - x173);
-      basis_yy_eval[ipt + 8*npts] = x178*x69;
-
-      // Evaluate second derivative of bfn wrt yz
-      basis_yz_eval[ipt + 0*npts] = x71*z*(radial_eval_alpha_squared*x73 + x90);
-      basis_yz_eval[ipt + 1*npts] = x9*(radial_eval_alpha_squared*x13*x18*x6 + x160 + x75);
-      basis_yz_eval[ipt + 2*npts] = x76*z*(radial_eval_alpha*x78 + radial_eval_alpha_squared*x79 + x172 + x54);
-      basis_yz_eval[ipt + 3*npts] = x22*(radial_eval*x179 + radial_eval_alpha_squared*x18*x28*x6 + x134*x99 + x157*x82);
-      basis_yz_eval[ipt + 4*npts] = 2.0*x104*x87 - 0.125*x153*y + 0.125*x154*x86 + 0.125*x181*x36;
-      basis_yz_eval[ipt + 5*npts] = x152;
-      basis_yz_eval[ipt + 6*npts] = x107*(-x139*y + x159*x89 + x180*x39 + x182);
-      basis_yz_eval[ipt + 7*npts] = x149*(radial_eval_alpha_squared*x110 + x151 + x91);
-      basis_yz_eval[ipt + 8*npts] = x161*(x159*x92 + x180*x43);
-
-      // Evaluate second derivative of bfn wrt zz
-      basis_zz_eval[ipt + 0*npts] = x184*x2;
-      basis_zz_eval[ipt + 1*npts] = x11*x186;
-      basis_zz_eval[ipt + 2*npts] = x16*(x188 + x54);
-      basis_zz_eval[ipt + 3*npts] = x190*x24;
-      basis_zz_eval[ipt + 4*npts] = 0.125*x192;
-      basis_zz_eval[ipt + 5*npts] = x190*x37;
-      basis_zz_eval[ipt + 6*npts] = x193*x38;
-      basis_zz_eval[ipt + 7*npts] = x195*x40;
-      basis_zz_eval[ipt + 8*npts] = x196*x69;
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x2*(x115 + x165 + x184);
-      basis_lapl_eval[ipt + 1*npts] = x11*(x186 + x198);
-      basis_lapl_eval[ipt + 2*npts] = x16*(x120 + x167 + x188);
-      basis_lapl_eval[ipt + 3*npts] = x24*(x124 + x169 + x189 + x199);
-      basis_lapl_eval[ipt + 4*npts] = 0.125*x122 + 0.125*x171 + 0.125*x192;
-      basis_lapl_eval[ipt + 5*npts] = x37*(x125 + x168 + x189 + x200);
-      basis_lapl_eval[ipt + 6*npts] = x38*(x129 + x176 + x193);
-      basis_lapl_eval[ipt + 7*npts] = x40*(x195 + x203);
-      basis_lapl_eval[ipt + 8*npts] = x69*(x132 + x178 + x196);
-
-      // Evaluate Laplacian gradient of bfn (dx)
-      basis_lapl_x_eval[ipt + 0*npts] = x1*(x*x204*x8 + 3.0*x116 + x185 + x197 + x206*x3 + x208*x3 + x210*x42);
-      basis_lapl_x_eval[ipt + 1*npts] = x11*(x*x217 + x*x218 + x13*x204 + x13*x216 + x211 + x212 + x214 + x215 + x216*x65);
-      basis_lapl_x_eval[ipt + 2*npts] = x15*(x*x204*x21 + 3.0*x113*x50 + x163*x50 + x183*x50 + x199 + x210*x78 + x219*x3 + x220*x3 + x221*x34 + x222);
-      basis_lapl_x_eval[ipt + 3*npts] = x24*(x*x223 + x*x224 - x211 - x212 - x214 - x215 + x216*x82 + x216*x99 + x225);
-      basis_lapl_x_eval[ipt + 4*npts] = 0.125*x*x229 + 0.125*x*x230 + 4.0*x104*x155 + 4.5*x113*x57 + 0.125*x121*x211 + 0.125*x142*x170 + 1.5*x163*x57 - 24.0*x18*x58 + 1.5*x183*x57 + 0.125*x191*x226 + 0.125*x204*x36 + 0.125*x227 + 0.125*x228*x86;
-      basis_lapl_x_eval[ipt + 5*npts] = x23*(x*x225 + 3.0*x113*x60 + x163*x60 + x183*x60 + x210*x99 + x223*x3 + x224*x3 - x231*x4 + x232 + x236);
-      basis_lapl_x_eval[ipt + 6*npts] = x38*(x*x239 + x*x240 + 12.0*x113*x64 + x127*x211 + x142*x174 + x144*x238*x8 + x158 + 4.0*x163*x64 + x18*x226 + 4.0*x183*x64 + x204*x39 + x237*x89);
-      basis_lapl_x_eval[ipt + 7*npts] = x10*(x*x204*x42 + x209*x67 + x236 + x241 + 3.0*x242 + x243*x3 + x244*x3 + x245);
-      basis_lapl_x_eval[ipt + 8*npts] = x69*(x*x246 + x*x247 + 12.0*x113*x70 + x142*x177 + 4.0*x163*x70 + 4.0*x183*x70 + x204*x43 + x211*x8 - x227 + x237*x92);
-      // Evaluate Laplacian gradient of bfn (dy)
-      basis_lapl_y_eval[ipt + 0*npts] = x71*(x13*x251 + x194 + 3.0*x201 + x202 + x208*x5 + x248*x8*y + x250*x5);
-      basis_lapl_y_eval[ipt + 1*npts] = x10*(x13*x248*y + x200 + x209*x74 + x218*x5 + x234 + 3.0*x241 + x242 + x245 + x252*x5);
-      basis_lapl_y_eval[ipt + 2*npts] = x76*(x113*x78 + 3.0*x163*x78 + x183*x78 + x200 + x21*x248*y + x220*x5 + x221*x35 + x222 + x251*x50 + x253*x5);
-      basis_lapl_y_eval[ipt + 3*npts] = x23*(x113*x82 + 3.0*x163*x82 + x183*x82 + x224*x5 - x231*x6 + x235 + x251*x99 + x254*y + x255*x5 + x256);
-      basis_lapl_y_eval[ipt + 4*npts] = 4.0*x104*x181 + 1.5*x113*x86 + 0.125*x121*x143 + 4.5*x163*x86 + 0.125*x170*x259 - 24.0*x18*x87 + 1.5*x183*x86 + 0.125*x191*x257 + 0.125*x228*x57 + 0.125*x230*y + 0.125*x248*x36 + 0.125*x258 + 0.125*x260*y;
-      basis_lapl_y_eval[ipt + 5*npts] = x37*(x224*y + x254 + x255*y + x261*x60 + x261*x99 + x263);
-      basis_lapl_y_eval[ipt + 6*npts] = x38*(4.0*x113*x89 + x127*x143 + 12.0*x163*x89 + x174*x259 - x18*x257 + x180*x238*x8 + x182 + 4.0*x183*x89 + x237*x64 + x240*y + x248*x39 + x264*y);
-      basis_lapl_y_eval[ipt + 7*npts] = x40*(x244*y + x248*x42 + x261*x42 + x261*x65 + x263 + x265*y);
-      basis_lapl_y_eval[ipt + 8*npts] = x69*(4.0*x113*x92 + 12.0*x163*x92 + x177*x259 + x182 + 4.0*x183*x92 + x237*x70 + x247*y + x248*x43 - x258 + x266*y);
-      // Evaluate Laplacian gradient of bfn (dz)
-      basis_lapl_z_eval[ipt + 0*npts] = x2*(x13*x267 + x206*z + x250*z + x267*x42 + x268*x8);
-      basis_lapl_z_eval[ipt + 1*npts] = x94*(x13*x268*z + x17*x217 + x17*x252 + 3.0*x185 + x198 + x270 + x271);
-      basis_lapl_z_eval[ipt + 2*npts] = x16*(72.0*x105 + x113*x272 + x163*x272 + x183*x273 + x21*x268 + x219*z + x253*z + x267*x50 + x267*x78);
-      basis_lapl_z_eval[ipt + 3*npts] = x96*(x256 + x269*x82 - x271 + x274);
-      basis_lapl_z_eval[ipt + 4*npts] = 2.0*x104*x113 + 2.0*x104*x163 + 6.0*x104*x183 + 18.0*x105*x191 + 0.125*x121*x154 + 0.125*x154*x170 + 3.0*x155*x57 + 3.0*x181*x86 + 0.125*x229*z + 0.125*x260*z + 0.125*x268*x36 - 0.125*x275*x4 - 0.125*x275*x6;
-      basis_lapl_z_eval[ipt + 5*npts] = x106*(x200 + x232 + x269*x60 + x274 + x276);
-      basis_lapl_z_eval[ipt + 6*npts] = x38*(36.0*x105*x8 + x114*x272 + x127*x154 + x154*x174 + x164*x272 + x184*x273 + x239*z + x264*z + x268*x39 + x277*x4 - x277*x6 + x278*x89 + x279*x64);
-      basis_lapl_z_eval[ipt + 7*npts] = x109*(x17*x243 + x17*x265 + 3.0*x194 + x203 + x268*x42*z + x270 + x276);
-      basis_lapl_z_eval[ipt + 8*npts] = x69*(x154*x177 + x154*x8 + x246*z + x266*z + x268*x43 + x278*x92 + x279*x70);
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x2*x8;
-      ang_eval_1 = radial_eval*x11*x13;
-      ang_eval_2 = radial_eval*x16*x21;
-      ang_eval_3 = radial_eval*x24*x28;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x29*x36;
-      ang_eval_1 = radial_eval*x28*x37;
-      ang_eval_2 = radial_eval*x38*x39;
-      ang_eval_3 = radial_eval*x40*x42;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_35*x29*x43;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x1*(radial_eval_alpha*x45 + x44);
-      dang_eval_y_0 = x71*(radial_eval_alpha*x73 + x72);
-      dang_eval_z_0 = x58*x8*x93;
-      dang_eval_x_1 = x46*x49;
-      dang_eval_y_1 = x10*x75;
-      dang_eval_z_1 = x94*(radial_eval_alpha*x95 + x44);
-      dang_eval_x_2 = x15*(radial_eval*x50 + radial_eval_alpha*x51);
-      dang_eval_y_2 = x76*(radial_eval*x78 + radial_eval_alpha*x79);
-      dang_eval_z_2 = x16*z*(radial_eval_alpha*x21 + x54);
-      dang_eval_x_3 = x53;
-      dang_eval_y_3 = x23*(radial_eval*x82 + radial_eval_alpha*x83);
-      dang_eval_z_3 = x101*x96;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = 0.125*x36*x58 + 0.125*x54*x57;
-      dang_eval_y_0 = 0.125*x36*x87 + 0.125*x54*x86;
-      dang_eval_z_0 = 2.0*radial_eval*x104 + 0.125*x105*x36;
-      dang_eval_x_1 = x23*(radial_eval*x60 + radial_eval_alpha*x61);
-      dang_eval_y_1 = x53;
-      dang_eval_z_1 = x101*x106;
-      dang_eval_x_2 = x38*(x39*x58 + x62*x64);
-      dang_eval_y_2 = x38*(x39*x87 + x62*x89);
-      dang_eval_z_2 = x107*(radial_eval_alpha*x39 + x108);
-      dang_eval_x_3 = x10*x68;
-      dang_eval_y_3 = x46*x91;
-      dang_eval_z_3 = x109*(radial_eval_alpha*x110 + x72);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x69*(x43*x58 + x62*x70);
-      dang_eval_y_0 = x69*(x43*x87 + x62*x92);
-      dang_eval_z_0 = x105*x43*x69;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_laplacian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_laplacian.hpp
deleted file mode 100644
index f5b3c77..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/collocation_shell_to_task_kernels_spherical_l4_laplacian.hpp
+++ /dev/null
@@ -1,452 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-
-__global__ __launch_bounds__(128,2) void collocation_device_shell_to_task_kernel_spherical_laplacian_4(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[4][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[4][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-      double radial_eval_alpha = 0.;
-      double radial_eval_alpha_squared = 0.;
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-        radial_eval_alpha += a * e;
-        radial_eval_alpha_squared += a * a * e;
-      }
-
-      radial_eval_alpha *= -2;
-      radial_eval_alpha_squared *= 4;
-
-      // Common Subexpressions
-      const auto x0 = 0.5*sqrt_35; 
-      const auto x1 = x0*y; 
-      const auto x2 = x*x1; 
-      const auto x3 = x*x; 
-      const auto x4 = x3; 
-      const auto x5 = y*y; 
-      const auto x6 = x5; 
-      const auto x7 = -x6; 
-      const auto x8 = x4 + x7; 
-      const auto x9 = 0.25*sqrt_70; 
-      const auto x10 = x9*z; 
-      const auto x11 = x10*y; 
-      const auto x12 = 3.0*x4; 
-      const auto x13 = x12 + x7; 
-      const auto x14 = 0.5*sqrt_5; 
-      const auto x15 = x14*y; 
-      const auto x16 = x*x15; 
-      const auto x17 = z*z; 
-      const auto x18 = x17; 
-      const auto x19 = -6.0*x18; 
-      const auto x20 = x19 + x6; 
-      const auto x21 = -x20 - x4; 
-      const auto x22 = 0.25*sqrt_10; 
-      const auto x23 = x22*z; 
-      const auto x24 = x23*y; 
-      const auto x25 = -4.0*x18; 
-      const auto x26 = 3.0*x6; 
-      const auto x27 = x25 + x26; 
-      const auto x28 = -x12 - x27; 
-      const auto x29 = 0.125*radial_eval; 
-      const auto x30 = x*x*x*x; 
-      const auto x31 = y*y*y*y; 
-      const auto x32 = 6.0*x4*x6; 
-      const auto x33 = x18*x4; 
-      const auto x34 = x18*x6; 
-      const auto x35 = 3.0*x30 + 3.0*x31 + x32 - 24.0*x33 - 24.0*x34 + 8.0*(z*z*z*z); 
-      const auto x36 = x*x23; 
-      const auto x37 = 0.25*sqrt_5; 
-      const auto x38 = -x30 + x31 + 6.0*x33 - 6.0*x34; 
-      const auto x39 = x*x10; 
-      const auto x40 = -x26; 
-      const auto x41 = x4 + x40; 
-      const auto x42 = x30 + x31 - x32; 
-      const auto x43 = radial_eval*x13; 
-      const auto x44 = x4*x8; 
-      const auto x45 = x*x11; 
-      const auto x46 = 6.0*radial_eval; 
-      const auto x47 = radial_eval_alpha*x13; 
-      const auto x48 = x46 + x47; 
-      const auto x49 = -x12 - x20; 
-      const auto x50 = x21*x4; 
-      const auto x51 = -x46; 
-      const auto x52 = x*x24*(radial_eval_alpha*x28 + x51); 
-      const auto x53 = 12.0*radial_eval; 
-      const auto x54 = x*x*x; 
-      const auto x55 = 4.0*x; 
-      const auto x56 = x*x6 - x18*x55 + x54; 
-      const auto x57 = radial_eval_alpha*x; 
-      const auto x58 = 9.0*x4; 
-      const auto x59 = -x27 - x58; 
-      const auto x60 = x28*x4; 
-      const auto x61 = 4.0*radial_eval; 
-      const auto x62 = 3.0*x; 
-      const auto x63 = x18*x62 - x54; 
-      const auto x64 = x12 + x40; 
-      const auto x65 = radial_eval*x64; 
-      const auto x66 = x4*x41; 
-      const auto x67 = radial_eval_alpha*x66 + x65; 
-      const auto x68 = 0.125*sqrt_35; 
-      const auto x69 = x54 - x6*x62; 
-      const auto x70 = x*x0; 
-      const auto x71 = radial_eval*x41; 
-      const auto x72 = x6*x8; 
-      const auto x73 = x13*x6; 
-      const auto x74 = radial_eval_alpha*x73 + x65; 
-      const auto x75 = x*x14; 
-      const auto x76 = x19 + x26; 
-      const auto x77 = -x4 - x76; 
-      const auto x78 = x21*x6; 
-      const auto x79 = 9.0*x6; 
-      const auto x80 = x12 + x25; 
-      const auto x81 = -x79 - x80; 
-      const auto x82 = x28*x6; 
-      const auto x83 = y*y*y; 
-      const auto x84 = 4.0*y; 
-      const auto x85 = -x18*x84 + x4*y + x83; 
-      const auto x86 = radial_eval_alpha*y; 
-      const auto x87 = 3.0*y; 
-      const auto x88 = -x18*x87 + x83; 
-      const auto x89 = radial_eval_alpha*x41; 
-      const auto x90 = x51 + x89; 
-      const auto x91 = -x4*x87 + x83; 
-      const auto x92 = x1*z; 
-      const auto x93 = x9*y; 
-      const auto x94 = x13*x18; 
-      const auto x95 = x22*y; 
-      const auto x96 = -12.0*x18; 
-      const auto x97 = x26 + x96; 
-      const auto x98 = -x12 - x97; 
-      const auto x99 = x18*x28; 
-      const auto x100 = radial_eval*x98 + radial_eval_alpha*x99; 
-      const auto x101 = 3.0*z; 
-      const auto x102 = -x101*x4 - x101*x6 + 2.0*(z*z*z); 
-      const auto x103 = radial_eval_alpha*z; 
-      const auto x104 = x37*z; 
-      const auto x105 = x53*x8; 
-      const auto x106 = x18*x41; 
-      const auto x107 = 2.0*radial_eval_alpha; 
-      const auto x108 = x107*x13; 
-      const auto x109 = radial_eval_alpha + radial_eval_alpha_squared*x4; 
-      const auto x110 = x108 + x109*x8; 
-      const auto x111 = x109*x13; 
-      const auto x112 = 12.0*radial_eval_alpha; 
-      const auto x113 = x112*x4; 
-      const auto x114 = x113 + x46; 
-      const auto x115 = x107*x49 + x109*x21; 
-      const auto x116 = x109*x35 + x53*(x6 + x80) + 24.0*x56*x57; 
-      const auto x117 = -18.0*radial_eval; 
-      const auto x118 = x109*x28; 
-      const auto x119 = x107*x59 + x118; 
-      const auto x120 = -x4; 
-      const auto x121 = 8.0*x57; 
-      const auto x122 = x109*x38 + x121*x63 + x53*(x120 + x18); 
-      const auto x123 = x107*x64; 
-      const auto x124 = x109*x41 + x123; 
-      const auto x125 = x105 + x109*x42 + x121*x69; 
-      const auto x126 = radial_eval_alpha*x3; 
-      const auto x127 = radial_eval_alpha*x5; 
-      const auto x128 = 6.0*radial_eval_alpha; 
-      const auto x129 = x128*x6; 
-      const auto x130 = radial_eval_alpha*x64; 
-      const auto x131 = 24.0*radial_eval; 
-      const auto x132 = x*x131; 
-      const auto x133 = x132*y; 
-      const auto x134 = 12.0*x57; 
-      const auto x135 = 12.0*x86; 
-      const auto x136 = radial_eval_alpha_squared*x; 
-      const auto x137 = x136*y; 
-      const auto x138 = -x128*x4 + x51; 
-      const auto x139 = radial_eval_alpha*x55; 
-      const auto x140 = radial_eval_alpha*x84; 
-      const auto x141 = x*x93; 
-      const auto x142 = x128*x18; 
-      const auto x143 = -x142; 
-      const auto x144 = x*x95*(radial_eval_alpha*x98 + radial_eval_alpha_squared*x99 + x143 + x51); 
-      const auto x145 = 96.0*radial_eval*z; 
-      const auto x146 = 12.0*x103; 
-      const auto x147 = radial_eval_alpha*x17; 
-      const auto x148 = 4.0*radial_eval_alpha; 
-      const auto x149 = x147*x64; 
-      const auto x150 = x68*z; 
-      const auto x151 = x107*x41; 
-      const auto x152 = radial_eval_alpha + radial_eval_alpha_squared*x6; 
-      const auto x153 = x151 + x152*x8; 
-      const auto x154 = x123 + x13*x152; 
-      const auto x155 = x107*x77 + x152*x21; 
-      const auto x156 = x152*x28; 
-      const auto x157 = x107*x81 + x156; 
-      const auto x158 = x152*x35 + x53*(x27 + x4) + 24.0*x85*x86; 
-      const auto x159 = x112*x6; 
-      const auto x160 = x159 + x46; 
-      const auto x161 = 8.0*x86; 
-      const auto x162 = x152*x38 + x161*x88 - x53*(x18 - x6); 
-      const auto x163 = x152*x42 + x161*x91 + x53*(x120 + x6); 
-      const auto x164 = radial_eval_alpha_squared*y; 
-      const auto x165 = radial_eval_alpha + radial_eval_alpha_squared*x18; 
-      const auto x166 = x165*x8; 
-      const auto x167 = x108 + x13*x165; 
-      const auto x168 = 24.0*radial_eval_alpha*x18 + x165*x21; 
-      const auto x169 = x107*x98 + x165*x28; 
-      const auto x170 = x131 + x169; 
-      const auto x171 = -48.0*radial_eval*(-2.0*x18 + x4 + x6) + 32.0*x102*x103 + x165*x35; 
-      const auto x172 = x105 + 24.0*x147*x8 + x165*x38; 
-      const auto x173 = x151 + x165*x41; 
-      const auto x174 = x165*x42; 
-      const auto x175 = -x159; 
-
-
-      // Evaluate basis function
-      basis_eval[ipt + 0*npts] = radial_eval*x2*x8;
-      basis_eval[ipt + 1*npts] = radial_eval*x11*x13;
-      basis_eval[ipt + 2*npts] = radial_eval*x16*x21;
-      basis_eval[ipt + 3*npts] = radial_eval*x24*x28;
-      basis_eval[ipt + 4*npts] = x29*x35;
-      basis_eval[ipt + 5*npts] = radial_eval*x28*x36;
-      basis_eval[ipt + 6*npts] = radial_eval*x37*x38;
-      basis_eval[ipt + 7*npts] = radial_eval*x39*x41;
-      basis_eval[ipt + 8*npts] = sqrt_35*x29*x42;
-
-
-    
-      // Evaluate first derivative of bfn wrt x
-      basis_x_eval[ipt + 0*npts] = x1*(radial_eval_alpha*x44 + x43);
-      basis_x_eval[ipt + 1*npts] = x45*x48;
-      basis_x_eval[ipt + 2*npts] = x15*(radial_eval*x49 + radial_eval_alpha*x50);
-      basis_x_eval[ipt + 3*npts] = x52;
-      basis_x_eval[ipt + 4*npts] = 0.125*x35*x57 + 0.125*x53*x56;
-      basis_x_eval[ipt + 5*npts] = x23*(radial_eval*x59 + radial_eval_alpha*x60);
-      basis_x_eval[ipt + 6*npts] = x37*(x38*x57 + x61*x63);
-      basis_x_eval[ipt + 7*npts] = x10*x67;
-      basis_x_eval[ipt + 8*npts] = x68*(x42*x57 + x61*x69);
-
-      // Evaluate first derivative of bfn wrt y
-      basis_y_eval[ipt + 0*npts] = x70*(radial_eval_alpha*x72 + x71);
-      basis_y_eval[ipt + 1*npts] = x10*x74;
-      basis_y_eval[ipt + 2*npts] = x75*(radial_eval*x77 + radial_eval_alpha*x78);
-      basis_y_eval[ipt + 3*npts] = x23*(radial_eval*x81 + radial_eval_alpha*x82);
-      basis_y_eval[ipt + 4*npts] = 0.125*x35*x86 + 0.125*x53*x85;
-      basis_y_eval[ipt + 5*npts] = x52;
-      basis_y_eval[ipt + 6*npts] = x37*(x38*x86 + x61*x88);
-      basis_y_eval[ipt + 7*npts] = x45*x90;
-      basis_y_eval[ipt + 8*npts] = x68*(x42*x86 + x61*x91);
-
-      // Evaluate first derivative of bfn wrt z
-      basis_z_eval[ipt + 0*npts] = x57*x8*x92;
-      basis_z_eval[ipt + 1*npts] = x93*(radial_eval_alpha*x94 + x43);
-      basis_z_eval[ipt + 2*npts] = x16*z*(radial_eval_alpha*x21 + x53);
-      basis_z_eval[ipt + 3*npts] = x100*x95;
-      basis_z_eval[ipt + 4*npts] = 2.0*radial_eval*x102 + 0.125*x103*x35;
-      basis_z_eval[ipt + 5*npts] = x*x100*x22;
-      basis_z_eval[ipt + 6*npts] = x104*(radial_eval_alpha*x38 + x105);
-      basis_z_eval[ipt + 7*npts] = x*x9*(radial_eval_alpha*x106 + x71);
-      basis_z_eval[ipt + 8*npts] = x103*x42*x68;
-
-
-      // Evaluate Laplacian of bfn 
-      basis_lapl_eval[ipt + 0*npts] = x2*(x110 + x153 + x166);
-      basis_lapl_eval[ipt + 1*npts] = x11*(x111 + x113 + x154 + x167);
-      basis_lapl_eval[ipt + 2*npts] = x16*(x115 + x155 + x168);
-      basis_lapl_eval[ipt + 3*npts] = x24*(-x113 + x118 + x157 + x169);
-      basis_lapl_eval[ipt + 4*npts] = 0.125*x116 + 0.125*x158 + 0.125*x171;
-      basis_lapl_eval[ipt + 5*npts] = x36*(x119 + x156 + x169 + x175);
-      basis_lapl_eval[ipt + 6*npts] = x37*(x122 + x162 + x172);
-      basis_lapl_eval[ipt + 7*npts] = x39*(x124 + x152*x41 + x173 + x175);
-      basis_lapl_eval[ipt + 8*npts] = x68*(x125 + x163 + x174);
-
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-
-
-      double ang_eval_0;
-      double ang_eval_1;
-      double ang_eval_2;
-      double ang_eval_3;
-
-
-      ang_eval_0 = radial_eval*x2*x8;
-      ang_eval_1 = radial_eval*x11*x13;
-      ang_eval_2 = radial_eval*x16*x21;
-      ang_eval_3 = radial_eval*x24*x28;
-      basis_eval[ipt + 0*npts] = ang_eval_0;
-      basis_eval[ipt + 1*npts] = ang_eval_1;
-      basis_eval[ipt + 2*npts] = ang_eval_2;
-      basis_eval[ipt + 3*npts] = ang_eval_3;
-
-      ang_eval_0 = x29*x35;
-      ang_eval_1 = radial_eval*x28*x36;
-      ang_eval_2 = radial_eval*x37*x38;
-      ang_eval_3 = radial_eval*x39*x41;
-      basis_eval[ipt + 4*npts] = ang_eval_0;
-      basis_eval[ipt + 5*npts] = ang_eval_1;
-      basis_eval[ipt + 6*npts] = ang_eval_2;
-      basis_eval[ipt + 7*npts] = ang_eval_3;
-
-      ang_eval_0 = sqrt_35*x29*x42;
-      basis_eval[ipt + 8*npts] = ang_eval_0;
-
-
-      double dang_eval_x_0, dang_eval_y_0, dang_eval_z_0;
-      double dang_eval_x_1, dang_eval_y_1, dang_eval_z_1;
-      double dang_eval_x_2, dang_eval_y_2, dang_eval_z_2;
-      double dang_eval_x_3, dang_eval_y_3, dang_eval_z_3;
-
-      dang_eval_x_0 = x1*(radial_eval_alpha*x44 + x43);
-      dang_eval_y_0 = x70*(radial_eval_alpha*x72 + x71);
-      dang_eval_z_0 = x57*x8*x92;
-      dang_eval_x_1 = x45*x48;
-      dang_eval_y_1 = x10*x74;
-      dang_eval_z_1 = x93*(radial_eval_alpha*x94 + x43);
-      dang_eval_x_2 = x15*(radial_eval*x49 + radial_eval_alpha*x50);
-      dang_eval_y_2 = x75*(radial_eval*x77 + radial_eval_alpha*x78);
-      dang_eval_z_2 = x16*z*(radial_eval_alpha*x21 + x53);
-      dang_eval_x_3 = x52;
-      dang_eval_y_3 = x23*(radial_eval*x81 + radial_eval_alpha*x82);
-      dang_eval_z_3 = x100*x95;
-      basis_x_eval[ipt + 0*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 0*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 0*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 1*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 1*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 1*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 2*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 2*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 2*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 3*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 3*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 3*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = 0.125*x35*x57 + 0.125*x53*x56;
-      dang_eval_y_0 = 0.125*x35*x86 + 0.125*x53*x85;
-      dang_eval_z_0 = 2.0*radial_eval*x102 + 0.125*x103*x35;
-      dang_eval_x_1 = x23*(radial_eval*x59 + radial_eval_alpha*x60);
-      dang_eval_y_1 = x52;
-      dang_eval_z_1 = x*x100*x22;
-      dang_eval_x_2 = x37*(x38*x57 + x61*x63);
-      dang_eval_y_2 = x37*(x38*x86 + x61*x88);
-      dang_eval_z_2 = x104*(radial_eval_alpha*x38 + x105);
-      dang_eval_x_3 = x10*x67;
-      dang_eval_y_3 = x45*x90;
-      dang_eval_z_3 = x*x9*(radial_eval_alpha*x106 + x71);
-      basis_x_eval[ipt + 4*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 4*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 4*npts] = dang_eval_z_0;
-      basis_x_eval[ipt + 5*npts] = dang_eval_x_1;
-      basis_y_eval[ipt + 5*npts] = dang_eval_y_1;
-      basis_z_eval[ipt + 5*npts] = dang_eval_z_1;
-      basis_x_eval[ipt + 6*npts] = dang_eval_x_2;
-      basis_y_eval[ipt + 6*npts] = dang_eval_y_2;
-      basis_z_eval[ipt + 6*npts] = dang_eval_z_2;
-      basis_x_eval[ipt + 7*npts] = dang_eval_x_3;
-      basis_y_eval[ipt + 7*npts] = dang_eval_y_3;
-      basis_z_eval[ipt + 7*npts] = dang_eval_z_3;
-
-      dang_eval_x_0 = x68*(x42*x57 + x61*x69);
-      dang_eval_y_0 = x68*(x42*x86 + x61*x91);
-      dang_eval_z_0 = x103*x42*x68;
-      basis_x_eval[ipt + 8*npts] = dang_eval_x_0;
-      basis_y_eval[ipt + 8*npts] = dang_eval_y_0;
-      basis_z_eval[ipt + 8*npts] = dang_eval_z_0;
-
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/deprecated/gaueval_kernels_template.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/deprecated/gaueval_kernels_template.cu
deleted file mode 100644
index d3380d6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/deprecated/gaueval_kernels_template.cu
+++ /dev/null
@@ -1,140 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-//#include <GauXC/device_util.hpp>
-#include <iostream>
-#include <cassert>
-
-#include "gaueval_kernels.hpp"
-#include "gaueval_angular_cartesian.hpp"
-#include "gaueval_angular_spherical.hpp"
-#include "gaueval_angular_spherical_unnorm.hpp"
-
-namespace GauXC {
-
-__global__
-void gaueval_device_$(ang_name)_kernel(
-  size_t             nshells,
-  size_t             nbf,
-  size_t             npts,
-  const StaticShell* shells_device,
-  const size_t*      offs_device,
-  const double*      pts_device,
-  double*            eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* O     = device::array_data( shell.O     );
-    const auto* alpha = device::array_data( shell.alpha );
-    const auto* coeff = device::array_data( shell.coeff );
-
-    const double xc = pt[0] - O[0];
-    const double yc = pt[1] - O[1];
-    const double zc = pt[2] - O[2];
-  
-    const double rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim; 
-    double tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    double * bf_eval = eval_device + ibf + ipt*nbf;
-    gaueval_$(ang_name)_angular( shell.l, tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-__global__
-void gaueval_device_$(ang_name)_kernel_deriv1(
-  size_t             nshells,
-  size_t             nbf,
-  size_t             npts,
-  const StaticShell* shells_device,
-  const size_t*      offs_device,
-  const double*      pts_device,
-  double*            eval_device,
-  double*            deval_device_x,
-  double*            deval_device_y,
-  double*            deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[ish];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* O     = device::array_data( shell.O     );
-    const auto* alpha = device::array_data( shell.alpha );
-    const auto* coeff = device::array_data( shell.coeff );
-
-    const double xc = pt[0] - O[0];
-    const double yc = pt[1] - O[1];
-    const double zc = pt[2] - O[2];
-  
-    const double rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim; 
-    double tmp = 0.;
-    double tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const double a = alpha[i];
-      const double e = coeff[i] * std::exp( - a * rsq );
-
-      const double ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    double * bf_eval = eval_device    + ibf + ipt*nbf;
-    double * dx_eval = deval_device_x + ibf + ipt*nbf;
-    double * dy_eval = deval_device_y + ibf + ipt*nbf;
-    double * dz_eval = deval_device_z + ibf + ipt*nbf;
-
-    gaueval_$(ang_name)_angular_deriv1( shell.l, tmp, tmp_x, tmp_y, tmp_z, xc, yc, zc, bf_eval, dx_eval, dy_eval, dz_eval );
-
-  }
-
-
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/deprecated/generate_bfeval.py b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/deprecated/generate_bfeval.py
deleted file mode 100644
index 178a979..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/deprecated/generate_bfeval.py
+++ /dev/null
@@ -1,440 +0,0 @@
-import cmath
-import math
-import os
-import re
-import sys
-from math import factorial as fact
-
-import sympy
-from scipy.special import binom as binomial
-from sympy import I as symb_I
-from sympy import exp as symb_exp
-from sympy import factorial as symb_fact
-from sympy import factorial2 as symb_fact2
-
-
-def generate_cartesian_ls(L):
-    l = []
-    for i in range(L + 1):
-        lx = L - i
-        for j in range(i + 1):
-            ly = i - j
-            lz = L - lx - ly
-
-            l.append([0, 0, 0])
-
-            for k in range(lx - 1):
-                l[-1][0] = l[-1][0] + 1
-            for k in range(ly - 1):
-                l[-1][1] = l[-1][1] + 1
-            for k in range(lz - 1):
-                l[-1][2] = l[-1][2] + 1
-
-            if lx > 0:
-                l[-1][0] = l[-1][0] + 1
-            if ly > 0:
-                l[-1][1] = l[-1][1] + 1
-            if lz > 0:
-                l[-1][2] = l[-1][2] + 1
-
-    return l
-
-
-def generate_spherical_coeff(l, m, lx, ly, lz):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return 0.0
-
-    prefactor = fact(2.0 * lx) * fact(2.0 * ly) * fact(2.0 * lz) * fact(l)
-    prefactor = prefactor * fact(l - abs(m))
-    prefactor = prefactor / (fact(2.0 * l) * fact(lx) * fact(ly) * fact(lz))
-    prefactor = prefactor / fact(l + abs(m))
-    prefactor = math.sqrt(prefactor)
-
-    term1 = 0.0
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + binomial(l, i) * binomial(i, j) * math.pow(-1, i) * fact(
-            2 * l - 2 * i
-        ) / fact(l - abs(m) - 2 * i)
-
-    term1 = term1 / math.pow(2, l) / fact(l)
-
-    m_fact = 1.0
-    if m < 0:
-        m_fact = -1.0
-
-    term2 = 0.0 + 0.0j
-    for k in range(j + 1):
-        z = cmath.exp(m_fact * math.pi / 2.0 * (abs(m) - lx + 2 * k) * 1.0j)
-        term2 = term2 + binomial(j, k) * binomial(abs(m), lx - 2 * k) * z
-
-    val = prefactor * term1 * term2
-
-    if abs(val.real) < 1e-10:
-        val = 0.0 + val.imag * 1j
-    if abs(val.imag) < 1e-10:
-        val = val.real
-
-    return val
-
-
-def generate_spherical_coeff_symb(l, m, lx, ly, lz, unnorm=False):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return sympy.Integer(0)
-
-    j_symb = sympy.Integer(j)
-    l_symb = sympy.Integer(l)
-    m_symb = sympy.Integer(abs(m))
-    lx_symb = sympy.Integer(lx)
-    ly_symb = sympy.Integer(ly)
-    lz_symb = sympy.Integer(lz)
-
-    prefactor = (
-        symb_fact(2 * lx_symb)
-        * symb_fact(2 * ly_symb)
-        * symb_fact(2 * lz_symb)
-        * symb_fact(l_symb)
-    )
-    prefactor = prefactor * symb_fact(l_symb - m_symb)
-    prefactor = prefactor / (
-        symb_fact(2 * l_symb)
-        * symb_fact(lx_symb)
-        * symb_fact(ly_symb)
-        * symb_fact(lz_symb)
-    )
-    prefactor = prefactor / symb_fact(l_symb + m_symb)
-
-    # Ed's stupid normalization convention...
-    if unnorm:
-        prefactor = (
-            prefactor
-            * symb_fact2(2 * l - 1)
-            / symb_fact2(2 * lx - 1)
-            / symb_fact2(2 * ly - 1)
-            / symb_fact2(2 * lz - 1)
-        )
-
-    prefactor = sympy.sqrt(prefactor)
-
-    term1 = sympy.Integer(0)
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + sympy.Integer(binomial(l, i)) * sympy.Integer(
-            binomial(i, j)
-        ) * sympy.Integer(math.pow(-1, i)) * symb_fact(
-            2 * l_symb - sympy.Integer(2 * i)
-        ) / symb_fact(l_symb - m_symb - sympy.Integer(2 * i))
-
-    term1 = term1 / (2**l_symb) / symb_fact(l)
-
-    m_fact_symb = sympy.Integer(1)
-    if m < 0:
-        m_fact_symb = -m_fact_symb
-
-    term2 = sympy.Integer(0)
-    for k in range(j + 1):
-        z = sympy.exp(
-            m_fact_symb
-            * sympy.pi
-            / 2
-            * (m_symb - lx_symb + sympy.Integer(2 * k))
-            * symb_I
-        )
-        term2 = (
-            term2
-            + sympy.Integer(binomial(j, k))
-            * sympy.Integer(binomial(abs(m), lx - 2 * k))
-            * z
-        )
-
-    return prefactor * term1 * term2
-
-
-def generate_cartesian_angular(ls):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-
-    ang = []
-
-    for l in ls:
-        ang.append(r)
-        for i in range(l[0]):
-            ang[-1] = ang[-1] * x
-        for i in range(l[1]):
-            ang[-1] = ang[-1] * y
-        for i in range(l[2]):
-            ang[-1] = ang[-1] * z
-
-        ang[-1] = ang[-1] / r
-
-    return ang
-
-
-def generate_spherical_angular(L, unnorm=False):
-    ls = generate_cartesian_ls(L)
-    angs = generate_cartesian_angular(ls)
-
-    # r = sympy.symbols( 'r' )
-    sph_angs = []
-    for m in range(L + 1):
-        tmp_p = 0
-        tmp_m = 0
-        for i in range(len(ls)):
-            l = ls[i]
-            ang = angs[i]
-
-            # c = generate_spherical_coeff( L, m, l[0],l[1],l[2] )
-            c = generate_spherical_coeff_symb(L, m, l[0], l[1], l[2], unnorm)
-
-            if m == 0:
-                tmp_p = tmp_p + c * ang
-
-            else:
-                c_p = (c + sympy.conjugate(c)) / sympy.sqrt(2)
-                c_m = (c - sympy.conjugate(c)) / sympy.sqrt(2) / symb_I
-
-                tmp_p = tmp_p + c_p * ang
-                tmp_m = tmp_m + c_m * ang
-
-        sph_angs.append((m, tmp_p))
-        if m > 0:
-            sph_angs.append((-m, tmp_m))
-
-    sph_angs = sorted(sph_angs, key=lambda x: x[0])
-
-    sph_angs_bare = []
-    for a in sph_angs:
-        sph_angs_bare.append(sympy.simplify(a[1]))
-
-    return sph_angs_bare
-
-
-def generate_eval_lines(L, ang):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_x, bf_y, bf_z] = sympy.symbols("bf bf_x bf_y bf_z", real=True)
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        bf_eval = sympy.simplify(a * bf)
-        bf_x_eval = sympy.simplify(a_x * bf + a * bf_x)
-        bf_y_eval = sympy.simplify(a_y * bf + a * bf_y)
-        bf_z_eval = sympy.simplify(a_z * bf + a * bf_z)
-
-        bf_eval_str = "eval[{}] = {};".format(j, bf_eval)
-        bf_x_eval_str = "eval_x[{}] = {};".format(j, bf_x_eval)
-        bf_y_eval_str = "eval_y[{}] = {};".format(j, bf_y_eval)
-        bf_z_eval_str = "eval_z[{}] = {};".format(j, bf_z_eval)
-
-        if L >= 2:
-            for k in range(2, L + 1):
-                for X in ("x", "y", "z"):
-                    pow_str = X + "**" + str(k)
-                    repl_str = ""
-                    for K in range(k - 1):
-                        repl_str = repl_str + X + "*"
-                    repl_str = repl_str + X
-
-                    bf_eval_str = bf_eval_str.replace(pow_str, repl_str)
-                    bf_x_eval_str = bf_x_eval_str.replace(pow_str, repl_str)
-                    bf_y_eval_str = bf_y_eval_str.replace(pow_str, repl_str)
-                    bf_z_eval_str = bf_z_eval_str.replace(pow_str, repl_str)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-    return (bf_eval_strs, bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs)
-
-
-cart_header_fname = "gaueval_angular_cartesian.hpp"
-sphr_header_fname = "gaueval_angular_spherical.hpp"
-cons_header_fname = "gaueval_device_constants.hpp"
-
-cart_header_file = open(cart_header_fname, "w")
-sphr_header_file = open(sphr_header_fname, "w")
-cons_header_file = open(cons_header_fname, "w")
-
-L_max = 4
-do_libint_norm = False
-# do_libint_norm = True
-
-preamble = """
-#pragma once
-#include "gaueval_device_constants.hpp"
-
-#define GPGAUEVAL_INLINE __inline__
-
-namespace GauXC {
-"""
-
-
-cart_header_file.write(preamble)
-sphr_header_file.write(preamble)
-
-cartesian_bf_template = """
-GPGAUEVAL_INLINE __device__ void generate_cartesian_angular{}(
-  const double bf,
-  const double x,
-  const double y,
-  const double z,
-  double*      eval
-) {{
-"""
-
-cartesian_bf_deriv1_template = """
-GPGAUEVAL_INLINE __device__ void generate_cartesian_angular{}_deriv1(
-  const double bf,
-  const double bf_x,
-  const double bf_y,
-  const double bf_z,
-  const double x,
-  const double y,
-  const double z,
-  double* eval_x,
-  double* eval_y,
-  double* eval_z
-) {{
-"""
-
-spherical_bf_template = cartesian_bf_template.replace("cartesian", "spherical")
-spherical_bf_deriv1_template = cartesian_bf_deriv1_template.replace(
-    "cartesian", "spherical"
-)
-
-
-constant_lines = []
-for L in range(L_max + 1):
-    sph_ang = generate_spherical_angular(L, do_libint_norm)
-    car_ang = generate_cartesian_angular(generate_cartesian_ls(L))
-
-    sph_bf_eval_strs, sph_bf_x_eval_strs, sph_bf_y_eval_strs, sph_bf_z_eval_strs = (
-        generate_eval_lines(L, sph_ang)
-    )
-    car_bf_eval_strs, car_bf_x_eval_strs, car_bf_y_eval_strs, car_bf_z_eval_strs = (
-        generate_eval_lines(L, car_ang)
-    )
-
-    cartesian_bf_prototype = cartesian_bf_template.format("_" + str(L))
-    spherical_bf_prototype = spherical_bf_template.format("_" + str(L))
-    cartesian_bf_deriv1_prototype = cartesian_bf_deriv1_template.format("_" + str(L))
-    spherical_bf_deriv1_prototype = spherical_bf_deriv1_template.format("_" + str(L))
-
-    spherical_bf_func = spherical_bf_prototype + "\n"
-    for s in sph_bf_eval_strs:
-        spherical_bf_func = spherical_bf_func + "  " + s + "\n"
-    spherical_bf_func = spherical_bf_func + "\n}\n"
-
-    spherical_bf_deriv1_func = spherical_bf_deriv1_prototype + "\n"
-    for s in sph_bf_x_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n"
-    for s in sph_bf_y_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n"
-    for s in sph_bf_z_eval_strs:
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func + "  " + s + "\n"
-    spherical_bf_deriv1_func = spherical_bf_deriv1_func + "\n}\n"
-
-    cartesian_bf_func = cartesian_bf_prototype + "\n"
-    for s in car_bf_eval_strs:
-        cartesian_bf_func = cartesian_bf_func + "  " + s + "\n"
-    cartesian_bf_func = cartesian_bf_func + "\n}\n"
-
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_prototype + "\n"
-    for s in car_bf_x_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n"
-    for s in car_bf_y_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n"
-    for s in car_bf_z_eval_strs:
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "  " + s + "\n"
-    cartesian_bf_deriv1_func = cartesian_bf_deriv1_func + "\n}\n"
-
-    sqrt_regex = "sqrt\([0-9]+\)"
-
-    sqrt_finds = re.findall(sqrt_regex, spherical_bf_func)
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, spherical_bf_deriv1_func))
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, cartesian_bf_func))
-    sqrt_finds = sqrt_finds + (re.findall(sqrt_regex, cartesian_bf_deriv1_func))
-
-    sqrt_finds = list(set(sqrt_finds))
-
-    for x in sqrt_finds:
-        arg = x.strip("sqrt(").strip(")")
-        new_str = "sqrt_" + arg
-        spherical_bf_func = spherical_bf_func.replace(x, new_str)
-        spherical_bf_deriv1_func = spherical_bf_deriv1_func.replace(x, new_str)
-        cartesian_bf_func = cartesian_bf_func.replace(x, new_str)
-        cartesian_bf_deriv1_func = cartesian_bf_deriv1_func.replace(x, new_str)
-
-        new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg))) + ";"
-        constant_lines.append(new_str)
-
-    cart_header_file.write(cartesian_bf_func)
-    cart_header_file.write(cartesian_bf_deriv1_func)
-    sphr_header_file.write(spherical_bf_func)
-    sphr_header_file.write(spherical_bf_deriv1_func)
-
-
-# Generate calling routines
-cartesian_bf_calling_func = cartesian_bf_template.format("")
-spherical_bf_calling_func = spherical_bf_template.format("")
-cartesian_bf_deriv1_calling_func = cartesian_bf_deriv1_template.format("")
-spherical_bf_deriv1_calling_func = spherical_bf_deriv1_template.format("")
-
-am_dispatch_template = "switch( shell.l ) {{\n"
-am_dispatch_template_deriv1 = "switch( shell.l ) {{\n"
-for L in range(L_max + 1):
-    bf_template = """
-  case {0}:
-    gaueval_{{0}}_angular_{0}(tmp, xc, yc, zc, bf_eval);
-    break;
-""".format(L)
-
-    deriv1_template = """
-  case {0}:
-    gaueval_{{0}}_angular_{0}(tmp, xc, yc, zc, bf_eval);
-    gaueval_{{0}}_angular_{0}_deriv1(tmp, tmp_x, tmp_y, tmp_z, xc, yc, zc, bf_eval, bf_x_eval, bf_y_eval, bf_z_eval);
-    break;
-""".format(L)
-
-    am_dispatch_template = am_dispatch_template + bf_template
-    am_dispatch_template_deriv1 = am_dispatch_template_deriv1 + deriv1_template
-
-
-am_dispatch_template = am_dispatch_template + "}}\n"
-am_dispatch_template_deriv1 = am_dispatch_template_deriv1 + "}}\n"
-
-print(am_dispatch_template_deriv1.format("cartesian"))
-print(am_dispatch_template_deriv1.format("spherical"))
-
-
-footer = "} // namespace GauXC"
-cart_header_file.write(footer)
-sphr_header_file.write(footer)
-
-constant_lines = list(set(constant_lines))
-preamble = """
-#pragma once
-
-namespace GauXC {
-"""
-
-cons_header_file.write(preamble)
-for s in constant_lines:
-    cons_header_file.write("  " + s + "\n")
-cons_header_file.write(footer)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/__init__.py b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/__init__.py
deleted file mode 100644
index e69de29..0000000
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/collocation_angular.py b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/collocation_angular.py
deleted file mode 100644
index 0903a5d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/collocation_angular.py
+++ /dev/null
@@ -1,259 +0,0 @@
-import cmath
-import math
-import os
-import re
-import sys
-from math import factorial as fact
-
-import sympy
-from scipy.special import binom as binomial
-from sympy import I as symb_I
-from sympy import exp as symb_exp
-from sympy import factorial as symb_fact
-from sympy import factorial2 as symb_fact2
-
-
-def generate_cartesian_ls(L):
-    l = []
-    for i in range(L + 1):
-        lx = L - i
-        for j in range(i + 1):
-            ly = i - j
-            lz = L - lx - ly
-
-            l.append([0, 0, 0])
-
-            for k in range(lx - 1):
-                l[-1][0] = l[-1][0] + 1
-            for k in range(ly - 1):
-                l[-1][1] = l[-1][1] + 1
-            for k in range(lz - 1):
-                l[-1][2] = l[-1][2] + 1
-
-            if lx > 0:
-                l[-1][0] = l[-1][0] + 1
-            if ly > 0:
-                l[-1][1] = l[-1][1] + 1
-            if lz > 0:
-                l[-1][2] = l[-1][2] + 1
-
-    return l
-
-
-def generate_spherical_coeff(l, m, lx, ly, lz):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return 0.0
-
-    prefactor = fact(2.0 * lx) * fact(2.0 * ly) * fact(2.0 * lz) * fact(l)
-    prefactor = prefactor * fact(l - abs(m))
-    prefactor = prefactor / (fact(2.0 * l) * fact(lx) * fact(ly) * fact(lz))
-    prefactor = prefactor / fact(l + abs(m))
-    prefactor = math.sqrt(prefactor)
-
-    term1 = 0.0
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + binomial(l, i) * binomial(i, j) * math.pow(-1, i) * fact(
-            2 * l - 2 * i
-        ) / fact(l - abs(m) - 2 * i)
-
-    term1 = term1 / math.pow(2, l) / fact(l)
-
-    m_fact = 1.0
-    if m < 0:
-        m_fact = -1.0
-
-    term2 = 0.0 + 0.0j
-    for k in range(j + 1):
-        z = cmath.exp(m_fact * math.pi / 2.0 * (abs(m) - lx + 2 * k) * 1.0j)
-        term2 = term2 + binomial(j, k) * binomial(abs(m), lx - 2 * k) * z
-
-    val = prefactor * term1 * term2
-
-    if abs(val.real) < 1e-10:
-        val = 0.0 + val.imag * 1j
-    if abs(val.imag) < 1e-10:
-        val = val.real
-
-    return val
-
-
-def generate_spherical_coeff_symb(l, m, lx, ly, lz, unnorm=False):
-    j = lx + ly - abs(m)
-    if j % 2 == 0:
-        j = int(j / 2)
-    else:
-        return sympy.Integer(0)
-
-    j_symb = sympy.Integer(j)
-    l_symb = sympy.Integer(l)
-    m_symb = sympy.Integer(abs(m))
-    lx_symb = sympy.Integer(lx)
-    ly_symb = sympy.Integer(ly)
-    lz_symb = sympy.Integer(lz)
-
-    prefactor = (
-        symb_fact(2 * lx_symb)
-        * symb_fact(2 * ly_symb)
-        * symb_fact(2 * lz_symb)
-        * symb_fact(l_symb)
-    )
-    prefactor = prefactor * symb_fact(l_symb - m_symb)
-    prefactor = prefactor / (
-        symb_fact(2 * l_symb)
-        * symb_fact(lx_symb)
-        * symb_fact(ly_symb)
-        * symb_fact(lz_symb)
-    )
-    prefactor = prefactor / symb_fact(l_symb + m_symb)
-
-    # Ed's stupid normalization convention...
-    if unnorm:
-        prefactor = (
-            prefactor
-            * symb_fact2(2 * l - 1)
-            / symb_fact2(2 * lx - 1)
-            / symb_fact2(2 * ly - 1)
-            / symb_fact2(2 * lz - 1)
-        )
-
-    prefactor = sympy.sqrt(prefactor)
-
-    term1 = sympy.Integer(0)
-    for i in range(int((l - abs(m)) / 2) + 1):
-        term1 = term1 + sympy.Integer(binomial(l, i)) * sympy.Integer(
-            binomial(i, j)
-        ) * sympy.Integer(math.pow(-1, i)) * symb_fact(
-            2 * l_symb - sympy.Integer(2 * i)
-        ) / symb_fact(l_symb - m_symb - sympy.Integer(2 * i))
-
-    term1 = term1 / (2**l_symb) / symb_fact(l)
-
-    m_fact_symb = sympy.Integer(1)
-    if m < 0:
-        m_fact_symb = -m_fact_symb
-
-    term2 = sympy.Integer(0)
-    for k in range(j + 1):
-        z = sympy.exp(
-            m_fact_symb
-            * sympy.pi
-            / 2
-            * (m_symb - lx_symb + sympy.Integer(2 * k))
-            * symb_I
-        )
-        term2 = (
-            term2
-            + sympy.Integer(binomial(j, k))
-            * sympy.Integer(binomial(abs(m), lx - 2 * k))
-            * z
-        )
-
-    return prefactor * term1 * term2
-
-
-def generate_cartesian_angular(ls):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-
-    ang = []
-
-    for l in ls:
-        ang.append(r)
-        for i in range(l[0]):
-            ang[-1] = ang[-1] * x
-        for i in range(l[1]):
-            ang[-1] = ang[-1] * y
-        for i in range(l[2]):
-            ang[-1] = ang[-1] * z
-
-        ang[-1] = ang[-1] / r
-
-    return ang
-
-
-def generate_spherical_angular(L, unnorm=False):
-    ls = generate_cartesian_ls(L)
-    angs = generate_cartesian_angular(ls)
-
-    # r = sympy.symbols( 'r' )
-    sph_angs = []
-    for m in range(L + 1):
-        tmp_p = 0
-        tmp_m = 0
-        for i in range(len(ls)):
-            l = ls[i]
-            ang = angs[i]
-
-            # c = generate_spherical_coeff( L, m, l[0],l[1],l[2] )
-            c = generate_spherical_coeff_symb(L, m, l[0], l[1], l[2], unnorm)
-
-            if m == 0:
-                tmp_p = tmp_p + c * ang
-
-            else:
-                c_p = (c + sympy.conjugate(c)) / sympy.sqrt(2)
-                c_m = (c - sympy.conjugate(c)) / sympy.sqrt(2) / symb_I
-
-                tmp_p = tmp_p + c_p * ang
-                tmp_m = tmp_m + c_m * ang
-
-        sph_angs.append((m, tmp_p))
-        if m > 0:
-            sph_angs.append((-m, tmp_m))
-
-    sph_angs = sorted(sph_angs, key=lambda x: x[0])
-
-    sph_angs_bare = []
-    for a in sph_angs:
-        sph_angs_bare.append(sympy.simplify(a[1]))
-
-    return sph_angs_bare
-
-
-def generate_eval_lines(L, ang):
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_x, bf_y, bf_z] = sympy.symbols("bf bf_x bf_y bf_z", real=True)
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        bf_eval = sympy.simplify(a * bf)
-        bf_x_eval = sympy.simplify(a_x * bf + a * bf_x)
-        bf_y_eval = sympy.simplify(a_y * bf + a * bf_y)
-        bf_z_eval = sympy.simplify(a_z * bf + a * bf_z)
-
-        bf_eval_str = "eval[npts * {}] = {};".format(j, bf_eval)
-        bf_x_eval_str = "eval_x[npts * {}] = {};".format(j, bf_x_eval)
-        bf_y_eval_str = "eval_y[npts * {}] = {};".format(j, bf_y_eval)
-        bf_z_eval_str = "eval_z[npts * {}] = {};".format(j, bf_z_eval)
-
-        if L >= 2:
-            for k in range(2, L + 1):
-                for X in ("x", "y", "z"):
-                    pow_str = X + "**" + str(k)
-                    repl_str = ""
-                    for K in range(k - 1):
-                        repl_str = repl_str + X + "*"
-                    repl_str = repl_str + X
-
-                    bf_eval_str = bf_eval_str.replace(pow_str, repl_str)
-                    bf_x_eval_str = bf_x_eval_str.replace(pow_str, repl_str)
-                    bf_y_eval_str = bf_y_eval_str.replace(pow_str, repl_str)
-                    bf_z_eval_str = bf_z_eval_str.replace(pow_str, repl_str)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-    return (bf_eval_strs, bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_collocation_angular_eval.py b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_collocation_angular_eval.py
deleted file mode 100644
index 7146303..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_collocation_angular_eval.py
+++ /dev/null
@@ -1,163 +0,0 @@
-import math
-import os
-import re
-import sys
-from io import StringIO
-
-import pyexpander.lib as expander
-from collocation_angular import (
-    generate_cartesian_angular,
-    generate_cartesian_ls,
-    generate_eval_lines,
-    generate_spherical_angular,
-)
-
-L_max = 4
-if len(sys.argv) > 1:
-    L_max = int(sys.argv[1])
-
-# sphr_bf_body = []
-# sphr_bf_d1_body = []
-
-sphr_unnorm_bf_body = []
-sphr_unnorm_bf_d1_body = []
-
-cart_bf_body = []
-cart_bf_d1_body = []
-
-
-for L in range(L_max + 1):
-    print("Processing L = {} ...".format(L))
-    # sphr_ang        = generate_spherical_angular( L, False )
-    sphr_unnorm_ang = generate_spherical_angular(L, True)
-    cart_ang = generate_cartesian_angular(generate_cartesian_ls(L))
-
-    # sa, sa_x, sa_y, sa_z     = generate_eval_lines( L, sphr_ang )
-    sna, sna_x, sna_y, sna_z = generate_eval_lines(L, sphr_unnorm_ang)
-    ca, ca_x, ca_y, ca_z = generate_eval_lines(L, cart_ang)
-
-    # sphr_bf_body.append( "\n  ".join(sa) )
-    sphr_unnorm_bf_body.append("\n  ".join(sna))
-    cart_bf_body.append("\n  ".join(ca))
-
-    # s_d1  = "\n\n  ".join(["\n  ".join( sa_x ),  "\n  ".join(sa_y),  "\n  ".join(sa_z)])
-    sn_d1 = "\n\n  ".join(["\n  ".join(sna_x), "\n  ".join(sna_y), "\n  ".join(sna_z)])
-    c_d1 = "\n\n  ".join(["\n  ".join(ca_x), "\n  ".join(ca_y), "\n  ".join(ca_z)])
-
-    # sphr_bf_d1_body.append( s_d1 )
-    sphr_unnorm_bf_d1_body.append(sn_d1)
-    cart_bf_d1_body.append(c_d1)
-
-
-template_fname = "templates/collocation_angular_template.hpp"
-
-# sphr_var_dict = { 'L_max' : L_max, 'body' : sphr_bf_body, 'body_d1' : sphr_bf_d1_body, 'name' : 'spherical' }
-sphr_unnorm_var_dict = {
-    "L_max": L_max,
-    "body": sphr_unnorm_bf_body,
-    "body_d1": sphr_unnorm_bf_d1_body,
-    "name": "spherical_unnorm",
-}
-cart_var_dict = {
-    "L_max": L_max,
-    "body": cart_bf_body,
-    "body_d1": cart_bf_d1_body,
-    "name": "cartesian",
-}
-
-
-old_sys_out = sys.stdout
-
-sys.stdout = cart_expand = StringIO()
-expander.expandFile(
-    template_fname, external_definitions=cart_var_dict, auto_indent=True
-)
-# sys.stdout = sphr_expand = StringIO()
-# expander.expandFile( template_fname, external_definitions=sphr_var_dict, auto_indent=True )
-sys.stdout = sphr_unnorm_expand = StringIO()
-expander.expandFile(
-    template_fname, external_definitions=sphr_unnorm_var_dict, auto_indent=True
-)
-
-sys.stdout = old_sys_out
-
-cart_expand = cart_expand.getvalue()
-# sphr_expand = sphr_expand.getvalue()
-sphr_unnorm_expand = sphr_unnorm_expand.getvalue()
-
-
-# Handle Constants
-constant_lines = []
-
-# Sqrts
-sqrt_regex = "sqrt\([0-9]+\)"
-# sqrt_finds = re.findall( sqrt_regex, "\n".join([cart_expand,sphr_expand,sphr_unnorm_expand]) )
-sqrt_finds = re.findall(sqrt_regex, "\n".join([cart_expand, sphr_unnorm_expand]))
-
-sqrt_finds = list(set(sqrt_finds))
-
-for x in sqrt_finds:
-    arg = x.strip("sqrt(").strip(")")
-    new_str = "sqrt_" + arg
-
-    cart_expand = cart_expand.replace(x, new_str)
-    # sphr_expand = sphr_expand.replace( x, new_str )
-    sphr_unnorm_expand = sphr_unnorm_expand.replace(x, new_str)
-
-    new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg))) + ";"
-    constant_lines.append(new_str)
-
-old_sys_out = sys.stdout
-
-sys.stdout = constant_expand = StringIO()
-expander.expandFile(
-    "templates/collocation_device_constants_template.hpp",
-    external_definitions={"const_lines": constant_lines},
-)
-
-sys.stdout = old_sys_out
-
-constant_expand = constant_expand.getvalue()
-
-
-cart_header_fname = "collocation_angular_cartesian.hpp"
-# sphr_header_fname = "collocation_angular_spherical.hpp"
-sphr_unnorm_header_fname = "collocation_angular_spherical_unnorm.hpp"
-cons_header_fname = "collocation_device_constants.hpp"
-
-cart_header_file = open(cart_header_fname, "w")
-# sphr_header_file = open( sphr_header_fname, 'w' )
-sphr_unnorm_header_file = open(sphr_unnorm_header_fname, "w")
-cons_header_file = open(cons_header_fname, "w")
-
-cart_header_file.write(cart_expand)
-# sphr_header_file.write( sphr_expand )
-sphr_unnorm_header_file.write(sphr_unnorm_expand)
-cons_header_file.write(constant_expand)
-
-
-# Generate Kernel Driver
-
-# old_sys_out = sys.stdout
-
-# sys.stdout = collocation_cartesian_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'cartesian' } )
-#
-# sys.stdout = collocation_spherical_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'spherical' } )
-#
-# sys.stdout = collocation_spherical_unnorm_kernel_expand = StringIO()
-# expander.expandFile( 'collocation_kernels_template.cu', external_definitions={ 'ang_name' : 'spherical_unnorm' } )
-#
-# sys.stdout = old_sys_out
-#
-# collocation_cartesian_kernel_expand = collocation_cartesian_kernel_expand.getvalue()
-# collocation_spherical_kernel_expand = collocation_spherical_kernel_expand.getvalue()
-# collocation_spherical_unnorm_kernel_expand = collocation_spherical_unnorm_kernel_expand.getvalue()
-#
-# with open( 'collocation_kernels_cartesian.cu', 'w' ) as f:
-#  f.write( collocation_cartesian_kernel_expand )
-# with open( 'collocation_kernels_spherical.cu', 'w' ) as f:
-#  f.write( collocation_spherical_kernel_expand )
-# with open( 'collocation_kernels_spherical_unnorm.cu', 'w' ) as f:
-#  f.write( collocation_spherical_unnorm_kernel_expand )
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_collocation_headers.py b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_collocation_headers.py
deleted file mode 100644
index 13e8aa7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_collocation_headers.py
+++ /dev/null
@@ -1,39 +0,0 @@
-import os
-import sys
-from io import StringIO
-
-import pyexpander.lib as expander
-
-L_max = 4
-
-if len(sys.argv) > 1:
-    L_max = int(sys.argv[1])
-
-L_var_dict = {"L_max": L_max}
-
-old_sys_out = sys.stdout
-
-sys.stdout = col_device_expand = StringIO()
-expander.expandFile(
-    "templates/collocation_device_template.cu", external_definitions=L_var_dict
-)
-sys.stdout = old_sys_out
-
-sys.stdout = col_shell_to_task_kernels_expand = StringIO()
-expander.expandFile(
-    "templates/collocation_shell_to_task_kernels_template.hpp",
-    external_definitions=L_var_dict,
-)
-sys.stdout = old_sys_out
-
-col_device_expand = col_device_expand.getvalue()
-col_shell_to_task_kernels_expand = col_shell_to_task_kernels_expand.getvalue()
-
-col_device_fname = "../collocation_device.cu"
-col_shell_to_task_kernels_fname = "../collocation_shell_to_task_kernels.hpp"
-
-col_device_file = open(col_device_fname, "w")
-col_device_file.write(col_device_expand)
-
-col_shell_to_task_kernels_file = open(col_shell_to_task_kernels_fname, "w")
-col_shell_to_task_kernels_file.write(col_shell_to_task_kernels_expand)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_shell_to_task.py b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_shell_to_task.py
deleted file mode 100644
index 7cb1451..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/scripts/generate_shell_to_task.py
+++ /dev/null
@@ -1,766 +0,0 @@
-import itertools
-import math
-import os
-import re
-import sys
-from io import StringIO
-
-import pyexpander.lib as expander
-import sympy
-from collocation_angular import (
-    generate_cartesian_angular,
-    generate_cartesian_ls,
-    generate_eval_lines,
-    generate_spherical_angular,
-)
-from sympy.codegen.rewriting import create_expand_pow_optimization
-from sympy.printing import ccode
-
-L_max = 4
-if len(sys.argv) > 1:
-    L_max = int(sys.argv[1])
-
-
-def generate_shell_to_task_lines(ang, deriv_order=0):
-    do_grad = bool(deriv_order > 0)
-    do_hess = bool(deriv_order > 1)
-
-    [x, y, z, r] = sympy.symbols("x y z r", real=True)
-    [bf, bf_alpha, bf_alpha_sq, bf_alpha_cb] = sympy.symbols(
-        "radial_eval radial_eval_alpha radial_eval_alpha_squared radial_eval_alpha_cubed",
-        real=True,
-    )
-    bf_x = x * bf_alpha
-    bf_y = y * bf_alpha
-    bf_z = z * bf_alpha
-
-    bf_xx = bf_alpha + x * x * bf_alpha_sq
-    bf_yy = bf_alpha + y * y * bf_alpha_sq
-    bf_zz = bf_alpha + z * z * bf_alpha_sq
-    bf_lap = bf_xx + bf_yy + bf_zz
-    bf_xy = x * y * bf_alpha_sq
-    bf_xz = x * z * bf_alpha_sq
-    bf_yz = y * z * bf_alpha_sq
-
-    bf_xxx = (x + x + x) * bf_alpha_sq + x * x * x * bf_alpha_cb
-    bf_xxy = (y + 0 + 0) * bf_alpha_sq + x * x * y * bf_alpha_cb
-    bf_xxz = (z + 0 + 0) * bf_alpha_sq + x * x * z * bf_alpha_cb
-    bf_yyx = (x + 0 + 0) * bf_alpha_sq + y * y * x * bf_alpha_cb
-    bf_yyy = (y + y + y) * bf_alpha_sq + y * y * y * bf_alpha_cb
-    bf_yyz = (z + 0 + 0) * bf_alpha_sq + y * y * z * bf_alpha_cb
-    bf_zzx = (x + 0 + 0) * bf_alpha_sq + z * z * x * bf_alpha_cb
-    bf_zzy = (y + 0 + 0) * bf_alpha_sq + z * z * y * bf_alpha_cb
-    bf_zzz = (z + z + z) * bf_alpha_sq + z * z * z * bf_alpha_cb
-
-    bf_eval_strs = []
-    bf_x_eval_strs = []
-    bf_y_eval_strs = []
-    bf_z_eval_strs = []
-    bf_xx_eval_strs = []
-    bf_xy_eval_strs = []
-    bf_xz_eval_strs = []
-    bf_yy_eval_strs = []
-    bf_yz_eval_strs = []
-    bf_zz_eval_strs = []
-    bf_lap_eval_strs = []
-    bf_lap_x_eval_strs = []
-    bf_lap_y_eval_strs = []
-    bf_lap_z_eval_strs = []
-    for j in range(len(ang)):
-        a = ang[j]
-        a_x = sympy.diff(a, x)
-        a_y = sympy.diff(a, y)
-        a_z = sympy.diff(a, z)
-
-        a_xx = sympy.diff(a_x, x)
-        a_xy = sympy.diff(a_x, y)
-        a_xz = sympy.diff(a_x, z)
-        a_yy = sympy.diff(a_y, y)
-        a_yz = sympy.diff(a_y, z)
-        a_zz = sympy.diff(a_z, z)
-
-        a_xxx = sympy.diff(a_xx, x)
-        a_xxy = sympy.diff(a_xx, y)
-        a_xxz = sympy.diff(a_xx, z)
-        a_yyx = sympy.diff(a_yy, x)
-        a_yyy = sympy.diff(a_yy, y)
-        a_yyz = sympy.diff(a_yy, z)
-        a_zzx = sympy.diff(a_zz, x)
-        a_zzy = sympy.diff(a_zz, y)
-        a_zzz = sympy.diff(a_zz, z)
-
-        bf_eval = a * bf
-        bf_x_eval = a_x * bf + a * bf_x
-        bf_y_eval = a_y * bf + a * bf_y
-        bf_z_eval = a_z * bf + a * bf_z
-
-        bf_xx_eval = a_xx * bf + 2 * a_x * bf_x + a * bf_xx
-        bf_yy_eval = a_yy * bf + 2 * a_y * bf_y + a * bf_yy
-        bf_zz_eval = a_zz * bf + 2 * a_z * bf_z + a * bf_zz
-
-        bf_lap_eval = bf_xx_eval + bf_yy_eval + bf_zz_eval
-
-        bf_xy_eval = a_xy * bf + a_x * bf_y + a_y * bf_x + a * bf_xy
-        bf_xz_eval = a_xz * bf + a_x * bf_z + a_z * bf_x + a * bf_xz
-        bf_yz_eval = a_yz * bf + a_y * bf_z + a_z * bf_y + a * bf_yz
-
-        bf_xxx_eval = a_xxx * bf + 3 * (a_xx * bf_x + a_x * bf_xx) + a * bf_xxx
-        bf_yyy_eval = a_yyy * bf + 3 * (a_yy * bf_y + a_y * bf_yy) + a * bf_yyy
-        bf_zzz_eval = a_zzz * bf + 3 * (a_zz * bf_z + a_z * bf_zz) + a * bf_zzz
-
-        bf_xxy_eval = (
-            a_xxy * bf
-            + 2 * a_xy * bf_x
-            + a_xx * bf_y
-            + 2 * bf_xy * a_x
-            + bf_xx * a_y
-            + a * bf_xxy
-        )
-        bf_xxz_eval = (
-            a_xxz * bf
-            + 2 * a_xz * bf_x
-            + a_xx * bf_z
-            + 2 * bf_xz * a_x
-            + bf_xx * a_z
-            + a * bf_xxz
-        )
-        bf_yyx_eval = (
-            a_yyx * bf
-            + 2 * a_xy * bf_y
-            + a_yy * bf_x
-            + 2 * bf_xy * a_y
-            + bf_yy * a_x
-            + a * bf_yyx
-        )
-        bf_yyz_eval = (
-            a_yyz * bf
-            + 2 * a_yz * bf_y
-            + a_yy * bf_z
-            + 2 * bf_yz * a_y
-            + bf_yy * a_z
-            + a * bf_yyz
-        )
-        bf_zzx_eval = (
-            a_zzx * bf
-            + 2 * a_xz * bf_z
-            + a_zz * bf_x
-            + 2 * bf_xz * a_z
-            + bf_zz * a_x
-            + a * bf_zzx
-        )
-        bf_zzy_eval = (
-            a_zzy * bf
-            + 2 * a_yz * bf_z
-            + a_zz * bf_y
-            + 2 * bf_yz * a_z
-            + bf_zz * a_y
-            + a * bf_zzy
-        )
-
-        bf_lap_x_eval = bf_xxx_eval + bf_yyx_eval + bf_zzx_eval
-        bf_lap_y_eval = bf_xxy_eval + bf_yyy_eval + bf_zzy_eval
-        bf_lap_z_eval = bf_xxz_eval + bf_yyz_eval + bf_zzz_eval
-
-        bf_eval_str = "{}".format(bf_eval)
-        bf_x_eval_str = "{}".format(bf_x_eval)
-        bf_y_eval_str = "{}".format(bf_y_eval)
-        bf_z_eval_str = "{}".format(bf_z_eval)
-
-        bf_xx_eval_str = "{}".format(bf_xx_eval)
-        bf_xy_eval_str = "{}".format(bf_xy_eval)
-        bf_xz_eval_str = "{}".format(bf_xz_eval)
-        bf_yy_eval_str = "{}".format(bf_yy_eval)
-        bf_yz_eval_str = "{}".format(bf_yz_eval)
-        bf_zz_eval_str = "{}".format(bf_zz_eval)
-
-        bf_lap_eval_str = "{}".format(bf_lap_eval)
-
-        bf_lap_x_eval_str = "{}".format(bf_lap_x_eval)
-        bf_lap_y_eval_str = "{}".format(bf_lap_y_eval)
-        bf_lap_z_eval_str = "{}".format(bf_lap_z_eval)
-
-        bf_eval_strs.append(bf_eval_str)
-        bf_x_eval_strs.append(bf_x_eval_str)
-        bf_y_eval_strs.append(bf_y_eval_str)
-        bf_z_eval_strs.append(bf_z_eval_str)
-
-        bf_xx_eval_strs.append(bf_xx_eval_str)
-        bf_xy_eval_strs.append(bf_xy_eval_str)
-        bf_xz_eval_strs.append(bf_xz_eval_str)
-        bf_yy_eval_strs.append(bf_yy_eval_str)
-        bf_yz_eval_strs.append(bf_yz_eval_str)
-        bf_zz_eval_strs.append(bf_zz_eval_str)
-
-        bf_lap_eval_strs.append(bf_lap_eval_str)
-        bf_lap_x_eval_strs.append(bf_lap_x_eval_str)
-        bf_lap_y_eval_strs.append(bf_lap_y_eval_str)
-        bf_lap_z_eval_strs.append(bf_lap_z_eval_str)
-
-    if deriv_order == 0:
-        return bf_eval_strs
-    elif deriv_order == 1:
-        return [bf_x_eval_strs, bf_y_eval_strs, bf_z_eval_strs]
-    elif deriv_order == 2:
-        return [
-            bf_xx_eval_strs,
-            bf_xy_eval_strs,
-            bf_xz_eval_strs,
-            bf_yy_eval_strs,
-            bf_yz_eval_strs,
-            bf_zz_eval_strs,
-            bf_lap_eval_strs,
-        ]
-    elif deriv_order == 3:
-        return [bf_lap_x_eval_strs, bf_lap_y_eval_strs, bf_lap_z_eval_strs]
-
-
-def get_constant_lines(lines):
-    constant_lines = []
-
-    # Sqrts
-    sqrt_regex = "sqrt\([0-9]+\)"
-    sqrt_finds = list(set(re.findall(sqrt_regex, "\n".join(lines))))
-
-    # Replace locally
-    for x in sqrt_finds:
-        arg = x.strip("sqrt(").strip(")")
-        new_str = "sqrt_" + arg
-        new_str = "constexpr double " + new_str + " = " + str(math.sqrt(int(arg)))
-        new_str = new_str + ";"
-        constant_lines.append(new_str)
-
-    return constant_lines
-
-
-def sanitize_constants(lines):
-    # Sqrts
-    sqrt_regex = "sqrt\([0-9]+\)"
-    sqrt_finds = list(set(re.findall(sqrt_regex, "\n".join(lines))))
-
-    for x in sqrt_finds:
-        arg = x.strip("sqrt(").strip(")")
-        new_str = "sqrt_" + arg
-        lines = [line.replace(x, new_str) for line in lines]
-
-    return lines
-
-
-# Generate the evaluation lines
-cart_bf_lines = []
-sph_bf_lines = []
-cart_bfx_lines = []
-cart_bfy_lines = []
-cart_bfz_lines = []
-sph_bfx_lines = []
-sph_bfy_lines = []
-sph_bfz_lines = []
-
-cart_bfxx_lines = []
-cart_bfxy_lines = []
-cart_bfxz_lines = []
-cart_bfyy_lines = []
-cart_bfyz_lines = []
-cart_bfzz_lines = []
-cart_bflap_lines = []
-cart_bflap_x_lines = []
-cart_bflap_y_lines = []
-cart_bflap_z_lines = []
-sph_bfxx_lines = []
-sph_bfxy_lines = []
-sph_bfxz_lines = []
-sph_bfyy_lines = []
-sph_bfyz_lines = []
-sph_bfzz_lines = []
-sph_bflap_lines = []
-sph_bflap_x_lines = []
-sph_bflap_y_lines = []
-sph_bflap_z_lines = []
-
-for L in range(L_max + 1):
-    print("Workding on L = ", L)
-    cart_ls = generate_cartesian_ls(L)
-    cart_ang = generate_cartesian_angular(cart_ls)
-    sph_ang = generate_spherical_angular(L, True)
-
-    cart_bf_lines.append(generate_shell_to_task_lines(cart_ang))
-    sph_bf_lines.append(generate_shell_to_task_lines(sph_ang))
-
-    [bfx, bfy, bfz] = generate_shell_to_task_lines(cart_ang, 1)
-    cart_bfx_lines.append(bfx)
-    cart_bfy_lines.append(bfy)
-    cart_bfz_lines.append(bfz)
-
-    [bfx, bfy, bfz] = generate_shell_to_task_lines(sph_ang, 1)
-    sph_bfx_lines.append(bfx)
-    sph_bfy_lines.append(bfy)
-    sph_bfz_lines.append(bfz)
-
-    [bfxx, bfxy, bfxz, bfyy, bfyz, bfzz, bflap] = generate_shell_to_task_lines(
-        cart_ang, 2
-    )
-    cart_bfxx_lines.append(bfxx)
-    cart_bfxy_lines.append(bfxy)
-    cart_bfxz_lines.append(bfxz)
-    cart_bfyy_lines.append(bfyy)
-    cart_bfyz_lines.append(bfyz)
-    cart_bfzz_lines.append(bfzz)
-    cart_bflap_lines.append(bflap)
-
-    [bfxx, bfxy, bfxz, bfyy, bfyz, bfzz, bflap] = generate_shell_to_task_lines(
-        sph_ang, 2
-    )
-    sph_bfxx_lines.append(bfxx)
-    sph_bfxy_lines.append(bfxy)
-    sph_bfxz_lines.append(bfxz)
-    sph_bfyy_lines.append(bfyy)
-    sph_bfyz_lines.append(bfyz)
-    sph_bfzz_lines.append(bfzz)
-    sph_bflap_lines.append(bflap)
-
-    [bflap_x, bflap_y, bflap_z] = generate_shell_to_task_lines(cart_ang, 3)
-    cart_bflap_x_lines.append(bflap_x)
-    cart_bflap_y_lines.append(bflap_y)
-    cart_bflap_z_lines.append(bflap_z)
-
-    [bflap_x, bflap_y, bflap_z] = generate_shell_to_task_lines(sph_ang, 3)
-    sph_bflap_x_lines.append(bflap_x)
-    sph_bflap_y_lines.append(bflap_y)
-    sph_bflap_z_lines.append(bflap_z)
-
-
-constant_lines = []
-for lines in itertools.chain(cart_bf_lines, sph_bf_lines):
-    _tmp = get_constant_lines(lines)
-    for line in _tmp:
-        constant_lines.append(line)
-
-
-def perform_cse_and_cleanup(eval_line_list):
-    expand_opt = create_expand_pow_optimization(20)
-
-    for i in range(len(eval_line_list)):
-        if len(eval_line_list[0]) != len(eval_line_list[i]):
-            raise RuntimeError("Eval lines are not uniform length")
-
-    # Concatenate lists
-    prim_len = len(eval_line_list[0])
-    big_list = []
-    for i in range(len(eval_line_list)):
-        for x in eval_line_list[i]:
-            big_list.append(x)
-
-    # Sanitize constants
-    big_list = sanitize_constants(big_list)
-
-    # Parse to SymPy expressions
-    big_list = [sympy.parse_expr(x) for x in big_list]
-
-    # Apply expand opt
-    big_list = [expand_opt(x) for x in big_list]
-
-    # Perform CSE
-    (common_lines, big_list) = sympy.cse(big_list, optimizations="basic")
-
-    # Sanitize output lines
-    big_list = [ccode(expand_opt(sympy.simplify(x.evalf()))) for x in big_list]
-    common_lines = [
-        (x, ccode(expand_opt(sympy.simplify(y.evalf())))) for (x, y) in common_lines
-    ]
-
-    # Split big list
-    for i in range(len(eval_line_list)):
-        eval_line_list[i] = big_list[i * prim_len : (i + 1) * prim_len]
-
-    return (common_lines, eval_line_list)
-
-
-def generate_code(eval_lines, L, eval_type, template_fname, output_fname):
-    old_sysout = sys.stdout
-    common_lines, eval_lines = perform_cse_and_cleanup([eval_lines])
-    eval_lines = eval_lines[0]
-    var_dict = {
-        "common_lines": common_lines,
-        "eval_lines": eval_lines,
-        "L": L,
-        "type": eval_type,
-        "nt": 512,
-    }
-    sys.stdout = expand = StringIO()
-    expander.expandFile(template_fname, external_definitions=var_dict, auto_indent=True)
-    expand = expand.getvalue()
-    sys.stdout = old_sysout
-
-    output_file = open(output_fname, "w")
-    output_file.write(expand)
-
-
-def generate_code_gradient(
-    eval_lines,
-    eval_lines_dx,
-    eval_lines_dy,
-    eval_lines_dz,
-    L,
-    eval_type,
-    template_fname,
-    output_fname,
-):
-    old_sysout = sys.stdout
-
-    common_lines, big_list = perform_cse_and_cleanup(
-        [eval_lines, eval_lines_dx, eval_lines_dy, eval_lines_dz]
-    )
-    eval_lines = big_list[0]
-    eval_lines_dx = big_list[1]
-    eval_lines_dy = big_list[2]
-    eval_lines_dz = big_list[3]
-
-    var_dict = {
-        "common_lines": common_lines,
-        "eval_lines": eval_lines,
-        "eval_lines_dx": eval_lines_dx,
-        "eval_lines_dy": eval_lines_dy,
-        "eval_lines_dz": eval_lines_dz,
-        "L": L,
-        "type": eval_type,
-        "nt": 512 if L < 1 else 256 if L < 4 else 128,
-    }
-    sys.stdout = expand = StringIO()
-    expander.expandFile(template_fname, external_definitions=var_dict, auto_indent=True)
-    expand = expand.getvalue()
-    sys.stdout = old_sysout
-
-    output_file = open(output_fname, "w")
-    output_file.write(expand)
-
-
-def generate_code_hessian(
-    eval_lines,
-    eval_lines_dx,
-    eval_lines_dy,
-    eval_lines_dz,
-    eval_lines_dxx,
-    eval_lines_dxy,
-    eval_lines_dxz,
-    eval_lines_dyy,
-    eval_lines_dyz,
-    eval_lines_dzz,
-    eval_lines_lap,
-    L,
-    eval_type,
-    template_fname,
-    output_fname,
-):
-    old_sysout = sys.stdout
-    big_list = [
-        eval_lines,
-        eval_lines_dx,
-        eval_lines_dy,
-        eval_lines_dz,
-        eval_lines_dxx,
-        eval_lines_dxy,
-        eval_lines_dxz,
-        eval_lines_dyy,
-        eval_lines_dyz,
-        eval_lines_dzz,
-        eval_lines_lap,
-    ]
-    common_lines, big_list = perform_cse_and_cleanup(big_list)
-    eval_lines = big_list[0]
-    eval_lines_dx = big_list[1]
-    eval_lines_dy = big_list[2]
-    eval_lines_dz = big_list[3]
-    eval_lines_dxx = big_list[4]
-    eval_lines_dxy = big_list[5]
-    eval_lines_dxz = big_list[6]
-    eval_lines_dyy = big_list[7]
-    eval_lines_dyz = big_list[8]
-    eval_lines_dzz = big_list[9]
-    eval_lines_lap = big_list[10]
-
-    var_dict = {
-        "common_lines": common_lines,
-        "eval_lines": eval_lines,
-        "eval_lines_dx": eval_lines_dx,
-        "eval_lines_dy": eval_lines_dy,
-        "eval_lines_dz": eval_lines_dz,
-        "eval_lines_dxx": eval_lines_dxx,
-        "eval_lines_dxy": eval_lines_dxy,
-        "eval_lines_dxz": eval_lines_dxz,
-        "eval_lines_dyy": eval_lines_dyy,
-        "eval_lines_dyz": eval_lines_dyz,
-        "eval_lines_dzz": eval_lines_dzz,
-        "eval_lines_lapl": eval_lines_lap,
-        "L": L,
-        "type": eval_type,
-        "nt": 256 if L < 1 else 128,
-    }
-    sys.stdout = expand = StringIO()
-    expander.expandFile(template_fname, external_definitions=var_dict, auto_indent=True)
-    expand = expand.getvalue()
-    sys.stdout = old_sysout
-
-    output_file = open(output_fname, "w")
-    output_file.write(expand)
-
-
-def generate_code_lapgrad(
-    eval_lines,
-    eval_lines_dx,
-    eval_lines_dy,
-    eval_lines_dz,
-    eval_lines_dxx,
-    eval_lines_dxy,
-    eval_lines_dxz,
-    eval_lines_dyy,
-    eval_lines_dyz,
-    eval_lines_dzz,
-    eval_lines_lap,
-    eval_lines_lapx,
-    eval_lines_lapy,
-    eval_lines_lapz,
-    L,
-    eval_type,
-    template_fname,
-    output_fname,
-):
-    old_sysout = sys.stdout
-    big_list = [
-        eval_lines,
-        eval_lines_dx,
-        eval_lines_dy,
-        eval_lines_dz,
-        eval_lines_dxx,
-        eval_lines_dxy,
-        eval_lines_dxz,
-        eval_lines_dyy,
-        eval_lines_dyz,
-        eval_lines_dzz,
-        eval_lines_lap,
-        eval_lines_lapx,
-        eval_lines_lapy,
-        eval_lines_lapz,
-    ]
-    common_lines, big_list = perform_cse_and_cleanup(big_list)
-    eval_lines = big_list[0]
-    eval_lines_dx = big_list[1]
-    eval_lines_dy = big_list[2]
-    eval_lines_dz = big_list[3]
-    eval_lines_dxx = big_list[4]
-    eval_lines_dxy = big_list[5]
-    eval_lines_dxz = big_list[6]
-    eval_lines_dyy = big_list[7]
-    eval_lines_dyz = big_list[8]
-    eval_lines_dzz = big_list[9]
-    eval_lines_lap = big_list[10]
-    eval_lines_lapx = big_list[11]
-    eval_lines_lapy = big_list[12]
-    eval_lines_lapz = big_list[13]
-
-    var_dict = {
-        "common_lines": common_lines,
-        "eval_lines": eval_lines,
-        "eval_lines_dx": eval_lines_dx,
-        "eval_lines_dy": eval_lines_dy,
-        "eval_lines_dz": eval_lines_dz,
-        "eval_lines_dxx": eval_lines_dxx,
-        "eval_lines_dxy": eval_lines_dxy,
-        "eval_lines_dxz": eval_lines_dxz,
-        "eval_lines_dyy": eval_lines_dyy,
-        "eval_lines_dyz": eval_lines_dyz,
-        "eval_lines_dzz": eval_lines_dzz,
-        "eval_lines_lapl": eval_lines_lap,
-        "eval_lines_lapl_x": eval_lines_lapx,
-        "eval_lines_lapl_y": eval_lines_lapy,
-        "eval_lines_lapl_z": eval_lines_lapz,
-        "L": L,
-        "type": eval_type,
-        "nt": 256 if L < 1 else 128,
-    }
-    sys.stdout = expand = StringIO()
-    expander.expandFile(template_fname, external_definitions=var_dict, auto_indent=True)
-    expand = expand.getvalue()
-    sys.stdout = old_sysout
-
-    output_file = open(output_fname, "w")
-    output_file.write(expand)
-
-
-# Generate kernels
-for L in range(L_max + 1):
-    template_fname = "templates/collocation_shell_to_task_kernels.hpp"
-    cart_header_fname = (
-        "collocation_shell_to_task_kernels_cartesian_l" + str(L) + ".hpp"
-    )
-    sph_header_fname = "collocation_shell_to_task_kernels_spherical_l" + str(L) + ".hpp"
-
-    generate_code(cart_bf_lines[L], L, "cartesian", template_fname, cart_header_fname)
-    generate_code(sph_bf_lines[L], L, "spherical", template_fname, sph_header_fname)
-
-    cart_header_fname = (
-        "collocation_shell_to_task_kernels_cartesian_l" + str(L) + "_gradient.hpp"
-    )
-    sph_header_fname = (
-        "collocation_shell_to_task_kernels_spherical_l" + str(L) + "_gradient.hpp"
-    )
-    generate_code_gradient(
-        cart_bf_lines[L],
-        cart_bfx_lines[L],
-        cart_bfy_lines[L],
-        cart_bfz_lines[L],
-        L,
-        "cartesian_gradient",
-        template_fname,
-        cart_header_fname,
-    )
-    generate_code_gradient(
-        sph_bf_lines[L],
-        sph_bfx_lines[L],
-        sph_bfy_lines[L],
-        sph_bfz_lines[L],
-        L,
-        "spherical_gradient",
-        template_fname,
-        sph_header_fname,
-    )
-
-    cart_header_fname = (
-        "collocation_shell_to_task_kernels_cartesian_l" + str(L) + "_hessian.hpp"
-    )
-    sph_header_fname = (
-        "collocation_shell_to_task_kernels_spherical_l" + str(L) + "_hessian.hpp"
-    )
-    generate_code_hessian(
-        cart_bf_lines[L],
-        cart_bfx_lines[L],
-        cart_bfy_lines[L],
-        cart_bfz_lines[L],
-        cart_bfxx_lines[L],
-        cart_bfxy_lines[L],
-        cart_bfxz_lines[L],
-        cart_bfyy_lines[L],
-        cart_bfyz_lines[L],
-        cart_bfzz_lines[L],
-        cart_bflap_lines[L],
-        L,
-        "cartesian_hessian",
-        template_fname,
-        cart_header_fname,
-    )
-    generate_code_hessian(
-        sph_bf_lines[L],
-        sph_bfx_lines[L],
-        sph_bfy_lines[L],
-        sph_bfz_lines[L],
-        sph_bfxx_lines[L],
-        sph_bfxy_lines[L],
-        sph_bfxz_lines[L],
-        sph_bfyy_lines[L],
-        sph_bfyz_lines[L],
-        sph_bfzz_lines[L],
-        sph_bflap_lines[L],
-        L,
-        "spherical_hessian",
-        template_fname,
-        sph_header_fname,
-    )
-
-    cart_header_fname = (
-        "collocation_shell_to_task_kernels_cartesian_l" + str(L) + "_laplacian.hpp"
-    )
-    sph_header_fname = (
-        "collocation_shell_to_task_kernels_spherical_l" + str(L) + "_laplacian.hpp"
-    )
-    generate_code_hessian(
-        cart_bf_lines[L],
-        cart_bfx_lines[L],
-        cart_bfy_lines[L],
-        cart_bfz_lines[L],
-        cart_bfxx_lines[L],
-        cart_bfxy_lines[L],
-        cart_bfxz_lines[L],
-        cart_bfyy_lines[L],
-        cart_bfyz_lines[L],
-        cart_bfzz_lines[L],
-        cart_bflap_lines[L],
-        L,
-        "cartesian_laplacian",
-        template_fname,
-        cart_header_fname,
-    )
-    generate_code_hessian(
-        sph_bf_lines[L],
-        sph_bfx_lines[L],
-        sph_bfy_lines[L],
-        sph_bfz_lines[L],
-        sph_bfxx_lines[L],
-        sph_bfxy_lines[L],
-        sph_bfxz_lines[L],
-        sph_bfyy_lines[L],
-        sph_bfyz_lines[L],
-        sph_bfzz_lines[L],
-        sph_bflap_lines[L],
-        L,
-        "spherical_laplacian",
-        template_fname,
-        sph_header_fname,
-    )
-
-    cart_header_fname = (
-        "collocation_shell_to_task_kernels_cartesian_l" + str(L) + "_lapgrad.hpp"
-    )
-    sph_header_fname = (
-        "collocation_shell_to_task_kernels_spherical_l" + str(L) + "_lapgrad.hpp"
-    )
-    generate_code_lapgrad(
-        cart_bf_lines[L],
-        cart_bfx_lines[L],
-        cart_bfy_lines[L],
-        cart_bfz_lines[L],
-        cart_bfxx_lines[L],
-        cart_bfxy_lines[L],
-        cart_bfxz_lines[L],
-        cart_bfyy_lines[L],
-        cart_bfyz_lines[L],
-        cart_bfzz_lines[L],
-        cart_bflap_lines[L],
-        cart_bflap_x_lines[L],
-        cart_bflap_y_lines[L],
-        cart_bflap_z_lines[L],
-        L,
-        "cartesian_lapgrad",
-        template_fname,
-        cart_header_fname,
-    )
-    generate_code_lapgrad(
-        sph_bf_lines[L],
-        sph_bfx_lines[L],
-        sph_bfy_lines[L],
-        sph_bfz_lines[L],
-        sph_bfxx_lines[L],
-        sph_bfxy_lines[L],
-        sph_bfxz_lines[L],
-        sph_bfyy_lines[L],
-        sph_bfyz_lines[L],
-        sph_bfzz_lines[L],
-        sph_bflap_lines[L],
-        sph_bflap_x_lines[L],
-        sph_bflap_y_lines[L],
-        sph_bflap_z_lines[L],
-        L,
-        "spherical_lapgrad",
-        template_fname,
-        sph_header_fname,
-    )
-
-    # template_fname = 'templates/collocation_shell_to_task_combined_kernels.hpp'
-    # cart_header_fname = "collocation_shell_to_task_combined_kernels_cartesian_l" + str(L) + ".hpp"
-    # sph_header_fname  = "collocation_shell_to_task_combined_kernels_spherical_l" + str(L) + ".hpp"
-    # generate_code( cart_bf_lines[L], L, 'cartesian', template_fname, cart_header_fname )
-    # generate_code( sph_bf_lines[L], L, 'spherical', template_fname, sph_header_fname )
-
-    # cart_header_fname = "collocation_shell_to_task_combined_kernels_cartesian_l" + str(L) + "_gradient.hpp"
-    # sph_header_fname  = "collocation_shell_to_task_combined_kernels_spherical_l" + str(L) + "_gradient.hpp"
-    # generate_code_gradient( cart_bf_lines[L], cart_bfx_lines[L], cart_bfy_lines[L], cart_bfz_lines[L],
-    #  L, 'cartesian_gradient', template_fname, cart_header_fname )
-    # generate_code_gradient( sph_bf_lines[L], sph_bfx_lines[L], sph_bfy_lines[L], sph_bfz_lines[L],
-    #  L, 'spherical_gradient', template_fname, sph_header_fname )
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_angular_template.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_angular_template.hpp
deleted file mode 100644
index 0816560..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_angular_template.hpp
+++ /dev/null
@@ -1,121 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC      {
-
-$for( L in range(L_max + 1) )\
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_$(L)(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  $(body[L])
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_$(L)_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  $(body_d1[L])
-
-}
-
-$endfor\
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-$for( L in range(L_max + 1) )\
-  $if( L == 0 )\
-    if( l == $(L) ) {
-  $else\
-    } else if( l == $(L) ) {
-  $endif
-        collocation_$(name)_angular_$(L)( npts, bf, x, y, z, eval );
-
-$endfor\
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_$(name)_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_$(name)_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-$for( L in range(L_max + 1) )\
-  $if( L == 0 )\
-    if( l == $(L) ) {
-  $else\
-    } else if( l == $(L) ) {
-  $endif
-        collocation_$(name)_angular_$(L)( npts, bf, x, y, z, eval );
-        collocation_$(name)_angular_$(L)_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-$endfor\
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_$(name)_angular_deriv1
-
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_device_constants_template.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_device_constants_template.hpp
deleted file mode 100644
index f76c686..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_device_constants_template.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC      {
-
-$for( x in const_lines )\
-  $(x)
-$endfor\
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_device_template.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_device_template.cu
deleted file mode 100644
index f28cade..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_device_template.cu
+++ /dev/null
@@ -1,653 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-#include "exceptions/cuda_exception.hpp"
-#include <gauxc/xc_task.hpp>
-
-#include "device/common/collocation_device.hpp"
-#include "device/cuda/kernels/collocation_masked_kernels.hpp"
-#include "device/cuda/kernels/collocation_masked_combined_kernels.hpp"
-#include "device/cuda/kernels/collocation_shell_to_task_kernels.hpp"
-
-#include "device_specific/cuda_device_constants.hpp"
-
-#define GAUXC_CUDA_MAX_L $(L_max)
-
-namespace GauXC {
-
- 
-template <typename T>
-void eval_collocation_masked(
-  size_t            nshells,
-  size_t            nbf,
-  size_t            npts,
-  const Shell<T>*   shells_device,
-  const size_t*     mask_device,
-  const size_t*     offs_device,
-  const T*          pts_device,
-  T*                eval_device,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_kernel<T>
-  );
-  auto max_warps_per_thread_block = nmax_threads / cuda::warp_size;
-
-  dim3 threads(cuda::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device,
-      offs_device, pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_masked(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  device_queue    queue
-);
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<T>*         shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel<T>
-  );
-
-  auto max_warps_per_thread_block = nmax_threads / cuda::warp_size;
-  dim3 threads(cuda::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<double>*    shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel<T>
-  );
-
-  auto max_warps_per_thread_block = nmax_threads / cuda::warp_size;
-  dim3 threads(cuda::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_masked_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  device_queue    queue
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t        ntasks,
-  size_t        npts_max,
-  size_t        nshells_max,
-  Shell<T>*     shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel_deriv1<T>
-  );
-
-  dim3 threads(cuda::warp_size, nmax_threads/cuda::warp_size, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-uint32_t max_threads_shell_to_task_collocation( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_0 );\
-      $for( L in range(1, L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {
-      $for( L in range(L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-  return 0;
-}
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation( cudaStream_t stream, int32_t l, 
-  bool pure, int32_t ntask_average, int32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $for( L in range(1, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_spherical_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_cartesian_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-}
-
-
-void eval_collocation_shell_to_task(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue 
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation( stream, l, pure, ntask_average, nshells, 
-      shell_to_task_device, device_tasks );
-  }
-
-
-}
-
-
-uint32_t max_threads_shell_to_task_collocation_gradient( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_0 );\
-      $for( L in range(1, L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_gradient_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-  return 0;
-}
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_gradient( cudaStream_t stream, int32_t l, 
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_gradient(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $for( L in range(1, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_spherical_gradient_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(0, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_cartesian_gradient_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-
-}
-
-
-void eval_collocation_shell_to_task_gradient(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue 
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_gradient( stream, l, pure, 
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-  }
-
-
-}
-
-
-uint32_t max_threads_shell_to_task_collocation_hessian( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_0 );\
-      $for( L in range(1, L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_hessian_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-  return 0;
-}
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_hessian( cudaStream_t stream, int32_t l, 
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_hessian(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $for( L in range(1, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_spherical_hessian_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(0, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_cartesian_hessian_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-
-}
-
-
-void eval_collocation_shell_to_task_hessian(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue 
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_hessian( stream, l, pure, 
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-  }
-
-
-}
-
-
-uint32_t max_threads_shell_to_task_collocation_laplacian( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_0 );\
-      $for( L in range(1, L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_laplacian_$(L) );
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-  return 0;
-}
-
-
-
-
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_laplacian( cudaStream_t stream, int32_t l,
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_laplacian(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;
-      $for( L in range(1, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_spherical_laplacian_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(0, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-
-}
-
-
-
-void eval_collocation_shell_to_task_laplacian(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_laplacian( stream, l, pure,
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-    auto stat = cudaGetLastError();
-    GAUXC_CUDA_ERROR("LAP", stat);
-  }
-
-
-}
-
-uint32_t max_threads_shell_to_task_collocation_lapgrad( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_0 );\
-      $for( L in range(1, L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_lapgrad_$(L) );
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(L_max + 1) )
-      case $(L): return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_$(L) );\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-  return 0;
-}
-
-
-
-
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_lapgrad( cudaStream_t stream, int32_t l,
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_lapgrad(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;
-      $for( L in range(1, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_spherical_lapgrad_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  } else {
-    switch(l) {\
-      $for( L in range(0, L_max + 1) )
-      case $(L):
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_$(L)<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;\
-      $endfor
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = $(L_max)");
-    }
-  }
-
-}
-
-
-
-void eval_collocation_shell_to_task_lapgrad(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_lapgrad( stream, l, pure,
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-    auto stat = cudaGetLastError();
-    GAUXC_CUDA_ERROR("LAP", stat);
-  }
-
-
-}
-
-
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_shell_to_task_kernels.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_shell_to_task_kernels.hpp
deleted file mode 100644
index 7cc1987..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_shell_to_task_kernels.hpp
+++ /dev/null
@@ -1,305 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device/common/shell_to_task.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-$py(do_grad = 'gradient' in type or 'hessian' in type or 'lapl' in type or 'lapgrad' in type)\
-$py(do_hess = 'hessian' in type or 'lapgrad' in type)\
-$py(do_lapl = 'lapl' in type or 'lapgrad' in type)\
-$py(do_lapl_grad = 'lapgrad' in type)\
-
-__global__ __launch_bounds__($(nt),2) void collocation_device_shell_to_task_kernel_$(type)_$(L)(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks
-) {
-
-
-  __shared__ double alpha[$(nt//32)][detail::shell_nprim_max + 1]; 
-  __shared__ double coeff[$(nt//32)][detail::shell_nprim_max + 1];
-  double* my_alpha = alpha[threadIdx.x/32];
-  double* my_coeff = coeff[threadIdx.x/32];
-
-  for( auto ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-  const uint32_t ntasks      = shell_to_task[ish].ntask;
-  const auto shell           = shell_to_task[ish].shell_device;
-  const auto task_idx        = shell_to_task[ish].task_idx_device;
-  const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-
-
-  // Load Shell Data into registers / SM
-  const uint32_t nprim = shell->nprim();
-  const double3 O  = *reinterpret_cast<const double3*>(shell->O_data());
-
-  const int global_warp_id = (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-  const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-  // Read in coeffs/exps into SM on first warp
-  {
-    auto* coeff_gm = shell->coeff_data();
-    auto* alpha_gm = shell->alpha_data();
-    static_assert( detail::shell_nprim_max == cuda::warp_size );
-    const int warp_rank = threadIdx.x % cuda::warp_size;
-    my_alpha[warp_rank] = alpha_gm[warp_rank];
-    my_coeff[warp_rank] = coeff_gm[warp_rank];
-  }
-
-  // Loop over tasks assigned to shells
-  // Place each task on a different warp + schedule across blocks
-  for( int itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-
-    const auto*              task   = device_tasks + task_idx[itask];
-    const auto* __restrict__ points_x = task->points_x;
-    const auto* __restrict__ points_y = task->points_y;
-    const auto* __restrict__ points_z = task->points_z;
-    const uint32_t           npts   = task->npts;
-    const size_t             shoff  = task_shell_offs[itask] * npts;
-
-    auto* __restrict__ basis_eval = task->bf + shoff;
-$if( do_grad )\
-    auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-    auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-    auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-$endif\
-$if( do_hess )\
-    auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-    auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-    auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-    auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-    auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-    auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-$endif\
-$if( do_lapl )\
-    auto* __restrict__ basis_lapl_eval = task->d2bflapl + shoff;
-$endif\
-$if( do_lapl_grad )\
-    auto* __restrict__ basis_lapl_x_eval = task->d3bflapl_x + shoff;
-    auto* __restrict__ basis_lapl_y_eval = task->d3bflapl_y + shoff;
-    auto* __restrict__ basis_lapl_z_eval = task->d3bflapl_z + shoff;
-$endif\
-
-    // Loop over points in task
-    // Assign each point to separate thread within the warp
-    #pragma unroll 1
-    for( int ipt = threadIdx.x % cuda::warp_size; ipt < npts; ipt += cuda::warp_size ) {
-      //const double3 point = points[ipt];
-      double3 point;
-      point.x = points_x[ipt];
-      point.y = points_y[ipt];
-      point.z = points_z[ipt];
-
-
-      const auto x = point.x - O.x;
-      const auto y = point.y - O.y;
-      const auto z = point.z - O.z;
-      const auto rsq = x*x + y*y + z*z;
-
-      // Evaluate radial part of bfn
-      double radial_eval = 0.;
-$if( do_grad )\
-      double radial_eval_alpha = 0.;
-$endif\
-$if( do_hess or do_lapl)\
-      double radial_eval_alpha_squared = 0.;
-$endif\
-$if( do_lapl_grad)\
-      double radial_eval_alpha_cubed = 0.;
-$endif\
-
-      #pragma unroll 1
-      for( uint32_t i = 0; i < nprim; ++i ) {
-        const auto a = my_alpha[i];
-        const auto e = my_coeff[i] * std::exp( - a * rsq );
-
-        radial_eval += e;
-$if( do_grad )\
-        radial_eval_alpha += a * e;
-$endif\
-$if( do_hess or do_lapl)\
-        radial_eval_alpha_squared += a * a * e;
-$endif\
-$if( do_lapl_grad)\
-        radial_eval_alpha_cubed += a * a * a * e;
-$endif\
-      }
-
-$if( do_grad )\
-      radial_eval_alpha *= -2;
-$endif\
-$if( do_hess or do_lapl)\
-      radial_eval_alpha_squared *= 4;
-$endif\
-$if( do_lapl_grad )\
-      radial_eval_alpha_cubed *= -8;
-$endif\
-
-      // Common Subexpressions
-$for( i in range(len(common_lines)) )\
-      const auto $(common_lines[i][0]) = $(common_lines[i][1]); 
-$endfor
-
-      // Evaluate basis function
-$for( j in range(len(eval_lines)) )\
-      basis_eval[ipt + $(j)*npts] = $(eval_lines[j]);
-$endfor
-
-    
-$if(do_grad)\
-      // Evaluate first derivative of bfn wrt x
-$for( j in range(len(eval_lines_dx)) )\
-      basis_x_eval[ipt + $(j)*npts] = $(eval_lines_dx[j]);
-$endfor\
-
-      // Evaluate first derivative of bfn wrt y
-$for( j in range(len(eval_lines_dy)) )\
-      basis_y_eval[ipt + $(j)*npts] = $(eval_lines_dy[j]);
-$endfor\
-
-      // Evaluate first derivative of bfn wrt z
-$for( j in range(len(eval_lines_dz)) )\
-      basis_z_eval[ipt + $(j)*npts] = $(eval_lines_dz[j]);
-$endfor\
-$endif\
-
-$if(do_hess)\
-      // Evaluate second derivative of bfn wrt xx
-$for( j in range(len(eval_lines_dxx)) )\
-      basis_xx_eval[ipt + $(j)*npts] = $(eval_lines_dxx[j]);
-$endfor\
-
-      // Evaluate second derivative of bfn wrt xy
-$for( j in range(len(eval_lines_dxy)) )\
-      basis_xy_eval[ipt + $(j)*npts] = $(eval_lines_dxy[j]);
-$endfor\
-
-      // Evaluate second derivative of bfn wrt xz
-$for( j in range(len(eval_lines_dxz)) )\
-      basis_xz_eval[ipt + $(j)*npts] = $(eval_lines_dxz[j]);
-$endfor\
-
-      // Evaluate second derivative of bfn wrt yy
-$for( j in range(len(eval_lines_dyy)) )\
-      basis_yy_eval[ipt + $(j)*npts] = $(eval_lines_dyy[j]);
-$endfor\
-
-      // Evaluate second derivative of bfn wrt yz
-$for( j in range(len(eval_lines_dyz)) )\
-      basis_yz_eval[ipt + $(j)*npts] = $(eval_lines_dyz[j]);
-$endfor\
-
-      // Evaluate second derivative of bfn wrt zz
-$for( j in range(len(eval_lines_dzz)) )\
-      basis_zz_eval[ipt + $(j)*npts] = $(eval_lines_dzz[j]);
-$endfor\
-$endif\
-
-$if(do_lapl)\
-      // Evaluate Laplacian of bfn 
-$for( j in range(len(eval_lines_lapl)) )\
-      basis_lapl_eval[ipt + $(j)*npts] = $(eval_lines_lapl[j]);
-$endfor\
-$endif\
-
-$if(do_lapl_grad)\
-      // Evaluate Laplacian gradient of bfn (dx)
-$for( j in range(len(eval_lines_lapl_x)) )\
-      basis_lapl_x_eval[ipt + $(j)*npts] = $(eval_lines_lapl_x[j]);
-$endfor\
-      // Evaluate Laplacian gradient of bfn (dy)
-$for( j in range(len(eval_lines_lapl_y)) )\
-      basis_lapl_y_eval[ipt + $(j)*npts] = $(eval_lines_lapl_y[j]);
-$endfor\
-      // Evaluate Laplacian gradient of bfn (dz)
-$for( j in range(len(eval_lines_lapl_z)) )\
-      basis_lapl_z_eval[ipt + $(j)*npts] = $(eval_lines_lapl_z[j]);
-$endfor\
-$endif\
-
-
-
-
-#if 0
-      // Evaluate the angular part of bfn
-
-$py(unroll_max = min(len(eval_lines),4))
-
-$for( i in range(unroll_max) )\
-      double ang_eval_$(i);
-$endfor\
-
-$py(unroll_loop_ceil = len(eval_lines)//unroll_max)
-$py(idx_st = unroll_loop_ceil*unroll_max)\
-$for( i in range(unroll_loop_ceil) )\
-$for( j in range(unroll_max) )\
-      ang_eval_$(j) = $(eval_lines[i*unroll_max + j]);
-$endfor\
-$for( j in range(unroll_max) )\
-      basis_eval[ipt + $(i*unroll_max + j)*npts] = ang_eval_$(j);
-$endfor\
-
-$endfor\
-$if( len(eval_lines)%unroll_max )\
-$for( j in range(len(eval_lines)%unroll_max) )\
-      ang_eval_$(j) = $(eval_lines[idx_st + j]);
-$endfor\
-$for( j in range(len(eval_lines)%unroll_max) )\
-      basis_eval[ipt + $(idx_st + j)*npts] = ang_eval_$(j);
-$endfor\
-
-$endif\
-
-$if(do_grad)\
-$for( i in range(unroll_max) )\
-      double dang_eval_x_$(i), dang_eval_y_$(i), dang_eval_z_$(i);
-$endfor\
-
-$for( i in range(unroll_loop_ceil) )\
-$for( j in range(unroll_max) )\
-      dang_eval_x_$(j) = $(eval_lines_dx[i*unroll_max + j]);
-      dang_eval_y_$(j) = $(eval_lines_dy[i*unroll_max + j]);
-      dang_eval_z_$(j) = $(eval_lines_dz[i*unroll_max + j]);
-$endfor\
-$for( j in range(unroll_max) )\
-      basis_x_eval[ipt + $(i*unroll_max + j)*npts] = dang_eval_x_$(j);
-      basis_y_eval[ipt + $(i*unroll_max + j)*npts] = dang_eval_y_$(j);
-      basis_z_eval[ipt + $(i*unroll_max + j)*npts] = dang_eval_z_$(j);
-$endfor\
-
-$endfor\
-$if( len(eval_lines)%unroll_max )\
-$for( j in range(len(eval_lines)%unroll_max) )\
-      dang_eval_x_$(j) = $(eval_lines_dx[idx_st + j]);
-      dang_eval_y_$(j) = $(eval_lines_dy[idx_st + j]);
-      dang_eval_z_$(j) = $(eval_lines_dz[idx_st + j]);
-$endfor\
-$for( j in range(len(eval_lines)%unroll_max) )\
-      basis_x_eval[ipt + $(idx_st + j)*npts] = dang_eval_x_$(j);
-      basis_y_eval[ipt + $(idx_st + j)*npts] = dang_eval_y_$(j);
-      basis_z_eval[ipt + $(idx_st + j)*npts] = dang_eval_z_$(j);
-$endfor\
-
-$endif\
-$endif\
-#endif
-    } // Loop over points within task
-  } // Loop over tasks
-        
-  } // Loop over shells
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_shell_to_task_kernels_template.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_shell_to_task_kernels_template.hpp
deleted file mode 100644
index a699d9e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_shell_to_task_kernels_template.hpp
+++ /dev/null
@@ -1,52 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l$(L).hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l$(L)_gradient.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l$(L)_hessian.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l$(L)_laplacian.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l$(L)_lapgrad.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_spherical_l$(L).hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_spherical_l$(L)_gradient.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_spherical_l$(L)_hessian.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_spherical_l$(L)_laplacian.hpp"\
-$endfor
-
-$for( L in range(L_max + 1))
-#include "collocation/collocation_shell_to_task_kernels_spherical_l$(L)_lapgrad.hpp"\
-$endfor
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_task_to_shell.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_task_to_shell.hpp
deleted file mode 100644
index abb281f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation/templates/collocation_task_to_shell.hpp
+++ /dev/null
@@ -1,74 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include "device/xc_device_task.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include <cassert>
-
-namespace GauXC {
-
-$py(do_grad = 'gradient' in type)\
-
-__global__ __launch_bounds__(512,2) void collocation_device_task_to_shell_kernel_$(type)_$(L)(
-  uint32_t                        ntask,
-  XCDeviceTask*      __restrict__ device_tasks
-  const Shell<double>*            shells_device,
-) {
-
-
-  // Storage for shell data
-  __shared__ double  alpha[detail::shell_nprim_max], coeff[detail::shell_nprim_max];
-
-  // Storage for points
-  __shared__ double points_x[ cuda::warp_size ];
-  __shared__ double points_y[ cuda::warp_size ];
-  __shared__ double points_z[ cuda::warp_size ];
-
-  for( int itask = blockIdx.z; itask < ntask; itask += gridDim.z ) {
-
-    auto* task_ptr = device_tasks + itask;
-
-    const uint32_t nshells = task_ptr->nshells;
-    const uint32_t npts    = task_ptr->npts;
-
-    const auto* __restrict__ pts_x_device  = task.points_x;
-    const auto* __restrict__ pts_y_device  = task.points_y;
-    const auto* __restrict__ pts_z_device  = task.points_z;
-    const auto* __restrict__ mask_device = task.shell_list;
-    const auto* __restrict__ offs_device = task.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-    // Loop over batches of points in task
-    for( uint32_t ipt_st = 0; ipt_st < npts; ipt_st += cuda::warp_size ) {
-
-      // Load a batch of points into shared memory 
-      {
-      uint32_t nleft = min( npts-ipt_st, cuda::warp_size );
-      uint32_t idx = ipt_st + (threadId.x % nleft); // Wrap around to avoid warp divergence
-      points_x[threadIdx.x] = pts_x_devlce[ idx ]; 
-      points_y[threadIdx.x] = pts_y_devlce[ idx ]; 
-      points_z[threadIdx.x] = pts_z_devlce[ idx ]; 
-      }
-
-
-    } // Loop over batches of points
-
-  } // Loop over tasks
-
-} // end kernel
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_device.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_device.cu
deleted file mode 100644
index d01b4d8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_device.cu
+++ /dev/null
@@ -1,764 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-#include "exceptions/cuda_exception.hpp"
-#include <gauxc/xc_task.hpp>
-
-#include "device/common/collocation_device.hpp"
-#include "device/cuda/kernels/collocation_masked_kernels.hpp"
-#include "device/cuda/kernels/collocation_masked_combined_kernels.hpp"
-#include "device/cuda/kernels/collocation_shell_to_task_kernels.hpp"
-
-#include "device_specific/cuda_device_constants.hpp"
-
-#define GAUXC_CUDA_MAX_L 4
-
-namespace GauXC {
-
- 
-template <typename T>
-void eval_collocation_masked(
-  size_t            nshells,
-  size_t            nbf,
-  size_t            npts,
-  const Shell<T>*   shells_device,
-  const size_t*     mask_device,
-  const size_t*     offs_device,
-  const T*          pts_device,
-  T*                eval_device,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_kernel<T>
-  );
-  auto max_warps_per_thread_block = nmax_threads / cuda::warp_size;
-
-  dim3 threads(cuda::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device,
-      offs_device, pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_masked(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  device_queue    queue
-);
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<T>*         shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel<T>
-  );
-
-  auto max_warps_per_thread_block = nmax_threads / cuda::warp_size;
-  dim3 threads(cuda::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<double>*    shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel<T>
-  );
-
-  auto max_warps_per_thread_block = nmax_threads / cuda::warp_size;
-  dim3 threads(cuda::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  collocation_device_masked_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( nshells, nbf, npts, shells_device, mask_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_masked_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  device_queue    queue
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t        ntasks,
-  size_t        npts_max,
-  size_t        nshells_max,
-  Shell<T>*     shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  auto nmax_threads = util::cuda_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel_deriv1<T>
-  );
-
-  dim3 threads(cuda::warp_size, nmax_threads/cuda::warp_size, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  collocation_device_masked_combined_kernel_deriv1<T>
-    <<<blocks, threads, 0, stream>>>
-    ( ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-uint32_t max_threads_shell_to_task_collocation( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {
-      
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-  return 0;
-}
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation( cudaStream_t stream, int32_t l, 
-  bool pure, int32_t ntask_average, int32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_spherical_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_spherical_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_spherical_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_spherical_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_cartesian_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_cartesian_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_cartesian_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_cartesian_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-}
-
-
-void eval_collocation_shell_to_task(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue 
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation( stream, l, pure, ntask_average, nshells, 
-      shell_to_task_device, device_tasks );
-  }
-
-
-}
-
-
-uint32_t max_threads_shell_to_task_collocation_gradient( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_gradient_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_gradient_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_gradient_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_gradient_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_gradient_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-  return 0;
-}
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_gradient( cudaStream_t stream, int32_t l, 
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_gradient(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_spherical_gradient_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_spherical_gradient_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_spherical_gradient_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_spherical_gradient_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_cartesian_gradient_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-
-}
-
-
-void eval_collocation_shell_to_task_gradient(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue 
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_gradient( stream, l, pure, 
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-  }
-
-
-}
-
-
-uint32_t max_threads_shell_to_task_collocation_hessian( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_hessian_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_hessian_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_hessian_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_hessian_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_hessian_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-  return 0;
-}
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_hessian( cudaStream_t stream, int32_t l, 
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_hessian(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_spherical_hessian_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_spherical_hessian_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_spherical_hessian_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_spherical_hessian_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_cartesian_hessian_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-
-}
-
-
-void eval_collocation_shell_to_task_hessian(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue 
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_hessian( stream, l, pure, 
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-  }
-
-
-}
-
-
-uint32_t max_threads_shell_to_task_collocation_laplacian( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_laplacian_1 );
-      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_laplacian_2 );
-      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_laplacian_3 );
-      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_laplacian_4 );
-      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_laplacian_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-  return 0;
-}
-
-
-
-
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_laplacian( cudaStream_t stream, int32_t l,
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_laplacian(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;
-      
-      case 1:
-        collocation_device_shell_to_task_kernel_spherical_laplacian_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_spherical_laplacian_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_spherical_laplacian_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_spherical_laplacian_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_cartesian_laplacian_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-
-}
-
-
-
-void eval_collocation_shell_to_task_laplacian(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_laplacian( stream, l, pure,
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-    auto stat = cudaGetLastError();
-    GAUXC_CUDA_ERROR("LAP", stat);
-  }
-
-
-}
-
-uint32_t max_threads_shell_to_task_collocation_lapgrad( int32_t l, bool pure ) {
-  if( pure ) {
-    switch(l) {
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_lapgrad_1 );
-      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_lapgrad_2 );
-      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_lapgrad_3 );
-      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_spherical_lapgrad_4 );
-      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_0 );      
-      case 1: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_1 );      
-      case 2: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_2 );      
-      case 3: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_3 );      
-      case 4: return util::cuda_kernel_max_threads_per_block( collocation_device_shell_to_task_kernel_cartesian_lapgrad_4 );      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-  return 0;
-}
-
-
-
-
-
-template <typename... Args>
-void dispatch_shell_to_task_collocation_lapgrad( cudaStream_t stream, int32_t l,
-  bool pure, uint32_t ntask_average, uint32_t nshells, Args&&... args ) {
-
-  dim3 threads = max_threads_shell_to_task_collocation_lapgrad(l,pure);
-  int nwarp_per_block = threads.x / cuda::warp_size;
-  int n_task_blocks = util::div_ceil( ntask_average, nwarp_per_block );
-  dim3 block(n_task_blocks, 1, nshells);
-
-  if( pure ) {
-    switch(l) {
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;
-      
-      case 1:
-        collocation_device_shell_to_task_kernel_spherical_lapgrad_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_spherical_lapgrad_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_spherical_lapgrad_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_spherical_lapgrad_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  } else {
-    switch(l) {      
-      case 0:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_0<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 1:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_1<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 2:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_2<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 3:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_3<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      case 4:
-        collocation_device_shell_to_task_kernel_cartesian_lapgrad_4<<<block,threads,0,stream>>>( nshells, std::forward<Args>(args)... );
-        break;      
-      default: GAUXC_GENERIC_EXCEPTION("CUDA L_MAX = 4");
-    }
-  }
-
-}
-
-
-
-void eval_collocation_shell_to_task_lapgrad(
-  uint32_t                    max_l,
-  AngularMomentumShellToTaskBatch* l_batched_shell_to_task,
-  XCDeviceTask*               device_tasks,
-  device_queue           queue
-) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-  for( auto l = 0u; l <= max_l; ++l ) {
-    auto pure = l_batched_shell_to_task[l].pure;
-    auto shell_to_task_device = l_batched_shell_to_task[l].shell_to_task_device;
-    auto nshells = l_batched_shell_to_task[l].nshells_in_batch;
-    auto ntask_average = std::max(1ul, l_batched_shell_to_task[l].ntask_average);
-    dispatch_shell_to_task_collocation_lapgrad( stream, l, pure,
-      ntask_average, nshells, shell_to_task_device, device_tasks );
-    auto stat = cudaGetLastError();
-    GAUXC_CUDA_ERROR("LAPGRAD", stat);
-  }
-
-
-}
-
-
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_masked_combined_kernels.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_masked_combined_kernels.hpp
deleted file mode 100644
index dcc4262..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_masked_combined_kernels.hpp
+++ /dev/null
@@ -1,201 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/cuda/kernels/collocation/collocation_angular_cartesian.hpp"
-#include "device/cuda/kernels/collocation/collocation_angular_spherical_unnorm.hpp"
-//#include "device/cuda/kernels/cuda_alg_variant_control.hpp"
-#include "device/xc_device_task.hpp"
-
-namespace GauXC {
-
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel(
-  size_t                     ntasks,
-  Shell<T>*     __restrict__ shells_device,
-  XCDeviceTask* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.bfn_screening.nshells;
-    //const auto               nbf         = task.bfn_screening.nbe;
-    const auto               npts        = task.npts;
-    //const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ pts_x_device  = task.points_x;
-    const auto* __restrict__ pts_y_device  = task.points_y;
-    const auto* __restrict__ pts_z_device  = task.points_z;
-    const auto* __restrict__ mask_device = task.bfn_screening.shell_list;
-    const auto* __restrict__ offs_device = task.bfn_screening.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const uint32_t ipt = tid_x;
-    const uint32_t ish = tid_y;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    //const auto* pt    = pts_device + 3*ipt;
-    const auto pt_x    = pts_x_device[ipt];
-    const auto pt_y    = pts_y_device[ipt];
-    const auto pt_z    = pts_z_device[ipt];
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt_x - O[0];
-    const auto yc = pt_y - O[1];
-    const auto zc = pt_z - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( uint32_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel_deriv1(
-  size_t                     ntasks,
-  Shell<T>*     __restrict__ shells_device,
-  XCDeviceTask* __restrict__ device_tasks
-) {
-
-  // DBWY: These are factored into the loop for this optimization
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.bfn_screening.nshells;
-    //const auto               nbf         = task.bfn_screening.nbe;
-    const auto               npts        = task.npts;
-    //const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ pts_x_device  = task.points_x;
-    const auto* __restrict__ pts_y_device  = task.points_y;
-    const auto* __restrict__ pts_z_device  = task.points_z;
-    const auto* __restrict__ mask_device = task.bfn_screening.shell_list;
-    const auto* __restrict__ offs_device = task.bfn_screening.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-  if( tid_y < nshells and tid_x < npts ) {
-
-    const uint32_t ish = tid_y;
-    const uint32_t ipt = tid_x;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-
-    //const auto* pt    = pts_device + 3*ipt;
-    const auto pt_x    = pts_x_device[ipt];
-    const auto pt_y    = pts_y_device[ipt];
-    const auto pt_z    = pts_z_device[ipt];
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt_x - O[0];
-    const auto yc = pt_y - O[1];
-    const auto zc = pt_z - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( uint32_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-  } // Batch idx check
-
-
-}
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_masked_kernels.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_masked_kernels.hpp
deleted file mode 100644
index ecda9d2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_masked_kernels.hpp
+++ /dev/null
@@ -1,162 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/cuda/kernels/collocation/collocation_angular_cartesian.hpp"
-#include "device/cuda/kernels/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_shell_to_task_kernels.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_shell_to_task_kernels.hpp
deleted file mode 100644
index e18494b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/collocation_shell_to_task_kernels.hpp
+++ /dev/null
@@ -1,82 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l0.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l1.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l2.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l3.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l4.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l0_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l1_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l2_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l3_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l4_gradient.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l0_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l1_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l2_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l3_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l4_hessian.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l0_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l1_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l2_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l3_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l4_laplacian.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l0_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l1_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l2_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l3_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_cartesian_l4_lapgrad.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_spherical_l0.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l1.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l2.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l3.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l4.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_spherical_l0_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l1_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l2_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l3_gradient.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l4_gradient.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_spherical_l0_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l1_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l2_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l3_hessian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l4_hessian.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_spherical_l0_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l1_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l2_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l3_laplacian.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l4_laplacian.hpp"
-
-
-#include "collocation/collocation_shell_to_task_kernels_spherical_l0_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l1_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l2_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l3_lapgrad.hpp"
-#include "collocation/collocation_shell_to_task_kernels_spherical_l4_lapgrad.hpp"
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cublas_extensions.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cublas_extensions.cu
deleted file mode 100644
index 947d7b1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cublas_extensions.cu
+++ /dev/null
@@ -1,208 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/util/div_ceil.hpp>
-#include "exceptions/cublas_exception.hpp"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "device_specific/cublas_util.hpp"
-#include "device/common/device_blas.hpp"
-
-namespace GauXC {
-
-cublasOperation_t device_op_to_cublas( DeviceBlasOp op ) {
-  switch( op ) {
-    case DeviceBlasOp::NoTrans: return CUBLAS_OP_N;
-    case DeviceBlasOp::Trans:   return CUBLAS_OP_T;
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unsupported DeviceBlasOp");
-      return CUBLAS_OP_N;
-  }
-}
-
-cublasFillMode_t device_uplo_to_cublas( DeviceBlasUplo uplo ) {
-  switch(uplo) {
-    case DeviceBlasUplo::Upper: return CUBLAS_FILL_MODE_UPPER;
-    case DeviceBlasUplo::Lower: return CUBLAS_FILL_MODE_LOWER;
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unsupported DeviceBlasUplo");
-      return CUBLAS_FILL_MODE_LOWER;
-  }
-}
-
-template <typename T>
-__global__ void increment_kernel( const T* X, T* Y ) {
-  const auto tid = blockIdx.x;
-  if( tid < 1 ) (*Y) += (*X);
-}
-
-template <typename T>
-void increment( const T* X, T* Y, cudaStream_t stream ) {
-  increment_kernel<<<1,1,0,stream>>>(X,Y);
-}
-
-template <typename T>
-__global__ void increment_vec_kernel( const T* X, T* Y, int N ) {
-  const auto tid = blockIdx.x * blockDim.x + threadIdx.x;
-  if( tid < N ) Y[tid] += X[tid];
-}
-
-template <typename T>
-void increment( device_blas_handle generic_handle, const T* X, T* Y, int N) {
-  const int threads = cuda::warp_size * cuda::max_warps_per_thread_block;
-  const int blocks = util::div_ceil( N, threads );
-  cublasHandle_t handle = generic_handle.blas_handle_as<util::cublas_handle>();
-  auto stream = util::get_stream(handle);
-  increment_vec_kernel<<<blocks, threads, 0, stream>>>(X,Y,N);
-}
-
-template
-  void increment( device_blas_handle generic_handle, const double* X, double* Y, int N );
-
-template <>
-void dot( device_blas_handle generic_handle,
-          int            N,
-          const double*  X,
-          int            INCX,
-          const double*  Y,
-          int            INCY,
-          double*        RES ) {
-
-  cublasHandle_t handle = generic_handle.blas_handle_as<util::cublas_handle>();
-
-  auto stat = cublasDdot( handle, N, X, INCX, Y, INCY, RES );
-  GAUXC_CUBLAS_ERROR("CUBLAS DDOT FAILED", stat );
-
-}
-
-template <typename T>
-void gdot( device_blas_handle generic_handle,
-           int       N,
-           const T*  X,
-           int       INCX,
-           const T*  Y,
-           int       INCY,
-           T*        SCR,
-           T*        RES ) {
-
-
-  dot( generic_handle, N, X, INCX, Y, INCY, SCR );
-  cublasHandle_t handle = generic_handle.blas_handle_as<util::cublas_handle>();
-  auto stream = util::get_stream(handle);
-  increment( SCR, RES, stream );
-
-}
-
-template 
-void gdot( device_blas_handle generic_handle,
-           int            N,
-           const double*  X,
-           int            INCX,
-           const double*  Y,
-           int            INCY,
-           double*        SCR,
-           double*        RES );
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void __global__ hadamard_product_kernel( int      M,
-                                         int      N,
-                                         const T* A,
-                                         int      LDA,
-                                         T*       B,
-                                         int      LDB ) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < M and tid_y < N ) {
-    B[ tid_x + tid_y*LDB ] *= A[ tid_x + tid_y*LDA ];
-  }
-
-}
-
-
-
-template <typename T>
-void hadamard_product( device_blas_handle generic_handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB ) {
-
-
-  cublasHandle_t handle = generic_handle.blas_handle_as<util::cublas_handle>();
-  auto stream = util::get_stream(handle);
-  dim3 threads(cuda::warp_size, cuda::max_warps_per_thread_block);
-  dim3 blocks( util::div_ceil( M, threads.x ),
-               util::div_ceil( N, threads.y ) );
-
-  hadamard_product_kernel<<< blocks, threads, 0, stream >>>( M, N, A, LDA, B, LDB );
-
-}
- 
-template 
-void hadamard_product( device_blas_handle generic_handle,
-                       int            M,
-                       int            N,
-                       const double*  A,
-                       int            LDA,
-                       double*        B,
-                       int            LDB ); 
-
-
-
-
-template <>
-void gemm( device_blas_handle generic_handle, 
-           DeviceBlasOp TA, DeviceBlasOp TB,
-           int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB,
-           double BETA, double* C, int LDC ) {
-
-
-  cublasHandle_t handle = generic_handle.blas_handle_as<util::cublas_handle>();
-  auto stat = cublasDgemm( handle, device_op_to_cublas(TA), 
-    device_op_to_cublas(TB), M, N, K, &ALPHA, A, LDA,
-    B, LDB, &BETA, C, LDC );
-  GAUXC_CUBLAS_ERROR("CUBLAS DGEMM FAILED", stat);
-
-}
-
-
-template <>
-void syr2k( device_blas_handle generic_handle, 
-            DeviceBlasUplo UPLO, DeviceBlasOp Trans,
-            int M, int K, double ALPHA, 
-            const double* A, int LDA, const double* B, int LDB,
-            double BETA, double* C, int LDC ) {
-
-  cublasHandle_t handle = generic_handle.blas_handle_as<util::cublas_handle>();
-  auto stat = cublasDsyr2k( handle, device_uplo_to_cublas(UPLO), 
-    device_op_to_cublas(Trans), M, K, &ALPHA, A, LDA, B, LDB,
-    &BETA, C, LDC );
-  GAUXC_CUBLAS_ERROR("CUBLAS DSYR2K FAILED", stat);
-
-}
-
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_extensions.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_extensions.hpp
deleted file mode 100644
index 8f5d056..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_extensions.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cuda.h>
-
-namespace GauXC {
-namespace cuda  {
-
-template <size_t warp_sz, typename T>
-__device__ T warp_reduce_sum(T val) {
-
-  for(int i=(warp_sz/2); i>=1; i/=2)
-    val += __shfl_xor_sync(0xffffffff, val, i, warp_sz);
-
-  return val;
-}
-
-template <size_t warp_sz, typename T>
-__device__ T warp_reduce_prod(T val) {
-
-  for(int i=(warp_sz/2); i>=1; i/=2)
-    val *= __shfl_xor_sync(0xffffffff, val, i, warp_sz);
-
-  return val;
-}
-
-template <size_t warp_sz, typename T>
-__device__ T warp_reduce_max(T val) {
-
-  for(int i=(warp_sz/2); i>=1; i/=2)
-    val = fmax( val, __shfl_xor_sync(0xffffffff, val, i, warp_sz) );
-
-  return val;
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_inc_potential.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_inc_potential.cu
deleted file mode 100644
index 5e59ffc..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_inc_potential.cu
+++ /dev/null
@@ -1,226 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/inc_potential.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-
-
-namespace GauXC {
-
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-
-__global__ __launch_bounds__(1024, 1)
-void sym_inc_by_submat_combined_kernel( size_t        ntasks,
-                                    XCDeviceTask* device_tasks,
-                                    double*       A,
-                                    size_t        LDA, 
-				    const int block_y,
-				    const int block_x ) {
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* submat_cut_device = task.bfn_screening.submat_cut;
-  const auto* submat_block_device = task.bfn_screening.submat_block;
-  const auto  LDAS              = task.bfn_screening.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ASmall_begin[I + (J+k*WARP_Y)*LDAS];
-          address[k] = ABig_begin + I + (J+k*WARP_Y)*LDA;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          atomicAdd(address[k], val[k] );
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        atomicAdd(ABig_begin + I + J*LDA, ASmall_begin[I + J*LDAS] );
-      }
-    }
-
-  }
-  }
-}
-
-
-void sym_task_inc_potential( size_t        ntasks,
-                         XCDeviceTask* device_tasks,
-                         double*       V_device,
-                         size_t        LDV,
-                         size_t        submat_block_size,
-                         device_queue  queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-
-  dim3 threads( cuda::warp_size/2, cuda::max_warps_per_thread_block * 2, 1 );
-  dim3 blocks( 1,1, ntasks );
-
-  auto n_launch = util::div_ceil( LDV, submat_block_size );
-  for (int i = 0; i < n_launch; i++) 
-  for (int j = 0; j < n_launch; j++) {
-    sym_inc_by_submat_combined_kernel<<< blocks, threads, 0, stream >>>(
-      ntasks, device_tasks, V_device, LDV, i, j
-    );
-  }
-
-}
-
-
-
-
-
-__global__ __launch_bounds__(1024, 1)
-void asym_inc_by_submat_combined_kernel( size_t        ntasks,
-                                    XCDeviceTask* device_tasks,
-                                    double*       A,
-                                    size_t        LDA, 
-				    const int block_y,
-				    const int block_x ) {
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  const auto* row_submat_cut_device = task.bfn_screening.submat_cut;
-  const auto* row_submat_block_device = task.bfn_screening.submat_block;
-  const auto* col_submat_cut_device = task.cou_screening.submat_cut;
-  const auto* col_submat_block_device = task.cou_screening.submat_block;
-
-  const auto  LDAS              = task.bfn_screening.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = row_submat_block_device[block_y];
-  const int end_cut_y   = row_submat_block_device[block_y+1];
-  const int start_cut_x = col_submat_block_device[block_x];
-  const int end_cut_x   = col_submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(row_submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(col_submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ASmall_begin[I + (J+k*WARP_Y)*LDAS];
-          address[k] = ABig_begin + I + (J+k*WARP_Y)*LDA;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          atomicAdd(address[k], val[k] );
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        atomicAdd(ABig_begin + I + J*LDA, ASmall_begin[I + J*LDAS] );
-      }
-    }
-
-  }
-  }
-}
-
-
-void asym_task_inc_potential( size_t        ntasks,
-                         XCDeviceTask* device_tasks,
-                         double*       V_device,
-                         size_t        LDV,
-                         size_t        submat_block_size,
-                         device_queue  queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-
-  dim3 threads( cuda::warp_size/2, cuda::max_warps_per_thread_block * 2, 1 );
-  dim3 blocks( 1,1, ntasks );
-
-  auto n_launch = util::div_ceil( LDV, submat_block_size );
-  for (int i = 0; i < n_launch; i++) 
-  for (int j = 0; j < n_launch; j++) {
-    asym_inc_by_submat_combined_kernel<<< blocks, threads, 0, stream >>>(
-      ntasks, device_tasks, V_device, LDV, i, j
-    );
-  }
-
-}
-
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_1d.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_1d.cu
deleted file mode 100644
index 54d2486..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_1d.cu
+++ /dev/null
@@ -1,369 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cuda_ssf_1d.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "common/integrator_constants.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include <numeric>
-
-static constexpr auto eps_d = std::numeric_limits<double>::epsilon();
-
-namespace GauXC {
-
-
-// SIMT over points: 1D kernel
-__global__ void modify_weights_ssf_kernel_1d(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-        int32_t                           ldRAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-        int32_t                           lddist,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x  * 1.5625; // / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    //return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-    return ((35.)*(s_x - s_x3) + (21.)*s_x5 - (5.)*s_x7);
-  };
-  
-  auto sFrisch = [&] (double x) {
-    if( fabs(x) < integrator::magic_ssf_factor<> ) return (0.5 - (0.5/16.) * gFrisch(x));
-    else if( x >= integrator::magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-  };
-
-  constexpr double weight_tol = integrator::ssf_weight_tol;
-
-  const int tid_x = threadIdx.x + blockIdx.x * blockDim.x;
-  const int nt_x  = blockDim.x  * gridDim.x;
-
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * lddist;
-    const double dist_cutoff = 0.5 * (1 - integrator::magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * ldRAB;
-
-      parent_weight = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( parent_weight > weight_tol ) {
-      if( iParent != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-        parent_weight *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += parent_weight;
-
-    }
-
-    if( parent_weight < eps_d ) {
-      weights_device[ipt] = 0.;
-      continue;
-    }
-
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) 
-    if( iParent != iCenter ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * ldRAB;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( ps > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += ps;
-
-    }
-    weights_device[ipt] *= parent_weight / sum;
-  }
-
-
-}
-
-void partition_weights_ssf_1d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, double* weights,
-  cudaStream_t stream ) {
-
-  dim3 threads( cuda::max_threads_per_thread_block );
-  dim3 blocks ( util::div_ceil( npts, threads.x ) );
-  modify_weights_ssf_kernel_1d<<<blocks, threads, 0, stream>>>(
-    npts, natoms, RAB, ldRAB, coords, dist, lddist, iparent, dist_nearest, weights
-  );
-
-}
-
-__global__ void eval_weight_1st_deriv_contracted_ssf_kernel_1d(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-        int32_t                           ldRAB,
-  const double*                           coords,
-  const double*                           points_x,
-  const double*                           points_y,
-  const double*                           points_z,
-  const double*                           dist_scratch,
-        int32_t                           lddist,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-  const double*       __restrict__        w_times_f_device,
-        double*       __restrict__        exc_grad_w_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x  * 1.5625; // / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return ((35.)*(s_x - s_x3) + (21.)*s_x5 - (5.)*s_x7);
-  };
-  
-  auto sFrisch = [&] (double x) {
-    if( fabs(x) < integrator::magic_ssf_factor<> ) return (0.5 - (0.5/16.) * gFrisch(x));
-    else if( x >= integrator::magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-  };
-  
-  auto tFrisch = [&](double x) {
-    const double s_x  = x * 1.5625; // / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double numerator = (35.) * (s_x3 + (3.) * s_x2 + (3.) * s_x + (1.));
-    const double denominator = (x - integrator::magic_ssf_factor<>) * ((5.)*s_x3 + (20.)*s_x2 + (29.)*s_x + (16.));
-    return numerator / denominator ;
-  };
-
-  constexpr double safe_magic_ssf_bound = integrator::magic_ssf_factor<> - 1e-4;
-  constexpr double weight_tol = integrator::ssf_weight_tol;
-  constexpr double w_times_f_thresh = 1.e-12;
-
-  const int tid_x = threadIdx.x + blockIdx.x * blockDim.x;
-  const int nt_x  = blockDim.x  * gridDim.x;
-
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto w_times_f_i = w_times_f_device[ipt];
-    if (fabs(w_times_f_i) < w_times_f_thresh) continue; // weight derivative = 0 when p_A = 0
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * lddist;
-    const double dist_cutoff = 0.18 * dist_nearest_device[ipt]; // 0.5 * (1-integrator::magic_ssf_factor<>) * task.dist_nearest
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue; //weight derivative = 0 when p_A = 1
-
-    // Do iParent First
-    {
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * ldRAB;
-
-      parent_weight = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( parent_weight > weight_tol ) {
-      if( iParent != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-        parent_weight *= sFrisch( mu );
-
-      }
-      } else break;
-
-      sum += parent_weight;
-    }
-
-    // caculate sum
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) 
-    if ( iParent != iCenter ) {
-      const double ri = local_dist_scratch[ iCenter ];
-      const double* const local_rab = RAB + iCenter * ldRAB;
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( ps > weight_tol ) {
-        if( iCenter != jCenter ) {
-        
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-          ps *= sFrisch( mu );
-        }
-      } else break;
-
-      sum += ps;
-
-    }
-
-    double sum_inv = 1. / sum;
-
-    const double point_x = points_x[ipt];
-    const double point_y = points_y[ipt];
-    const double point_z = points_z[ipt];
-
-    // Now do derivative
-    for( int iB = 0; iB < natoms; iB++ ) 
-    if( iParent != iB ) 
-    {
-      double exc_grad_w_iBx = 0.0, exc_grad_w_iBy = 0.0, exc_grad_w_iBz = 0.0;
-
-      const double* const local_Rinv_B = RAB + iB * ldRAB;
-      const double rB = local_dist_scratch[ iB ];
-      const double coords_B_x = coords[3*iB + 0];
-      const double coords_B_y = coords[3*iB + 1];
-      const double coords_B_z = coords[3*iB + 2];
-
-      // first term
-      const double rA = local_dist_scratch[ iParent ];
-      const double rAB_inv = local_Rinv_B[ iParent ];
-      const double mu_AB = (rA - rB) * rAB_inv; 
-      if( fabs(mu_AB) < safe_magic_ssf_bound) {
-        // first term is tFrisch(mu_AB) * (PA-Z)/Z * w_times_f_i * nabla_B mu_BA 
-        double coef1 = tFrisch(mu_AB) * rAB_inv * (parent_weight - sum) * sum_inv * w_times_f_i / rB;
-        exc_grad_w_iBx = coef1 * (coords_B_x - point_x + mu_AB * ( coords_B_x - coords[3*iParent + 0]) * rAB_inv * rB);
-        exc_grad_w_iBy = coef1 * (coords_B_y - point_y + mu_AB * ( coords_B_y - coords[3*iParent + 1]) * rAB_inv * rB);
-        exc_grad_w_iBz = coef1 * (coords_B_z - point_z + mu_AB * ( coords_B_z - coords[3*iParent + 2]) * rAB_inv * rB);
-      }
-
-      // second term and third term
-      // first need to calculate PB
-      double PB = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ )
-      if( PB > weight_tol ) {
-        if( iB != jCenter ) {
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (rB - rj) * local_Rinv_B[ jCenter ]; 
-          PB *= sFrisch( mu );
-        }
-      } else break;
-
-      if( PB >  weight_tol ) 
-        for( int iC = 0; iC < natoms; iC++ ) {
-          if (iB == iC) continue;
-          const double rBC_inv = local_Rinv_B[iC];
-          const double rC = local_dist_scratch[iC];
-          const double mu_BC = (rB - rC) * rBC_inv;
-          
-          if(fabs(mu_BC) < safe_magic_ssf_bound){
-            const double t_BC = tFrisch(mu_BC);
-            const double coef = PB * t_BC * rBC_inv * sum_inv * w_times_f_i;
-
-            const double coords_C_x = coords[3*iC + 0];
-            const double coords_C_y = coords[3*iC + 1];
-            const double coords_C_z = coords[3*iC + 2];
-
-            // second term
-            {
-              const double rB_inv = 1. / rB;
-              exc_grad_w_iBx -= coef * ((coords_B_x - point_x) * rB_inv - mu_BC * (coords_B_x - coords_C_x) * rBC_inv);
-              exc_grad_w_iBy -= coef * ((coords_B_y - point_y) * rB_inv - mu_BC * (coords_B_y - coords_C_y) * rBC_inv);
-              exc_grad_w_iBz -= coef * ((coords_B_z - point_z) * rB_inv - mu_BC * (coords_B_z - coords_C_z) * rBC_inv);
-            }
-
-            if(iC != iParent) {
-              // third term
-              const double rC_inv = 1. / rC;
-              const double C_x = coef * ((coords_C_x - point_x) * rC_inv + mu_BC * (coords_C_x - coords_B_x) * rBC_inv);
-              const double C_y = coef * ((coords_C_y - point_y) * rC_inv + mu_BC * (coords_C_y - coords_B_y) * rBC_inv);
-              const double C_z = coef * ((coords_C_z - point_z) * rC_inv + mu_BC * (coords_C_z - coords_B_z) * rBC_inv);
-              
-              atomicAdd(exc_grad_w_device + 3*iC + 0, C_x);
-              atomicAdd(exc_grad_w_device + 3*iC + 1, C_y);
-              atomicAdd(exc_grad_w_device + 3*iC + 2, C_z);
-
-              // Update parent atom
-              atomicAdd(exc_grad_w_device + 3*iParent + 0, -C_x);
-              atomicAdd(exc_grad_w_device + 3*iParent + 1, -C_y);
-              atomicAdd(exc_grad_w_device + 3*iParent + 2, -C_z);
-            }
-          }
-        }
-
-        atomicAdd(exc_grad_w_device + 3*iB + 0, exc_grad_w_iBx);
-        atomicAdd(exc_grad_w_device + 3*iB + 1, exc_grad_w_iBy);
-        atomicAdd(exc_grad_w_device + 3*iB + 2, exc_grad_w_iBz);
-
-        // Update parent atom
-        atomicAdd(exc_grad_w_device + 3*iParent + 0, -exc_grad_w_iBx);
-        atomicAdd(exc_grad_w_device + 3*iParent + 1, -exc_grad_w_iBy);
-        atomicAdd(exc_grad_w_device + 3*iParent + 2, -exc_grad_w_iBz);
-
-    }
-
-  }
-
-}
-
-
-
-void eval_weight_1st_deriv_contracted_ssf_1d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, 
-  const double* points_x, const double* points_y, const double* points_z,
-  const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, const double* w_times_f,
-  double* exc_grad_w, cudaStream_t stream){
-
-  dim3 threads( cuda::max_threads_per_thread_block/4 );
-  dim3 blocks ( util::div_ceil( npts, threads.x ) );
-  eval_weight_1st_deriv_contracted_ssf_kernel_1d<<<blocks, threads, 0, stream>>>(
-    npts, natoms, RAB, ldRAB, coords, points_x, points_y, points_z, dist, lddist, iparent, dist_nearest,
-    w_times_f, exc_grad_w
-  );
-
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_1d.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_1d.hpp
deleted file mode 100644
index bb9d3b7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_1d.hpp
+++ /dev/null
@@ -1,27 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-namespace GauXC {
-
-void partition_weights_ssf_1d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, double* weights,
-  cudaStream_t stream);
-
-void eval_weight_1st_deriv_contracted_ssf_1d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, 
-  const double* points_x, const double* points_y, const double* points_z,
-  const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, const double* w_times_f,
-  double* exc_grad_w, cudaStream_t stream);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_2d.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_2d.hu
deleted file mode 100644
index b792cd0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cuda_ssf_2d.hu
+++ /dev/null
@@ -1,195 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cuda_extensions.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "common/integrator_constants.hpp"
-#include <numeric>
-
-inline constexpr static auto eps_d = std::numeric_limits<double>::epsilon();
-
-namespace GauXC {
-
-__device__ __inline__ double gFrisch(double x) {
-  // Frisch partition functions
-//  const double s_x  = x / integrator::magic_ssf_factor<>;
-  const double s_x  = x * 1.5625;
-  const double s_x2 = s_x  * s_x;
-  const double s_x3 = s_x  * s_x2;
-  const double s_x5 = s_x3 * s_x2;
-  const double s_x7 = s_x5 * s_x2;
-
-  return ((35.) *(s_x - s_x3) + (21.) *s_x5 - (5.) *s_x7);
-}
-
-
-__device__ __inline__ double sFrisch(double x) {
-    //double frisch_val = (0.5 - (0.5/ 16.0) * gFrisch(x));
-
-    if( fabs(x) < integrator::magic_ssf_factor<> ) return (0.5 - (0.5/ 16.0) * gFrisch(x));
-    else if( x >= integrator::magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-}
-
-template <uint32_t weight_unroll,             // Unrolling factor
-          uint32_t weight_thread_block,       // Number of threads / thread block
-          uint32_t weight_thread_block_per_sm // Thread blocks / SM
-          >
-__global__ __launch_bounds__(weight_thread_block, weight_thread_block_per_sm)
-void modify_weights_ssf_kernel_2d( int32_t npts, int32_t natoms, 
-  const double* RAB, int32_t ldRAB, const double* coords, const double* dist,
-  size_t lddist, const int32_t* iparent, const double* dist_nearest,
-  double* weights ) {
-
-  //constexpr uint32_t warps_per_thread_block = weight_thread_block / cuda::warp_size;
-  static_assert( weight_unroll == 4 );
-
-  constexpr double weight_tol = integrator::ssf_weight_tol;
-  int natom_block = ((natoms + blockDim.x - 1) / blockDim.x) * blockDim.x;
-
-  const int tid_x = threadIdx.y + blockIdx.y * blockDim.y;
-  const int nt_x  = blockDim.y  * gridDim.y;
-
-
-  __shared__ int jCounter_sm[cuda::max_warps_per_thread_block];
-  int* jCounter = reinterpret_cast<int *>(jCounter_sm) + threadIdx.y;
-
-  // Each warp will work together on a point
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-  #if 1
-
-    const auto iParent = iparent[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist + ipt * lddist;
-    const double dist_cutoff = 0.5 * (1 - integrator::magic_ssf_factor<> ) * 
-      dist_nearest[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * ldRAB;
-
-      parent_weight = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natom_block; jCenter+=blockDim.x ) {
-        double contribution = 1.0;
-        if (jCenter < natoms && iParent != jCenter) {
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-          contribution = sFrisch( mu );
-        }
-        contribution = cuda::warp_reduce_prod<cuda::warp_size>(contribution);
-        contribution = __shfl_sync(0xFFFFFFFF, contribution, 0);
-
-        parent_weight *= contribution;
-
-        if (parent_weight < weight_tol) break;
-      }
-    }
-
-    if( parent_weight < eps_d ) {
-      if (threadIdx.x == 0)
-        weights[ipt] = 0.;
-      __syncwarp();
-      continue;
-    }
-
-    // Initialize each counter to 0
-    if (threadIdx.x == 0) {
-      jCounter[0] = 0;
-    }
-    __syncwarp();
-
-    // Each thread will process an iCenter. Atomic operations are used to assign
-    // an iCenter value to each thread.
-    int iCenter = atomicAdd(jCounter, 1);
-    if (iCenter >= iParent) iCenter++; // iCenter == iParent is skipped
-
-    // The entire warp processes the same jCenter value at the same time
-    int jCenter = 0;
-
-    const double* local_rab = RAB + iCenter * ldRAB;
-    double ri = local_dist_scratch[ iCenter ];
-    double ps = 1.;
-    int iCount = 0; 
-    int cont = (iCenter < natoms);
-
-    // We will continue iterating until all of the threads have cont set to 0
-    while (__any_sync(0xffffffff, cont)) {
-      if (cont) {
-        double2 rj[weight_unroll/2];
-        double2 rab_val[weight_unroll/2];
-        double mu[weight_unroll];
-        iCount += weight_unroll;
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          rj[k]      = *((double2*)(local_dist_scratch + jCenter) + k);
-          rab_val[k] = *((double2*)(local_rab          + jCenter) + k); 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          mu[2*k+0] = (ri - rj[k].x) * rab_val[k].x; // XXX: RAB is symmetric
-          mu[2*k+1] = (ri - rj[k].y) * rab_val[k].y; 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll; k++) {
-          if((iCenter != jCenter + k) && (jCenter + k < natoms)) {
-            mu[k] = sFrisch( mu[k] );
-            ps *= mu[k];
-          }
-        }
-
-        // A thread is done with a iCenter based on 2 conditions. Weight tolerance
-        // Or if it has seen all of the jCenters
-        if( !(ps > weight_tol && iCount < lddist )) {
-          // In the case were the thread is done, it begins processing another iCenter
-          sum += ps;
-          iCenter = atomicAdd(jCounter, 1);
-          if (iCenter >= iParent) iCenter++;
-
-          // If there are no more iCenters left to process, it signals it is ready to exit
-          cont = (iCenter < natoms);
-          ri = local_dist_scratch[ iCenter ];
-          local_rab = RAB + iCenter * ldRAB;
-          ps = 1.;
-          iCount = 0;
-        }
-      }
-      // Wraps jCenter around. This was faster than modulo
-      jCenter += weight_unroll;
-      jCenter = (jCenter < ldRAB) ? jCenter : 0;
-    }
-
-    // All of the threads then sum their contributions. Only thread 0 needs to add the parent
-    // contribution.
-    __syncwarp();
-    sum = cuda::warp_reduce_sum<cuda::warp_size>(sum);
-    if (threadIdx.x == 0) {
-      sum += parent_weight;
-      weights[ipt] *= parent_weight / sum;
-    }
-
-    __syncwarp();
-#endif
-  }
-
-}
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cutlass_wrapper.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cutlass_wrapper.cu
deleted file mode 100644
index 722d8c0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cutlass_wrapper.cu
+++ /dev/null
@@ -1,249 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <cutlass/cutlass.h>
-#include <cutlass/gemm/gemm.h>
-#include <cutlass/gemm/kernel/gemm_grouped.h>
-#include <cutlass/gemm/kernel/default_gemm_grouped.h>
-#include <cutlass/gemm/device/gemm_grouped.h>
-#include <cutlass/gemm/device/gemm_universal.h>
-
-#include <cutlass/gemm/kernel/rank_2k_grouped.h>
-#include <cutlass/gemm/kernel/default_rank_2k_grouped.h>
-#include <cutlass/gemm/device/rank_2k_grouped.h>
-#include <cutlass/gemm/device/rank_2k.h>
-
-#include <cutlass/util/device_memory.h>
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "device_specific/cuda_util.hpp"
-#include "device/device_queue.hpp"
-#include "exceptions/cutlass_exception.hpp"
-
-namespace GauXC {
-
-void cutlass_gemm(
-  cutlass::gemm::GemmCoord* problem_sizes_device,
-  cutlass::gemm::GemmCoord* problem_sizes_host,
-  const int problem_count,
-  double ** ptr_A,
-  double ** ptr_B,
-  double ** ptr_C,
-  double ** ptr_D,
-  int64_t* lda,
-  int64_t* ldb,
-  int64_t* ldc,
-  int64_t* ldd,
-  const double alpha,
-  const double beta,
-  device_queue queue
-) {
-  // Template parameters defining data types and layouts
-  using ElementOutput = double;
-  using ElementAccumulator = double;
-  using ElementA = double; 
-  using ElementB = double; 
-  using ElementC = double; 
-
-  using LayoutA = cutlass::layout::ColumnMajor;
-  using LayoutB = cutlass::layout::ColumnMajor;
-  using LayoutC = cutlass::layout::ColumnMajor;
-
-  constexpr int kAlignmentA = 1;
-  constexpr int kAlignmentB = 1;
-  
-  constexpr cutlass::ComplexTransform kTransformA = cutlass::ComplexTransform::kNone;
-  constexpr cutlass::ComplexTransform kTransformB = cutlass::ComplexTransform::kNone;
-
-  using ThreadblockSwizzle = cutlass::gemm::threadblock::GemmIdentityThreadblockSwizzle<>;
-  using EpilogueOutputOp = cutlass::epilogue::thread::LinearCombination<
-    ElementC,  1,
-    ElementAccumulator,
-    ElementAccumulator>; 
-
-  using GroupScheduleMode = cutlass::gemm::kernel::GroupScheduleMode;
-
-  // Tunable and arch specific Parameters
-  // Perform scheduling on device
-  constexpr GroupScheduleMode kGroupScheduleMode = GroupScheduleMode::kDeviceOnly;  
-  using ArchTag = cutlass::arch::Sm80;
-  using OperatorClass = cutlass::arch::OpClassTensorOp;
-
-  using ThreadblockShape = cutlass::gemm::GemmShape<64, 64, 16>;  // Size of  Gemm each thread block will perform
-  using WarpShape = cutlass::gemm::GemmShape<32, 32, 16>;  // Size of Gemm each warp will perform
-  using InstructionShape = cutlass::gemm::GemmShape<8, 8, 4>;  // Size of DMMA Tensor Core in Ampere
-  constexpr int kStages = 4;  // Number of shared memory stages
-
-  // Define CUTLASS GEMM Type
-  using GemmGroupKernel = typename cutlass::gemm::kernel::DefaultGemmGrouped<
-    ElementA, LayoutA, kTransformA, kAlignmentA,
-    ElementB, LayoutB, kTransformB, kAlignmentB,
-    ElementOutput, LayoutC, 
-    ElementAccumulator, 
-    OperatorClass,
-    ArchTag,
-    ThreadblockShape, WarpShape, InstructionShape,
-    EpilogueOutputOp,
-    ThreadblockSwizzle,
-    kStages,
-    kGroupScheduleMode>::GemmKernel;
-
-  using GemmGrouped = cutlass::gemm::device::GemmGrouped<GemmGroupKernel>; 
-
-  const int threadblock_count = GemmGrouped::sufficient(problem_sizes_host, problem_count);
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  cutlass::Status status = cutlass::Status::kSuccess;
-  typename GemmGrouped::EpilogueOutputOp::Params epilogue_op(alpha, beta);
-
-  // Configure GEMM arguments
-  typename GemmGrouped::Arguments args(
-    problem_sizes_device,
-    problem_count,
-    threadblock_count,
-    epilogue_op,
-    ptr_A,
-    ptr_B,
-    ptr_C,
-    ptr_D,
-    lda,
-    ldb,
-    ldc,
-    ldd,
-    problem_sizes_host
-  );
-
-  // Initialize the GEMM object
-  GemmGrouped gemm;
-
-  size_t workspace_size = gemm.get_workspace_size(args);
-  if (workspace_size) {
-    GAUXC_GENERIC_EXCEPTION("CUTLASS Workspace Size Must Be Zero");
-  }
-
-  status = gemm.initialize(args, nullptr);
-  GAUXC_CUTLASS_ERROR("CUTLASS Group Gemm Initialization Failed", status);
-
-  status = gemm.run(stream);
-  GAUXC_CUTLASS_ERROR("CUTLASS Group Gemm Run Failed", status);
-}
-
-
-void cutlass_syr2k(
-  cutlass::gemm::GemmCoord* problem_sizes_device,
-  cutlass::gemm::GemmCoord* problem_sizes_host,
-  const int problem_count,
-  double ** ptr_A,
-  double ** ptr_B,
-  double ** ptr_C,
-  double ** ptr_D,
-  int64_t* lda,
-  int64_t* ldb,
-  int64_t* ldc,
-  int64_t* ldd,
-  const double alpha,
-  const double beta,
-  device_queue queue
-) {
-  // Template parameters defining data types and layouts
-  using ElementOutput = double;
-  using ElementAccumulator = double;
-  using ElementA = double; 
-  using ElementB = double; 
-  using ElementC = double; 
-
-  using LayoutA = cutlass::layout::RowMajor;
-  using LayoutB = cutlass::layout::RowMajor;
-  using LayoutC = cutlass::layout::ColumnMajor;
-
-  constexpr int kAlignmentA = 1;
-  constexpr int kAlignmentB = 1;
-
-  constexpr cutlass::ComplexTransform kTransformA = cutlass::ComplexTransform::kNone;
-  constexpr cutlass::ComplexTransform kTransformB = cutlass::ComplexTransform::kNone;
-
-  using ThreadblockSwizzle = cutlass::gemm::threadblock::GemmIdentityThreadblockSwizzle<>;
-  using EpilogueOutputOp = cutlass::epilogue::thread::LinearCombination<
-    ElementC,  1,
-    ElementAccumulator,
-    ElementAccumulator>; 
-
-  using GroupScheduleMode = cutlass::gemm::kernel::GroupScheduleMode;
-  
-  // Tunable and arch specific Parameters
-  // Perform scheduling on device
-  constexpr GroupScheduleMode kGroupScheduleMode = GroupScheduleMode::kDeviceOnly;
-  using ArchTag = cutlass::arch::Sm80;
-  using OperatorClass = cutlass::arch::OpClassTensorOp;
-
-  using ThreadblockShape = cutlass::gemm::GemmShape<64, 64, 16>;  // Size of  Gemm each thread block will perform
-  using WarpShape = cutlass::gemm::GemmShape<32, 32, 16>;  // Size of Gemm each warp will perform
-  using InstructionShape = cutlass::gemm::GemmShape<8, 8, 4>;  // Size of DMMA Tensor Core in Ampere
-  constexpr int kStages = 4;  // Number of shared memory stages
-
-  // Syr2k specific
-  constexpr cutlass::FillMode kFillModeC = cutlass::FillMode::kLower;
-  using Operator = cutlass::arch::OpMultiplyAdd;
-  constexpr cutlass::BlasMode kBlasMode = cutlass::BlasMode::kSymmetric;
-
-  // Define CUTLASS SYR2k Type
-  using SYR2KGroupkernel = typename cutlass::gemm::kernel::DefaultRank2KGrouped<
-    ElementA, LayoutA, kTransformA, kAlignmentA,
-    ElementB, LayoutB, kTransformB, kAlignmentB,
-    ElementOutput, LayoutC, kFillModeC,
-    ElementAccumulator,
-    OperatorClass,
-    ArchTag,
-    ThreadblockShape, WarpShape, InstructionShape,
-    EpilogueOutputOp,
-    ThreadblockSwizzle,
-    kStages,
-    Operator, kBlasMode,
-    kGroupScheduleMode>::Rank2Kkernel;
-
-  using Syr2kGrouped = cutlass::gemm::device::Rank2KGrouped<SYR2KGroupkernel>;
-
-  const int threadblock_count = Syr2kGrouped::sufficient(problem_sizes_host, problem_count);
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  cutlass::Status status = cutlass::Status::kSuccess;
-  typename Syr2kGrouped::EpilogueOutputOp::Params epilogue_op(alpha, beta);
-
-   typename Syr2kGrouped::Arguments args(
-    cutlass::gemm::GemmUniversalMode::kGemm,
-    problem_sizes_device,
-    problem_count,
-    threadblock_count,
-    epilogue_op,
-    ptr_A,
-    ptr_B,
-    ptr_C,
-    ptr_D,
-    lda,
-    ldb,
-    ldc,
-    ldd,
-    problem_sizes_host
-  ); 
-
-  Syr2kGrouped gemm;
-  size_t workspace_size = gemm.get_workspace_size(args);
-  if (workspace_size) {
-    GAUXC_GENERIC_EXCEPTION("CUTLASS Workspace Size Must Be Zero");
-  }
-
-  status = gemm.initialize(args, nullptr);
-  GAUXC_CUTLASS_ERROR("CUTLASS Group Syr2k Initialization Failed", status);
-  status = gemm.run(stream);
-  GAUXC_CUTLASS_ERROR("CUTLASS Group Syr2k Run Failed", status);
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cutlass_wrapper.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cutlass_wrapper.hpp
deleted file mode 100644
index d9fa216..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/cutlass_wrapper.hpp
+++ /dev/null
@@ -1,100 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <cutlass/cutlass.h>
-#include <cutlass/gemm/gemm.h>
-
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-
-/**
- * @brief Runs a vbatch GEMM operation with CUTLASS
- *
- * Executes a set of GEMM operations where each operation has a different problem size. MAGMA 
- * calls this a vbatch operation, and CUTLASS refers to it as a grouped operation. 
- *
- * @param[in] problem_sizes_device Device buffer containing problem sizes (m, n, k) of gemms
- * @param[in] problem_sizes_host   Host buffer containing problem sizes (m, n, k) of gemms
- * @param[in] problem_count        Number of problems
- * @param[in] ptr_A                Device buffer containing pointers to A matrices
- * @param[in] ptr_B                Device buffer containing pointers to B matrices
- * @param[in] ptr_C                Device buffer containing pointers to C matrices
- * @param[in] ptr_D                Device buffer containing pointers to D matrices
- * @param[in] lda                  Device buffer containing leading dimension of A matrices
- * @param[in] ldb                  Device buffer containing leading dimension of B matrices
- * @param[in] ldc                  Device buffer containing leading dimension of C matrices
- * @param[in] ldd                  Device buffer containing leading dimension of D matrices
- * @param[in] alpha                Alpha parameter for gemm operations
- * @param[in] beta                 Beta parameter for gemm operations
- * @param[in] queue                device queue to which operations will be submitted
- *
- */
-void cutlass_gemm(
-  cutlass::gemm::GemmCoord* problem_sizes_device,
-  cutlass::gemm::GemmCoord* problem_sizes_host,
-  const int problem_count,
-  double ** ptr_A,
-  double ** ptr_B,
-  double ** ptr_C,
-  double ** ptr_D,
-  int64_t* lda,
-  int64_t* ldb,
-  int64_t* ldc,
-  int64_t* ldd,
-  const double alpha,
-  const double beta,
-  device_queue queue
-);
-
-/**
- * @brief Runs a vbatch Syr2k operation with CUTLASS
- *
- * Executes a set of SYR2K operations where each operation has a different problem size. MAGMA 
- * calls this a vbatch operation, and CUTLASS refers to it as a grouped operation. 
- *
- * @param[in] problem_sizes_device Device buffer containing problem sizes (m, n, k) of syr2k
- * @param[in] problem_sizes_host   Host buffer containing problem sizes (m, n, k) of syr2k
- * @param[in] problem_count        Number of problems
- * @param[in] ptr_A                Device buffer containing pointers to A matrices
- * @param[in] ptr_B                Device buffer containing pointers to B matrices
- * @param[in] ptr_C                Device buffer containing pointers to C matrices
- * @param[in] ptr_D                Device buffer containing pointers to D matrices
- * @param[in] lda                  Device buffer containing leading dimension of A matrices
- * @param[in] ldb                  Device buffer containing leading dimension of B matrices
- * @param[in] ldc                  Device buffer containing leading dimension of C matrices
- * @param[in] ldd                  Device buffer containing leading dimension of D matrices
- * @param[in] alpha                Alpha parameter for syr2k operations
- * @param[in] beta                 Beta parameter for syr2k operations
- * @param[in] queue                device queue to which operations will be submitted
- *
- */
-void cutlass_syr2k(
-  cutlass::gemm::GemmCoord* problem_sizes_device,
-  cutlass::gemm::GemmCoord* problem_sizes_host,
-  const int problem_count,
-  double ** ptr_A,
-  double ** ptr_B,
-  double ** ptr_C,
-  double ** ptr_D,
-  int64_t* lda,
-  int64_t* ldb,
-  int64_t* ldc,
-  int64_t* ldd,
-  const double alpha,
-  const double beta,
-  device_queue queue
-);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/exx_ek_screening_bfn_stats.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/exx_ek_screening_bfn_stats.cu
deleted file mode 100644
index 86799ad..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/exx_ek_screening_bfn_stats.cu
+++ /dev/null
@@ -1,741 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/exx_ek_screening.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/shell.hpp>
-#include "device_specific/cuda_util.hpp"
-#include "cuda_extensions.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include <cub/device/device_scan.cuh>
-#include "buffer_adaptor.hpp"
-#include "device/common/device_blas.hpp"
-//#include <mpi.h>
-#include <chrono>
-//#include <fstream>
-#include "exceptions/cuda_exception.hpp"
-
-namespace GauXC {
-
-__global__ void exx_ek_screening_bfn_stats_kernel( size_t ntasks, 
-                                                   double      * max_bfn_sum_device,
-                                                   double      * bfn_max_device,
-                                                   size_t        LDBFM,
-                                                   XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.x;
-  if( batch_idx >= ntasks ) return;
-  
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  auto* basis_eval_device = task.bf;
-  const auto* weights_device    = task.weights;
-  //double* bfn_max_device  = task.bfn_max;
-
-  const int warp_lane = threadIdx.x % cuda::warp_size;
-  const int warp_id   = threadIdx.x / cuda::warp_size;
-  const int nwarp  = blockDim.x  / cuda::warp_size;
-
-
-
-  // First scale the basis functions by the weights
-  for(int ipt = warp_lane; ipt < npts; ipt += cuda::warp_size) {
-    const auto w = std::sqrt(weights_device[ipt]);
-    for(int ibf = warp_id; ibf < nbf; ibf += nwarp) {
-      const auto val = basis_eval_device[ ipt + ibf*npts ];
-      basis_eval_device[ ipt + ibf*npts ] = w * std::abs(val);
-    }
-  }
-  __syncthreads();
-
-
-
-
-  __shared__ double bf_shared[32][32 + 1];
-  __shared__ double bfn_sum_shared[32];
-  bfn_sum_shared[warp_lane] = 0.0;
-  __syncthreads();
-
-  const int npts_chunks = GauXC::util::div_ceil(npts, cuda::warp_size);
-  const int  nbf_chunks = GauXC::util::div_ceil(nbf,  nwarp);
-  for(int ipts_chunk = 0; ipts_chunk < npts_chunks; ++ipts_chunk) {
-    double tmp_bfn_sum = 0.0;
-    const int ipt = ipts_chunk * cuda::warp_size + warp_lane;
-  for(int  ibf_chunk = 0;  ibf_chunk <  nbf_chunks; ++ ibf_chunk) {
-    const int ibf =  ibf_chunk * nwarp + warp_id;
-
-    bf_shared[warp_id][warp_lane] = 0.0;
-
-    // Load in a block of basis functions
-    // Warp lane is the point index and warp ID is the bfn idx
-    if(ipt < npts and ibf < nbf) 
-      bf_shared[warp_id][warp_lane]  = basis_eval_device[ipt + ibf*npts];
-    __syncthreads();
-
-    // Do transpose
-    // Warp lane is the bfn index and warp ID is the point idx
-    auto tmp = bf_shared[warp_lane][warp_id];
-    __syncthreads();
- 
-    // Do a sum reduce over basis functions for the chunk
-    // Now every warp has the local bfn chunk sum in lane 0
-    // corresponding to the point represented by the warp Id
-    tmp_bfn_sum += cuda::warp_reduce_sum<cuda::warp_size>(tmp);
-    
-  }
-    // At this point, every warp contains the total bfn sum
-    // for the point corresponding to its warp id. Update the 
-    // local value accordingly
-    if(warp_lane == 0) {
-      double val = bfn_sum_shared[warp_id];
-      bfn_sum_shared[warp_id] = fmax( val, tmp_bfn_sum );
-    }
-    __syncthreads();
-
-  }
-
-  // Get global maximum
-  double max_bfn_sum;
-  if(warp_id == 0) {
-    auto tmp = bfn_sum_shared[warp_lane];
-    max_bfn_sum = cuda::warp_reduce_max<cuda::warp_size>(tmp);
-  }
-
-  if(threadIdx.x == 0) {
-    //task.max_bfn_sum = max_bfn_sum;
-    max_bfn_sum_device[batch_idx] =  max_bfn_sum;
-    //printf("[GPU] ITASK = %d MAX_SUM = %.6e PTR = %x\n", batch_idx, max_bfn_sum, task.bfn_shell_indirection);
-    //printf("[GPU] ITASK = %d NBE = %lu NPTS = %lu \n", batch_idx, nbf, npts);
-  }
-
-
-  __syncthreads();
-  for(int ibf = warp_id; ibf < nbf; ibf += nwarp) {
-    double max_bf = 0;
-    for(int ipt = warp_lane; ipt < npts; ipt += cuda::warp_size) {
-      const auto val = basis_eval_device[ipt + ibf*npts];
-      max_bf = fmax( max_bf, val );
-    }
-
-    // Warp reduce bf max
-    max_bf = cuda::warp_reduce_max<cuda::warp_size>(max_bf);
-    if(warp_lane == 0) {
-      //printf("[GPU] ITASK = %d MAX_BFN(0) = %.6e\n", batch_idx, max_bf);
-      bfn_max_device[batch_idx + task.bfn_shell_indirection[ibf]*LDBFM] =
-        max_bf; 
-    }
-  }
-
-}
-
-
-__global__ void exx_ek_collapse_fmax_to_shells_kernel(
-  int                  ntask,
-  int                  nshells,
-  const Shell<double>* shells_device,
-  const int32_t*       shell_to_bf,
-  const double*        fmax_bfn_device,
-  size_t               LDF_bfn,
-  double*              fmax_shell_device,
-  size_t               LDF_shell
-) {
-
-  const int total_nwarp_x   = (blockDim.x * gridDim.x) / cuda::warp_size;
-  const int tid_x           = threadIdx.x + blockIdx.x*blockDim.x;
-  const int warp_lane       = tid_x % cuda::warp_size;
-  const int warp_id_x       = tid_x / cuda::warp_size;
-
-
-  //double sh_buffer[10];
-  double sh_buffer;
-
-  // Each warp gets a shell
-  for(int ish = warp_id_x; ish < nshells; ish += total_nwarp_x) {
-
-    const int sh_sz = shells_device[ish].size();
-    const int sh_st = shell_to_bf[ish];
-
-    // Read in tasks in warp-sized chunks
-    for(int i_task = warp_lane; i_task < ntask; i_task += cuda::warp_size) {
-
-      // Get shell max
-      double sh_max = 0.0;
-      for(int ii = 0; ii < sh_sz; ++ii) {
-        sh_max = fmax(sh_max, fabs(fmax_bfn_device[i_task + (ii + sh_st)*LDF_bfn]));
-      }
-      
-      // Write to main memory
-      fmax_shell_device[i_task + ish*LDF_shell] = sh_max;
-      
-    }
-
-  }
-}
-
-
-__global__ void exx_ek_shellpair_collision_shared_kernel(
-  int32_t       ntasks,
-  int32_t       nshell_pairs,
-  int32_t       nshells,
-  int32_t       shell_buffer_length,
-  const double* V_max_sparse_device,
-  const size_t* sp_row_ind_device,
-  const size_t* sp_col_ind_device,
-  const double* F_max_shl_device,
-  size_t        LDF,
-  const double* max_bf_sum_device,
-  double        eps_E,
-  double        eps_K,
-  uint32_t*     collisions,
-  int           LD_coll,
-  uint32_t*     rc_collisions,
-  int           LD_rc,
-  uint32_t*     counts,
-  uint32_t*     rc_counts
-) {
-
-  extern __shared__ uint32_t s_rc_collisions[];
-
-  const int tid_x = threadIdx.y + blockIdx.x * blockDim.y;
-  const int nt_x  = blockDim.y * gridDim.x;
-
-  for(int i_task = tid_x; i_task < ntasks; i_task += nt_x) {
-
-    const auto max_bf_sum = max_bf_sum_device[i_task];
-
-    for (int i = threadIdx.x; i < shell_buffer_length; i+= blockDim.x) {
-      s_rc_collisions[i] = 0;
-    }
-    __syncthreads();
-
-    for(int ij_shell = threadIdx.x; ij_shell < nshell_pairs;  ij_shell+=blockDim.x) {
-
-      const auto i_shell = sp_row_ind_device[ij_shell]; 
-      const auto j_shell = sp_col_ind_device[ij_shell]; 
-
-      const auto V_ij = V_max_sparse_device[ij_shell];
-      const auto F_i  = F_max_shl_device[i_task + i_shell * LDF];
-      const auto F_j  = F_max_shl_device[i_task + j_shell * LDF];
-
-      const double eps_E_compare = F_i * F_j * V_ij;
-      const double eps_K_compare = fmax(F_i, F_j) * V_ij * max_bf_sum;
-      const bool comp = (eps_K_compare > eps_K or eps_E_compare > eps_E);
-
-      const int ij = ij_shell;
-      const int ij_block = ij / 32;
-      const int ij_local = ij % 32;
-      atomicOr(&(collisions[i_task * LD_coll + ij_block]), (comp ? (1u << ij_local) : 0));
-
-      const int i_block = i_shell / 32;
-      const int i_local = i_shell % 32;
-      atomicOr(&(s_rc_collisions[i_block]), (comp ? (1u << i_local) : 0));
-
-      const int j_block = j_shell / 32;
-      const int j_local = j_shell % 32;
-      atomicOr(&(s_rc_collisions[j_block]), (comp ? (1u << j_local) : 0));
-    }
-    __syncthreads();
-
-    // Write from shared to global memory
-    for (int i = threadIdx.x; i < shell_buffer_length; i+= blockDim.x) {
-      rc_collisions[i_task * LD_rc + i] = s_rc_collisions[i];
-    }
-    __syncthreads();
-
-
-    // TODO use thread block level reduction before writing to global memory
-    uint32_t count = 0;
-    for(int ij = threadIdx.x; ij < LD_coll; ij+=blockDim.x)  count += __popc(collisions[i_task * LD_coll + ij]);
-    atomicAdd(&(counts[i_task]), count);
-
-    count = 0;
-    for(int ij = threadIdx.x; ij < LD_rc; ij+=blockDim.x)  count += __popc(rc_collisions[i_task * LD_rc + ij]);
-    atomicAdd(&(rc_counts[i_task]), count);
-    __syncthreads();
-  }
-
-}
-
-
-__global__ void print_coll(size_t ntasks, size_t nshells, uint32_t* collisions,
-  size_t LD_coll) {
-
-
-  for(auto i_task = 0 ; i_task < ntasks; ++i_task) {
-
-    printf("[GPU] ITASK %d: ", i_task);
-    int count = 0;
-    for(int i_shell = 0, ij = 0; i_shell < nshells;  ++i_shell      )
-    for(int j_shell = 0;         j_shell <= i_shell; ++j_shell, ij++) {
-
-      const int ij_block = ij / 32;
-      const int ij_local = ij % 32;
-      if( collisions[i_task * LD_coll + ij_block] & (1u << ij_local) ) {
-        //printf("(%d, %d) ", i_shell, j_shell);
-        count++;
-      }
-    }
-    printf("%d\n", count);
-
-  }
-}
-
-__global__ void print_counts(size_t ntasks, uint32_t* counts) {
-
-
-  for(auto i_task = 0 ; i_task < ntasks; ++i_task) {
-
-    printf("[GPU] ITASK %d: %d\n", i_task,counts[i_task]);
-
-  }
-}
-
-
-
-
-template <int32_t buffer_size, typename buffer_type = uint32_t>
-__global__ void bitvector_to_position_list_shellpair(
-  size_t ntasks,
-  size_t nsp,
-  size_t LD_bit,
-  const uint32_t* collisions,
-  const uint32_t* counts,
-  uint32_t*       position_list
-) {
-
-  constexpr auto warp_size = cuda::warp_size;
-  constexpr auto element_size = CHAR_BIT * sizeof(buffer_type);
-  constexpr auto buffer_size_bits = element_size * buffer_size;
-  __shared__ buffer_type collisions_buffer[warp_size][warp_size][buffer_size];
-
-  // We are converting a large number of small bitvectors into position lists. For this reason, I am assigning a single thread to each bitvector
-  // This avoids having to do popcounts and warp wide reductions, but hurts the memory access pattern
-
-  // All threads in a warp must be active to do shared memory loads, so we seperate out the threadId.x
-  for (int i_base = threadIdx.y * blockDim.x + blockIdx.x * blockDim.x * blockDim.y; i_base < ntasks; i_base += blockDim.x * blockDim.y * gridDim.x) {
-    const int i = i_base + threadIdx.x;
-    auto* out = position_list;
-    if (i != 0 && i < ntasks) {
-      out += counts[i-1];
-    } 
-
-    int current = 0;
-    size_t nsp_blocks = (nsp + buffer_size_bits - 1) / buffer_size_bits;
-    for (int j_block = 0; j_block < nsp_blocks; j_block++) {
-      // Each thread has a buffer of length BUFFER_SIZE. All the threads in the warp work to 
-      // load this data in a coalesced way (at least as much as possible)
-      for (int buffer_loop = 0; buffer_loop < warp_size; buffer_loop += warp_size/buffer_size) {
-        const int t_id_x        = threadIdx.x % buffer_size;
-        const int buffer_thread = threadIdx.x / buffer_size;
-        const int buffer_idx    = buffer_thread + buffer_loop;
-        if (j_block * buffer_size_bits + t_id_x * element_size < nsp && i_base + buffer_idx < ntasks) {
-          collisions_buffer[threadIdx.y][buffer_idx][t_id_x] = collisions[(i_base + buffer_idx) * LD_bit + j_block * buffer_size + t_id_x];
-        }
-      }
-
-      __syncwarp();
-      if (i < ntasks) {  // Once the data has been loaded, we exclude the threads not corresponding to a bitvector
-        // We have loaded in BUFFER_SIZE_BITS elements to be processed by each warp
-        for (int j_inner = 0; j_inner < buffer_size_bits && j_block * buffer_size_bits + j_inner < nsp; j_inner++) {
-          const int j = buffer_size_bits * j_block + j_inner;
-          const int j_int = j_inner / element_size;
-          const int j_bit = j_inner % element_size;
-          if( collisions_buffer[threadIdx.y][threadIdx.x][j_int] & (1 << (j_bit)) ) {
-            out[current++] = j;
-          }
-        }
-      }
-      __syncwarp();
-    }
-  }
-
-}
-
-
-
-
-
-template <int32_t buffer_size, typename buffer_type = uint32_t>
-__global__ void bitvector_to_position_list_shells( 
-           size_t  ntasks, 
-           size_t  nshells, 
-           size_t  LD_bit,
-    const uint32_t* collisions, 
-    const uint32_t* counts, 
-    const int32_t* shell_size,
-          uint32_t* position_list, 
-           size_t* nbe_list
-) {
-  constexpr auto warp_size = cuda::warp_size;
-  constexpr auto element_size = CHAR_BIT * sizeof(buffer_type);
-  constexpr auto buffer_size_bits = element_size * buffer_size;
-  __shared__ buffer_type collisions_buffer[warp_size][warp_size][buffer_size];
-
-  // We are converting a large number of small bitvectors into position lists. For this reason, I am assigning a single thread to each bitvector
-  // This avoids having to do popcounts and warp wide reductions, but hurts the memory access pattern
-
-  // All threads in a warp must be active to do shared memory loads, so we seperate out the threadId.x
-  for (int i_base = threadIdx.y * blockDim.x + blockIdx.x * blockDim.x * blockDim.y; i_base < ntasks; i_base += blockDim.x * blockDim.y * gridDim.x) {
-    const int i = i_base + threadIdx.x;
-    auto* out = position_list;
-    if (i != 0 && i < ntasks) {
-      out += counts[i-1];
-    } 
-
-    int current = 0;
-    size_t nbe = 0;
-    size_t nsphere_blocks = (nshells + buffer_size_bits - 1) / buffer_size_bits;
-    for (int j_block = 0; j_block < nsphere_blocks; j_block++) {
-      // Each thread has a buffer of length BUFFER_SIZE. All the threads in the warp work to 
-      // load this data in a coalesced way (at least as much as possible)
-      for (int buffer_loop = 0; buffer_loop < warp_size; buffer_loop += warp_size/buffer_size) {
-        const int t_id_x        = threadIdx.x % buffer_size;
-        const int buffer_thread = threadIdx.x / buffer_size;
-        const int buffer_idx    = buffer_thread + buffer_loop;
-        if (j_block * buffer_size_bits + t_id_x * element_size < nshells && i_base + buffer_idx < ntasks) {
-          collisions_buffer[threadIdx.y][buffer_idx][t_id_x] = collisions[(i_base + buffer_idx) * LD_bit + j_block * buffer_size + t_id_x];
-        }
-      }
-
-      __syncwarp();
-      if (i < ntasks) {  // Once the data has been loaded, we exclude the threads not corresponding to a bitvector
-        // We have loaded in BUFFER_SIZE_BITS elements to be processed by each warp
-        for (int j_inner = 0; j_inner < buffer_size_bits && j_block * buffer_size_bits + j_inner < nshells; j_inner++) {
-          const int j = buffer_size_bits * j_block + j_inner;
-          const int j_int = j_inner / element_size;
-          const int j_bit = j_inner % element_size;
-          if( collisions_buffer[threadIdx.y][threadIdx.x][j_int] & (1 << (j_bit)) ) {
-            out[current++] = j;
-            nbe += shell_size[j];
-          }
-        }
-      }
-      __syncwarp();
-    }
-    if (i < ntasks) {
-      nbe_list[i] = nbe;
-    }
-  }
-}
-
-
-
-
-
-
-void exx_ek_screening_bfn_stats( size_t        ntasks,
-                                 XCDeviceTask* tasks_device,
-                                 double      * max_bfn_sum_device,
-                                 double      * bfn_max_device,
-                                 size_t        LDBFM,
-                                 device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-  dim3 threads = 1024;//cuda::max_threads_per_thread_block;
-  dim3 blocks  = ntasks;
-  exx_ek_screening_bfn_stats_kernel<<<blocks, threads, 0, stream >>>(
-    ntasks, max_bfn_sum_device, bfn_max_device, LDBFM, tasks_device );
-
-}
-
-
-void exx_ek_collapse_fmax_to_shells(
-  int                  ntask,
-  int                  nshells,
-  const Shell<double>* shells_device,
-  const int32_t*       shell_to_bf,
-  const double*        fmax_bfn_device,
-  size_t               LDF_bfn,
-  double*              fmax_shell_device,
-  size_t               LDF_shell,
-  device_queue         queue
-) {
-
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-  dim3 threads = 1024;//cuda::max_threads_per_thread_block;
-  dim3 blocks  = std::max(ntask / cuda::warp_size,1u);
-  exx_ek_collapse_fmax_to_shells_kernel<<<blocks, threads, 0, stream >>>(
-    ntask, nshells, shells_device, shell_to_bf, fmax_bfn_device, LDF_bfn,
-    fmax_shell_device, LDF_shell );
-
-}
-
-void exx_ek_shellpair_collision(
-  int32_t       ntasks,
-  int32_t       nshells,
-  int32_t       nbf,
-  const double* abs_dmat_device,
-  size_t        LDP,
-  const double* V_max_sparse_device,
-  const size_t* sp_row_ind_device,
-  const size_t* sp_col_ind_device,
-  const double* max_bf_sum_device,
-  const double* bfn_max_device,
-  size_t        LDBM,
-  const Shell<double>* shells_device,
-  const int32_t* shell_to_bf_device,
-  const int32_t* shell_sizes_device,
-  double        eps_E,
-  double        eps_K,
-  void*         dyn_stack,
-  size_t        dyn_size,
-  host_task_iterator tb,
-  host_task_iterator te,
-  const ShellPairCollection<double>& shpairs,
-  device_queue  queue,
-  device_blas_handle handle
-) {
-
-  using hrt_t = std::chrono::high_resolution_clock;
-  using dur_t = std::chrono::duration<double,std::milli>;
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  std::vector<uint32_t> counts_host    (ntasks);
-  std::vector<uint32_t> rc_counts_host (ntasks);
-
-  const size_t nshell_pairs = shpairs.npairs();
-  const size_t LD_coll   = util::div_ceil(nshell_pairs, 32);
-  const size_t LD_rc     = util::div_ceil(nshells     , 32);
-
-  // We need 1 bit per shell 
-  // This is the number of shells divided by 8
-  const int requiredSharedMemoryInBytes = LD_rc * sizeof(uint32_t);
-
-  // By default the maximum amount of shared memory per block is 48KiB, but
-  // newer archs can go higher with an opt-in setting
-  int dev_id = 0;
-  int maxSharedMemoryPerBlock, maxSharedMemoryPerBlockOptin;
-  cudaDeviceGetAttribute(&maxSharedMemoryPerBlock,
-    cudaDevAttrMaxSharedMemoryPerBlock, dev_id);
-
-  cudaDeviceGetAttribute(&maxSharedMemoryPerBlockOptin,
-    cudaDevAttrMaxSharedMemoryPerBlockOptin, dev_id);
-
-  if (requiredSharedMemoryInBytes > maxSharedMemoryPerBlock) {
-    cudaError_t res = cudaFuncSetAttribute(&exx_ek_shellpair_collision_shared_kernel,
-      cudaFuncAttributeMaxDynamicSharedMemorySize, maxSharedMemoryPerBlockOptin);
-
-    if (requiredSharedMemoryInBytes > maxSharedMemoryPerBlockOptin) {
-      throw cuda_exception(__FILE__, __LINE__, "Number of shell pairs exceeds device shared memory", res);
-    }
-  }
-
-  buffer_adaptor full_stack(dyn_stack, dyn_size);
-
-  auto collisions    = full_stack.aligned_alloc<uint32_t>(ntasks * LD_coll);
-  auto counts        = full_stack.aligned_alloc<uint32_t>(ntasks);
-  auto rc_collisions = full_stack.aligned_alloc<uint32_t>(ntasks * LD_rc);
-  auto rc_counts     = full_stack.aligned_alloc<uint32_t>(ntasks);
-
-  auto sp_check_st = hrt_t::now();
-  util::cuda_set_zero_async( ntasks * LD_coll,collisions.ptr,    stream, "Zero Coll");
-  util::cuda_set_zero_async( ntasks * LD_rc,  rc_collisions.ptr, stream, "Zero RC");
-  util::cuda_set_zero_async( ntasks,  counts.ptr, stream, "Zero counts");
-  util::cuda_set_zero_async( ntasks,  rc_counts.ptr, stream, "Zero rc counts");
-
-  // Compute approximate FMAX and screen
-  {
-    buffer_adaptor sub_stack( full_stack.stack(), full_stack.nleft() );
-    double* fmax_shl_device = nullptr;
-    double* fmax_bfn_device = nullptr;
-    fmax_bfn_device = sub_stack.aligned_alloc<double>(ntasks * nbf);
-    fmax_shl_device = sub_stack.aligned_alloc<double>(ntasks * nshells);
-    
-    gemm(handle, DeviceBlasOp::NoTrans, DeviceBlasOp::NoTrans,
-      ntasks, nbf, nbf,
-      1.0, bfn_max_device,  LDBM, abs_dmat_device, nbf,
-      0.0, fmax_bfn_device, ntasks
-    );
-
-    exx_ek_collapse_fmax_to_shells( ntasks, nshells, shells_device,
-      shell_to_bf_device, fmax_bfn_device, ntasks, fmax_shl_device,
-      ntasks, queue );
-
-    //#if 1
-    //{
-    //std::vector<double> fmax_host(ntasks * nshells);
-    //util::cuda_copy(ntasks * nshells,fmax_host.data(), fmax_shl_device);
-    //std::ofstream ofile("gpu_fmax." + std::to_string(world_rank) + ".txt");
-    //for(auto i = 0; i < ntasks; ++i) 
-    //for(auto j = 0; j < nshells; ++j) {
-    //  ofile << i << " " << fmax_host[i + j*ntasks] << std::endl;
-    //}
-    //}
-    //#else
-    //{
-    //std::vector<double> fmax_host(ntasks * nbf);
-    //util::cuda_copy(ntasks * nbf,fmax_host.data(), fmax_bfn_device);
-    //std::ofstream ofile("gpu_fmax." + std::to_string(world_rank) + ".txt");
-    //for(auto i = 0; i < ntasks; ++i) 
-    //for(auto j = 0; j < nbf; ++j) {
-    //  ofile << i << " " << fmax_host[i + j*ntasks] << std::endl;
-    //}
-    //}
-    //#endif
-    
-    dim3 threads = dim3(512, 1);//cuda::max_threads_per_thread_block;
-    dim3 blocks  = GauXC::util::div_ceil(ntasks,threads.y);
-    exx_ek_shellpair_collision_shared_kernel<<<blocks, threads,
-      requiredSharedMemoryInBytes, stream>>>(
-      ntasks, nshell_pairs, nshells, LD_rc, V_max_sparse_device, sp_row_ind_device,
-      sp_col_ind_device, fmax_shl_device, ntasks, 
-      max_bf_sum_device, eps_E, eps_K, collisions, LD_coll, 
-      rc_collisions, LD_rc, counts, rc_counts);
-  }
-  auto sp_check_en = hrt_t::now();
-  //util::cuda_copy(ntasks, counts_host.data(), counts.ptr);
-  //util::cuda_copy(ntasks, rc_counts_host.data(), rc_counts.ptr);
-  //{
-  //std::vector<double> max_bfn_host(ntasks);
-  //util::cuda_copy(ntasks,max_bfn_host.data(), max_bf_sum_device);
-  //std::ofstream ofile("gpu_max_bfn." + std::to_string(world_rank) + ".txt");
-  //for(auto i = 0; i < ntasks; ++i) {
-  //  ofile << i << " " << max_bfn_host[i] << std::endl;
-  //}
-  //}
-  //{
-  //std::ofstream ofile("gpu_counts." + std::to_string(world_rank) + ".txt");
-  //for(auto i = 0; i < ntasks; ++i) {
-  //  ofile << i << " " << counts_host[i] << std::endl;
-  //}
-  //}
-  //{
-  //std::ofstream ofile("gpu_rc_counts." + std::to_string(world_rank) + ".txt");
-  //for(auto i = 0; i < ntasks; ++i) {
-  //  ofile << i << " " << rc_counts_host[i] << std::endl;
-  //}
-  //}
-
-  dur_t sp_check_dur = sp_check_en - sp_check_st;
-
-  cudaError_t stat;
-
-  size_t prefix_sum_bytes = 0;
-  stat = cub::DeviceScan::InclusiveSum( NULL, prefix_sum_bytes,
-    counts.ptr, counts.ptr, ntasks, stream );
-
-
-  void* prefix_sum_storage = full_stack.aligned_alloc<char>(prefix_sum_bytes, 16);
-  
-  auto scan_st = hrt_t::now();
-
-  // Get inclusive sums
-  stat = cub::DeviceScan::InclusiveSum( prefix_sum_storage, prefix_sum_bytes,
-    counts.ptr, counts.ptr, ntasks, stream );
-  stat = cub::DeviceScan::InclusiveSum( prefix_sum_storage, prefix_sum_bytes,
-    rc_counts.ptr, rc_counts.ptr, ntasks, stream );
-
-  // Get counts after prefix sum
-  util::cuda_copy(ntasks, counts_host.data(), counts.ptr);
-  util::cuda_copy(ntasks, rc_counts_host.data(), rc_counts.ptr);
-  auto scan_en = hrt_t::now();
-  dur_t scan_dur = scan_en - scan_st;
-
-  uint32_t total_sp_count = counts_host[ntasks-1];
-  uint32_t total_s_count = rc_counts_host[ntasks-1];
-
-  //size_t global_sp_count = total_sp_count;
-  //MPI_Allreduce(MPI_IN_PLACE, &global_sp_count, 1, MPI_UINT64_T, MPI_SUM,
-  //  MPI_COMM_WORLD);
-  //if(!world_rank) {
-  //  printf("*****TOTAL_SP %lu\n", global_sp_count);
-  //}
-
-  auto bv_st = hrt_t::now();
-
-  auto position_sp_list_device = full_stack.aligned_alloc<uint32_t>(total_sp_count);
-  auto position_s_list_device  = full_stack.aligned_alloc<uint32_t>(total_s_count);
-  auto nbe_list                = full_stack.aligned_alloc<size_t>(ntasks);
-  {
-  dim3 threads(32,32);
-  dim3 blocks( util::div_ceil(ntasks, 1024) );
-  bitvector_to_position_list_shellpair<8><<<blocks, threads, 0, stream>>>(
-    ntasks, nshell_pairs, LD_coll, collisions, counts, position_sp_list_device
-  );
-  bitvector_to_position_list_shells<8><<<blocks, threads, 0, stream>>>(
-    ntasks, nshells, LD_rc, rc_collisions.ptr, rc_counts.ptr, shell_sizes_device,
-    position_s_list_device.ptr, nbe_list.ptr
-  );
-  }
-
-  std::vector<uint32_t> position_sp_list(total_sp_count);
-  util::cuda_copy(total_sp_count, position_sp_list.data(), position_sp_list_device.ptr, "Position List ShellPair");
-
-  auto bv_en = hrt_t::now();
-  dur_t bv_dur = bv_en - bv_st;
-
-
-  auto d2h_st = hrt_t::now();
-  std::vector<uint32_t> position_s_list(total_s_count);
-  std::vector<size_t> nbe_list_host(ntasks);
-  util::cuda_copy(total_s_count, position_s_list.data(), position_s_list_device.ptr, "Position List Shell");
-  util::cuda_copy(ntasks, nbe_list_host.data(), nbe_list.ptr, "NBE List");
-  auto d2h_en = hrt_t::now();
-  dur_t d2h_dur = d2h_en - d2h_st;
-
-
-  auto gen_trip_st = hrt_t::now();
-  const auto& shpair_row_ptr = shpairs.row_ptr();
-  const auto& shpair_col_ind = shpairs.col_ind();
-  std::vector<size_t> shpair_row_ind(nshell_pairs);
-  for( auto i = 0; i < nshells; ++i ) {
-    const auto j_st = shpair_row_ptr[i];
-    const auto j_en = shpair_row_ptr[i+1];
-    for( auto _j = j_st; _j < j_en; ++_j ) {
-      shpair_row_ind[_j] = i;
-    }
-  }
-  auto gen_trip_en = hrt_t::now();
-  dur_t gen_trip_dur = gen_trip_en - gen_trip_st;
-
-  auto finalize_st = hrt_t::now();
-  for( auto it = tb; it != te; ++it ) {
-    {
-    size_t begin = (it == tb) ? 0 : counts_host[std::distance(tb,it)-1];
-    size_t end   = counts_host[std::distance(tb,it)];
-
-    it->cou_screening.shell_pair_list.resize(end - begin);
-    it->cou_screening.shell_pair_idx_list.resize(end - begin);
-    for( auto ij = begin, idx = 0ul; ij < end; ++ij, ++idx) {
-      const auto global_ij =  position_sp_list[ij];
-      it->cou_screening.shell_pair_idx_list[idx] = global_ij;
-      it->cou_screening.shell_pair_list[idx] = std::make_pair(
-        shpair_row_ind[global_ij], shpair_col_ind[global_ij]
-      );
-    }
-    }
-
-    {
-    size_t begin = (it == tb) ? 0 : rc_counts_host[std::distance(tb,it)-1];
-    size_t end   = rc_counts_host[std::distance(tb,it)];
-
-    it->cou_screening.shell_list.resize(end - begin);
-    it->cou_screening.nbe = nbe_list_host[std::distance(tb,it)];
-    for( auto ij = begin, idx = 0ul; ij < end; ++ij, ++idx) {
-      it->cou_screening.shell_list[idx] = position_s_list[ij]; 
-    }
-    }
-    
-  }
-
-  auto finalize_en = hrt_t::now();
-  dur_t finalize_dur = finalize_en - finalize_st;
-  
-
-  //printf("SPC = %.3f SCAN = %.3f BV = %.3f D2H = %.3f GT = %.3f FIN = %.3f\n", 
-  //  sp_check_dur.count(), scan_dur.count(), bv_dur.count(),
-  //  d2h_dur.count(), gen_trip_dur.count(), finalize_dur.count());
-  
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/grid_to_center.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/grid_to_center.cu
deleted file mode 100644
index 0360001..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/grid_to_center.cu
+++ /dev/null
@@ -1,88 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/util/div_ceil.hpp>
-#include "grid_to_center.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-
-namespace GauXC {
-
-__global__ void compute_grid_to_center_dist(
-        size_t npts,
-        size_t natoms,
-  const double* coords,
-  //const double* points,
-  const double* points_x,
-  const double* points_y,
-  const double* points_z,
-        double* dist,
-        size_t lddist
-) {
-
-  __shared__ double3 point_buffer[cuda::warp_size];
-  register double3 coord_reg;
-
-  const int natoms_block = (natoms + cuda::warp_size-1) / cuda::warp_size;
-  const int coords_block = (npts + cuda::warp_size-1) / cuda::warp_size;
-
-  const double3* coords_vec = (double3*) coords;
-  //const double3* points_vec = (double3*) points;
-
-  for (int j = blockIdx.x; j < natoms_block; j += gridDim.x) {
-    const int iAtom = j * cuda::warp_size + threadIdx.x;
-    // Load blocks into registers/shared memory
-    if (iAtom < natoms) {
-      coord_reg = coords_vec[iAtom];
-    }
-    for (int i = blockIdx.y; i < coords_block; i += gridDim.y) {
-      const int iPt_load = i * cuda::warp_size + threadIdx.x;
-      if (iPt_load < npts) {
-        //point_buffer[threadIdx.x] = points_vec[iPt_load];
-        point_buffer[threadIdx.x].x = points_x[iPt_load];
-        point_buffer[threadIdx.x].y = points_y[iPt_load];
-        point_buffer[threadIdx.x].z = points_z[iPt_load];
-      }
-      __syncthreads();
-
-      // do the computation
-      #pragma unroll 2
-      for (int k = threadIdx.y; k < cuda::warp_size; k+=cuda::warp_size/2) {
-        const int iPt_sm = k;
-        const int iPt = i * cuda::warp_size + iPt_sm;
-        const double rx = point_buffer[iPt_sm].x - coord_reg.x;
-        const double ry = point_buffer[iPt_sm].y - coord_reg.y;
-        const double rz = point_buffer[iPt_sm].z - coord_reg.z;
-
-        if (iAtom < natoms and iPt < npts) {
-          dist[ iAtom + iPt * lddist ] = std::sqrt( rx*rx + ry*ry + rz*rz );
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-void compute_grid_to_center_dist( int32_t npts, int32_t natoms,
-  const double* coords, const double* points_x, const double* points_y, 
-  const double* points_z, double* dist, int32_t lddist, cudaStream_t stream ) {
-
-    const int distance_thread_y = cuda::max_warps_per_thread_block / 2;
-    dim3 threads( cuda::warp_size, distance_thread_y );
-    dim3 blocks( util::div_ceil( natoms,   threads.x), 
-                 util::div_ceil( npts, threads.y * distance_thread_y) );
-
-    compute_grid_to_center_dist<<< blocks, threads, 0, stream>>>(
-      npts, natoms, coords, points_x, points_y, points_z, dist, lddist
-    );
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/grid_to_center.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/grid_to_center.hpp
deleted file mode 100644
index fc1a9d4..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/grid_to_center.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-
-void compute_grid_to_center_dist( int32_t npts, int32_t natoms,
-  const double* coords, const double* points_x,  const double* points_y, 
-  const double* points_z, double* dist, int32_t lddist, cudaStream_t stream );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/increment_exc_grad.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/increment_exc_grad.cu
deleted file mode 100644
index 9470c1c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/increment_exc_grad.cu
+++ /dev/null
@@ -1,986 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/increment_exc_grad.hpp"
-#include "cuda_extensions.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-
-namespace GauXC {
-
-template<bool with_weight_derivatives>
-__global__ __launch_bounds__(1024,1) void increment_exc_grad_lda_rks_kernel(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks,
-  double*            __restrict__ EXC_GRAD
-) {
-
-  for( uint32_t ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-    const uint32_t ntasks      = shell_to_task[ish].ntask;
-    const auto shell           = shell_to_task[ish].shell_device;
-    const auto task_idx        = shell_to_task[ish].task_idx_device;
-    const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-    const int iCen = shell_to_task[ish].center_idx;
-    const uint32_t shsz   = shell->size();
-
-    const int global_warp_id = 
-      (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-    const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-    double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-    for( uint32_t itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-      
-      const auto*    task   = device_tasks + task_idx[itask];
-      const uint32_t npts   = task->npts;
-      const size_t   shoff  = task_shell_offs[itask] * npts;
-      const int iParent     = task->iParent;
-      if constexpr( with_weight_derivatives ) {
-        if( iCen == iParent ) 
-          continue;
-      }
-      double g_acc_x_task(0), g_acc_y_task(0), g_acc_z_task(0);
-
-      const auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-      const auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-      const auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-      const auto* __restrict__  xmat = task->zmat + shoff;
-      const auto* __restrict__  vrho = task->vrho;
-
-      #pragma unroll 1
-      for( uint32_t ipt = threadIdx.x % cuda::warp_size; 
-           ipt < npts; 
-           ipt += cuda::warp_size ) {
-
-        const double vrho_i = vrho[ipt];
-        for( uint32_t ibf = 0; ibf < shsz; ++ibf ) {
-          const double z_mu_i    = vrho_i * xmat[ipt + ibf*npts];
-          const double dbfx_mu_i = basis_x_eval[ipt + ibf*npts];
-          const double dbfy_mu_i = basis_y_eval[ipt + ibf*npts];
-          const double dbfz_mu_i = basis_z_eval[ipt + ibf*npts];
-
-          g_acc_x_task += z_mu_i * dbfx_mu_i;
-          g_acc_y_task += z_mu_i * dbfy_mu_i;
-          g_acc_z_task += z_mu_i * dbfz_mu_i;
-        } // Loop over bfns within a shell
-
-      } // Loop over points
-
-      g_acc_x += g_acc_x_task;
-      g_acc_y += g_acc_y_task;
-      g_acc_z += g_acc_z_task;
-
-      //write to Parent atom with translational invariance
-      if constexpr( with_weight_derivatives ) {
-        atomicAdd( EXC_GRAD + 3*iParent + 0, 2.0 * g_acc_x_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 1, 2.0 * g_acc_y_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 2, 2.0 * g_acc_z_task );
-      }
-
-    } // Loop over tasks assigned to shell
-
-    constexpr auto warp_size = cuda::warp_size;
-    g_acc_x = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_x );
-    g_acc_y = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_y );
-    g_acc_z = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_z );
-
-    if( (threadIdx.x % cuda::warp_size) == 0 ) {
-      
-      atomicAdd( EXC_GRAD + 3*iCen + 0, g_acc_x );
-      atomicAdd( EXC_GRAD + 3*iCen + 1, g_acc_y );
-      atomicAdd( EXC_GRAD + 3*iCen + 2, g_acc_z );
-    }
-
-  } // Loop over shells
-
-}
-
-template<bool with_weight_derivatives>
-__global__ __launch_bounds__(1024,1) void increment_exc_grad_lda_uks_kernel(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks,
-  double*            __restrict__ EXC_GRAD
-) {
-
-  for( uint32_t ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-    const uint32_t ntasks      = shell_to_task[ish].ntask;
-    const auto shell           = shell_to_task[ish].shell_device;
-    const auto task_idx        = shell_to_task[ish].task_idx_device;
-    const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-    const int  iCen            = shell_to_task[ish].center_idx;
-    const uint32_t shsz   = shell->size();
-
-    const int global_warp_id = 
-      (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-    const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-    double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-    for( uint32_t itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-      
-      const auto*    task   = device_tasks + task_idx[itask];
-      const uint32_t npts   = task->npts;
-      const size_t   shoff  = task_shell_offs[itask] * npts;
-      const int    iParent  = task->iParent;
-      if constexpr( with_weight_derivatives ) {
-        if( iCen == iParent )
-          continue;
-      }
-      double g_acc_x_task(0), g_acc_y_task(0), g_acc_z_task(0);
-
-      const auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-      const auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-      const auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-      const auto* __restrict__  xmatS = task->xmatS + shoff;
-      const auto* __restrict__  xmatZ = task->xmatZ + shoff;
-      const auto* __restrict__  vrhop = task->vrho_pos;
-      const auto* __restrict__  vrhom = task->vrho_neg;
-
-      #pragma unroll 1
-      for( uint32_t ipt = threadIdx.x % cuda::warp_size; 
-           ipt < npts; 
-           ipt += cuda::warp_size ) {
-
-        const double vrhop_i = vrhop[ipt];
-        const double vrhom_i = vrhom[ipt];
-
-        const auto vrhoS_i = 0.5 * (vrhop_i + vrhom_i);
-        const auto vrhoZ_i = 0.5 * (vrhop_i - vrhom_i);
-        for( uint32_t ibf = 0; ibf < shsz; ++ibf ) {
-          const double zS_mu_i    = vrhoS_i * xmatS[ipt + ibf*npts];
-          const double zZ_mu_i    = vrhoZ_i * xmatZ[ipt + ibf*npts];
-          const double dbfx_mu_i = basis_x_eval[ipt + ibf*npts];
-          const double dbfy_mu_i = basis_y_eval[ipt + ibf*npts];
-          const double dbfz_mu_i = basis_z_eval[ipt + ibf*npts];
-
-          g_acc_x_task += zS_mu_i * dbfx_mu_i;
-          g_acc_y_task += zS_mu_i * dbfy_mu_i;
-          g_acc_z_task += zS_mu_i * dbfz_mu_i;
-          g_acc_x_task += zZ_mu_i * dbfx_mu_i;
-          g_acc_y_task += zZ_mu_i * dbfy_mu_i;
-          g_acc_z_task += zZ_mu_i * dbfz_mu_i;
-        } // Loop over bfns within a shell
-
-      } // Loop over points
-
-      g_acc_x += g_acc_x_task;
-      g_acc_y += g_acc_y_task;
-      g_acc_z += g_acc_z_task;
-
-      //write to Parent atom with translational invariance
-      if constexpr( with_weight_derivatives ) {
-        atomicAdd( EXC_GRAD + 3*iParent + 0, 2.0 * g_acc_x_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 1, 2.0 * g_acc_y_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 2, 2.0 * g_acc_z_task );
-      }
-
-    } // Loop over tasks assigned to shell
-
-    constexpr auto warp_size = cuda::warp_size;
-    g_acc_x = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_x );
-    g_acc_y = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_y );
-    g_acc_z = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_z );
-
-    if( (threadIdx.x % cuda::warp_size) == 0 ) {
-      atomicAdd( EXC_GRAD + 3*iCen + 0, g_acc_x );
-      atomicAdd( EXC_GRAD + 3*iCen + 1, g_acc_y );
-      atomicAdd( EXC_GRAD + 3*iCen + 2, g_acc_z );
-    }
-
-  } // Loop over shells
-
-}
-
-void increment_exc_grad_lda( integrator_ks_scheme ks_scheme, size_t nshell, ShellToTaskDevice* shell_to_task,
-  XCDeviceTask* device_tasks, double* EXC_GRAD, bool with_weight_derivatives, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  #if 0
-  int nthreads_per_block = 1024;
-  int nwarp_per_block    = nthreads_per_block / cuda::warp_size;
-  int nblocks            = util::div_ceil( nshell, nwarp_per_block );
-
-  dim3 threads( nthreads_per_block );
-  dim3 blocks( nblocks );
-  #else
-  dim3 threads(1024), blocks(1,1,nshell);
-  #endif
-
-  switch(ks_scheme) {
-    case RKS:
-      if (with_weight_derivatives) {
-        increment_exc_grad_lda_rks_kernel<true><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      } else {
-        increment_exc_grad_lda_rks_kernel<false><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      }
-      break;
-    case UKS:
-      if (with_weight_derivatives) {
-        increment_exc_grad_lda_uks_kernel<true><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      } else {
-        increment_exc_grad_lda_uks_kernel<false><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      }
-      break;
-    default: GAUXC_GENERIC_EXCEPTION("LDA EXC GRAD + GKS NYI");
-  }
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template<bool with_weight_derivatives>
-__global__ __launch_bounds__(512,1) void increment_exc_grad_gga_rks_kernel(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks,
-  double*            __restrict__ EXC_GRAD
-) {
-
-  for( uint32_t ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-    const uint32_t ntasks      = shell_to_task[ish].ntask;
-    const auto shell           = shell_to_task[ish].shell_device;
-    const auto task_idx        = shell_to_task[ish].task_idx_device;
-    const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-    const int iCen = shell_to_task[ish].center_idx;
-    const uint32_t shsz   = shell->size();
-
-    const int global_warp_id = 
-      (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-    const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-    double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-    for( uint32_t itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-      
-      const auto*    task   = device_tasks + task_idx[itask];
-      const uint32_t npts   = task->npts;
-      const size_t   shoff  = task_shell_offs[itask] * npts;
-      const int iParent     = task->iParent;
-      if constexpr( with_weight_derivatives ) {
-        if( iCen == iParent ) 
-          continue;
-      }
-      double g_acc_x_task(0), g_acc_y_task(0), g_acc_z_task(0);
-
-      const auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-      const auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-      const auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-      const auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-      const auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-      const auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-      const auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-      const auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-      const auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-      const auto* __restrict__  xmat = task->zmat + shoff;
-      const auto* __restrict__  xmat_x = task->xmat_x + shoff;
-      const auto* __restrict__  xmat_y = task->xmat_y + shoff;
-      const auto* __restrict__  xmat_z = task->xmat_z + shoff;
-
-      const auto* __restrict__  vrho = task->vrho;
-      const auto* __restrict__  vgamma = task->vgamma;
-
-      const auto* __restrict__ den_x = task->dden_sx;
-      const auto* __restrict__ den_y = task->dden_sy;
-      const auto* __restrict__ den_z = task->dden_sz;
-
-      #pragma unroll 1
-      for( uint32_t ipt = threadIdx.x % cuda::warp_size; 
-           ipt < npts; 
-           ipt += cuda::warp_size ) {
-
-        const double vrho_i   = vrho[ipt];
-        const double vgamma_i = vgamma[ipt];
-
-        const double denx_i = den_x[ipt];
-        const double deny_i = den_y[ipt];
-        const double denz_i = den_z[ipt];
-        for( uint32_t ibf = 0; ibf < shsz; ++ibf ) {
-          const double z_mu_i    = xmat[ipt + ibf*npts];          
-          const double dbfx_mu_i = basis_x_eval[ipt + ibf*npts];
-          const double dbfy_mu_i = basis_y_eval[ipt + ibf*npts];
-          const double dbfz_mu_i = basis_z_eval[ipt + ibf*npts];
-
-          g_acc_x_task += vrho_i * z_mu_i * dbfx_mu_i;
-          g_acc_y_task += vrho_i * z_mu_i * dbfy_mu_i;
-          g_acc_z_task += vrho_i * z_mu_i * dbfz_mu_i;
-
-          const double zx = xmat_x[ipt + ibf*npts];
-          const double zy = xmat_y[ipt + ibf*npts];
-          const double zz = xmat_z[ipt + ibf*npts];
-
-          const double d11_xmat_term = denx_i * zx + deny_i * zy + denz_i * zz;
-
-          const double d2bfxx = basis_xx_eval[ipt + ibf*npts];
-          const double d2bfxy = basis_xy_eval[ipt + ibf*npts];
-          const double d2bfxz = basis_xz_eval[ipt + ibf*npts];
-          const double d2bfyy = basis_yy_eval[ipt + ibf*npts];
-          const double d2bfyz = basis_yz_eval[ipt + ibf*npts];
-          const double d2bfzz = basis_zz_eval[ipt + ibf*npts];
-
-          const double d2_term_x = d2bfxx*denx_i + d2bfxy*deny_i + d2bfxz*denz_i;
-          const double d2_term_y = d2bfxy*denx_i + d2bfyy*deny_i + d2bfyz*denz_i;
-          const double d2_term_z = d2bfxz*denx_i + d2bfyz*deny_i + d2bfzz*denz_i;
-
-          g_acc_x_task += 2 * vgamma_i * ( z_mu_i * d2_term_x + dbfx_mu_i * d11_xmat_term );
-          g_acc_y_task += 2 * vgamma_i * ( z_mu_i * d2_term_y + dbfy_mu_i * d11_xmat_term );
-          g_acc_z_task += 2 * vgamma_i * ( z_mu_i * d2_term_z + dbfz_mu_i * d11_xmat_term );
-
-        } // Loop over bfns within a shell
-
-      } // Loop over points
-
-      g_acc_x += g_acc_x_task;
-      g_acc_y += g_acc_y_task;
-      g_acc_z += g_acc_z_task;
-
-      //write to Parent atom with translational invariance
-      if constexpr( with_weight_derivatives ) {
-        atomicAdd( EXC_GRAD + 3*iParent + 0, 2.0 * g_acc_x_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 1, 2.0 * g_acc_y_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 2, 2.0 * g_acc_z_task );
-      }
-
-    } // Loop over tasks assigned to shell
-
-    constexpr auto warp_size = cuda::warp_size;
-    g_acc_x = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_x );
-    g_acc_y = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_y );
-    g_acc_z = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_z );
-
-    if( (threadIdx.x % cuda::warp_size) == 0 ) {
-      atomicAdd( EXC_GRAD + 3*iCen + 0, g_acc_x );
-      atomicAdd( EXC_GRAD + 3*iCen + 1, g_acc_y );
-      atomicAdd( EXC_GRAD + 3*iCen + 2, g_acc_z );
-    }
-
-  } // Loop over shells
-
-}
-
-template<bool with_weight_derivatives>
-__global__ __launch_bounds__(512,1) void increment_exc_grad_gga_uks_kernel(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks,
-  double*            __restrict__ EXC_GRAD
-) {
-
-  for( uint32_t ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-    const uint32_t ntasks      = shell_to_task[ish].ntask;
-    const auto shell           = shell_to_task[ish].shell_device;
-    const auto task_idx        = shell_to_task[ish].task_idx_device;
-    const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-    const int iCen = shell_to_task[ish].center_idx;
-    const uint32_t shsz   = shell->size();
-
-    const int global_warp_id = 
-      (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-    const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-    double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-    for( uint32_t itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-      
-      const auto*    task   = device_tasks + task_idx[itask];
-      const uint32_t npts   = task->npts;
-      const size_t   shoff  = task_shell_offs[itask] * npts;
-      const int iParent     = task->iParent;
-      if constexpr( with_weight_derivatives ) {
-        if( iCen == iParent ) 
-          continue;
-      }
-      double g_acc_x_task(0), g_acc_y_task(0), g_acc_z_task(0);
-
-      const auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-      const auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-      const auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-      const auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-      const auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-      const auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-      const auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-      const auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-      const auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-      const auto* __restrict__  xmatS   = task->xmatS   + shoff;
-      const auto* __restrict__  xmatS_x = task->xmatS_x + shoff;
-      const auto* __restrict__  xmatS_y = task->xmatS_y + shoff;
-      const auto* __restrict__  xmatS_z = task->xmatS_z + shoff;
-
-      const auto* __restrict__  xmatZ   = task->xmatZ   + shoff;
-      const auto* __restrict__  xmatZ_x = task->xmatZ_x + shoff;
-      const auto* __restrict__  xmatZ_y = task->xmatZ_y + shoff;
-      const auto* __restrict__  xmatZ_z = task->xmatZ_z + shoff;
-
-      const auto* __restrict__  vrhop = task->vrho_pos;
-      const auto* __restrict__  vrhom = task->vrho_neg;
-
-      const auto* __restrict__  vgamma_pp = task->vgamma_pp;
-      const auto* __restrict__  vgamma_pm = task->vgamma_pm;
-      const auto* __restrict__  vgamma_mm = task->vgamma_mm;
-
-      const auto* __restrict__ dens_x = task->dden_sx;
-      const auto* __restrict__ dens_y = task->dden_sy;
-      const auto* __restrict__ dens_z = task->dden_sz;
-
-      const auto* __restrict__ denz_x = task->dden_zx;
-      const auto* __restrict__ denz_y = task->dden_zy;
-      const auto* __restrict__ denz_z = task->dden_zz;
-
-      #pragma unroll 1
-      for( uint32_t ipt = threadIdx.x % cuda::warp_size; 
-           ipt < npts; 
-           ipt += cuda::warp_size ) {
-
-        const double vrhop_i = vrhop[ipt];
-        const double vrhom_i = vrhom[ipt];
-        const double vrhoS_i = 0.5 * (vrhop_i + vrhom_i);
-        const double vrhoZ_i = 0.5 * (vrhop_i - vrhom_i);
-
-        const double vgammapp_i = vgamma_pp[ipt];
-        const double vgammapm_i = vgamma_pm[ipt];
-        const double vgammamm_i = vgamma_mm[ipt];
-
-        const double denSx_i = dens_x[ipt];
-        const double denSy_i = dens_y[ipt];
-        const double denSz_i = dens_z[ipt];
-        const double denZx_i = denz_x[ipt];
-        const double denZy_i = denz_y[ipt];
-        const double denZz_i = denz_z[ipt];
-
-        for( uint32_t ibf = 0; ibf < shsz; ++ibf ) {
-          const double xN    = xmatS[ipt + ibf*npts];
-          const double xZ    = xmatZ[ipt + ibf*npts];
-          const double dbfx_mu_i = basis_x_eval[ipt + ibf*npts];
-          const double dbfy_mu_i = basis_y_eval[ipt + ibf*npts];
-          const double dbfz_mu_i = basis_z_eval[ipt + ibf*npts];
-
-          g_acc_x_task += vrhoS_i * xN * dbfx_mu_i;
-          g_acc_y_task += vrhoS_i * xN * dbfy_mu_i;
-          g_acc_z_task += vrhoS_i * xN * dbfz_mu_i;
-          g_acc_x_task += vrhoZ_i * xZ * dbfx_mu_i;
-          g_acc_y_task += vrhoZ_i * xZ * dbfy_mu_i;
-          g_acc_z_task += vrhoZ_i * xZ * dbfz_mu_i;
-
-          const double xNx = xmatS_x[ipt + ibf*npts];
-          const double xNy = xmatS_y[ipt + ibf*npts];
-          const double xNz = xmatS_z[ipt + ibf*npts];
-          const double xZx = xmatZ_x[ipt + ibf*npts];
-          const double xZy = xmatZ_y[ipt + ibf*npts];
-          const double xZz = xmatZ_z[ipt + ibf*npts];
-
-          const double d11nn_xmat_term = denSx_i * xNx + denSy_i * xNy + denSz_i * xNz;
-          const double d11nz_xmat_term = denSx_i * xZx + denSy_i * xZy + denSz_i * xZz;
-          const double d11zn_xmat_term = denZx_i * xNx + denZy_i * xNy + denZz_i * xNz;
-          const double d11zz_xmat_term = denZx_i * xZx + denZy_i * xZy + denZz_i * xZz;
-
-          const double d2bfxx = basis_xx_eval[ipt + ibf*npts];
-          const double d2bfxy = basis_xy_eval[ipt + ibf*npts];
-          const double d2bfxz = basis_xz_eval[ipt + ibf*npts];
-          const double d2bfyy = basis_yy_eval[ipt + ibf*npts];
-          const double d2bfyz = basis_yz_eval[ipt + ibf*npts];
-          const double d2bfzz = basis_zz_eval[ipt + ibf*npts];
-
-          const double d2n_term_x = d2bfxx*denSx_i + d2bfxy*denSy_i + d2bfxz*denSz_i;
-          const double d2n_term_y = d2bfxy*denSx_i + d2bfyy*denSy_i + d2bfyz*denSz_i;
-          const double d2n_term_z = d2bfxz*denSx_i + d2bfyz*denSy_i + d2bfzz*denSz_i;
-          const double d2z_term_x = d2bfxx*denZx_i + d2bfxy*denZy_i + d2bfxz*denZz_i;
-          const double d2z_term_y = d2bfxy*denZx_i + d2bfyy*denZy_i + d2bfyz*denZz_i;
-          const double d2z_term_z = d2bfxz*denZx_i + d2bfyz*denZy_i + d2bfzz*denZz_i;
-
-          g_acc_x_task += 0.5 * (vgammapp_i + vgammapm_i + vgammamm_i) * (d2n_term_x * xN + d11nn_xmat_term * dbfx_mu_i);
-          g_acc_x_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2z_term_x * xN + d11zn_xmat_term * dbfx_mu_i);
-          g_acc_x_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2n_term_x * xZ + d11nz_xmat_term * dbfx_mu_i);
-          g_acc_x_task += 0.5 * (vgammapp_i - vgammapm_i + vgammamm_i) * (d2z_term_x * xZ + d11zz_xmat_term * dbfx_mu_i);
-
-          g_acc_y_task += 0.5 * (vgammapp_i + vgammapm_i + vgammamm_i) * (d2n_term_y * xN + d11nn_xmat_term * dbfy_mu_i);
-          g_acc_y_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2z_term_y * xN + d11zn_xmat_term * dbfy_mu_i);
-          g_acc_y_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2n_term_y * xZ + d11nz_xmat_term * dbfy_mu_i);
-          g_acc_y_task += 0.5 * (vgammapp_i - vgammapm_i + vgammamm_i) * (d2z_term_y * xZ + d11zz_xmat_term * dbfy_mu_i);
-
-          g_acc_z_task += 0.5 * (vgammapp_i + vgammapm_i + vgammamm_i) * (d2n_term_z * xN + d11nn_xmat_term * dbfz_mu_i);
-          g_acc_z_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2z_term_z * xN + d11zn_xmat_term * dbfz_mu_i);
-          g_acc_z_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2n_term_z * xZ + d11nz_xmat_term * dbfz_mu_i);
-          g_acc_z_task += 0.5 * (vgammapp_i - vgammapm_i + vgammamm_i) * (d2z_term_z * xZ + d11zz_xmat_term * dbfz_mu_i);
-
-        }// Loop over bfns within a shell
-
-      } // Loop over points
-
-      g_acc_x += g_acc_x_task;
-      g_acc_y += g_acc_y_task;
-      g_acc_z += g_acc_z_task;
-
-      //write to Parent atom with translational invariance
-      if constexpr( with_weight_derivatives ) {
-        atomicAdd( EXC_GRAD + 3*iParent + 0, 2.0 * g_acc_x_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 1, 2.0 * g_acc_y_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 2, 2.0 * g_acc_z_task );
-      }
-
-    } // Loop over tasks assigned to shell
-
-    constexpr auto warp_size = cuda::warp_size;
-    g_acc_x = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_x );
-    g_acc_y = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_y );
-    g_acc_z = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_z );
-
-    if( (threadIdx.x % cuda::warp_size) == 0 ) {
-      atomicAdd( EXC_GRAD + 3*iCen + 0, g_acc_x );
-      atomicAdd( EXC_GRAD + 3*iCen + 1, g_acc_y );
-      atomicAdd( EXC_GRAD + 3*iCen + 2, g_acc_z );
-    }
-
-  } // Loop over shells
-
-}
-
-void increment_exc_grad_gga( integrator_ks_scheme ks_scheme, size_t nshell, ShellToTaskDevice* shell_to_task,
-  XCDeviceTask* device_tasks, double* EXC_GRAD, bool with_weight_derivatives, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  dim3 threads(512), blocks(1,1,nshell);
-
-  switch(ks_scheme) {
-    case RKS:
-      if (with_weight_derivatives) {
-        increment_exc_grad_gga_rks_kernel<true><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      } else {
-        increment_exc_grad_gga_rks_kernel<false><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      }
-      break;
-    case UKS:
-      if (with_weight_derivatives) {
-        increment_exc_grad_gga_uks_kernel<true><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      } else {
-        increment_exc_grad_gga_uks_kernel<false><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      }
-      break;
-    default: GAUXC_GENERIC_EXCEPTION("GGA EXC GRAD + GKS NYI");
-  }
-}
-
-
-
-
-
-
-template<bool with_weight_derivatives>
-__global__ __launch_bounds__(512,1) void increment_exc_grad_mgga_rks_kernel(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks,
-  double*            __restrict__ EXC_GRAD
-) {
-
-  for( uint32_t ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-    const uint32_t ntasks      = shell_to_task[ish].ntask;
-    const auto shell           = shell_to_task[ish].shell_device;
-    const auto task_idx        = shell_to_task[ish].task_idx_device;
-    const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-    const int iCen = shell_to_task[ish].center_idx;
-    const uint32_t shsz   = shell->size();
-
-    const int global_warp_id = 
-      (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-    const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-    double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-    for( uint32_t itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-      
-      const auto*    task   = device_tasks + task_idx[itask];
-      const uint32_t npts   = task->npts;
-      const size_t   shoff  = task_shell_offs[itask] * npts;
-      const int iParent     = task->iParent;
-      if constexpr( with_weight_derivatives ) {
-        if( iCen == iParent )
-          continue;
-      }
-      double g_acc_x_task(0), g_acc_y_task(0), g_acc_z_task(0);
-
-      const auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-      const auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-      const auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-      const auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-      const auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-      const auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-      const auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-      const auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-      const auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-      const auto* __restrict__  xmat   = task->zmat + shoff;
-      const auto* __restrict__  xmat_x = task->xmat_x + shoff;
-      const auto* __restrict__  xmat_y = task->xmat_y + shoff;
-      const auto* __restrict__  xmat_z = task->xmat_z + shoff;
-
-      const auto* __restrict__  vrho   = task->vrho;
-      const auto* __restrict__  vgamma = task->vgamma;
-      const auto* __restrict__  vtau   = task->vtau;
-
-      const auto* __restrict__ den_x = task->dden_sx;
-      const auto* __restrict__ den_y = task->dden_sy;
-      const auto* __restrict__ den_z = task->dden_sz;
-
-      #pragma unroll 1
-      for( uint32_t ipt = threadIdx.x % cuda::warp_size; 
-           ipt < npts; 
-           ipt += cuda::warp_size ) {
-
-        const double vrho_i   = vrho[ipt];
-        const double vgamma_i = vgamma[ipt];
-        const double vtau_i   = 0.5 * vtau[ipt];
-
-        const double denx_i = den_x[ipt];
-        const double deny_i = den_y[ipt];
-        const double denz_i = den_z[ipt];
-        for( uint32_t ibf = 0; ibf < shsz; ++ibf ) {
-          const double z_mu_i    = xmat[ipt + ibf*npts];
-          const double dbfx_mu_i = basis_x_eval[ipt + ibf*npts];
-          const double dbfy_mu_i = basis_y_eval[ipt + ibf*npts];
-          const double dbfz_mu_i = basis_z_eval[ipt + ibf*npts];
-
-          g_acc_x_task += vrho_i * z_mu_i * dbfx_mu_i;
-          g_acc_y_task += vrho_i * z_mu_i * dbfy_mu_i;
-          g_acc_z_task += vrho_i * z_mu_i * dbfz_mu_i;
-
-          const double zx = xmat_x[ipt + ibf*npts];
-          const double zy = xmat_y[ipt + ibf*npts];
-          const double zz = xmat_z[ipt + ibf*npts];
-
-          const double d11_xmat_term = denx_i * zx + deny_i * zy + denz_i * zz;
-
-          const double d2bfxx = basis_xx_eval[ipt + ibf*npts];
-          const double d2bfxy = basis_xy_eval[ipt + ibf*npts];
-          const double d2bfxz = basis_xz_eval[ipt + ibf*npts];
-          const double d2bfyy = basis_yy_eval[ipt + ibf*npts];
-          const double d2bfyz = basis_yz_eval[ipt + ibf*npts];
-          const double d2bfzz = basis_zz_eval[ipt + ibf*npts];
-
-          {
-          const double d2_term_x = d2bfxx*denx_i + d2bfxy*deny_i + d2bfxz*denz_i;
-          const double d2_term_y = d2bfxy*denx_i + d2bfyy*deny_i + d2bfyz*denz_i;
-          const double d2_term_z = d2bfxz*denx_i + d2bfyz*deny_i + d2bfzz*denz_i;
-
-          g_acc_x_task += 2 * vgamma_i * ( z_mu_i * d2_term_x + dbfx_mu_i * d11_xmat_term );
-          g_acc_y_task += 2 * vgamma_i * ( z_mu_i * d2_term_y + dbfy_mu_i * d11_xmat_term );
-          g_acc_z_task += 2 * vgamma_i * ( z_mu_i * d2_term_z + dbfz_mu_i * d11_xmat_term );
-          }
-
-          {
-          const double d2_term_x = d2bfxx*zx + d2bfxy*zy + d2bfxz*zz;
-          const double d2_term_y = d2bfxy*zx + d2bfyy*zy + d2bfyz*zz;
-          const double d2_term_z = d2bfxz*zx + d2bfyz*zy + d2bfzz*zz;
-
-          g_acc_x_task += vtau_i * d2_term_x;
-          g_acc_y_task += vtau_i * d2_term_y;
-          g_acc_z_task += vtau_i * d2_term_z;
-          }
-
-        } // Loop over bfns within a shell
-
-      } // Loop over points
-
-      g_acc_x += g_acc_x_task;
-      g_acc_y += g_acc_y_task;
-      g_acc_z += g_acc_z_task;
-
-      //write to Parent atom with translational invariance
-      if constexpr( with_weight_derivatives ) {
-        atomicAdd( EXC_GRAD + 3*iParent + 0, 2.0 * g_acc_x_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 1, 2.0 * g_acc_y_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 2, 2.0 * g_acc_z_task );
-      }
-
-    } // Loop over tasks assigned to shell
-
-    constexpr auto warp_size = cuda::warp_size;
-    g_acc_x = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_x );
-    g_acc_y = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_y );
-    g_acc_z = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_z );
-
-    if( (threadIdx.x % cuda::warp_size) == 0 ) {
-      atomicAdd( EXC_GRAD + 3*iCen + 0, g_acc_x );
-      atomicAdd( EXC_GRAD + 3*iCen + 1, g_acc_y );
-      atomicAdd( EXC_GRAD + 3*iCen + 2, g_acc_z );
-    }
-
-  } // Loop over shells
-
-}
-
-template<bool with_weight_derivatives>
-__global__ __launch_bounds__(512,1) void increment_exc_grad_mgga_uks_kernel(
-  uint32_t                        nshell,
-  ShellToTaskDevice* __restrict__ shell_to_task,
-  XCDeviceTask*      __restrict__ device_tasks,
-  double*            __restrict__ EXC_GRAD
-) {
-  for( uint32_t ish = blockIdx.z; ish < nshell; ish += gridDim.z ) {
-    const uint32_t ntasks      = shell_to_task[ish].ntask;
-    const auto shell           = shell_to_task[ish].shell_device;
-    const auto task_idx        = shell_to_task[ish].task_idx_device;
-    const auto task_shell_offs = shell_to_task[ish].task_shell_offs_device;
-    const int iCen = shell_to_task[ish].center_idx;
-    const uint32_t shsz   = shell->size();
-
-    const int global_warp_id = 
-      (threadIdx.x + blockIdx.x*blockDim.x) / cuda::warp_size;
-    const int nwarp_global   = max((blockDim.x*gridDim.x) / cuda::warp_size,1);
-
-    double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-    for( uint32_t itask = global_warp_id; itask < ntasks; itask += nwarp_global ) {
-      
-      const auto*    task   = device_tasks + task_idx[itask];
-      const uint32_t npts   = task->npts;
-      const size_t   shoff  = task_shell_offs[itask] * npts;
-      const int iParent     = task->iParent;
-      if constexpr( with_weight_derivatives ) {
-        if( iCen == iParent ) 
-          continue;
-      }
-      double g_acc_x_task(0), g_acc_y_task(0), g_acc_z_task(0);
-
-      const auto* __restrict__ basis_x_eval = task->dbfx + shoff;
-      const auto* __restrict__ basis_y_eval = task->dbfy + shoff;
-      const auto* __restrict__ basis_z_eval = task->dbfz + shoff;
-
-      const auto* __restrict__ basis_xx_eval = task->d2bfxx + shoff;
-      const auto* __restrict__ basis_xy_eval = task->d2bfxy + shoff;
-      const auto* __restrict__ basis_xz_eval = task->d2bfxz + shoff;
-      const auto* __restrict__ basis_yy_eval = task->d2bfyy + shoff;
-      const auto* __restrict__ basis_yz_eval = task->d2bfyz + shoff;
-      const auto* __restrict__ basis_zz_eval = task->d2bfzz + shoff;
-
-      const auto* __restrict__  xmatS   = task->xmatS   + shoff;
-      const auto* __restrict__  xmatS_x = task->xmatS_x + shoff;
-      const auto* __restrict__  xmatS_y = task->xmatS_y + shoff;
-      const auto* __restrict__  xmatS_z = task->xmatS_z + shoff;
-
-      const auto* __restrict__  xmatZ   = task->xmatZ   + shoff;
-      const auto* __restrict__  xmatZ_x = task->xmatZ_x + shoff;
-      const auto* __restrict__  xmatZ_y = task->xmatZ_y + shoff;
-      const auto* __restrict__  xmatZ_z = task->xmatZ_z + shoff;
-
-      const auto* __restrict__  vrhop = task->vrho_pos;
-      const auto* __restrict__  vrhom = task->vrho_neg;
-      const auto* __restrict__  vtaup = task->vtau_pos;
-      const auto* __restrict__  vtaum = task->vtau_neg;
-
-      const auto* __restrict__  vgamma_pp = task->vgamma_pp;
-      const auto* __restrict__  vgamma_pm = task->vgamma_pm;
-      const auto* __restrict__  vgamma_mm = task->vgamma_mm;
-
-      const auto* __restrict__ dens_x = task->dden_sx;
-      const auto* __restrict__ dens_y = task->dden_sy;
-      const auto* __restrict__ dens_z = task->dden_sz;
-
-      const auto* __restrict__ denz_x = task->dden_zx;
-      const auto* __restrict__ denz_y = task->dden_zy;
-      const auto* __restrict__ denz_z = task->dden_zz;
-
-      #pragma unroll 1
-      for( uint32_t ipt = threadIdx.x % cuda::warp_size; 
-           ipt < npts; 
-           ipt += cuda::warp_size ) {
-
-        const double vrhop_i = vrhop[ipt];
-        const double vrhom_i = vrhom[ipt];
-        const double vrhoS_i = 0.5 * (vrhop_i + vrhom_i);
-        const double vrhoZ_i = 0.5 * (vrhop_i - vrhom_i);        
-
-        const double vtaup_i = 0.5 * vtaup[ipt];
-        const double vtaum_i = 0.5 * vtaum[ipt];
-        const double vtauS_i = 0.5 * (vtaup_i + vtaum_i);
-        const double vtauZ_i = 0.5 * (vtaup_i - vtaum_i);
-
-        const double vgammapp_i = vgamma_pp[ipt];
-        const double vgammapm_i = vgamma_pm[ipt];
-        const double vgammamm_i = vgamma_mm[ipt];
-
-        const double denSx_i = dens_x[ipt];
-        const double denSy_i = dens_y[ipt];
-        const double denSz_i = dens_z[ipt];
-        const double denZx_i = denz_x[ipt];
-        const double denZy_i = denz_y[ipt];
-        const double denZz_i = denz_z[ipt];
-
-        for( uint32_t ibf = 0; ibf < shsz; ++ibf ) {
-          const double xN    = xmatS[ipt + ibf*npts];
-          const double xZ    = xmatZ[ipt + ibf*npts];
-          const double dbfx_mu_i = basis_x_eval[ipt + ibf*npts];
-          const double dbfy_mu_i = basis_y_eval[ipt + ibf*npts];
-          const double dbfz_mu_i = basis_z_eval[ipt + ibf*npts];
-
-          g_acc_x_task += vrhoS_i * xN * dbfx_mu_i;
-          g_acc_y_task += vrhoS_i * xN * dbfy_mu_i;
-          g_acc_z_task += vrhoS_i * xN * dbfz_mu_i;
-          g_acc_x_task += vrhoZ_i * xZ * dbfx_mu_i;
-          g_acc_y_task += vrhoZ_i * xZ * dbfy_mu_i;
-          g_acc_z_task += vrhoZ_i * xZ * dbfz_mu_i;
-
-          const double xNx = xmatS_x[ipt + ibf*npts];
-          const double xNy = xmatS_y[ipt + ibf*npts];
-          const double xNz = xmatS_z[ipt + ibf*npts];
-          const double xZx = xmatZ_x[ipt + ibf*npts];
-          const double xZy = xmatZ_y[ipt + ibf*npts];
-          const double xZz = xmatZ_z[ipt + ibf*npts];
-
-          const double d11nn_xmat_term = denSx_i * xNx + denSy_i * xNy + denSz_i * xNz;
-          const double d11nz_xmat_term = denSx_i * xZx + denSy_i * xZy + denSz_i * xZz;
-          const double d11zn_xmat_term = denZx_i * xNx + denZy_i * xNy + denZz_i * xNz;
-          const double d11zz_xmat_term = denZx_i * xZx + denZy_i * xZy + denZz_i * xZz;
-
-          const double d2bfxx = basis_xx_eval[ipt + ibf*npts];
-          const double d2bfxy = basis_xy_eval[ipt + ibf*npts];
-          const double d2bfxz = basis_xz_eval[ipt + ibf*npts];
-          const double d2bfyy = basis_yy_eval[ipt + ibf*npts];
-          const double d2bfyz = basis_yz_eval[ipt + ibf*npts];
-          const double d2bfzz = basis_zz_eval[ipt + ibf*npts];
-
-          {
-          const double d2n_term_x = d2bfxx*denSx_i + d2bfxy*denSy_i + d2bfxz*denSz_i;
-          const double d2n_term_y = d2bfxy*denSx_i + d2bfyy*denSy_i + d2bfyz*denSz_i;
-          const double d2n_term_z = d2bfxz*denSx_i + d2bfyz*denSy_i + d2bfzz*denSz_i;
-          const double d2z_term_x = d2bfxx*denZx_i + d2bfxy*denZy_i + d2bfxz*denZz_i;
-          const double d2z_term_y = d2bfxy*denZx_i + d2bfyy*denZy_i + d2bfyz*denZz_i;
-          const double d2z_term_z = d2bfxz*denZx_i + d2bfyz*denZy_i + d2bfzz*denZz_i;          
-
-          g_acc_x_task += 0.5 * (vgammapp_i + vgammapm_i + vgammamm_i) * (d2n_term_x * xN + d11nn_xmat_term * dbfx_mu_i);
-          g_acc_x_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2z_term_x * xN + d11zn_xmat_term * dbfx_mu_i);
-          g_acc_x_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2n_term_x * xZ + d11nz_xmat_term * dbfx_mu_i);
-          g_acc_x_task += 0.5 * (vgammapp_i - vgammapm_i + vgammamm_i) * (d2z_term_x * xZ + d11zz_xmat_term * dbfx_mu_i);
-
-          g_acc_y_task += 0.5 * (vgammapp_i + vgammapm_i + vgammamm_i) * (d2n_term_y * xN + d11nn_xmat_term * dbfy_mu_i);
-          g_acc_y_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2z_term_y * xN + d11zn_xmat_term * dbfy_mu_i);
-          g_acc_y_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2n_term_y * xZ + d11nz_xmat_term * dbfy_mu_i);
-          g_acc_y_task += 0.5 * (vgammapp_i - vgammapm_i + vgammamm_i) * (d2z_term_y * xZ + d11zz_xmat_term * dbfy_mu_i);
-
-          g_acc_z_task += 0.5 * (vgammapp_i + vgammapm_i + vgammamm_i) * (d2n_term_z * xN + d11nn_xmat_term * dbfz_mu_i);
-          g_acc_z_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2z_term_z * xN + d11zn_xmat_term * dbfz_mu_i);
-          g_acc_z_task += 0.5 * (vgammapp_i              - vgammamm_i) * (d2n_term_z * xZ + d11nz_xmat_term * dbfz_mu_i);
-          g_acc_z_task += 0.5 * (vgammapp_i - vgammapm_i + vgammamm_i) * (d2z_term_z * xZ + d11zz_xmat_term * dbfz_mu_i);
-          }
-
-          {
-          const double d2n_term_x = d2bfxx*xNx + d2bfxy*xNy + d2bfxz*xNz;
-          const double d2n_term_y = d2bfxy*xNx + d2bfyy*xNy + d2bfyz*xNz;
-          const double d2n_term_z = d2bfxz*xNx + d2bfyz*xNy + d2bfzz*xNz;
-          const double d2z_term_x = d2bfxx*xZx + d2bfxy*xZy + d2bfxz*xZz;
-          const double d2z_term_y = d2bfxy*xZx + d2bfyy*xZy + d2bfyz*xZz;
-          const double d2z_term_z = d2bfxz*xZx + d2bfyz*xZy + d2bfzz*xZz;
-          g_acc_x_task += vtauS_i * d2n_term_x;
-          g_acc_y_task += vtauS_i * d2n_term_y;
-          g_acc_z_task += vtauS_i * d2n_term_z;
-
-          g_acc_x_task += vtauZ_i * d2z_term_x;
-          g_acc_y_task += vtauZ_i * d2z_term_y;
-          g_acc_z_task += vtauZ_i * d2z_term_z;
-          }
-        }// Loop over bfns within a shell
-
-      } // Loop over points
-
-      g_acc_x += g_acc_x_task;
-      g_acc_y += g_acc_y_task;
-      g_acc_z += g_acc_z_task;
-
-      //write to Parent atom with translational invariance
-      if constexpr( with_weight_derivatives ) {
-        atomicAdd( EXC_GRAD + 3*iParent + 0, 2.0 * g_acc_x_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 1, 2.0 * g_acc_y_task );
-        atomicAdd( EXC_GRAD + 3*iParent + 2, 2.0 * g_acc_z_task );
-      }
-
-    } // Loop over tasks assigned to shell
-
-    constexpr auto warp_size = cuda::warp_size;
-    g_acc_x = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_x );
-    g_acc_y = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_y );
-    g_acc_z = -2. * cuda::warp_reduce_sum<warp_size>( g_acc_z );
-
-    if( (threadIdx.x % cuda::warp_size) == 0 ) {
-      atomicAdd( EXC_GRAD + 3*iCen + 0, g_acc_x );
-      atomicAdd( EXC_GRAD + 3*iCen + 1, g_acc_y );
-      atomicAdd( EXC_GRAD + 3*iCen + 2, g_acc_z );
-    }
-
-  } // Loop over shells
-
-}
-
-void increment_exc_grad_mgga( integrator_ks_scheme ks_scheme, size_t nshell, bool need_lapl, 
-  ShellToTaskDevice* shell_to_task, XCDeviceTask* device_tasks, 
-  double* EXC_GRAD, bool with_weight_derivatives, device_queue queue ) {
- 
-  if(need_lapl) GAUXC_GENERIC_EXCEPTION("CUDA + MGGA/LAPL EXC GRAD NYI");
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  dim3 threads(512), blocks(1,1,nshell);
-
-  switch(ks_scheme) {
-    case RKS:
-      if (with_weight_derivatives) {
-        increment_exc_grad_mgga_rks_kernel<true><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      } else {
-        increment_exc_grad_mgga_rks_kernel<false><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      }
-      break;
-    case UKS:
-      if (with_weight_derivatives) {
-        increment_exc_grad_mgga_uks_kernel<true><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      } else {
-        increment_exc_grad_mgga_uks_kernel<false><<<blocks, threads, 0 , stream>>>(
-          nshell, shell_to_task, device_tasks, EXC_GRAD 
-        );
-      }
-      break;
-    default: GAUXC_GENERIC_EXCEPTION("GGA EXC GRAD + GKS NYI");
-  }
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/onedft.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/onedft.cu
deleted file mode 100644
index 0b18008..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/onedft.cu
+++ /dev/null
@@ -1,268 +0,0 @@
-#include "device/common/onedft.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-
-namespace GauXC {
-
-__global__ void sz_to_ab( size_t size,
-                          const double* array1, 
-                          const double* array2,
-                          double* result1,
-                          double* result2 ) {
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-  if (tid < size) {
-    double s = array1[tid];
-    double z = array2[tid];
-    result1[tid] = 0.5 * (s + z);
-    result2[tid] = 0.5 * (s - z);
-  }
-}
-
-
-template<density_id den_selector>
-__global__ void zmat_lda_vxc_onedft_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-
-
-  const auto* basis_eval_device = task.bf;
-
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double factp = 0.5 * vrho_pos_device[tid_x];
-    const double factm = 0.5 * vrho_neg_device[tid_x];
-    double sign = 1.0;
-    if constexpr ( den_selector == DEN_Z )  sign = -1.0;
-    
-    z_matrix_device[ ibfoff ] = 0.5*(factp * basis_eval_device[ ibfoff ] + sign * factm * basis_eval_device[ ibfoff ]);
-  }
-
-}
-
-template<density_id den_selector>
-__global__ void zmat_gga_vxc_onedft_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-
-  const double* dden_x_grad_a   = task.gamma_pp;
-  const double* dden_x_grad_b   = task.vgamma_pp;
-  const double* dden_y_grad_a   = task.gamma_pm;
-  const double* dden_y_grad_b   = task.vgamma_pm;
-  const double* dden_z_grad_a   = task.gamma_mm;
-  const double* dden_z_grad_b   = task.vgamma_mm;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double factp = 0.25 * vrho_pos_device[tid_x];
-    const double factm = 0.25 * vrho_neg_device[tid_x];
-
-    double sign = 1.0;
-
-    double x_fact, y_fact, z_fact;
-
-    if constexpr ( den_selector == DEN_S ) {
-      x_fact = 0.5 * (dden_x_grad_a[tid_x] + dden_x_grad_b[tid_x]);
-      y_fact = 0.5 * (dden_y_grad_a[tid_x] + dden_y_grad_b[tid_x]);
-      z_fact = 0.5 * (dden_z_grad_a[tid_x] + dden_z_grad_b[tid_x]);
-   }
-   if constexpr ( den_selector == DEN_Z ) {
-      sign = -1.0;
-      x_fact = 0.5 * (dden_x_grad_a[tid_x] - dden_x_grad_b[tid_x]);
-      y_fact = 0.5 * (dden_y_grad_a[tid_x] - dden_y_grad_b[tid_x]);
-      z_fact = 0.5 * (dden_z_grad_a[tid_x] - dden_z_grad_b[tid_x]);
-   }
-
-    z_matrix_device[ ibfoff ] =   x_fact * dbasis_x_eval_device[ ibfoff ]      
-                                + y_fact * dbasis_y_eval_device[ ibfoff ]
-                                + z_fact * dbasis_z_eval_device[ ibfoff ] 
-                                + (factp + sign * factm) * basis_eval_device[ ibfoff ];
-  }
-}
-
-template<bool need_lapl, density_id den_selector>
-__global__ void zmat_mgga_vxc_onedft_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-  const double* vlapl_pos_device    = task.vlapl_pos;
-  const double* vlapl_neg_device    = task.vlapl_neg;
-
-  const double* dden_x_grad_a   = task.gamma_pp;
-  const double* dden_x_grad_b   = task.vgamma_pp;
-  const double* dden_y_grad_a   = task.gamma_pm;
-  const double* dden_y_grad_b   = task.vgamma_pm;
-  const double* dden_z_grad_a   = task.gamma_mm;
-  const double* dden_z_grad_b   = task.vgamma_mm;
-
-  const auto* den_pos_x_eval_device = task.dden_sx;
-  const auto* den_pos_y_eval_device = task.dden_sy;
-  const auto* den_pos_z_eval_device = task.dden_sz;
-  const auto* den_neg_x_eval_device = task.dden_zx;
-  const auto* den_neg_y_eval_device = task.dden_zy;
-  const auto* den_neg_z_eval_device = task.dden_zz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-  const auto* d2basis_lapl_eval_device = task.d2bflapl;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double factp = 0.25 * vrho_pos_device[tid_x];
-    const double factm = 0.25 * vrho_neg_device[tid_x];
-    
-    double sign = 1.0;
-
-    double x_fact, y_fact, z_fact;
-
-    if constexpr ( den_selector == DEN_S ) {
-       x_fact = 0.5 * (dden_x_grad_a[tid_x] + dden_x_grad_b[tid_x]);
-       y_fact = 0.5 * (dden_y_grad_a[tid_x] + dden_y_grad_b[tid_x]);
-       z_fact = 0.5 * (dden_z_grad_a[tid_x] + dden_z_grad_b[tid_x]);
-    }
-    if constexpr ( den_selector == DEN_Z ) {
-       sign = -1.0;
-       x_fact = 0.5 * (dden_x_grad_a[tid_x] - dden_x_grad_b[tid_x]);
-       y_fact = 0.5 * (dden_y_grad_a[tid_x] - dden_y_grad_b[tid_x]);
-       z_fact = 0.5 * (dden_z_grad_a[tid_x] - dden_z_grad_b[tid_x]);
-    }
-
-    auto val = x_fact * dbasis_x_eval_device[ ibfoff ]      
-             + y_fact * dbasis_y_eval_device[ ibfoff ]
-             + z_fact * dbasis_z_eval_device[ ibfoff ] 
-             + (factp + sign * factm) * basis_eval_device[ ibfoff ];
-
-    if constexpr (need_lapl) {
-      const double lfactp = vlapl_pos_device[tid_x];
-      const double lfactm = vlapl_neg_device[tid_x];
-
-      val += 0.5 * (lfactp + sign * lfactm) * d2basis_lapl_eval_device[ ibfoff ];
-    }
-
-    z_matrix_device[ ibfoff ] = val;
-  }
-}
-
-
-
-void zmat_onedft_vxc( size_t            ntasks,
-                      int32_t           max_nbf,
-                      int32_t           max_npts,
-                      XCDeviceTask*     tasks_device,
-                      integrator_xc_approx scheme,
-                      density_id sel,
-                      device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-                util::div_ceil( max_nbf,  threads.y ),
-                ntasks );
-  if(scheme == LDA) {
-    switch(sel) {
-      case DEN_S:
-        zmat_lda_vxc_onedft_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-      case DEN_Z:
-        zmat_lda_vxc_onedft_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-    }
-  } else if(scheme == GGA) {
-    switch(sel) {
-      case DEN_S:
-        zmat_gga_vxc_onedft_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-      case DEN_Z:
-        zmat_gga_vxc_onedft_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-    }
-  } else if(scheme == MGGA_TAU) {
-    switch(sel) {
-      case DEN_S:
-        zmat_mgga_vxc_onedft_kernel<false, DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-      case DEN_Z:
-        zmat_mgga_vxc_onedft_kernel<false, DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-    }
-  } else {
-    GAUXC_GENERIC_EXCEPTION("ONEDFT NYI for this scheme");
-  }
-}
-
-void sz_to_ab(  size_t sz,
-  const void* src_a,
-  const void* src_b,
-  void* dest_a,
-  void* dest_b,
-  device_queue queue ){
-  
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( sz, threads.x ), 1, 1 );
-
-  sz_to_ab<<<blocks, threads, 0, stream>>>(
-    sz,
-    static_cast<const double*>(src_a),
-    static_cast<const double*>(src_b),
-    static_cast<double*>(dest_a),
-    static_cast<double*>(dest_b)
-  );
-}
-
-} // namespace GauXC::detail
\ No newline at end of file
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/pack_submat.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/pack_submat.cu
deleted file mode 100644
index a000efe..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/pack_submat.cu
+++ /dev/null
@@ -1,246 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/pack_submat.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-
-namespace GauXC {
-
-#define WARP_X 16
-#define WARP_Y 1
-#define UNROLL_FACTOR 4
-#define EFF_UNROLL 4
-#define CUT_X 8
-#define CUT_Y 8
-
-template <typename T, bool skip_single_cut = true>
-__global__ __launch_bounds__(1024, 1)
-void sym_submat_set_combined_kernel( size_t        ntasks,
-                                 XCDeviceTask* device_tasks,
-                                 T*            A,
-                                 size_t        LDA,
-				 const int block_y,
-				 const int block_x) {
-
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  if constexpr (skip_single_cut ) {
-    if( task.bfn_screening.ncut == 1 ) return;
-  }
-
-  const auto* submat_cut_device = task.bfn_screening.submat_cut;
-  const auto* submat_block_device = task.bfn_screening.submat_block;
-  const auto  LDAS              = task.bfn_screening.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = submat_block_device[block_y];
-  const int end_cut_y   = submat_block_device[block_y+1];
-  const int start_cut_x = submat_block_device[block_x];
-  const int end_cut_x   = submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ABig_begin[I + (J + k*WARP_Y)*LDA];
-          address[k] = ASmall_begin + I + (J + k*WARP_Y) * LDAS;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-	  // Suggest that the result be evicted first.
-#if (CUDART_VERSION >= 11000)
-	  __stcs(address[k], val[k]);
-#else
-          asm ("st.global.cs.f64 [%0], %1;" :: "l"(address[k]), "d"(val[k]));
-#endif
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        ASmall_begin[I + J*LDAS] = ABig_begin[I + J*LDA];
-      }
-    }
-  }
-  }
-}
-
-
-
-
-
-
-void sym_pack_submat( size_t ntasks, XCDeviceTask* device_tasks, const double* A,
-  int32_t LDA, int32_t submat_block_size, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-
-  dim3 threads( cuda::warp_size/2, cuda::max_warps_per_thread_block * 2, 1 );
-  dim3 blocks( 1,1, ntasks );
-
-  auto n_launch = util::div_ceil( LDA, submat_block_size );
-  for (int i = 0; i < n_launch; i++) 
-  for (int j = 0; j < n_launch; j++) {
-    sym_submat_set_combined_kernel<<< blocks, threads, 0, stream >>>(
-      ntasks, device_tasks, A, LDA, i, j
-    );
-  }
-}
-
-
-
-
-
-
-
-
-
-template <typename T, bool skip_single_cut = false>
-__global__ __launch_bounds__(1024, 1)
-void asym_submat_set_combined_kernel( size_t        ntasks,
-                                 XCDeviceTask* device_tasks,
-                                 T*            A,
-                                 size_t        LDA,
-				 const int block_y,
-				 const int block_x) {
-
-
-  const int batch_id = blockIdx.z;
-  auto& task = device_tasks[ batch_id ];
-
-  if constexpr (skip_single_cut ) {
-    if( task.bfn_screening.ncut == 1 ) return;
-  }
-
-  const auto* row_submat_cut_device = task.bfn_screening.submat_cut;
-  const auto* row_submat_block_device = task.bfn_screening.submat_block;
-  const auto* col_submat_cut_device = task.cou_screening.submat_cut;
-  const auto* col_submat_block_device = task.cou_screening.submat_block;
-
-  const auto  LDAS              = task.bfn_screening.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-  const int tid_xx = threadIdx.x % WARP_X;
-  const int tid_xy = threadIdx.x / WARP_X;
-
-  const int tid_yx = threadIdx.y % CUT_X;
-  const int tid_yy = threadIdx.y / CUT_X;
-
-  const int start_cut_y = row_submat_block_device[block_y];
-  const int end_cut_y   = row_submat_block_device[block_y+1];
-  const int start_cut_x = col_submat_block_device[block_x];
-  const int end_cut_x   = col_submat_block_device[block_x+1];
-
-  for( int i_cut = tid_yy + start_cut_y; i_cut < end_cut_y; i_cut += CUT_Y ) {
-    const int3 i_data = *((int3*)(row_submat_cut_device + 3*i_cut));
-    const int i_cut_first  = i_data.x;
-    const int delta_i      = i_data.y;
-    const int i_cut_small  = i_data.z;
-
-  for( int j_cut = tid_yx + start_cut_x; j_cut < end_cut_x; j_cut += CUT_X ) {
-    const int3 j_data = *((int3*)(col_submat_cut_device + 3*j_cut));
-    const int j_cut_first  = j_data.x; 
-    const int delta_j      = j_data.y;
-    const int j_cut_small  = j_data.z;
-
-    auto* ASmall_begin = ASmall_device + i_cut_small + j_cut_small*LDAS;
-    auto* ABig_begin   = A   + i_cut_first + j_cut_first*LDA;
-
-    int J;
-    for( J = tid_xy; J < (delta_j / EFF_UNROLL) * EFF_UNROLL; J += EFF_UNROLL ) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-
-        double val[UNROLL_FACTOR];
-        double* address[UNROLL_FACTOR];
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-          val[k] = ABig_begin[I + (J + k*WARP_Y)*LDA];
-          address[k] = ASmall_begin + I + (J + k*WARP_Y) * LDAS;
-        }
-#pragma unroll
-        for (int k = 0; k < UNROLL_FACTOR; k++) {
-	  // Suggest that the result be evicted first.
-#if (CUDART_VERSION >= 11000)
-	  __stcs(address[k], val[k]);
-#else
-          asm ("st.global.cs.f64 [%0], %1;" :: "l"(address[k]), "d"(val[k]));
-#endif
-        }
-      }
-    }
-
-    for ( ; J < delta_j; J += WARP_Y) {
-      for( int I = tid_xx; I < delta_i; I += WARP_X ) {
-        ASmall_begin[I + J*LDAS] = ABig_begin[I + J*LDA];
-      }
-    }
-  }
-  }
-}
-
-
-
-
-
-
-void asym_pack_submat( size_t ntasks, XCDeviceTask* device_tasks, const double* A,
-  int32_t LDA, int32_t submat_block_size, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-
-  dim3 threads( cuda::warp_size/2, cuda::max_warps_per_thread_block * 2, 1 );
-  dim3 blocks( 1,1, ntasks );
-
-  auto n_launch = util::div_ceil( LDA, submat_block_size );
-  for (int i = 0; i < n_launch; i++) 
-  for (int j = 0; j < n_launch; j++) {
-    asym_submat_set_combined_kernel<<< blocks, threads, 0, stream >>>(
-      ntasks, device_tasks, A, LDA, i, j
-    );
-  }
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/symmetrize_mat.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/symmetrize_mat.cu
deleted file mode 100644
index 91ccb29..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/symmetrize_mat.cu
+++ /dev/null
@@ -1,112 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/symmetrize_mat.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-#include "device_specific/cuda_util.hpp"
-
-namespace GauXC {
-
-__global__ void symmetrize_matrix_device( size_t N, double* A, size_t LDA ) {
-
-  constexpr uint32_t block_size = cuda::warp_size;
-
-  __shared__ double buffer[block_size][block_size+1];  // Pad shared memory to resolve shared memory
-
-  const size_t num_blocks = ((N + block_size - 1) / block_size);
-
-  for (int i = blockIdx.x; i < num_blocks; i += gridDim.x) {
-    // TODO This could be load balanced if need be
-    const int i_coord = i * block_size;
-    for (int j = i; j < num_blocks; j++) {
-      const int j_coord = j * block_size;
-
-      // Read in block to buffer
-      // TODO These could be vector reads/writes if this becomes significant
-      if (i_coord + threadIdx.y < N && j_coord + threadIdx.x < N) {
-        buffer[threadIdx.y][threadIdx.x] = A[(i_coord + threadIdx.y) * LDA + j_coord + threadIdx.x];
-      }
-      __syncthreads();
-
-      // Write buffer
-      if (j_coord + threadIdx.y < N && i_coord + threadIdx.x < N) {
-        if ((j_coord != i_coord || threadIdx.x < threadIdx.y)) { // handles the diagonal block
-          A[(j_coord + threadIdx.y) * LDA + i_coord + threadIdx.x] = buffer[threadIdx.x][threadIdx.y];
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-__global__ void symmetrize_matrix_inc_device( size_t N, double* A, size_t LDA ) {
-
-  constexpr uint32_t block_size = cuda::warp_size;
-
-  __shared__ double buffer_0[block_size][block_size+1];  // Pad shared memory to resolve shared memory
-  __shared__ double buffer_1[block_size][block_size+1];  // Pad shared memory to resolve shared memory
-
-  const size_t num_blocks = ((N + block_size - 1) / block_size);
-
-  for (int i = blockIdx.x; i < num_blocks; i += gridDim.x) {
-    // TODO This could be load balanced if need be
-    const int i_coord = i * block_size;
-    for (int j = i; j < num_blocks; j++) {
-      const int j_coord = j * block_size;
-
-      // Read in block to buffer
-      // TODO These could be vector reads/writes if this becomes significant
-      if (i_coord + threadIdx.y < N && j_coord + threadIdx.x < N) {
-        buffer_0[threadIdx.y][threadIdx.x] = A[(i_coord + threadIdx.y) * LDA + j_coord + threadIdx.x];
-      }
-      if (j_coord + threadIdx.y < N && i_coord + threadIdx.x < N) {
-        buffer_1[threadIdx.y][threadIdx.x] = A[(j_coord + threadIdx.y) * LDA + i_coord + threadIdx.x];
-      }
-      __syncthreads();
-
-      buffer_0[threadIdx.y][threadIdx.x] += buffer_1[threadIdx.x][threadIdx.y];
-      buffer_0[threadIdx.y][threadIdx.x] *= 0.5;
-      __syncthreads();
-
-      // Write buffer
-      if (j_coord + threadIdx.y < N && i_coord + threadIdx.x < N) {
-        //if ((j_coord != i_coord || threadIdx.x < threadIdx.y)) { // handles the diagonal block
-          A[(j_coord + threadIdx.y) * LDA + i_coord + threadIdx.x] = buffer_0[threadIdx.x][threadIdx.y];
-        //}
-      }
-      if (i_coord + threadIdx.y < N && j_coord + threadIdx.x < N) {
-        //if ((j_coord != i_coord || threadIdx.x > threadIdx.y)) { // handles the diagonal block
-          A[(i_coord + threadIdx.y) * LDA + j_coord + threadIdx.x] = buffer_0[threadIdx.y][threadIdx.x];
-        //}
-      }
-      __syncthreads();
-    }
-  }
-}
-
-
-
-void symmetrize_matrix( int32_t N, double* A, size_t LDA, device_queue queue ) {
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  const size_t num_blocks = ((N + cuda::warp_size - 1) / cuda::warp_size);
-  // Warp size must equal max_warps_per_thread_block must equal 32
-  dim3 threads(cuda::warp_size, cuda::max_warps_per_thread_block), blocks(num_blocks);
-  symmetrize_matrix_device<<<blocks, threads, 0, stream>>>(N, A, LDA);
-}
-
-void symmetrize_matrix_inc( int32_t N, double* A, size_t LDA, device_queue queue ) {
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  const size_t num_blocks = ((N + cuda::warp_size - 1) / cuda::warp_size);
-  // Warp size must equal max_warps_per_thread_block must equal 32
-  dim3 threads(cuda::warp_size, cuda::max_warps_per_thread_block), blocks(num_blocks);
-  symmetrize_matrix_inc_device<<<blocks, threads, 0, stream>>>(N, A, LDA);
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars.cu
deleted file mode 100644
index 3c5f202..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars.cu
+++ /dev/null
@@ -1,228 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/uvvars.hpp"
-#include "cuda_extensions.hpp"
-#include <gauxc/util/div_ceil.hpp>
-
-#include "uvvars_lda.hpp"
-#include "uvvars_gga.hpp"
-#include "uvvars_mgga.hpp"
-
-namespace GauXC {
-
-#define EVAL_UVARS_KERNEL(xc_approx) \
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();  \
-  switch ( ks_scheme ) { \
-    case RKS: \
-      eval_uvars_##xc_approx##_rks_kernel<<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    case UKS: \
-      eval_uvars_##xc_approx##_uks_kernel<<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    case GKS: \
-      eval_uvars_##xc_approx##_gks_kernel<<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    default: \
-      GAUXC_GENERIC_EXCEPTION( "Unexpected KS scheme when attempting to evaluate U vars" ); \
-  } 
-
-  
-#define EVAL_TMAT_KERNEL(xc_approx) \
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();  \
-  switch ( ks_scheme ) { \
-    case RKS: \
-      eval_tmat_##xc_approx##_rks_kernel<<< blocks, threads, 0, stream >>>( ntasks, device_tasks); \
-      break; \
-    case UKS: \
-      eval_tmat_##xc_approx##_uks_kernel<<< blocks, threads, 0, stream >>>( ntasks, device_tasks); \
-      break; \
-    case GKS: \
-      GAUXC_GENERIC_EXCEPTION( "GKS + evaluate trial U vars NYI" ); \
-      break; \
-    default: \
-      GAUXC_GENERIC_EXCEPTION( "Unexpected KS scheme when attempting to evaluate U vars" ); \
-  } 
-
-
-#define EVAL_VVARS_KERNEL(xc_approx) \
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();  \
-  switch ( den_select ) { \
-    case DEN_S: \
-      eval_vvar_##xc_approx##_kern<trial,DEN_S><<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    case DEN_Z: \
-      eval_vvar_##xc_approx##_kern<trial,DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    case DEN_Y: \
-      eval_vvar_##xc_approx##_kern<trial,DEN_Y><<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    case DEN_X: \
-      eval_vvar_##xc_approx##_kern<trial,DEN_X><<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); \
-      break; \
-    default: \
-      GAUXC_GENERIC_EXCEPTION( "Unexpected KS scheme when attempting to evaluate V vars" ); \
-  }
-
-// Internal implementation with trial parameter
-void eval_tmat_lda( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  dim3 threads( cuda::max_warps_per_thread_block * cuda::warp_size, 1, 1 );
-  dim3 blocks( util::div_ceil( npts_max,  threads.x ), 1, ntasks ); 
-  EVAL_TMAT_KERNEL(lda);
-}
-
-void eval_uvars_lda( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  dim3 threads( cuda::max_warps_per_thread_block * cuda::warp_size, 1, 1 );
-  dim3 blocks( util::div_ceil( npts_max,  threads.x ), 1, ntasks ); 
-  EVAL_UVARS_KERNEL(lda);
-}
-
-// Internal implementation with trial as template parameter
-template<bool trial>
-void eval_vvars_lda_impl( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  dim3 threads( cuda::warp_size, cuda::max_warps_per_thread_block, 1 );
-  dim3 blocks( util::div_ceil( nbf_max,  threads.x ),
-               util::div_ceil( npts_max, threads.y ),
-               ntasks );
-  EVAL_VVARS_KERNEL(lda);
-}
-void eval_vvars_lda( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  eval_vvars_lda_impl<false>(ntasks, nbf_max, npts_max, den_select, device_tasks, queue);
-}
-void eval_vvars_lda_trial( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  eval_vvars_lda_impl<true>(ntasks, nbf_max, npts_max, den_select, device_tasks, queue);
-}
-
-// Internal implementation with trial parameter
-void eval_tmat_gga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  dim3 threads( GGA_KERNEL_SM_WARPS * cuda::warp_size, 1, 1 );
-  dim3 blocks( util::div_ceil( npts_max,  threads.x ), 1, ntasks ); 
-  EVAL_TMAT_KERNEL(gga);
-}
-void eval_uvars_gga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  dim3 threads( GGA_KERNEL_SM_WARPS * cuda::warp_size, 1, 1 );
-  dim3 blocks( util::div_ceil( npts_max,  threads.x ), 1, ntasks ); 
-  EVAL_UVARS_KERNEL(gga);
-}
-
-
-// Internal implementation with trial as template parameter
-template<bool trial>
-void eval_vvars_gga_impl( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  dim3 threads( cuda::warp_size, cuda::max_warps_per_thread_block, 1 );
-  dim3 blocks( util::div_ceil( nbf_max,  threads.x ),
-               util::div_ceil( npts_max, threads.y ),
-               ntasks );
-  EVAL_VVARS_KERNEL(gga);
-}
-void eval_vvars_gga( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  eval_vvars_gga_impl<false>(ntasks, nbf_max, npts_max, den_select, device_tasks, queue);
-}
-void eval_vvars_gga_trial( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-  eval_vvars_gga_impl<true>(ntasks, nbf_max, npts_max, den_select, device_tasks, queue);
-}
-
-// Internal implementation with trial parameter
-void eval_tmat_mgga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue ) {
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>(); 
-
-  dim3 threads( GGA_KERNEL_SM_WARPS * cuda::warp_size, 1, 1 );
-  dim3 blocks( util::div_ceil( npts_max,  threads.x ), 1, ntasks ); 
-
-  if(need_lapl) {
-    GAUXC_GENERIC_EXCEPTION("MGGA + LAPL + eval tmat NYI");
-  }
-  if(ks_scheme == RKS) {
-      eval_tmat_mgga_rks_kernel<<<blocks, threads, 0, stream>>>(ntasks, device_tasks);
-  } else if(ks_scheme == UKS) {
-      eval_tmat_mgga_uks_kernel<<<blocks, threads, 0, stream>>>(ntasks, device_tasks);
-  } else {
-    GAUXC_GENERIC_EXCEPTION("GKS + MGGA + DEVICE NYI");
-  }
-}
-
-void eval_uvars_mgga( size_t ntasks, int32_t npts_max, integrator_ks_scheme ks_scheme,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>(); 
-
-  // Evaluate GAMMA
-  eval_uvars_gga(ntasks, npts_max, ks_scheme, device_tasks, queue);
-
-  if(ks_scheme == RKS) {
-    return; // Nothing left to do
-  } else if(ks_scheme == UKS) {
-    dim3 threads( cuda::max_warps_per_thread_block * cuda::warp_size, 1, 1 );
-    dim3 blocks( util::div_ceil( npts_max,  threads.x ), 1, ntasks ); 
-    if(need_lapl) {
-      eval_uvars_mgga_uks_kernel<true><<<blocks, threads, 0, stream>>>(ntasks, device_tasks);
-    } else {
-      eval_uvars_mgga_uks_kernel<false><<<blocks, threads, 0, stream>>>(ntasks, device_tasks);
-    }
-  } else {
-    GAUXC_GENERIC_EXCEPTION("GKS + MGGA + DEVICE NYI");
-  }
-
-}
-
-// Internal implementation with trial as template parameter
-template<bool trial>
-void eval_vvars_mgga_impl( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue ) {
-  // First evaluate GGA variables
-  eval_vvars_gga_impl<trial>(ntasks, nbf_max, npts_max, den_select, device_tasks, queue);
-
-  dim3 threads( cuda::warp_size, cuda::max_warps_per_thread_block, 1 );
-  dim3 blocks( util::div_ceil( nbf_max,  threads.x ),
-               util::div_ceil( npts_max, threads.y ),
-               ntasks );
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  switch ( den_select ) {
-    case DEN_S:
-      if (need_lapl) {
-        eval_vvar_mgga_kern<trial,DEN_S,true><<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); 
-      } else {
-        eval_vvar_mgga_kern<trial,DEN_S,false><<< blocks, threads, 0, stream >>>( ntasks, device_tasks );
-      }
-      break;
-    case DEN_Z:
-      if (need_lapl) {
-        eval_vvar_mgga_kern<trial,DEN_Z,true><<< blocks, threads, 0, stream >>>( ntasks, device_tasks ); 
-      } else {
-        eval_vvar_mgga_kern<trial,DEN_Z,false><<< blocks, threads, 0, stream >>>( ntasks, device_tasks );
-      }
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "Unexpected KS scheme when attempting to evaluate V vars" );
-  }
-}
-void eval_vvars_mgga( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue ) {
-  eval_vvars_mgga_impl<false>(ntasks, nbf_max, npts_max, den_select, need_lapl, device_tasks, queue);
-}
-void eval_vvars_mgga_trial( size_t ntasks, int32_t nbf_max, int32_t npts_max, density_id den_select,
-  bool need_lapl, XCDeviceTask* device_tasks, device_queue queue ) {
-  eval_vvars_mgga_impl<true>(ntasks, nbf_max, npts_max, den_select, need_lapl, device_tasks, queue);
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_gga.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_gga.hpp
deleted file mode 100644
index 9b466e2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_gga.hpp
+++ /dev/null
@@ -1,555 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device_specific/cuda_device_constants.hpp"
-#include "device_specific/cuda_util.hpp"
-#include "device/xc_device_data.hpp"
-
-#define VVAR_KERNEL_SM_BLOCK 32
-#define GGA_KERNEL_SM_WARPS 16
-
-namespace GauXC {
-
-template <bool trial, density_id den_select>
-__global__ void eval_vvar_gga_kern( size_t        ntasks,
-                                    XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  double* den_eval_device   = nullptr;
-  double* den_x_eval_device = nullptr;
-  double* den_y_eval_device = nullptr;
-  double* den_z_eval_device = nullptr;
-
-  constexpr auto warp_size = cuda::warp_size;
-
-  if constexpr (trial){
-    if constexpr (den_select == DEN_S) {
-      den_eval_device   = task.tden_s;
-      den_x_eval_device = task.tdden_sx;
-      den_y_eval_device = task.tdden_sy;
-      den_z_eval_device = task.tdden_sz;
-    }
-    if constexpr (den_select == DEN_Z) {
-      den_eval_device   = task.tden_z;
-      den_x_eval_device = task.tdden_zx;
-      den_y_eval_device = task.tdden_zy;
-      den_z_eval_device = task.tdden_zz;
-    }
-    if constexpr (den_select == DEN_Y) {
-      den_eval_device   = task.tden_y;
-      den_x_eval_device = task.tdden_yx;
-      den_y_eval_device = task.tdden_yy;
-      den_z_eval_device = task.tdden_yz;
-    }
-    if constexpr (den_select == DEN_X) {
-      den_eval_device   = task.tden_x;
-      den_x_eval_device = task.tdden_xx;
-      den_y_eval_device = task.tdden_xy;
-      den_z_eval_device = task.tdden_xz;
-    }
-  }else{
-    if constexpr (den_select == DEN_S) {
-      den_eval_device   = task.den_s;
-      den_x_eval_device = task.dden_sx;
-      den_y_eval_device = task.dden_sy;
-      den_z_eval_device = task.dden_sz;
-    }
-    if constexpr (den_select == DEN_Z) {
-      den_eval_device   = task.den_z;
-      den_x_eval_device = task.dden_zx;
-      den_y_eval_device = task.dden_zy;
-      den_z_eval_device = task.dden_zz;
-    }
-    if constexpr (den_select == DEN_Y) {
-      den_eval_device   = task.den_y;
-      den_x_eval_device = task.dden_yx;
-      den_y_eval_device = task.dden_yy;
-      den_z_eval_device = task.dden_yz;
-    }
-    if constexpr (den_select == DEN_X) {
-      den_eval_device   = task.den_x;
-      den_x_eval_device = task.dden_xx;
-      den_y_eval_device = task.dden_xy;
-      den_z_eval_device = task.dden_xz;
-    }
-  }
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  const auto* den_basis_prod_device = task.zmat;
-  
-  __shared__ double den_shared[4][warp_size][VVAR_KERNEL_SM_BLOCK+1];
-
-  for ( int bid_x = blockIdx.x * blockDim.x; 
-        bid_x < nbf;
-        bid_x += blockDim.x * gridDim.x ) {
-    
-    for ( int bid_y = blockIdx.y * VVAR_KERNEL_SM_BLOCK; 
-          bid_y < npts;
-          bid_y += VVAR_KERNEL_SM_BLOCK * gridDim.y ) {
-        
-      for (int sm_y = threadIdx.y; sm_y < VVAR_KERNEL_SM_BLOCK; sm_y += blockDim.y) {
-        den_shared[0][threadIdx.x][sm_y] = 0.;
-        den_shared[1][threadIdx.x][sm_y] = 0.;
-        den_shared[2][threadIdx.x][sm_y] = 0.;
-        den_shared[3][threadIdx.x][sm_y] = 0.;
-
-        if (bid_y + threadIdx.x < npts and bid_x + sm_y < nbf) { 
-          const double* db_col   = den_basis_prod_device + (bid_x + sm_y)*npts;
-          const double* bf_col   = basis_eval_device     + (bid_x + sm_y)*npts;
-          const double* bf_x_col = dbasis_x_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_y_col = dbasis_y_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_z_col = dbasis_z_eval_device  + (bid_x + sm_y)*npts;
-
-          den_shared[0][threadIdx.x][sm_y] = bf_col  [ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[1][threadIdx.x][sm_y] = bf_x_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[2][threadIdx.x][sm_y] = bf_y_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          den_shared[3][threadIdx.x][sm_y] = bf_z_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-        }
-      }
-      __syncthreads();
-
-
-      for (int sm_y = threadIdx.y; sm_y < VVAR_KERNEL_SM_BLOCK; sm_y += blockDim.y) {
-        const int tid_y = bid_y + sm_y;
-        register double den_reg = den_shared[0][sm_y][threadIdx.x];
-        register double dx_reg  = den_shared[1][sm_y][threadIdx.x];
-        register double dy_reg  = den_shared[2][sm_y][threadIdx.x];
-        register double dz_reg  = den_shared[3][sm_y][threadIdx.x];
-
-        // Warp blocks are stored col major
-        den_reg =     cuda::warp_reduce_sum<warp_size>( den_reg );
-        dx_reg  = 2. * cuda::warp_reduce_sum<warp_size>( dx_reg );
-        dy_reg  = 2. * cuda::warp_reduce_sum<warp_size>( dy_reg );
-        dz_reg  = 2. * cuda::warp_reduce_sum<warp_size>( dz_reg );
-
-
-        if( threadIdx.x == 0 and tid_y < npts ) {
-          atomicAdd( den_eval_device   + tid_y, den_reg );
-          atomicAdd( den_x_eval_device + tid_y, dx_reg  );
-          atomicAdd( den_y_eval_device + tid_y, dy_reg  );
-          atomicAdd( den_z_eval_device + tid_y, dz_reg  );
-        }
-      }
-      __syncthreads();
-    }
-  }
-
-}
-
-__global__ void eval_uvars_gga_rks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-  
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts  = task.npts;
-  
-  const auto*   dden_sx_eval_device = task.dden_sx;
-  const auto*   dden_sy_eval_device = task.dden_sy;
-  const auto*   dden_sz_eval_device = task.dden_sz;
-  auto*         gamma_eval_device   = task.gamma;
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-
-  if( tid < npts ) {
-    const double dx = dden_sx_eval_device[ tid ];
-    const double dy = dden_sy_eval_device[ tid ];
-    const double dz = dden_sz_eval_device[ tid ];
-
-    gamma_eval_device[ tid ] = dx*dx + dy*dy + dz*dz;
-  }
-
-}
-
-__global__ void eval_tmat_gga_rks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-  
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts  = task.npts;
-  
-  const auto*   dden_sx_eval_device = task.dden_sx;
-  const auto*   dden_sy_eval_device = task.dden_sy;
-  const auto*   dden_sz_eval_device = task.dden_sz;
-  const auto*   tdden_sx_eval_device = task.tdden_sx;
-  const auto*   tdden_sy_eval_device = task.tdden_sy;
-  const auto*   tdden_sz_eval_device = task.tdden_sz;
-
-  const auto* weight_device  = task.weights;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* v2rho2_device     = task.v2rho2;
-  const auto* v2rhogamma_device = task.v2rhogamma;
-  const auto* v2gamma2_device   = task.v2gamma2;
-  const auto* trho_device       = task.tden_s;
-
-  auto* FXC_A_device   = task.FXC_A_s;
-  auto* FXC_Bx_device   = task.FXC_Bx_s;
-  auto* FXC_By_device   = task.FXC_By_s;
-  auto* FXC_Bz_device   = task.FXC_Bz_s;
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-
-  if( tid < npts ) {
-    const auto dx = dden_sx_eval_device[ tid ];
-    const auto dy = dden_sy_eval_device[ tid ];
-    const auto dz = dden_sz_eval_device[ tid ];
-    const auto tdx = tdden_sx_eval_device[ tid ];
-    const auto tdy = tdden_sy_eval_device[ tid ];
-    const auto tdz = tdden_sz_eval_device[ tid ];
-    const auto tgamma = tdx*dx + tdy*dy + tdz*dz;
-
-    const auto FXC_A = v2rho2_device[ tid ] * trho_device[ tid ] + 2.0 * v2rhogamma_device[tid] * tgamma;
-    const auto B_coef = v2rhogamma_device[tid] * trho_device[tid] + 2.0 * v2gamma2_device[tid] * tgamma;
-    FXC_A_device[ tid ]  = weight_device[ tid ] * FXC_A ;
-    FXC_Bx_device[ tid ] = 2.0 * weight_device[ tid ] * ( B_coef * dx + vgamma_device[ tid ] * tdx );
-    FXC_By_device[ tid ] = 2.0 * weight_device[ tid ] * ( B_coef * dy + vgamma_device[ tid ] * tdy );
-    FXC_Bz_device[ tid ] = 2.0 * weight_device[ tid ] * ( B_coef * dz + vgamma_device[ tid ] * tdz );
-  }
-
-}
-
-__global__ void eval_uvars_gga_uks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-
-  auto*           den_pos_eval_device   = task.den_s;
-  const auto*     den_pos_x_eval_device = task.dden_sx;
-  const auto*     den_pos_y_eval_device = task.dden_sy;
-  const auto*     den_pos_z_eval_device = task.dden_sz;
-
-  auto*           den_neg_eval_device   = task.den_z;
-  const auto*     den_neg_x_eval_device = task.dden_zx;
-  const auto*     den_neg_y_eval_device = task.dden_zy;
-  const auto*     den_neg_z_eval_device = task.dden_zz;
-
-  auto*     gamma_pp_eval_device  = task.gamma_pp;
-  auto*     gamma_pm_eval_device  = task.gamma_pm;
-  auto*     gamma_mm_eval_device  = task.gamma_mm;
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const double ps     = den_pos_eval_device[ tid ];
-    const double pz     = den_neg_eval_device[ tid ];
-    const double dndx   = den_pos_x_eval_device[ tid ];
-    const double dndy   = den_pos_y_eval_device[ tid ];
-    const double dndz   = den_pos_z_eval_device[ tid ];
-    const double dMzdx  = den_neg_x_eval_device[ tid ];
-    const double dMzdy  = den_neg_y_eval_device[ tid ];
-    const double dMzdz  = den_neg_z_eval_device[ tid ];
-
-    // (del n).(del n)
-    const auto dn_sq  = dndx*dndx + dndy*dndy + dndz*dndz;
-    // (del Mz).(del Mz)
-    const auto dMz_sq = dMzdx*dMzdx + dMzdy*dMzdy + dMzdz*dMzdz;
-    // (del n).(del Mz)
-    const auto dn_dMz = dndx*dMzdx + dndy*dMzdy + dndz*dMzdz;
-
-    gamma_pp_eval_device[ tid ] = 0.25*(dn_sq + dMz_sq) + 0.5*dn_dMz;
-    gamma_pm_eval_device[ tid ] = 0.25*(dn_sq - dMz_sq);
-    gamma_mm_eval_device[ tid ] = 0.25*(dn_sq + dMz_sq) - 0.5*dn_dMz;
-
-    den_pos_eval_device[ tid ] = 0.5*(ps + pz);
-    den_neg_eval_device[ tid ] = 0.5*(ps - pz);
-  }
-
-}
-
-__global__ void eval_tmat_gga_uks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-
-  const auto* tden_s_device   = task.tden_s;
-  const auto* tden_z_device   = task.tden_z;
-  const auto* weight_device   = task.weights;
-
-  const auto*     tden_pos_x_eval_device = task.tdden_sx;
-  const auto*     tden_pos_y_eval_device = task.tdden_sy;
-  const auto*     tden_pos_z_eval_device = task.tdden_sz;
-  const auto*     den_pos_x_eval_device = task.dden_sx;
-  const auto*     den_pos_y_eval_device = task.dden_sy;
-  const auto*     den_pos_z_eval_device = task.dden_sz;
-
-  const auto*     tden_neg_x_eval_device = task.tdden_zx;
-  const auto*     tden_neg_y_eval_device = task.tdden_zy;
-  const auto*     tden_neg_z_eval_device = task.tdden_zz;
-  const auto*     den_neg_x_eval_device = task.dden_zx;
-  const auto*     den_neg_y_eval_device = task.dden_zy;
-  const auto*     den_neg_z_eval_device = task.dden_zz;
-
-  const auto* vgamma_aa_device   = task.vgamma_pp;
-  const auto* vgamma_ab_device   = task.vgamma_pm;
-  const auto* vgamma_bb_device   = task.vgamma_mm;
-  const auto* v2rho2_a_a_device    = task.v2rho2_a_a;
-  const auto* v2rho2_a_b_device    = task.v2rho2_a_b;
-  const auto* v2rho2_b_b_device    = task.v2rho2_b_b;
-  const auto* v2rhogamma_a_aa_device = task.v2rhogamma_a_aa;
-  const auto* v2rhogamma_a_ab_device = task.v2rhogamma_a_ab;
-  const auto* v2rhogamma_a_bb_device = task.v2rhogamma_a_bb;
-  const auto* v2rhogamma_b_aa_device = task.v2rhogamma_b_aa;
-  const auto* v2rhogamma_b_ab_device = task.v2rhogamma_b_ab;
-  const auto* v2rhogamma_b_bb_device = task.v2rhogamma_b_bb;
-  const auto* v2gamma2_aa_aa_device = task.v2gamma2_aa_aa;
-  const auto* v2gamma2_aa_ab_device = task.v2gamma2_aa_ab;
-  const auto* v2gamma2_aa_bb_device = task.v2gamma2_aa_bb;
-  const auto* v2gamma2_ab_ab_device = task.v2gamma2_ab_ab;
-  const auto* v2gamma2_ab_bb_device = task.v2gamma2_ab_bb;
-  const auto* v2gamma2_bb_bb_device = task.v2gamma2_bb_bb;
-
-  auto* FXC_A_s_device        = task.FXC_A_s;
-  auto* FXC_A_z_device        = task.FXC_A_z;
-  auto* FXC_Bx_s_device       = task.FXC_Bx_s;
-  auto* FXC_Bx_z_device       = task.FXC_Bx_z;
-  auto* FXC_By_s_device       = task.FXC_By_s;
-  auto* FXC_By_z_device       = task.FXC_By_z;
-  auto* FXC_Bz_s_device       = task.FXC_Bz_s;
-  auto* FXC_Bz_z_device       = task.FXC_Bz_z;
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const auto ps = tden_s_device[ tid ];
-    const auto pz = tden_z_device[ tid ];
-    const auto trho_a_device = 0.5*(ps + pz);
-    const auto trho_b_device = 0.5*(ps - pz);
-
-    const auto tdndx   = tden_pos_x_eval_device[ tid ];
-    const auto tdndy   = tden_pos_y_eval_device[ tid ];
-    const auto tdndz   = tden_pos_z_eval_device[ tid ];
-    const auto tdMzdx  = tden_neg_x_eval_device[ tid ];
-    const auto tdMzdy  = tden_neg_y_eval_device[ tid ];
-    const auto tdMzdz  = tden_neg_z_eval_device[ tid ];
-    const auto tdden_a_x = 0.5*(tdndx + tdMzdx);
-    const auto tdden_a_y = 0.5*(tdndy + tdMzdy);
-    const auto tdden_a_z = 0.5*(tdndz + tdMzdz);
-    const auto tdden_b_x = 0.5*(tdndx - tdMzdx);
-    const auto tdden_b_y = 0.5*(tdndy - tdMzdy);
-    const auto tdden_b_z = 0.5*(tdndz - tdMzdz);
-
-    const auto dndx   = den_pos_x_eval_device[ tid ];
-    const auto dndy   = den_pos_y_eval_device[ tid ];
-    const auto dndz   = den_pos_z_eval_device[ tid ];
-    const auto dMzdx  = den_neg_x_eval_device[ tid ];
-    const auto dMzdy  = den_neg_y_eval_device[ tid ];
-    const auto dMzdz  = den_neg_z_eval_device[ tid ];
-    const auto dden_a_x = 0.5*(dndx + dMzdx);
-    const auto dden_a_y = 0.5*(dndy + dMzdy);
-    const auto dden_a_z = 0.5*(dndz + dMzdz);
-    const auto dden_b_x = 0.5*(dndx - dMzdx);
-    const auto dden_b_y = 0.5*(dndy - dMzdy);
-    const auto dden_b_z = 0.5*(dndz - dMzdz);
-
-    const auto tgamma_pp = tdden_a_x * dden_a_x + tdden_a_y * dden_a_y + tdden_a_z * dden_a_z;
-    const auto tgamma_pm = tdden_a_x * dden_b_x + tdden_a_y * dden_b_y + tdden_a_z * dden_b_z
-                                 + tdden_b_x * dden_a_x + tdden_b_y * dden_a_y + tdden_b_z * dden_a_z;
-    const auto tgamma_mm = tdden_b_x * dden_b_x + tdden_b_y * dden_b_y + tdden_b_z * dden_b_z;
-
-    
-    const auto A_a = v2rho2_a_a_device[tid] * trho_a_device + 2.0 * v2rhogamma_a_aa_device[tid] * tgamma_pp + 
-          v2rhogamma_a_ab_device[tid] * tgamma_pm + 2.0 * v2rhogamma_a_bb_device[tid] * tgamma_mm + 
-          v2rho2_a_b_device[tid] * trho_b_device;
-    const auto A_b = v2rho2_b_b_device[tid] * trho_b_device + 2.0 * v2rhogamma_b_bb_device[tid] * tgamma_mm + 
-          v2rhogamma_b_ab_device[tid] * tgamma_pm + 2.0 * v2rhogamma_b_aa_device[tid] * tgamma_pp + 
-          v2rho2_a_b_device[tid] * trho_a_device;
-    FXC_A_s_device[ tid ] = 0.5 * weight_device[ tid ] * (A_a + A_b);
-    FXC_A_z_device[ tid ] = 0.5 * weight_device[ tid ] * (A_a - A_b);
-    // Calculate B coefficients for alpha spin
-    const double B_coef1_a = v2rhogamma_a_aa_device[tid] * trho_a_device   + 2.0 * v2gamma2_aa_aa_device[tid] * tgamma_pp + 
-                 v2gamma2_aa_ab_device[tid] * tgamma_pm + 2.0 * v2gamma2_aa_bb_device[tid] * tgamma_mm + 
-                 v2rhogamma_b_aa_device[tid] * trho_b_device;
-
-    const double B_coef2_a = v2rhogamma_a_ab_device[tid] * trho_a_device + 2.0 * v2gamma2_aa_ab_device[tid] * tgamma_pp + 
-          v2gamma2_ab_ab_device[tid] * tgamma_pm + 2.0 * v2gamma2_ab_bb_device[tid] * tgamma_mm +
-          v2rhogamma_b_ab_device[tid] * trho_b_device;
-
-    // Calculate gradient components for alpha spin
-    const double Bx_a = 2.0 * B_coef1_a * dden_a_x + B_coef2_a * dden_b_x + 
-           2.0 * vgamma_aa_device[tid] * tdden_a_x + vgamma_ab_device[tid] * tdden_b_x;
-
-    const double By_a = 2.0 * B_coef1_a * dden_a_y + B_coef2_a * dden_b_y + 
-           2.0 * vgamma_aa_device[tid] * tdden_a_y + vgamma_ab_device[tid] * tdden_b_y;
-
-    const double Bz_a = 2.0 * B_coef1_a * dden_a_z + B_coef2_a * dden_b_z + 
-           2.0 * vgamma_aa_device[tid] * tdden_a_z + vgamma_ab_device[tid] * tdden_b_z;
-
-    // Calculate B coefficients for beta spin
-    const double B_coef1_b = v2rhogamma_b_bb_device[tid] * trho_b_device + 2.0 * v2gamma2_bb_bb_device[tid] * tgamma_mm + 
-          v2gamma2_ab_bb_device[tid] * tgamma_pm + 2.0 * v2gamma2_aa_bb_device[tid] * tgamma_pp + 
-          v2rhogamma_a_bb_device[tid] * trho_a_device;
-
-    const double B_coef2_b = v2rhogamma_b_ab_device[tid] * trho_b_device + 2.0 * v2gamma2_ab_bb_device[tid] * tgamma_mm + 
-          v2gamma2_ab_ab_device[tid] * tgamma_pm + 2.0 * v2gamma2_aa_ab_device[tid] * tgamma_pp + 
-          v2rhogamma_a_ab_device[tid] * trho_a_device;
-
-    const double Bx_b = 2.0 * B_coef1_b * dden_b_x + B_coef2_b * dden_a_x + 
-           2.0 * vgamma_bb_device[tid] * tdden_b_x + vgamma_ab_device[tid] * tdden_a_x;
-
-    const double By_b = 2.0 * B_coef1_b * dden_b_y + B_coef2_b * dden_a_y + 
-           2.0 * vgamma_bb_device[tid] * tdden_b_y + vgamma_ab_device[tid] * tdden_a_y;
-
-    const double Bz_b = 2.0 * B_coef1_b * dden_b_z + B_coef2_b * dden_a_z + 
-           2.0 * vgamma_bb_device[tid] * tdden_b_z + vgamma_ab_device[tid] * tdden_a_z;
-
-    FXC_Bx_s_device[tid] = 0.5 * weight_device[tid] * (Bx_a + Bx_b);
-    FXC_By_s_device[tid] = 0.5 * weight_device[tid] * (By_a + By_b);
-    FXC_Bz_s_device[tid] = 0.5 * weight_device[tid] * (Bz_a + Bz_b);
-    FXC_Bx_z_device[tid] = 0.5 * weight_device[tid] * (Bx_a - Bx_b);
-    FXC_By_z_device[tid] = 0.5 * weight_device[tid] * (By_a - By_b);
-    FXC_Bz_z_device[tid] = 0.5 * weight_device[tid] * (Bz_a - Bz_b);
-
-
-  }
-
-}
-
-__global__ void eval_uvars_gga_gks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-
-        auto*     den_s_eval_device   = task.den_s;
-  const auto*     dden_sx_eval_device = task.dden_sx;
-  const auto*     dden_sy_eval_device = task.dden_sy;
-  const auto*     dden_sz_eval_device = task.dden_sz;
-
-        auto*     den_z_eval_device   = task.den_z;
-  const auto*     dden_zx_eval_device = task.dden_zx;
-  const auto*     dden_zy_eval_device = task.dden_zy;
-  const auto*     dden_zz_eval_device = task.dden_zz;
-
-  const auto*     den_y_eval_device   = task.den_y;
-  const auto*     dden_yx_eval_device = task.dden_yx;
-  const auto*     dden_yy_eval_device = task.dden_yy;
-  const auto*     dden_yz_eval_device = task.dden_yz;
-
-  const auto*     den_x_eval_device   = task.den_x;
-  const auto*     dden_xx_eval_device = task.dden_xx;
-  const auto*     dden_xy_eval_device = task.dden_xy;
-  const auto*     dden_xz_eval_device = task.dden_xz;
-
-  auto*     gamma_pp_eval_device  = task.gamma_pp;
-  auto*     gamma_pm_eval_device  = task.gamma_pm;
-  auto*     gamma_mm_eval_device  = task.gamma_mm;
-
-  auto*     H_z_eval_device = task.H_z;
-  auto*     H_y_eval_device = task.H_y;
-  auto*     H_x_eval_device = task.H_x;
-  auto*     K_z_eval_device = task.K_z;
-  auto*     K_y_eval_device = task.K_y;
-  auto*     K_x_eval_device = task.K_x;
-
-  const double dtolsq = 1e-24;  // TODO: make variable
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const double dndz = dden_sz_eval_device[ tid ];
-    const double dndy = dden_sy_eval_device[ tid ];
-    const double dndx = dden_sx_eval_device[ tid ];
-
-    const double dMzdz = dden_zz_eval_device[ tid ];
-    const double dMzdy = dden_zy_eval_device[ tid ];
-    const double dMzdx = dden_zx_eval_device[ tid ];
-
-    const double dMydz = dden_yz_eval_device[ tid ];
-    const double dMydy = dden_yy_eval_device[ tid ];
-    const double dMydx = dden_yx_eval_device[ tid ];
-
-    const double dMxdz = dden_xz_eval_device[ tid ];
-    const double dMxdy = dden_xy_eval_device[ tid ];
-    const double dMxdx = dden_xx_eval_device[ tid ];
-
-    const auto ps = den_s_eval_device[ tid ];
-    const auto pz = den_z_eval_device[ tid ];
-    const auto py = den_y_eval_device[ tid ];
-    const auto px = den_x_eval_device[ tid ];
-
-    const auto mtemp = pz*pz + px*px + py*py;
-    double mnorm = 0.;
-
-    const auto dels_dot_dels = dndx * dndx + dndy * dndy + dndz * dndz;
-    const auto delz_dot_delz = dMzdx * dMzdx + dMzdy * dMzdy + dMzdz * dMzdz;
-    const auto delx_dot_delx = dMxdx * dMxdx + dMxdy * dMxdy + dMxdz * dMxdz;
-    const auto dely_dot_dely = dMydx * dMydx + dMydy * dMydy + dMydz * dMydz;
-
-    const auto dels_dot_delz = dndx * dMzdx + dndy * dMzdy + dndz * dMzdz;
-    const auto dels_dot_delx = dndx * dMxdx + dndy * dMxdy + dndz * dMxdz;
-    const auto dels_dot_dely = dndx * dMydx + dndy * dMydy + dndz * dMydz;
-
-    const auto sum = delz_dot_delz + delx_dot_delx + dely_dot_dely;
-    const auto s_sum =
-               dels_dot_delz * pz + dels_dot_delx * px + dels_dot_dely * py;
-
-    const auto inv_sqsum2 =
-        rsqrt(dels_dot_delz * dels_dot_delz + dels_dot_delx * dels_dot_delx +
-             dels_dot_dely * dels_dot_dely);
-    const auto sqsum2 = 1./inv_sqsum2;
-
-    double sign = 1.;
-    if( signbit(s_sum)) 
-      sign = -1.;
-
-
-    if (mtemp > dtolsq) {
-      const double inv_mnorm = rsqrt(mtemp);
-      mnorm = 1./inv_mnorm;
-      K_z_eval_device[ tid ] = pz * inv_mnorm;
-      K_y_eval_device[ tid ] = py * inv_mnorm;
-      K_x_eval_device[ tid ] = px * inv_mnorm;
-      H_z_eval_device[ tid ] = sign * dels_dot_delz * inv_sqsum2;
-      H_y_eval_device[ tid ] = sign * dels_dot_dely * inv_sqsum2;
-      H_x_eval_device[ tid ] = sign * dels_dot_delx * inv_sqsum2;
-    }
-    else {
-      mnorm = (1. / 3.) * (px + py + pz);
-      K_z_eval_device[ tid ] = 1. / 3.;
-      K_y_eval_device[ tid ] = 1. / 3.;
-      K_x_eval_device[ tid ] = 1. / 3.;
-
-      H_z_eval_device[ tid ] = sign / 3.;
-      H_y_eval_device[ tid ] = sign / 3.;
-      H_x_eval_device[ tid ] = sign / 3.;
-    }
-
-    gamma_pp_eval_device[ tid ] = 0.25*(dels_dot_dels + sum) + 0.5*sign*sqsum2;
-    gamma_pm_eval_device[ tid ] = 0.25*(dels_dot_dels - sum);
-    gamma_mm_eval_device[ tid ] = 0.25*(dels_dot_dels + sum) - 0.5*sign*sqsum2;
-
-    den_s_eval_device[ tid ] = 0.5*(ps + mnorm);
-    den_z_eval_device[ tid ] = 0.5*(ps - mnorm);
-
-  }
-
-}
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_lda.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_lda.hpp
deleted file mode 100644
index 54dc504..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_lda.hpp
+++ /dev/null
@@ -1,208 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device_specific/cuda_device_constants.hpp"
-#include "device_specific/cuda_util.hpp"
-#include "device/xc_device_data.hpp"
-
-namespace GauXC {
-
-template <bool trial, density_id den_select>
-__global__ void eval_vvar_lda_kern( size_t        ntasks,
-                                    XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  double* den_eval_device   = nullptr;
-  // use the "U" variable (+/- for UKS) even though at this point the density (S/Z) is stored
-  if constexpr (trial){
-    if constexpr (den_select == DEN_S) den_eval_device = task.tden_s;
-    if constexpr (den_select == DEN_Z) den_eval_device = task.tden_z;
-    if constexpr (den_select == DEN_Y) den_eval_device = task.tden_y;
-    if constexpr (den_select == DEN_X) den_eval_device = task.tden_x;
-  }else{
-      if constexpr (den_select == DEN_S) den_eval_device = task.den_s;
-      if constexpr (den_select == DEN_Z) den_eval_device = task.den_z;
-      if constexpr (den_select == DEN_Y) den_eval_device = task.den_y;
-      if constexpr (den_select == DEN_X) den_eval_device = task.den_x;
-  }
-
-  const auto* basis_eval_device = task.bf;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  register double den_reg = 0.;
-
-  if( tid_x < nbf and tid_y < npts ) {
-
-    const double* bf_col   = basis_eval_device     + tid_x*npts;
-    const double* db_col   = den_basis_prod_device + tid_x*npts;
-
-    den_reg = bf_col[ tid_y ]   * db_col[ tid_y ];
-
-  }
-
-  // Warp blocks are stored col major
-  constexpr auto warp_size = cuda::warp_size;
-  //constexpr auto max_warps_per_thread_block = cuda::max_warps_per_thread_block;
-  den_reg = cuda::warp_reduce_sum<warp_size>( den_reg );
-
-
-  if( threadIdx.x == 0 and tid_y < npts ) {
-    atomicAdd( den_eval_device   + tid_y, den_reg );
-  }
-  
-}
-
-__global__ void eval_uvars_lda_rks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-  // eval_vvars populated uvar storage already in the case of LDA+RKS
-  return;
-}
-__global__ void eval_tmat_lda_rks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts  = task.npts;
-
-  const auto* v2rho2_device  = task.v2rho2;
-  const auto* weight_device  = task.weights;
-  auto* tden_s_eval_device   = task.tden_s;
-  auto* FXC_A_device   = task.FXC_A_s;
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-  if( tid < npts ) {
-    FXC_A_device[ tid ] = v2rho2_device[ tid ] * tden_s_eval_device[ tid ] * weight_device[ tid ];
-  }
-
-  return;
-}
-
-
-__global__ void eval_uvars_lda_uks_kernel( size_t        ntasks,
-  XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-
-  auto* den_pos_eval_device   = task.den_s;
-  auto* den_neg_eval_device   = task.den_z;
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const auto ps = den_pos_eval_device[ tid ];
-    const auto pz = den_neg_eval_device[ tid ];
-    den_pos_eval_device[ tid ] = 0.5*(ps + pz);
-    den_neg_eval_device[ tid ] = 0.5*(ps - pz);
-  }
-}
-
-__global__ void eval_tmat_lda_uks_kernel( size_t        ntasks,
-  XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-
-  auto* tden_s_device   = task.tden_s;
-  auto* tden_z_device   = task.tden_z;
-  auto* FXC_A_s_device        = task.FXC_A_s;
-  auto* FXC_A_z_device        = task.FXC_A_z;
-  const auto* weight_device   = task.weights;
-
-  const auto* v2rho2_a_a_device    = task.v2rho2_a_a;
-  const auto* v2rho2_a_b_device    = task.v2rho2_a_b;
-  const auto* v2rho2_b_b_device    = task.v2rho2_b_b;
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const auto ps = tden_s_device[ tid ];
-    const auto pz = tden_z_device[ tid ];
-    const auto trho_a_device = 0.5*(ps + pz);
-    const auto trho_b_device = 0.5*(ps - pz);
-    const auto A_a = v2rho2_a_a_device[tid] * trho_a_device + v2rho2_a_b_device[tid] * trho_b_device;
-    const auto A_b = v2rho2_b_b_device[tid] * trho_b_device + v2rho2_a_b_device[tid] * trho_a_device;
-    FXC_A_s_device[ tid ] = 0.5 * weight_device[ tid ] * (A_a + A_b);
-    FXC_A_z_device[ tid ] = 0.5 * weight_device[ tid ] * (A_a - A_b);
-  }
-}
-
-__global__ void eval_uvars_lda_gks_kernel( size_t        ntasks,
-                                           XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-
-  auto* den_z_eval_device   = task.den_s;
-  auto* den_s_eval_device   = task.den_z;
-  auto* den_y_eval_device   = task.den_y;
-  auto* den_x_eval_device   = task.den_x;
-  auto* K_z_eval_device     = task.K_z;
-  auto* K_y_eval_device     = task.K_y;
-  auto* K_x_eval_device     = task.K_x;
-  const double dtolsq = 1e-24;  // TODO: make variable
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-
-  if( tid < npts ) {
-    const auto ps = den_s_eval_device[ tid ];
-    const auto pz = den_z_eval_device[ tid ];
-    const auto py = den_y_eval_device[ tid ];
-    const auto px = den_x_eval_device[ tid ];
-    const auto mtemp = pz*pz + px*px + py*py;
-    double mnorm = 0.;
-  
-    if (mtemp > dtolsq) {
-      const double inv_mnorm = rsqrt(mtemp);
-      mnorm = 1./inv_mnorm;
-      K_z_eval_device[ tid ] = pz * inv_mnorm;
-      K_y_eval_device[ tid ] = py * inv_mnorm;
-      K_x_eval_device[ tid ] = px * inv_mnorm;
-    }
-    else {
-      mnorm = (1. / 3.) * (px + py + pz);
-      K_z_eval_device[ tid ] = 1. / 3.;
-      K_y_eval_device[ tid ] = 1. / 3.;
-      K_x_eval_device[ tid ] = 1. / 3.;
-    }
-
-    den_s_eval_device[ tid ] = 0.5*(ps + mnorm);
-    den_z_eval_device[ tid ] = 0.5*(ps - mnorm);
-
-  }
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_mgga.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_mgga.hpp
deleted file mode 100644
index 82b5207..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/uvvars_mgga.hpp
+++ /dev/null
@@ -1,455 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device_specific/cuda_device_constants.hpp"
-#include "device_specific/cuda_util.hpp"
-#include "device/xc_device_data.hpp"
-
-#define MGGA_KERNEL_SM_BLOCK 32
-
-namespace GauXC {
-
-
-
-template <bool trial, density_id den_select, bool need_lapl>
-__global__ void eval_vvar_mgga_kern( size_t           ntasks,
-                                     XCDeviceTask* tasks_device) {
-
-  constexpr auto warp_size = cuda::warp_size;
-  //constexpr auto max_warps_per_thread_block = cuda::max_warps_per_thread_block;
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  double* tau_eval_device  = nullptr;
-  double* lapl_eval_device = nullptr;
-
-  if constexpr (trial){
-    if constexpr (den_select == DEN_S) {
-      tau_eval_device = task.ttau_s;
-      if constexpr (need_lapl) {
-        lapl_eval_device = task.tlapl_s;
-      }
-    }
-    if constexpr (den_select == DEN_Z) {
-      tau_eval_device = task.ttau_z;
-      if constexpr (need_lapl) {
-        lapl_eval_device = task.tlapl_z;
-      }
-    }
-  } else{
-    if constexpr (den_select == DEN_S) {
-      tau_eval_device = task.tau_s;
-      if constexpr (need_lapl) {
-        lapl_eval_device = task.lapl_s;
-      }
-    }
-    if constexpr (den_select == DEN_Z) {
-      tau_eval_device = task.tau_z;
-      if constexpr (need_lapl) {
-        lapl_eval_device = task.lapl_z;
-      }
-    }
-  }
-
-  //const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-  decltype(dbasis_x_eval_device) basis_lapl_eval_device = nullptr;
-  if constexpr (need_lapl) {
-    basis_lapl_eval_device = task.d2bflapl;
-  }
-
-  //const auto* den_basis_prod_device    = task.zmat;
-  const auto* den_basis_dx_prod_device = task.xmat_x;
-  const auto* den_basis_dy_prod_device = task.xmat_y;
-  const auto* den_basis_dz_prod_device = task.xmat_z;
-  decltype(den_basis_dx_prod_device) den_basis_prod_device = nullptr;
-  if constexpr (need_lapl) {
-    den_basis_prod_device = task.zmat;
-  }
-
-  __shared__ double den_shared[3+!!need_lapl][warp_size][MGGA_KERNEL_SM_BLOCK+1];
-
-  for ( int bid_x = blockIdx.x * blockDim.x; 
-        bid_x < nbf;
-        bid_x += blockDim.x * gridDim.x ) {
-    
-    for ( int bid_y = blockIdx.y * MGGA_KERNEL_SM_BLOCK; 
-          bid_y < npts;
-          bid_y += MGGA_KERNEL_SM_BLOCK * gridDim.y ) {
-        
-      for (int sm_y = threadIdx.y; sm_y < MGGA_KERNEL_SM_BLOCK; sm_y += blockDim.y) {
-        den_shared[0][threadIdx.x][sm_y] = 0.;
-        den_shared[1][threadIdx.x][sm_y] = 0.;
-        den_shared[2][threadIdx.x][sm_y] = 0.;
-        if constexpr (need_lapl)
-          den_shared[3][threadIdx.x][sm_y] = 0.;
-
-        if (bid_y + threadIdx.x < npts and bid_x + sm_y < nbf) { 
-          const double* db_x_col = den_basis_dx_prod_device + (bid_x + sm_y)*npts;
-          const double* db_y_col = den_basis_dy_prod_device + (bid_x + sm_y)*npts;
-          const double* db_z_col = den_basis_dz_prod_device + (bid_x + sm_y)*npts;
-
-          const double* bf_x_col = dbasis_x_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_y_col = dbasis_y_eval_device  + (bid_x + sm_y)*npts;
-          const double* bf_z_col = dbasis_z_eval_device  + (bid_x + sm_y)*npts;
-
-
-          den_shared[0][threadIdx.x][sm_y] = bf_x_col[ bid_y + threadIdx.x ] * db_x_col[ bid_y + threadIdx.x ];
-          den_shared[1][threadIdx.x][sm_y] = bf_y_col[ bid_y + threadIdx.x ] * db_y_col[ bid_y + threadIdx.x ];
-          den_shared[2][threadIdx.x][sm_y] = bf_z_col[ bid_y + threadIdx.x ] * db_z_col[ bid_y + threadIdx.x ];
-
-
-          if constexpr (need_lapl) {
-            const double* db_col   = den_basis_prod_device  + (bid_x + sm_y)*npts;
-            const double* bf_l_col = basis_lapl_eval_device + (bid_x + sm_y)*npts;
-            den_shared[3][threadIdx.x][sm_y] = bf_l_col[ bid_y + threadIdx.x ] * db_col[ bid_y + threadIdx.x ];
-          }
-        }
-      }
-      __syncthreads();
-
-
-      for (int sm_y = threadIdx.y; sm_y < MGGA_KERNEL_SM_BLOCK; sm_y += blockDim.y) {
-        const int tid_y = bid_y + sm_y;
-
-        register double tx_reg  = den_shared[0][sm_y][threadIdx.x];
-        register double ty_reg  = den_shared[1][sm_y][threadIdx.x];
-        register double tz_reg  = den_shared[2][sm_y][threadIdx.x];
-        // Warp blocks are stored col major
-        register double tau_reg = 0.0;
-        tau_reg  = 0.5 * cuda::warp_reduce_sum<warp_size>( tx_reg );
-        tau_reg += 0.5 * cuda::warp_reduce_sum<warp_size>( ty_reg );
-        tau_reg += 0.5 * cuda::warp_reduce_sum<warp_size>( tz_reg );
-
-        register double lapl_reg = 0.0;
-        if constexpr (need_lapl) {
-          lapl_reg = den_shared[3][sm_y][threadIdx.x];
-          lapl_reg = cuda::warp_reduce_sum<warp_size>(lapl_reg);
-          lapl_reg = 2. * lapl_reg + 4. * tau_reg;
-        }
-
-        if( threadIdx.x == 0 and tid_y < npts ) {
-          atomicAdd( tau_eval_device   + tid_y, tau_reg );
-          if constexpr (need_lapl) {
-            atomicAdd( lapl_eval_device   + tid_y, lapl_reg );
-          }
-        }
-      }
-      __syncthreads();
-    }
-  }
-}
-
-
-
-
-template <bool need_lapl>
-__global__ void eval_uvars_mgga_uks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts  = task.npts;
-
-  auto* tau_pos_eval_device = task.tau_s;
-  auto* tau_neg_eval_device = task.tau_z;
-
-  double* lapl_pos_eval_device = nullptr;
-  double* lapl_neg_eval_device = nullptr;
-  if constexpr (need_lapl) {
-    lapl_pos_eval_device = task.lapl_s;
-    lapl_neg_eval_device = task.lapl_z;
-  }
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const double ts = tau_pos_eval_device[ tid ];
-    const double tz = tau_neg_eval_device[ tid ];
-    tau_pos_eval_device[ tid ] = 0.5*(ts + tz);
-    tau_neg_eval_device[ tid ] = 0.5*(ts - tz);
-
-    if constexpr (need_lapl) {
-      const double ls = lapl_pos_eval_device[ tid ];
-      const double lz = lapl_neg_eval_device[ tid ];
-      lapl_pos_eval_device[ tid ] = 0.5*(ls + lz);
-      lapl_neg_eval_device[ tid ] = 0.5*(ls - lz);
-    }
-  }
-
-}
-
-
-__global__ void eval_tmat_mgga_rks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-  
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts  = task.npts;
-  
-  const auto*   dden_sx_eval_device = task.dden_sx;
-  const auto*   dden_sy_eval_device = task.dden_sy;
-  const auto*   dden_sz_eval_device = task.dden_sz;
-  const auto*   tdden_sx_eval_device = task.tdden_sx;
-  const auto*   tdden_sy_eval_device = task.tdden_sy;
-  const auto*   tdden_sz_eval_device = task.tdden_sz;
-
-  const auto* weight_device  = task.weights;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* v2rho2_device     = task.v2rho2;
-  const auto* v2rhogamma_device = task.v2rhogamma;
-  const auto* v2gamma2_device   = task.v2gamma2;
-  const auto* v2rhotau_device  = task.v2rhotau;
-  const auto* v2tau2_device   = task.v2tau2;
-  const auto* v2gammatau_device = task.v2gammatau;
-  const auto* trho_device       = task.tden_s;
-  const auto* ttau_device       = task.ttau_s;
-
-  auto* FXC_A_device   = task.FXC_A_s;
-  auto* FXC_Bx_device   = task.FXC_Bx_s;
-  auto* FXC_By_device   = task.FXC_By_s;
-  auto* FXC_Bz_device   = task.FXC_Bz_s;
-  auto* FXC_C_device   = task.FXC_C_s;
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-
-  if( tid < npts ) {
-    const auto dx = dden_sx_eval_device[ tid ];
-    const auto dy = dden_sy_eval_device[ tid ];
-    const auto dz = dden_sz_eval_device[ tid ];
-    const auto tdx = tdden_sx_eval_device[ tid ];
-    const auto tdy = tdden_sy_eval_device[ tid ];
-    const auto tdz = tdden_sz_eval_device[ tid ];
-    const auto tgamma = tdx*dx + tdy*dy + tdz*dz;
-
-    const auto FXC_A = v2rho2_device[ tid ] * trho_device[ tid ] + 2.0 * v2rhogamma_device[tid] * tgamma + 
-        v2rhotau_device[ tid ] * ttau_device[ tid ];
-    FXC_A_device[ tid ]  = weight_device[ tid ] * FXC_A;
-
-    const auto FXC_C = v2rhotau_device[ tid ] * trho_device[ tid ] + 2.0 * v2gammatau_device[ tid ] * tgamma +
-        v2tau2_device[ tid ] * ttau_device[ tid ];
-    FXC_C_device[ tid ]  = weight_device[ tid ] * FXC_C;
-
-    const auto B_coef = v2rhogamma_device[tid] * trho_device[tid] + 2.0 * v2gamma2_device[tid] * tgamma +
-        v2gammatau_device[ tid ] * ttau_device[ tid ];
-    FXC_Bx_device[ tid ] = 2.0 * weight_device[ tid ] * ( B_coef * dx + vgamma_device[ tid ] * tdx );
-    FXC_By_device[ tid ] = 2.0 * weight_device[ tid ] * ( B_coef * dy + vgamma_device[ tid ] * tdy );
-    FXC_Bz_device[ tid ] = 2.0 * weight_device[ tid ] * ( B_coef * dz + vgamma_device[ tid ] * tdz );
-  }
-
-}
-
-
-
-__global__ void eval_tmat_mgga_uks_kernel( size_t ntasks, XCDeviceTask* tasks_device) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  const auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-
-  const auto* tden_s_device   = task.tden_s;
-  const auto* tden_z_device   = task.tden_z;
-  const auto* ttau_s_device   = task.ttau_s;
-  const auto* ttau_z_device   = task.ttau_z;
-  const auto* weight_device   = task.weights;
-
-  const auto*     tden_pos_x_eval_device = task.tdden_sx;
-  const auto*     tden_pos_y_eval_device = task.tdden_sy;
-  const auto*     tden_pos_z_eval_device = task.tdden_sz;
-  const auto*     den_pos_x_eval_device = task.dden_sx;
-  const auto*     den_pos_y_eval_device = task.dden_sy;
-  const auto*     den_pos_z_eval_device = task.dden_sz;
-
-  const auto*     tden_neg_x_eval_device = task.tdden_zx;
-  const auto*     tden_neg_y_eval_device = task.tdden_zy;
-  const auto*     tden_neg_z_eval_device = task.tdden_zz;
-  const auto*     den_neg_x_eval_device = task.dden_zx;
-  const auto*     den_neg_y_eval_device = task.dden_zy;
-  const auto*     den_neg_z_eval_device = task.dden_zz;
-
-  const double* vgamma_aa_device   = task.vgamma_pp;
-  const double* vgamma_ab_device   = task.vgamma_pm;
-  const double* vgamma_bb_device   = task.vgamma_mm;
-  const double* v2rho2_a_a_device    = task.v2rho2_a_a;
-  const double* v2rho2_a_b_device    = task.v2rho2_a_b;
-  const double* v2rho2_b_b_device    = task.v2rho2_b_b;
-  const double* v2rhogamma_a_aa_device = task.v2rhogamma_a_aa;
-  const double* v2rhogamma_a_ab_device = task.v2rhogamma_a_ab;
-  const double* v2rhogamma_a_bb_device = task.v2rhogamma_a_bb;
-  const double* v2rhogamma_b_aa_device = task.v2rhogamma_b_aa;
-  const double* v2rhogamma_b_ab_device = task.v2rhogamma_b_ab;
-  const double* v2rhogamma_b_bb_device = task.v2rhogamma_b_bb;
-  const double* v2gamma2_aa_aa_device = task.v2gamma2_aa_aa;
-  const double* v2gamma2_aa_ab_device = task.v2gamma2_aa_ab;
-  const double* v2gamma2_aa_bb_device = task.v2gamma2_aa_bb;
-  const double* v2gamma2_ab_ab_device = task.v2gamma2_ab_ab;
-  const double* v2gamma2_ab_bb_device = task.v2gamma2_ab_bb;
-  const double* v2gamma2_bb_bb_device = task.v2gamma2_bb_bb;
-  const double* v2rhotau_a_a_device   = task.v2rhotau_a_a;
-  const double* v2rhotau_a_b_device   = task.v2rhotau_a_b;
-  const double* v2rhotau_b_a_device   = task.v2rhotau_b_a;
-  const double* v2rhotau_b_b_device   = task.v2rhotau_b_b;
-  const double* v2gammatau_aa_a_device= task.v2gammatau_aa_a;
-  const double* v2gammatau_aa_b_device= task.v2gammatau_aa_b;
-  const double* v2gammatau_ab_a_device= task.v2gammatau_ab_a;
-  const double* v2gammatau_ab_b_device= task.v2gammatau_ab_b;
-  const double* v2gammatau_bb_a_device= task.v2gammatau_bb_a;
-  const double* v2gammatau_bb_b_device= task.v2gammatau_bb_b;
-  const double* v2tau2_a_a_device   = task.v2tau2_a_a;
-  const double* v2tau2_a_b_device   = task.v2tau2_a_b;
-  const double* v2tau2_b_b_device   = task.v2tau2_b_b;
-
-  auto* FXC_A_s_device        = task.FXC_A_s;
-  auto* FXC_A_z_device        = task.FXC_A_z;
-  auto* FXC_Bx_s_device       = task.FXC_Bx_s;
-  auto* FXC_Bx_z_device       = task.FXC_Bx_z;
-  auto* FXC_By_s_device       = task.FXC_By_s;
-  auto* FXC_By_z_device       = task.FXC_By_z;
-  auto* FXC_Bz_s_device       = task.FXC_Bz_s;
-  auto* FXC_Bz_z_device       = task.FXC_Bz_z;
-  auto* FXC_C_s_device        = task.FXC_C_s;
-  auto* FXC_C_z_device        = task.FXC_C_z;
-
-  const int tid = blockIdx.x * blockDim.x + threadIdx.x;
-
-  if( tid < npts ) {
-    const auto ps = tden_s_device[ tid ];
-    const auto pz = tden_z_device[ tid ];
-    const auto trho_a_device = 0.5*(ps + pz);
-    const auto trho_b_device = 0.5*(ps - pz);
-    const auto ts = ttau_s_device[ tid ];
-    const auto tz = ttau_z_device[ tid ];
-    const auto tau_a = 0.5*(ts + tz);
-    const auto tau_b = 0.5*(ts - tz);
-
-    const auto tdndx   = tden_pos_x_eval_device[ tid ];
-    const auto tdndy   = tden_pos_y_eval_device[ tid ];
-    const auto tdndz   = tden_pos_z_eval_device[ tid ];
-    const auto tdMzdx  = tden_neg_x_eval_device[ tid ];
-    const auto tdMzdy  = tden_neg_y_eval_device[ tid ];
-    const auto tdMzdz  = tden_neg_z_eval_device[ tid ];
-    const auto tdden_a_x = 0.5*(tdndx + tdMzdx);
-    const auto tdden_a_y = 0.5*(tdndy + tdMzdy);
-    const auto tdden_a_z = 0.5*(tdndz + tdMzdz);
-    const auto tdden_b_x = 0.5*(tdndx - tdMzdx);
-    const auto tdden_b_y = 0.5*(tdndy - tdMzdy);
-    const auto tdden_b_z = 0.5*(tdndz - tdMzdz);
-
-    const auto dndx   = den_pos_x_eval_device[ tid ];
-    const auto dndy   = den_pos_y_eval_device[ tid ];
-    const auto dndz   = den_pos_z_eval_device[ tid ];
-    const auto dMzdx  = den_neg_x_eval_device[ tid ];
-    const auto dMzdy  = den_neg_y_eval_device[ tid ];
-    const auto dMzdz  = den_neg_z_eval_device[ tid ];
-    const auto dden_a_x = 0.5*(dndx + dMzdx);
-    const auto dden_a_y = 0.5*(dndy + dMzdy);
-    const auto dden_a_z = 0.5*(dndz + dMzdz);
-    const auto dden_b_x = 0.5*(dndx - dMzdx);
-    const auto dden_b_y = 0.5*(dndy - dMzdy);
-    const auto dden_b_z = 0.5*(dndz - dMzdz);
-
-    const auto tgamma_pp = tdden_a_x * dden_a_x + tdden_a_y * dden_a_y + tdden_a_z * dden_a_z;
-    const auto tgamma_pm = tdden_a_x * dden_b_x + tdden_a_y * dden_b_y + tdden_a_z * dden_b_z
-                                 + tdden_b_x * dden_a_x + tdden_b_y * dden_a_y + tdden_b_z * dden_a_z;
-    const auto tgamma_mm = tdden_b_x * dden_b_x + tdden_b_y * dden_b_y + tdden_b_z * dden_b_z;
-
-    
-    const auto A_a = v2rho2_a_a_device[tid] * trho_a_device + 2.0 * v2rhogamma_a_aa_device[tid] * tgamma_pp + 
-          v2rhogamma_a_ab_device[tid] * tgamma_pm + 2.0 * v2rhogamma_a_bb_device[tid] * tgamma_mm + 
-          v2rho2_a_b_device[tid] * trho_b_device + v2rhotau_a_a_device[tid] * tau_a +
-          v2rhotau_a_b_device[tid] * tau_b;
-    const auto A_b = v2rho2_b_b_device[tid] * trho_b_device + 2.0 * v2rhogamma_b_bb_device[tid] * tgamma_mm + 
-          v2rhogamma_b_ab_device[tid] * tgamma_pm + 2.0 * v2rhogamma_b_aa_device[tid] * tgamma_pp + 
-          v2rho2_a_b_device[tid] * trho_a_device + v2rhotau_b_b_device[tid] * tau_b +
-          v2rhotau_b_a_device[tid] * tau_a;
-    FXC_A_s_device[ tid ] = 0.5 * weight_device[ tid ] * (A_a + A_b);
-    FXC_A_z_device[ tid ] = 0.5 * weight_device[ tid ] * (A_a - A_b);
-
-    // Compute C coefficients for alpha and beta spin
-    const auto C_a = v2rhotau_a_a_device[tid] * trho_a_device + v2rhotau_b_a_device[tid] * trho_b_device
-             + 2.0 * v2gammatau_aa_a_device[tid] * tgamma_pp  + v2gammatau_ab_a_device[tid] * tgamma_pm
-             + 2.0 * v2gammatau_bb_a_device[tid] * tgamma_mm
-             + v2tau2_a_a_device[tid] * tau_a + v2tau2_a_b_device[tid] * tau_b;
-
-    const auto C_b = v2rhotau_a_b_device[tid] * trho_a_device + v2rhotau_b_b_device[tid] * trho_b_device
-             + 2.0 * v2gammatau_aa_b_device[tid] * tgamma_pp + v2gammatau_ab_b_device[tid] * tgamma_pm
-             + 2.0 * v2gammatau_bb_b_device[tid] * tgamma_mm
-             + v2tau2_a_b_device[tid] * tau_a + v2tau2_b_b_device[tid] * tau_b;
-
-    FXC_C_s_device[tid] = 0.5 * weight_device[tid] * (C_a + C_b);
-    FXC_C_z_device[tid] = 0.5 * weight_device[tid] * (C_a - C_b);
-
-    // Calculate B coefficients for alpha spin
-    const double B_coef1_a = v2rhogamma_a_aa_device[tid] * trho_a_device   + 2.0 * v2gamma2_aa_aa_device[tid] * tgamma_pp + 
-                 v2gamma2_aa_ab_device[tid] * tgamma_pm + 2.0 * v2gamma2_aa_bb_device[tid] * tgamma_mm + 
-                 v2rhogamma_b_aa_device[tid] * trho_b_device + v2gammatau_aa_a_device[tid] * tau_a +
-                 v2gammatau_aa_b_device[tid] * tau_b;
-
-    const double B_coef2_a = v2rhogamma_a_ab_device[tid] * trho_a_device + 2.0 * v2gamma2_aa_ab_device[tid] * tgamma_pp + 
-          v2gamma2_ab_ab_device[tid] * tgamma_pm + 2.0 * v2gamma2_ab_bb_device[tid] * tgamma_mm +
-          v2rhogamma_b_ab_device[tid] * trho_b_device + v2gammatau_ab_a_device[tid] * tau_a +
-          v2gammatau_ab_b_device[tid] * tau_b;
-
-    // Calculate gradient components for alpha spin
-    const double Bx_a = 2.0 * B_coef1_a * dden_a_x + B_coef2_a * dden_b_x + 
-           2.0 * vgamma_aa_device[tid] * tdden_a_x + vgamma_ab_device[tid] * tdden_b_x;
-
-    const double By_a = 2.0 * B_coef1_a * dden_a_y + B_coef2_a * dden_b_y + 
-           2.0 * vgamma_aa_device[tid] * tdden_a_y + vgamma_ab_device[tid] * tdden_b_y;
-
-    const double Bz_a = 2.0 * B_coef1_a * dden_a_z + B_coef2_a * dden_b_z + 
-           2.0 * vgamma_aa_device[tid] * tdden_a_z + vgamma_ab_device[tid] * tdden_b_z;
-
-    // Calculate B coefficients for beta spin
-    const double B_coef1_b = v2rhogamma_b_bb_device[tid] * trho_b_device + 2.0 * v2gamma2_bb_bb_device[tid] * tgamma_mm + 
-          v2gamma2_ab_bb_device[tid] * tgamma_pm + 2.0 * v2gamma2_aa_bb_device[tid] * tgamma_pp + 
-          v2rhogamma_a_bb_device[tid] * trho_a_device + v2gammatau_bb_b_device[tid] * tau_b +
-          v2gammatau_bb_a_device[tid] * tau_a;
-
-    const double B_coef2_b = v2rhogamma_b_ab_device[tid] * trho_b_device + 2.0 * v2gamma2_ab_bb_device[tid] * tgamma_mm + 
-          v2gamma2_ab_ab_device[tid] * tgamma_pm + 2.0 * v2gamma2_aa_ab_device[tid] * tgamma_pp + 
-          v2rhogamma_a_ab_device[tid] * trho_a_device + v2gammatau_ab_b_device[tid] * tau_b +
-          v2gammatau_ab_a_device[tid] * tau_a;
-
-    const double Bx_b = 2.0 * B_coef1_b * dden_b_x + B_coef2_b * dden_a_x + 
-           2.0 * vgamma_bb_device[tid] * tdden_b_x + vgamma_ab_device[tid] * tdden_a_x;
-
-    const double By_b = 2.0 * B_coef1_b * dden_b_y + B_coef2_b * dden_a_y + 
-           2.0 * vgamma_bb_device[tid] * tdden_b_y + vgamma_ab_device[tid] * tdden_a_y;
-
-    const double Bz_b = 2.0 * B_coef1_b * dden_b_z + B_coef2_b * dden_a_z + 
-           2.0 * vgamma_bb_device[tid] * tdden_b_z + vgamma_ab_device[tid] * tdden_a_z;
-
-    // Store weighted values in output arrays
-    FXC_Bx_s_device[tid] = 0.5 * weight_device[tid] * (Bx_a + Bx_b);
-    FXC_By_s_device[tid] = 0.5 * weight_device[tid] * (By_a + By_b);
-    FXC_Bz_s_device[tid] = 0.5 * weight_device[tid] * (Bz_a + Bz_b);
-    FXC_Bx_z_device[tid] = 0.5 * weight_device[tid] * (Bx_a - Bx_b);
-    FXC_By_z_device[tid] = 0.5 * weight_device[tid] * (By_a - By_b);
-    FXC_Bz_z_device[tid] = 0.5 * weight_device[tid] * (Bz_a - Bz_b);
-
-  }
-
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/zmat_fxc.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/zmat_fxc.cu
deleted file mode 100644
index 36ba9a1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/zmat_fxc.cu
+++ /dev/null
@@ -1,238 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/zmat_fxc.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-
-namespace GauXC {
-
-
-template<density_id den_selector>
-__global__ void zmat_lda_fxc_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* FXC_A_device = task.FXC_A_s;
-  if constexpr ( den_selector == DEN_Z ) FXC_A_device = task.FXC_A_z;
-
-  const auto* basis_eval_device = task.bf;
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact = 0.5 * FXC_A_device[tid_x];
-
-    z_matrix_device[ ibfoff ] = fact * basis_eval_device[ ibfoff ];
-  }
-
-}
-
-
-
-
-
-template<density_id den_selector>
-__global__ void zmat_gga_fxc_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-  const auto* FXC_A_device   = task.FXC_A_s;
-  const auto* FXC_Bx_device  = task.FXC_Bx_s;
-  const auto* FXC_By_device  = task.FXC_By_s;
-  const auto* FXC_Bz_device  = task.FXC_Bz_s;
-  if constexpr ( den_selector == DEN_Z ) {
-    FXC_A_device   = task.FXC_A_z;
-    FXC_Bx_device  = task.FXC_Bx_z;
-    FXC_By_device  = task.FXC_By_z;
-    FXC_Bz_device  = task.FXC_Bz_z;
-  }
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double dx = FXC_Bx_device[tid_x] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = FXC_By_device[tid_x] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = FXC_Bz_device[tid_x] * dbasis_z_eval_device[ ibfoff ];
-
-    z_matrix_device[ ibfoff ] = 
-      (0.5 * FXC_A_device[tid_x] * basis_eval_device[ ibfoff ] +  dx + dy + dz ); 
-  }
-}
-
-
-
-#define ZMAT_FXC_KERN(xc_approx) \
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>(); \
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1); \
-  dim3 blocks( util::div_ceil( max_npts, threads.x ), \
-               util::div_ceil( max_nbf,  threads.y ), \
-               ntasks ); \
-  if ( sel == DEN_S )       zmat_##xc_approx##_fxc_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-  else if ( sel == DEN_Z )  zmat_##xc_approx##_fxc_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-
-
-
-void zmat_lda_fxc( size_t            ntasks,
-                   int32_t           max_nbf,
-                   int32_t           max_npts,
-                   XCDeviceTask*     tasks_device,
-                   density_id sel,
-                   device_queue queue ) {
-ZMAT_FXC_KERN(lda)
-}
-
-
-
-void zmat_gga_fxc( size_t            ntasks,
-                   int32_t           max_nbf,
-                   int32_t           max_npts,
-                   XCDeviceTask*     tasks_device,
-                   density_id sel,
-                   device_queue queue ) {
-ZMAT_FXC_KERN(gga)
-}
-
-
-
-void zmat_mgga_fxc( size_t            ntasks,
-                    int32_t           max_nbf,
-                    int32_t           max_npts,
-                    XCDeviceTask*     tasks_device,
-                    bool              do_lapl,
-                    density_id sel,
-                    device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  if(do_lapl)
-    GAUXC_GENERIC_EXCEPTION("Fxc contraction + do_lapl NYI");
-    
-  switch(sel) {
-    case DEN_S:
-        zmat_gga_fxc_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-      break;
-    case DEN_Z:
-        zmat_gga_fxc_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-      break;
-  }
-
-}
-
-
-
-
-
-
-
-
-
-
-template <density_id id>
-__global__ void mmat_mgga_fxc_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  auto* FXC_C_s_device   = task.FXC_C_s;
-  if constexpr ( id == DEN_Z ) FXC_C_s_device = task.FXC_C_z;
-
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* mmat_x = task.xmat_x;
-  auto* mmat_y = task.xmat_y;
-  auto* mmat_z = task.xmat_z;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double fact = 0.25 * FXC_C_s_device[tid_x];
-
-    mmat_x[ ibfoff ] = fact * dbasis_x_eval_device[ ibfoff ]; 
-    mmat_y[ ibfoff ] = fact * dbasis_y_eval_device[ ibfoff ]; 
-    mmat_z[ ibfoff ] = fact * dbasis_z_eval_device[ ibfoff ]; 
-  }
-}
-
-void mmat_mgga_fxc( size_t            ntasks,
-                    int32_t           max_nbf,
-                    int32_t           max_npts,
-                    XCDeviceTask*     tasks_device,
-                    bool              do_lapl,
-                    density_id sel,
-                    device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  if(do_lapl)
-    GAUXC_GENERIC_EXCEPTION("Fxc contraction + do_lapl NYI");
-    
-  switch(sel) {
-    case DEN_S:
-        mmat_mgga_fxc_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-      break;
-    case DEN_Z:
-        mmat_mgga_fxc_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-      break;
-  }
-  
-}
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/zmat_vxc.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/zmat_vxc.cu
deleted file mode 100644
index f180604..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/kernels/zmat_vxc.cu
+++ /dev/null
@@ -1,830 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/zmat_vxc.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/cuda_util.hpp"
-#include "device_specific/cuda_device_constants.hpp"
-
-namespace GauXC {
-
-
-__global__ void zmat_lda_vxc_rks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vrho_device    = task.vrho;
-
-  const auto* basis_eval_device = task.bf;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact = 0.5 * vrho_device[tid_x];
-
-    z_matrix_device[ ibfoff ] = fact * basis_eval_device[ ibfoff ];
-
-  }
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-template<density_id den_selector>
-__global__ void zmat_lda_vxc_uks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-
-
-  const auto* basis_eval_device = task.bf;
-
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double factp = 0.5 * vrho_pos_device[tid_x];
-    const double factm = 0.5 * vrho_neg_device[tid_x];
-    double sign = 1.0;
-    if constexpr ( den_selector == DEN_Z )  sign = -1.0;
-    
-    z_matrix_device[ ibfoff ] = 0.5*(factp * basis_eval_device[ ibfoff ] + sign * factm * basis_eval_device[ ibfoff ]);
-  }
-
-}
-
-template<density_id den_selector>
-__global__ void zmat_lda_vxc_gks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-
-  double* K_device;
-  if constexpr ( den_selector == DEN_Z ) K_device = task.K_z;
-  if constexpr ( den_selector == DEN_Y ) K_device = task.K_y;
-  if constexpr ( den_selector == DEN_X ) K_device = task.K_x;
-  
-
-
-  const auto* basis_eval_device = task.bf;
-
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double factp = 0.5 * vrho_pos_device[tid_x];
-    const double factm = 0.5 * vrho_neg_device[tid_x];
-
-    if constexpr ( den_selector == DEN_S ) {
-      z_matrix_device[ ibfoff ] = 0.5*(factp * basis_eval_device[ ibfoff ] + factm * basis_eval_device[ ibfoff ]);
-    }
-    else {
-      const double factk = 0.5 * (factp - factm);
-      z_matrix_device[ ibfoff ] = K_device[ ibfoff ] * factk * basis_eval_device[ ibfoff ];
-    }
-  }
-
-}
-
-
-
-
-
-
-
-
-
-__global__ void zmat_gga_vxc_rks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vrho_device    = task.vrho;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* den_x_eval_device = task.dden_sx;
-  const auto* den_y_eval_device = task.dden_sy;
-  const auto* den_z_eval_device = task.dden_sz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.5 * vrho_device[tid_x]  ;
-    const double fact_2 = 2.0 * vgamma_device[tid_x];
-
-    const double dx = den_x_eval_device[ tid_x ] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = den_y_eval_device[ tid_x ] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = den_z_eval_device[ tid_x ] * dbasis_z_eval_device[ ibfoff ];
-
-    z_matrix_device[ ibfoff ] = 
-      fact_1 * basis_eval_device[ ibfoff ] + fact_2 * ( dx + dy + dz ); 
-
-  }
-}
-
-
-
-
-
-
-
-
-template<density_id den_selector>
-__global__ void zmat_gga_vxc_uks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-  const double* vgamma_pp_device   = task.vgamma_pp;
-  const double* vgamma_pm_device   = task.vgamma_pm;
-  const double* vgamma_mm_device   = task.vgamma_mm;
-
-  const auto* den_pos_x_eval_device = task.dden_sx;
-  const auto* den_pos_y_eval_device = task.dden_sy;
-  const auto* den_pos_z_eval_device = task.dden_sz;
-  const auto* den_neg_x_eval_device = task.dden_zx;
-  const auto* den_neg_y_eval_device = task.dden_zy;
-  const auto* den_neg_z_eval_device = task.dden_zz;
-
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double factp = 0.25 * vrho_pos_device[tid_x];
-    const double factm = 0.25 * vrho_neg_device[tid_x];
-    
-    const auto gga_fact_pp  = vgamma_pp_device[tid_x];
-    const auto gga_fact_pm  = vgamma_pm_device[tid_x];
-    const auto gga_fact_mm  = vgamma_mm_device[tid_x];
-    
-    const auto gga_fact_1 = 0.5*(gga_fact_pp + gga_fact_pm + gga_fact_mm);
-    const auto gga_fact_2 = 0.5*(gga_fact_pp - gga_fact_mm);
-    const auto gga_fact_3 = 0.5*(gga_fact_pp - gga_fact_pm + gga_fact_mm);
-
-    double sign = 1.0;
-
-    double x_fact, y_fact, z_fact;
-
-    if constexpr ( den_selector == DEN_S ) {
-       x_fact = gga_fact_1 * den_pos_x_eval_device[ tid_x ] + gga_fact_2 * den_neg_x_eval_device[ tid_x ];
-       y_fact = gga_fact_1 * den_pos_y_eval_device[ tid_x ] + gga_fact_2 * den_neg_y_eval_device[ tid_x ];
-       z_fact = gga_fact_1 * den_pos_z_eval_device[ tid_x ] + gga_fact_2 * den_neg_z_eval_device[ tid_x ];
-      
-
-    }
-    if constexpr ( den_selector == DEN_Z ) {
-       sign = -1.0;
-       x_fact = gga_fact_3 * den_neg_x_eval_device[ tid_x ] + gga_fact_2 * den_pos_x_eval_device[ tid_x ];
-       y_fact = gga_fact_3 * den_neg_y_eval_device[ tid_x ] + gga_fact_2 * den_pos_y_eval_device[ tid_x ];
-       z_fact = gga_fact_3 * den_neg_z_eval_device[ tid_x ] + gga_fact_2 * den_pos_z_eval_device[ tid_x ];
-
-    }
-
-    z_matrix_device[ ibfoff ] =   x_fact * dbasis_x_eval_device[ ibfoff ]      
-                                + y_fact * dbasis_y_eval_device[ ibfoff ]
-                                + z_fact * dbasis_z_eval_device[ ibfoff ] 
-                                + (factp + sign * factm) * basis_eval_device[ ibfoff ];
-  }
-}
-
-
-
-
-template<density_id den_selector>
-__global__ void zmat_gga_vxc_gks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-  const double* vgamma_pp_device   = task.vgamma_pp;
-  const double* vgamma_pm_device   = task.vgamma_pm;
-  const double* vgamma_mm_device   = task.vgamma_mm;
-
-  
-  // for non-DEN_S
-  double* K_device;
-  double* H_device;
-  if constexpr ( den_selector == DEN_Z ) { K_device = task.K_z; H_device = task.H_z; }
-  if constexpr ( den_selector == DEN_Y ) { K_device = task.K_y; H_device = task.H_y; }
-  if constexpr ( den_selector == DEN_X ) { K_device = task.K_x; H_device = task.H_x; }
-
-  const auto* dden_sx_eval_device = task.dden_sx;
-  const auto* dden_sy_eval_device = task.dden_sy;
-  const auto* dden_sz_eval_device = task.dden_sz;
-  const auto* dden_zx_eval_device = task.dden_zx;
-  const auto* dden_zy_eval_device = task.dden_zy;
-  const auto* dden_zz_eval_device = task.dden_zz;
-  const auto* dden_yx_eval_device = task.dden_yx;
-  const auto* dden_yy_eval_device = task.dden_yy;
-  const auto* dden_yz_eval_device = task.dden_yz;
-  const auto* dden_xx_eval_device = task.dden_xx;
-  const auto* dden_xy_eval_device = task.dden_xy;
-  const auto* dden_xz_eval_device = task.dden_xz;
-
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double fact_p =  0.5*vrho_pos_device[tid_x];
-    const double fact_m =  0.5*vrho_neg_device[tid_x];
-    
-    const auto gga_fact_pp  = vgamma_pp_device[tid_x];
-    const auto gga_fact_pm  = vgamma_pm_device[tid_x];
-    const auto gga_fact_mm  = vgamma_mm_device[tid_x];
-    
-    const auto gga_fact_1 = 0.5*(gga_fact_pp + gga_fact_pm + gga_fact_mm);
-    const auto gga_fact_2 = 0.5*(gga_fact_pp - gga_fact_mm);
-    const auto gga_fact_3 = 0.5*(gga_fact_pp - gga_fact_pm + gga_fact_mm);
-
-    double s_fact, x_fact, y_fact, z_fact;
-
-    if constexpr ( den_selector == DEN_S ) {
-      const double* Hz_device          = task.H_z;
-      const double* Hy_device          = task.H_y;
-      const double* Hx_device          = task.H_x;
-      
-      s_fact = 0.5 * (fact_p + fact_m);
-
-      x_fact = gga_fact_1 * dden_sx_eval_device[ tid_x ]
-             + gga_fact_2 * (Hz_device[ tid_x ] * dden_zx_eval_device[ tid_x ]
-                          +  Hy_device[ tid_x ] * dden_yx_eval_device[ tid_x ]
-                          +  Hx_device[ tid_x ] * dden_xx_eval_device[ tid_x ] );
-      y_fact = gga_fact_1 * dden_sy_eval_device[ tid_x ]
-             + gga_fact_2 * (Hz_device[ tid_x ] * dden_zy_eval_device[ tid_x ]
-                          +  Hy_device[ tid_x ] * dden_yy_eval_device[ tid_x ]
-                          +  Hx_device[ tid_x ] * dden_xy_eval_device[ tid_x ] );
-      z_fact = gga_fact_1 * dden_sz_eval_device[ tid_x ]
-                        + gga_fact_2 * (Hz_device[ tid_x ] * dden_zz_eval_device[ tid_x ]
-                                     +  Hy_device[ tid_x ] * dden_yz_eval_device[ tid_x ]
-                                     +  Hx_device[ tid_x ] * dden_xz_eval_device[ tid_x ] );
-    }
-
-    if constexpr ( den_selector == DEN_Z ) {
-      s_fact  = K_device[ tid_x ] * 0.5 * (fact_p - fact_m);
-      x_fact  = gga_fact_3 * dden_zx_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sx_eval_device[ tid_x ];
-      y_fact  = gga_fact_3 * dden_zy_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sy_eval_device[ tid_x ];
-      z_fact  = gga_fact_3 * dden_zz_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sz_eval_device[ tid_x ];
-    }
-
-    if constexpr ( den_selector == DEN_Y ) {
-      s_fact  = K_device[ tid_x ] * 0.5 * (fact_p - fact_m);
-      x_fact  = gga_fact_3 * dden_yx_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sx_eval_device[ tid_x ];
-      y_fact  = gga_fact_3 * dden_yy_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sy_eval_device[ tid_x ];
-      z_fact  = gga_fact_3 * dden_yz_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sz_eval_device[ tid_x ];
-    }
-
-    if constexpr ( den_selector == DEN_X ) {
-      s_fact  = K_device[ tid_x ] * 0.5 * (fact_p - fact_m);
-      x_fact  = gga_fact_3 * dden_xx_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sx_eval_device[ tid_x ];
-      y_fact  = gga_fact_3 * dden_xy_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sy_eval_device[ tid_x ];
-      z_fact  = gga_fact_3 * dden_xz_eval_device[ tid_x ]
-             +  gga_fact_2 * H_device[ tid_x ] * dden_sz_eval_device[ tid_x ];
-    }
-
-    z_matrix_device[ ibfoff ] =   x_fact * dbasis_x_eval_device[ ibfoff ]      
-                                + y_fact * dbasis_y_eval_device[ ibfoff ]
-                                + z_fact * dbasis_z_eval_device[ ibfoff ] 
-                                + s_fact *  basis_eval_device[ ibfoff ];
-
-  }
-}
-
-
-
-
-template <bool need_lapl>
-__global__ void zmat_mgga_vxc_rks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vrho_device    = task.vrho;
-  const auto* vgamma_device  = task.vgamma;
-  const double* vlapl_device = need_lapl ? task.vlapl : nullptr;
-  const auto* den_x_eval_device = task.dden_sx;
-  const auto* den_y_eval_device = task.dden_sy;
-  const auto* den_z_eval_device = task.dden_sz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-  const double* d2basis_lapl_eval_device = 
-    need_lapl ? task.d2bflapl : nullptr;
-  
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.5 * vrho_device[tid_x]  ;
-    const double fact_2 = 2.0 * vgamma_device[tid_x];
-
-    const double dx = den_x_eval_device[ tid_x ] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = den_y_eval_device[ tid_x ] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = den_z_eval_device[ tid_x ] * dbasis_z_eval_device[ ibfoff ];
-
-    double val = 
-      fact_1 * basis_eval_device[ ibfoff ] + fact_2 * ( dx + dy + dz ); 
-
-    if constexpr (need_lapl) {
-      val += vlapl_device[tid_x] * d2basis_lapl_eval_device[ibfoff];
-    }
-
-    z_matrix_device[ ibfoff ] = val;
-  }
-}
-
-template<bool need_lapl, density_id den_selector>
-__global__ void zmat_mgga_vxc_uks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  const double* vrho_pos_device    = task.vrho_pos;
-  const double* vrho_neg_device    = task.vrho_neg;
-  const double* vlapl_pos_device    = task.vlapl_pos;
-  const double* vlapl_neg_device    = task.vlapl_neg;
-  const double* vgamma_pp_device   = task.vgamma_pp;
-  const double* vgamma_pm_device   = task.vgamma_pm;
-  const double* vgamma_mm_device   = task.vgamma_mm;
-
-  const auto* den_pos_x_eval_device = task.dden_sx;
-  const auto* den_pos_y_eval_device = task.dden_sy;
-  const auto* den_pos_z_eval_device = task.dden_sz;
-  const auto* den_neg_x_eval_device = task.dden_zx;
-  const auto* den_neg_y_eval_device = task.dden_zy;
-  const auto* den_neg_z_eval_device = task.dden_zz;
-
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-  const auto* d2basis_lapl_eval_device = task.d2bflapl;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-
-    const double factp = 0.25 * vrho_pos_device[tid_x];
-    const double factm = 0.25 * vrho_neg_device[tid_x];
-    
-    const auto gga_fact_pp  = vgamma_pp_device[tid_x];
-    const auto gga_fact_pm  = vgamma_pm_device[tid_x];
-    const auto gga_fact_mm  = vgamma_mm_device[tid_x];
-    
-    const auto gga_fact_1 = 0.5*(gga_fact_pp + gga_fact_pm + gga_fact_mm);
-    const auto gga_fact_2 = 0.5*(gga_fact_pp - gga_fact_mm);
-    const auto gga_fact_3 = 0.5*(gga_fact_pp - gga_fact_pm + gga_fact_mm);
-
-    double sign = 1.0;
-
-    double x_fact, y_fact, z_fact;
-
-    if constexpr ( den_selector == DEN_S ) {
-       x_fact = gga_fact_1 * den_pos_x_eval_device[ tid_x ] + gga_fact_2 * den_neg_x_eval_device[ tid_x ];
-       y_fact = gga_fact_1 * den_pos_y_eval_device[ tid_x ] + gga_fact_2 * den_neg_y_eval_device[ tid_x ];
-       z_fact = gga_fact_1 * den_pos_z_eval_device[ tid_x ] + gga_fact_2 * den_neg_z_eval_device[ tid_x ];
-    }
-    if constexpr ( den_selector == DEN_Z ) {
-       sign = -1.0;
-       x_fact = gga_fact_3 * den_neg_x_eval_device[ tid_x ] + gga_fact_2 * den_pos_x_eval_device[ tid_x ];
-       y_fact = gga_fact_3 * den_neg_y_eval_device[ tid_x ] + gga_fact_2 * den_pos_y_eval_device[ tid_x ];
-       z_fact = gga_fact_3 * den_neg_z_eval_device[ tid_x ] + gga_fact_2 * den_pos_z_eval_device[ tid_x ];
-    }
-
-    auto val = x_fact * dbasis_x_eval_device[ ibfoff ]      
-             + y_fact * dbasis_y_eval_device[ ibfoff ]
-             + z_fact * dbasis_z_eval_device[ ibfoff ] 
-             + (factp + sign * factm) * basis_eval_device[ ibfoff ];
-
-    if constexpr (need_lapl) {
-      const double lfactp = vlapl_pos_device[tid_x];
-      const double lfactm = vlapl_neg_device[tid_x];
-
-      val += 0.5 * (lfactp + sign * lfactm) * d2basis_lapl_eval_device[ ibfoff ];
-    }
-
-    z_matrix_device[ ibfoff ] = val;
-  }
-}
-
-
-
-#define ZMAT_VXC_KERN(xc_approx) \
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>(); \
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1); \
-  dim3 blocks( util::div_ceil( max_npts, threads.x ), \
-               util::div_ceil( max_nbf,  threads.y ), \
-               ntasks ); \
-  switch( scheme ) { \
-    case RKS: \
-      zmat_##xc_approx##_vxc_rks_kernel<<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      break; \
-    case UKS: \
-      if ( sel == DEN_S )       zmat_##xc_approx##_vxc_uks_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      else if ( sel == DEN_Z )  zmat_##xc_approx##_vxc_uks_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      else GAUXC_GENERIC_EXCEPTION( "zmat_##xc_approx##_vxc invalid density" ); \
-      break; \
-    case GKS: \
-      if ( sel == DEN_S )       zmat_##xc_approx##_vxc_gks_kernel<DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      else if ( sel == DEN_Z )  zmat_##xc_approx##_vxc_gks_kernel<DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      else if ( sel == DEN_Y )  zmat_##xc_approx##_vxc_gks_kernel<DEN_Y><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      else if ( sel == DEN_X )  zmat_##xc_approx##_vxc_gks_kernel<DEN_X><<< blocks, threads, 0, stream >>>( ntasks, tasks_device ); \
-      else GAUXC_GENERIC_EXCEPTION( "zmat_##xc_approx##_vxc invalid density" ); \
-      break; \
-    default: \
-      GAUXC_GENERIC_EXCEPTION( "zmat_##xc_approx##_vxc invalid KS scheme" ); \
-  }
-
-
-
-void zmat_lda_vxc( size_t            ntasks,
-                   int32_t           max_nbf,
-                   int32_t           max_npts,
-                   XCDeviceTask*     tasks_device,
-                   integrator_ks_scheme scheme,
-                   density_id sel,
-                   device_queue queue ) {
-ZMAT_VXC_KERN(lda)
-}
-
-
-
-void zmat_gga_vxc( size_t            ntasks,
-                   int32_t           max_nbf,
-                   int32_t           max_npts,
-                   XCDeviceTask*     tasks_device,
-                   integrator_ks_scheme scheme,
-                   density_id sel,
-                   device_queue queue ) {
-ZMAT_VXC_KERN(gga)
-}
-
-
-
-void zmat_mgga_vxc( size_t            ntasks,
-                    int32_t           max_nbf,
-                    int32_t           max_npts,
-                    XCDeviceTask*     tasks_device,
-                    bool              do_lapl,
-                    integrator_ks_scheme scheme,
-                    density_id sel,
-                    device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  if(scheme == RKS) {
-    if(do_lapl)
-      zmat_mgga_vxc_rks_kernel<true><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-    else
-      zmat_mgga_vxc_rks_kernel<false><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-  } else if(scheme == UKS) {
-    switch(sel) {
-      case DEN_S:
-        if(do_lapl)
-          zmat_mgga_vxc_uks_kernel<true, DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        else
-          zmat_mgga_vxc_uks_kernel<false, DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-      case DEN_Z:
-        if(do_lapl)
-          zmat_mgga_vxc_uks_kernel<true, DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        else
-          zmat_mgga_vxc_uks_kernel<false, DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-    }
-  } else {
-    GAUXC_GENERIC_EXCEPTION("MGGA + DEVICE + GKS NYI");
-  }
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <bool need_lapl>
-__global__ void mmat_mgga_vxc_rks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vtau_device    = task.vtau;
-  const double* vlapl_device = need_lapl ? task.vlapl : nullptr;
-
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* mmat_x = task.xmat_x;
-  auto* mmat_y = task.xmat_y;
-  auto* mmat_z = task.xmat_z;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.25 * vtau_device[tid_x] + 
-      (need_lapl ? vlapl_device[tid_x] : 0.0);
-
-    mmat_x[ ibfoff ] = fact_1 * dbasis_x_eval_device[ ibfoff ]; 
-    mmat_y[ ibfoff ] = fact_1 * dbasis_y_eval_device[ ibfoff ]; 
-    mmat_z[ ibfoff ] = fact_1 * dbasis_z_eval_device[ ibfoff ]; 
-  }
-}
-
-template <bool need_lapl, density_id id>
-__global__ void mmat_mgga_vxc_uks_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vtau_pos_device    = task.vtau_pos;
-  const auto* vtau_neg_device    = task.vtau_neg;
-  const double* vlapl_pos_device = need_lapl ? task.vlapl_pos : nullptr;
-  const double* vlapl_neg_device = need_lapl ? task.vlapl_neg : nullptr;
-
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* mmat_x = task.xmat_x;
-  auto* mmat_y = task.xmat_y;
-  auto* mmat_z = task.xmat_z;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    double sign = 1.0;
-    if(id == DEN_Z) sign = -1;
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const auto tfactp = 0.25 * vtau_pos_device[tid_x];
-    const auto tfactm = 0.25 * vtau_neg_device[tid_x];
-    const double fact_tau = 0.5 * (tfactp + sign * tfactm);
-    double fact_lapl = 0.0;
-    if(need_lapl) {
-      const auto lfactp = vlapl_pos_device[tid_x];
-      const auto lfactm = vlapl_neg_device[tid_x];
-      fact_lapl = 0.5 * (lfactp + sign * lfactm);
-    }
-    const double fact_1 = fact_tau + fact_lapl;
-
-    mmat_x[ ibfoff ] = fact_1 * dbasis_x_eval_device[ ibfoff ]; 
-    mmat_y[ ibfoff ] = fact_1 * dbasis_y_eval_device[ ibfoff ]; 
-    mmat_z[ ibfoff ] = fact_1 * dbasis_z_eval_device[ ibfoff ]; 
-  }
-}
-
-//__global__ void print_zmat_stats( size_t            ntasks,
-//                    XCDeviceTask*     tasks_device) {
-//
-//  for(size_t iT = 0; iT < ntasks; ++iT) {
-//    auto& task = tasks_device[iT];
-//    const auto npts            = task.npts;
-//    const auto nbf             = task.bfn_screening.nbe;
-//
-//    const auto* zmat = task.zmat;
-//    const auto* bmat = task.bf;
-//    const auto* blmat = task.d2bflapl;
-//  
-//    double znrm = 0.0, bnrm = 0.0, blnrm = 0.0;
-//    for(auto j = 0; j < npts*nbf; ++j) {
-//      znrm += zmat[j] * zmat[j];
-//      bnrm += bmat[j] * bmat[j];
-//      blnrm += blmat[j] * blmat[j];
-//    }
-//
-//    const auto* eps = task.eps;
-//    const auto* vgamma = task.vgamma;
-//    const auto* vtau   = task.vtau;
-//    const auto* vlapl   = task.vlapl;
-//    const auto* vrho   = task.vrho;
-//    const auto* gamma = task.gamma;
-//    const auto* tau   = task.tau;
-//    const auto* lapl   = task.lapl;
-//    const auto* rho   = task.den;
-//    double enrm = 0.0, gnrm = 0.0, tnrm = 0.0, rnrm = 0.0, lnrm = 0.0;
-//    double vgnrm = 0.0, vtnrm = 0.0, vrnrm = 0.0, vlnrm = 0.0;
-//    for(auto j = 0; j < npts; ++j) {
-//      enrm += eps[j] * eps[j];
-//      vrnrm += vrho[j] * vrho[j];
-//      vgnrm += vgamma[j] * vgamma[j];
-//      vtnrm += vtau[j] * vtau[j];
-//      vlnrm += vlapl[j] * vlapl[j];
-//
-//      rnrm += rho[j] * rho[j];
-//      gnrm += gamma[j] * gamma[j];
-//      tnrm += tau[j] * tau[j];
-//      lnrm += lapl[j] * lapl[j];
-//    }
-//
-//        printf("ITASK = %lu B = %.6e BL = %.6e R = %.6e G = %.6e T = %.6e L = %.6e E = %.6e VR = %.6e VG = %6e VT = %.6e VL = %.6e Z = %.6e \n", 
-//          iT, bnrm, blnrm, rnrm, gnrm, tnrm, lnrm, enrm, vrnrm, vgnrm, vtnrm, vlnrm, znrm);
-//  }
-//
-//}
-
-void mmat_mgga_vxc( size_t            ntasks,
-                    int32_t           max_nbf,
-                    int32_t           max_npts,
-                    XCDeviceTask*     tasks_device,
-                    bool              do_lapl,
-                    integrator_ks_scheme scheme,
-                    density_id sel,
-                    device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>() ;
-
-
-  dim3 threads(cuda::warp_size,cuda::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  if(scheme == RKS) {
-    if(do_lapl)
-      mmat_mgga_vxc_rks_kernel<true><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-    else
-      mmat_mgga_vxc_rks_kernel<false><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-  } else if(scheme == UKS) {
-    switch(sel) {
-      case DEN_S:
-        if(do_lapl)
-          mmat_mgga_vxc_uks_kernel<true, DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        else
-          mmat_mgga_vxc_uks_kernel<false, DEN_S><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-      case DEN_Z:
-        if(do_lapl)
-          mmat_mgga_vxc_uks_kernel<true, DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        else
-          mmat_mgga_vxc_uks_kernel<false, DEN_Z><<< blocks, threads, 0, stream >>>( ntasks, tasks_device );
-        break;
-    }
-  } else {
-    GAUXC_GENERIC_EXCEPTION("MGGA + DEVICE + GKS NYI");
-  }
-  
-
-  //print_zmat_stats<<<1,1,0,stream>>>(ntasks,tasks_device);
-}
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/CMakeLists.txt
deleted file mode 100644
index 6bdf66a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/CMakeLists.txt
+++ /dev/null
@@ -1,31 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-set( GAUXC_OBARA_SAIKA_CUDA_SRC
-     src/integral_0.cu
-     src/integral_1.cu
-     src/integral_2.cu
-     src/integral_0_0.cu
-     src/integral_1_0.cu
-     src/integral_1_1.cu
-     src/integral_2_0.cu
-     src/integral_2_1.cu
-     src/integral_2_2.cu
-     src/obara_saika_integrals.cu
-     src/chebyshev_boys_computation.cu
-)
-target_sources( gauxc PRIVATE ${GAUXC_OBARA_SAIKA_CUDA_SRC} )
-target_include_directories( gauxc PUBLIC
-  $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}/include>
-)
-
-#add_executable( cuda_obara_saika_test test/test_new.cpp )
-#target_link_libraries( cuda_obara_saika_test PUBLIC gauxc )
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/Makefile
deleted file mode 100644
index 6bb8297..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/Makefile
+++ /dev/null
@@ -1,36 +0,0 @@
-AR = ar
-ARFLGAS = -rc
-
-CC = nvcc
-
-SRC = ./src
-INCLUDE = ./include
-TEST = ./test
-
-BOYS_FUNCTION = -I../../../../../../include/
-
-CFLAGS = --ptxas-options=-v -arch=sm_70 -gencode=arch=compute_70,code=compute_70 -maxrregcount=128 -std=c++17 --expt-relaxed-constexpr -lm -I$(INCLUDE)
-
-#DEBUG=
-DEBUG = -DDEBUG
-
-compile:
-	$(CC) -c $(SRC)/chebyshev_boys_computation.cu -o $(SRC)/chebyshev_boys_computation.o $(CFLAGS) $(BOYS_FUNCTION) -I$(INCLUDE)
-
-	$(CC) -c $(SRC)/integral_0.cu -o $(SRC)/integral_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_1.cu -o $(SRC)/integral_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2.cu -o $(SRC)/integral_2.o $(CFLAGS) $(BOYS_FUNCTION)
-
-	$(CC) -c $(SRC)/integral_0_0.cu -o $(SRC)/integral_0_0.o $(CFLAGS) $(BOYS_FUNCTION) 
-	$(CC) -c $(SRC)/integral_1_0.cu -o $(SRC)/integral_1_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_1_1.cu -o $(SRC)/integral_1_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2_0.cu -o $(SRC)/integral_2_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2_1.cu -o $(SRC)/integral_2_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2_2.cu -o $(SRC)/integral_2_2.o $(CFLAGS) $(BOYS_FUNCTION)
-
-	$(CC) -c $(SRC)/obara_saika_integrals.cu -o $(SRC)/obara_saika_integrals.o $(CFLAGS)
-
-	$(AR) $(ARFLAGS) ./obara_saika.a $(SRC)/*.o
-
-clean:
-	rm -rf ./*.a $(SRC)/*.o
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/generator/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/generator/Makefile
deleted file mode 100644
index 28a67c0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/generator/Makefile
+++ /dev/null
@@ -1,2 +0,0 @@
-compile:
-	gcc -Wall -o generate_gpu_code.x generate_gpu_code.c -O2
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/generator/generate_gpu_code.c b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/generator/generate_gpu_code.c
deleted file mode 100755
index 4fea11d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/generator/generate_gpu_code.c
+++ /dev/null
@@ -1,1157 +0,0 @@
-
-#include <stdio.h>
-#include <stdlib.h>
-#include <string.h>
-
-struct node {
-  int iA, jA, kA;
-  int iB, jB, kB;
-  
-  int level;
-  int vars;
-
-  int valid;
-  int offset;
-
-  char var_pa[5];
-  char var_pc[5];
-  
-  int nr_children;
-  struct node *children[3];
-};
-
-void traverseX_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-void traverseY_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-void traverseZ_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-
-void traverseX_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "X_PA");
-  sprintf(node_list[offset].var_pc, "X_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 3;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseX_init_dfs(iA + 1, jA, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[2] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverseY_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "Y_PA");
-  sprintf(node_list[offset].var_pc, "Y_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 2;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverseZ_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "Z_PA");
-  sprintf(node_list[offset].var_pc, "Z_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 1;
- 
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverse_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 3;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseX_init_dfs(iA + 1, jA, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[2] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void initialize_tree_structure(int type, int lA, int lB, int size, struct node *node_list) {
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-  
-  int *offset_list = (int*) malloc((lA + lB + 1) * sizeof(int));
-
-  int offset = 0;
-  for(int i = 0; i < lA + lB + 1; ++i) {
-    offset_list[i] = offset;
-    offset += (i + 1) * (i + 2) / 2;
-  }
-
-  // initialization part
-  traverse_init_dfs(0, 0, 0, lA, lB, partial_size, node_list, offset_list);
-  
-  free(offset_list);
-}
-
-void traverse_dfs_vrr(FILE *f, int lA, int lB, struct node *root_node) {
-  if(root_node != NULL) {
-    if(root_node -> level == 0) {
-      for(int v = 0; v < root_node -> vars; ++v) {
-	fprintf(f, "         t%d%d = SCALAR_MUL(eval, t%d%d);\n", root_node -> level, v, root_node -> level, v);
-      }
-    } else if (root_node -> level == 1) {
-      for(int v = 0; v < root_node -> vars; ++v) {
-	fprintf(f, "         t%d%d = SCALAR_MUL(%s, t%d%d);\n", root_node -> level, v, root_node -> var_pa, root_node -> level - 1, v);
-	fprintf(f, "         t%d%d = SCALAR_FNMA(%s, t%d%d, t%d%d);\n", root_node -> level, v, root_node -> var_pc, root_node -> level - 1, v + 1, root_node -> level, v);
-      }
-    } else {
-      int iteration = 0;
-      if(strcmp(root_node -> var_pa, "X_PA") == 0) {
-	iteration = root_node -> iA - 1;
-      } else if(strcmp(root_node -> var_pa, "Y_PA") == 0) {
-	iteration = root_node -> jA - 1;
-      } else {
-	iteration = root_node -> kA - 1;
-      }
-
-      if(iteration == 0) {
-	for(int v = 0; v < root_node -> vars; ++v) {
-	  fprintf(f, "         t%d%d = SCALAR_MUL(%s, t%d%d);\n", root_node -> level, v, root_node -> var_pa, root_node -> level - 1, v);
-	  fprintf(f, "         t%d%d = SCALAR_FNMA(%s, t%d%d, t%d%d);\n", root_node -> level, v, root_node -> var_pc, root_node -> level - 1, v + 1, root_node -> level, v);
-	}
-      } else {
-	for(int v = 0; v < root_node -> vars; ++v) {
-	  fprintf(f, "         t%d%d = SCALAR_MUL(%s, t%d%d);\n", root_node -> level, v, root_node -> var_pa, root_node -> level - 1, v);
-	  fprintf(f, "         t%d%d = SCALAR_FNMA(%s, t%d%d, t%d%d);\n", root_node -> level, v, root_node -> var_pc, root_node -> level - 1, v + 1, root_node -> level, v);
-	  fprintf(f, "         tx = SCALAR_SUB(t%d%d, t%d%d);\n", root_node -> level - 2, v, root_node ->level - 2, v + 1);
-	  fprintf(f, "         ty = SCALAR_SET1(0.5 * %d);\n", iteration);
-	  fprintf(f, "         ty = SCALAR_MUL(ty, RHO_INV);\n");
-	  fprintf(f, "         t%d%d = SCALAR_FMA(tx, ty, t%d%d);\n", root_node -> level, v, root_node -> level, v);
-	}
-      }
-    }
-
-    if(root_node -> valid) {
-      fprintf(f, "         tx = SCALAR_LOAD((temp + %d * blockDim.x + threadIdx.x));\n", root_node -> offset);
-      fprintf(f, "         tx = SCALAR_ADD(tx, t%d%d);\n", root_node -> level, 0);
-      fprintf(f, "         SCALAR_STORE((temp + %d * blockDim.x + threadIdx.x), tx);\n", root_node -> offset);
-    }
-    
-    for(int i = 0; i < root_node -> nr_children; ++i) {
-      traverse_dfs_vrr(f, lA, lB, root_node -> children[i]);
-    }
-  }
-}
-
-int index_calculation(int i, int j, int L) {
-  return (L - i) * (L - i + 1) / 2 + j;
-}
-
-void generate_part_0(FILE *f, char*variable) {
-  fprintf(f, "         SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));\n");
-  fprintf(f, "         SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));\n");
-  fprintf(f, "         SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));\n");
-  fprintf(f, "\n");
-  fprintf(f, "         SCALAR_TYPE X_PC = SCALAR_SUB(x%s, xC);\n", variable);
-  fprintf(f, "         SCALAR_TYPE Y_PC = SCALAR_SUB(y%s, yC);\n", variable);
-  fprintf(f, "         SCALAR_TYPE Z_PC = SCALAR_SUB(z%s, zC);\n", variable);
-  fprintf(f, "\n");
-  fprintf(f, "         X_PC = SCALAR_MUL(X_PC, X_PC);\n");
-  fprintf(f, "         X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);\n");
-  fprintf(f, "         X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);\n");
-  fprintf(f, "         SCALAR_TYPE TVAL = SCALAR_MUL(RHO, X_PC);\n\n");
-}
-
-void generate_part_1(FILE *f, int lA, int lB, struct node *root_node, char *variable) {  
-  fprintf(f, "         SCALAR_TYPE ");
-    
-  for(int l = 1; l <= (lA + lB); ++l) {
-    for(int k = 0; k < (lA + lB + 1) - l; ++k) {
-      fprintf(f, "t%d%d, ", l, k);
-    }
-  }
-
-  if((lA + lB) <= 1) {
-    fprintf(f, "tx;\n\n");
-  } else {
-    fprintf(f, "tx, ty;\n\n");
-  }
-
-  for(int l = lA + lB - 1; l >= 0; --l) {
-    fprintf(f, "         t0%d = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t0%d), TVAL_inv_e), SCALAR_SET1(%.20f));\n", l, l + 1, 2.0 / (1.0 * (2 * l + 1)));
-  }
-  fprintf(f, "\n");
-
-  
-  traverse_dfs_vrr(f, lA, lB, root_node);
-}
-
-void generate_diagonal_part_2(FILE *f, int lA, int type) {
-  fprintf(f, "      double *Xik = (Xi + p_outer + p_inner);\n");
-  fprintf(f, "      double *Gik = (Gi + p_outer + p_inner);\n");
-  fprintf(f, "\n");
-
-  if(type == 0) {
-    fprintf(f, "      for(int c0 = 0; c0 <= %d; ++c0) {\n", lA);
-    fprintf(f, "         for(int c1 = 0; c1 <= c0; ++c1) {\n");
-    fprintf(f, "            int m = %d - c0;\n", lA);
-    fprintf(f, "            int p = c1;\n");
-    fprintf(f, "\n");
-    fprintf(f, "            int idxB = (((%d - m) * (%d - m + 1)) >> 1) + p;\n", lA, lA);
-    fprintf(f, "\n");
-    fprintf(f, "            int mv, pv;\n");
-    fprintf(f, "\n");
-
-    fprintf(f, "            SCALAR_TYPE tx, wg, xik, gik;\n");
-    
-    int count = 0;
-    for(int r0 = 0; r0 <= lA; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	int a = lA - r0;
-	int c = r1;
-
-	int idxA = index_calculation(a, c, lA);
-	fprintf(f, "            mv = %d + m; pv = %d + p;\n", a, c);
-	
-	fprintf(f, "            tx  = SCALAR_LOAD((temp + (%d + (((%d - mv) * (%d - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));\n", (2 * lA * (2 * lA + 1) * (2 * lA + 2) - lA * (lA + 1) * (lA + 2)) / 6, 2 * lA, 2 * lA);
-	fprintf(f, "            wg  = SCALAR_LOAD((weights + p_outer + p_inner));\n\n");
-	fprintf(f, "            xik = SCALAR_LOAD((Xik + idxB * ldX));\n");
-	fprintf(f, "            gik = SCALAR_LOAD((Gik + %d * ldG));\n\n", idxA);
-
-	fprintf(f, "            tx = SCALAR_MUL(tx, wg);\n");
-	fprintf(f, "            gik = SCALAR_FMA(tx, xik, gik);\n");
-	fprintf(f, "            SCALAR_STORE((Gik + %d * ldG), gik);\n", idxA);
-
-	count++;		
-      }
-    }
-    fprintf(f, "         }\n");
-    fprintf(f, "      }\n");
-  } else if(type == 1) {
-    fprintf(f, "      SCALAR_TYPE tx, wg, xik, gik;\n");
-    
-    for(int c0 = 0; c0 <= lA; ++c0) {
-      for(int c1 = 0; c1 <= c0; ++c1) {
-	int m = lA - c0;
-	int p = c1;
-
-	int idxB = index_calculation(m, p, lA);
-	
-	int count = 0;
-	for(int r0 = 0; r0 <= lA; ++r0) {
-	  for(int r1 = 0; r1 <= r0; ++r1) {
-	    int a = lA - r0;
-	    int c = r1;
-
-	    int idxA = index_calculation(a, c, lA);
-
-	    int idx = index_calculation(a + m - 0, c + p - 0, lA + lA - 0 - 0 - 0);
-
-	    int offset = (2 * lA * (2 * lA + 1) * (2 * lA + 2) - lA * (lA + 1) * (lA + 2)) / 6;
-
-	    fprintf(f, "      tx  = SCALAR_LOAD((temp + %d * blockDim.x + threadIdx.x));\n", offset + idx);
-	    fprintf(f, "      wg  = SCALAR_LOAD((weights + p_outer + p_inner));\n\n");
-	    fprintf(f, "      xik = SCALAR_LOAD((Xik + %d * ldX));\n", idxB);
-	    fprintf(f, "      gik = SCALAR_LOAD((Gik + %d * ldG));\n\n", idxA);
-
-	    fprintf(f, "      tx = SCALAR_MUL(tx, wg);\n");
-	    fprintf(f, "      gik = SCALAR_FMA(tx, xik, gik);\n");
-	    fprintf(f, "      SCALAR_STORE((Gik + %d * ldG), gik);\n", idxA);
-      
-	    count++;		
-	  }
-	}
-      }
-    }
-  } else {
-    printf("Type not defined\n");
-  }
-}
-
-void generate_off_diagonal_part_2(FILE *f, int lA, int lB, int type) {
-  fprintf(f, "      double *Xik = (Xi + p_outer + p_inner);\n");
-  fprintf(f, "      double *Xjk = (Xj + p_outer + p_inner);\n");
-  fprintf(f, "      double *Gik = (Gi + p_outer + p_inner);\n");
-  fprintf(f, "      double *Gjk = (Gj + p_outer + p_inner);\n");
-  fprintf(f, "\n");
-  fprintf(f, "      SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));\n\n");
-  
-  if(type == 0) {
-    fprintf(f, "      for(int c0 = 0; c0 <= %d; ++c0) {\n", lB);
-    fprintf(f, "         for(int c1 = 0; c1 <= c0; ++c1) {\n");
-    fprintf(f, "            int m = %d - c0;\n", lB);
-    fprintf(f, "            int n = c0 - c1;\n");
-    fprintf(f, "            int p = c1;\n");
-    fprintf(f, "\n");
-    fprintf(f, "            int idxB = (((%d - m) * (%d - m + 1)) >> 1) + p;\n", lB, lB);
-    fprintf(f, "\n");
-    fprintf(f, "            double X_ABp = 1.0, comb_m_i = 1.0;\n");
-    fprintf(f, "            for(int i = 0; i <= m; ++i) {\n");
-    fprintf(f, "               double rcp_i;\n");
-    fprintf(f, "\n");
-    fprintf(f, "               double Y_ABp = 1.0, comb_n_j = 1.0;\n");
-    fprintf(f, "               for(int j = 0; j <= n; ++j) {\n");
-    fprintf(f, "                  double rcp_j;\n");
-    fprintf(f, "\n");
-    fprintf(f, "                  double Z_ABp = 1.0, comb_p_k = 1.0;\n");
-    fprintf(f, "                  for(int k = 0; k <= p; ++k) {\n");
-    fprintf(f, "                     double rcp_k;\n");
-    fprintf(f, "                     int mv, pv, Lv = %d - i - j - k;\n", lA + lB);
-    fprintf(f, "\n");
-    fprintf(f, "                     int offset = (Lv * (Lv + 1) * (Lv + 2) - %d) / 6;\n", lA * (lA + 1) * (lA + 2));
-    fprintf(f, "                     double const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;\n");
-    fprintf(f, "                     SCALAR_TYPE tx, ty, tz, tw;\n");
-    fprintf(f, "                     SCALAR_TYPE const_value_w = SCALAR_MUL(const_value_v, const_value);\n\n");
-
-    int count = 0;
-    for(int r0 = 0; r0 <= lA; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	int a = lA - r0;
-	int c = r1;
-
-	int idxA = index_calculation(a, c, lA);
-	fprintf(f, "                     mv = %d + m - i; pv = %d + p - k;\n", a, c);
-	fprintf(f, "                     tx = SCALAR_LOAD((Xik + %d * ldX));\n", idxA);
-	fprintf(f, "                     ty = SCALAR_LOAD((Xjk + idxB * ldX));\n");
-	fprintf(f, "                     tz = SCALAR_LOAD((Gik + %d * ldG));\n", idxA);
-	fprintf(f, "                     tw = SCALAR_LOAD((Gjk + idxB * ldG));\n");
-	fprintf(f, "                     SCALAR_TYPE t%d = SCALAR_LOAD((temp + (offset + (((Lv - mv) * (Lv - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));\n", count);
-	fprintf(f, "                     t%d = SCALAR_MUL(t%d, const_value_w);\n", count, count);
-	fprintf(f, "                     tz = SCALAR_FMA(ty, t%d, tz);\n", count);
-	fprintf(f, "                     tw = SCALAR_FMA(tx, t%d, tw);\n", count);
-	fprintf(f, "                     SCALAR_STORE((Gik + %d * ldG), tz);\n", idxA);
-	fprintf(f, "                     SCALAR_STORE((Gjk + idxB * ldG), tw);\n");
-	count++;		
-      }
-    }
-    fprintf(f, "\n");
-    fprintf(f, "                     Z_ABp = SCALAR_MUL(Z_ABp, Z_AB);\n");
-    fprintf(f, "                     rcp_k = SCALAR_RECIPROCAL(k + 1);\n");
-    fprintf(f, "                     comb_p_k = SCALAR_MUL(comb_p_k, p - k);\n");
-    fprintf(f, "                     comb_p_k = SCALAR_MUL(comb_p_k, rcp_k);\n");
-    fprintf(f, "                  }\n");
-    fprintf(f, "\n");
-    fprintf(f, "                  Y_ABp = SCALAR_MUL(Y_ABp, Y_AB);\n");
-    fprintf(f, "                  rcp_j = SCALAR_RECIPROCAL(j + 1);\n");
-    fprintf(f, "                  comb_n_j = SCALAR_MUL(comb_n_j, n - j);\n");
-    fprintf(f, "                  comb_n_j = SCALAR_MUL(comb_n_j, rcp_j);\n");
-    fprintf(f, "               }\n");
-    fprintf(f, "\n");
-    fprintf(f, "               X_ABp = SCALAR_MUL(X_ABp, X_AB);\n");
-    fprintf(f, "               rcp_i = SCALAR_RECIPROCAL(i + 1);\n");
-    fprintf(f, "               comb_m_i = SCALAR_MUL(comb_m_i, m - i);\n");
-    fprintf(f, "               comb_m_i = SCALAR_MUL(comb_m_i, rcp_i);\n");
-    fprintf(f, "            }\n");
-    fprintf(f, "         }\n");
-    fprintf(f, "      }\n");
-  } else if (type == 1) {
-    fprintf(f, "      double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;\n");
-    fprintf(f, "      SCALAR_TYPE const_value_w;\n");
-
-    int count = 0;
-    fprintf(f, "      SCALAR_TYPE tx, ty, tz, tw, ");
-    for(int r0 = 0; r0 <= lA - 1; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	fprintf(f, "t%d, ", count);
-	count++;
-      }
-    }
-    
-    for(int r1 = 0; r1 <= lA - 1; ++r1) {
-      fprintf(f, "t%d, ", count);
-      count++;
-    }
-
-    fprintf(f, "t%d;\n", count);
-    
-    fprintf(f, "\n");
-
-    for(int c0 = 0; c0 <= lB; ++c0) {
-      for(int c1 = 0; c1 <= c0; ++c1) {
-	int m = lB - c0;
-	int n = c0 - c1;
-	int p = c1;
-
-	int idxB = index_calculation(m, p, lB);
-
-	fprintf(f, "      X_ABp = 1.0; comb_m_i = 1.0;\n");
-	for(int i = 0; i <= m; ++i) {
-	  fprintf(f, "      Y_ABp = 1.0; comb_n_j = 1.0;\n");
-	  for(int j = 0; j <= n; ++j) {
-	    fprintf(f, "      Z_ABp = 1.0; comb_p_k = 1.0;\n");
-	    for(int k = 0; k <= p; ++k) {
-	      fprintf(f, "      const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;\n");
-	      fprintf(f, "      const_value_w = SCALAR_MUL(const_value_v, const_value);\n");
-
-	      int count = 0;
-	      for(int r0 = 0; r0 <= lA; ++r0) {
-		for(int r1 = 0; r1 <= r0; ++r1) {
-		  int a = lA - r0;
-		  int c = r1;
-
-		  int idxA = index_calculation(a, c, lA);
-
-		  int idx = index_calculation(a + m - i, c + p - k, lA + lB - i - j - k);
-
-		  int LAB = lA + lB - i - j - k;
-		  int offset = (LAB * (LAB + 1) * (LAB + 2) - lA * (lA + 1) * (lA + 2)) / 6;
-		  
-		  fprintf(f, "      tx = SCALAR_LOAD((Xik + %d * ldX));\n", idxA);
-		  fprintf(f, "      ty = SCALAR_LOAD((Xjk + %d * ldX));\n", idxB);
-		  fprintf(f, "      tz = SCALAR_LOAD((Gik + %d * ldG));\n", idxA);
-		  fprintf(f, "      tw = SCALAR_LOAD((Gjk + %d * ldG));\n", idxB);
-		  fprintf(f, "      t%d = SCALAR_LOAD((temp + %d * blockDim.x + threadIdx.x));\n", count, offset + idx);
-		  fprintf(f, "      t%d = SCALAR_MUL(t%d, const_value_w);\n", count, count);
-		  fprintf(f, "      tz = SCALAR_FMA(ty, t%d, tz);\n", count);
-		  fprintf(f, "      tw = SCALAR_FMA(tx, t%d, tw);\n", count);
-		  fprintf(f, "      SCALAR_STORE((Gik + %d * ldG), tz);\n", idxA);
-		  fprintf(f, "      SCALAR_STORE((Gjk + %d * ldG), tw);\n", idxB);
-      
-		  count++;		
-		}
-	      }
-	      
-	      if(k < p) {
-		fprintf(f, "      Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * %d, SCALAR_RECIPROCAL(%d));\n", p - k, k + 1);
-	      }
-	    }
-
-	    if(j < n) {
-	      fprintf(f, "      Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * %d, SCALAR_RECIPROCAL(%d));\n", n - j, j + 1);
-	    }
-	  }
-
-	  if(i < m) {
-	    fprintf(f, "      X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * %d, SCALAR_RECIPROCAL(%d));\n", m - i, i + 1);
-	  }
-	}
-      }
-    }
-  } else {
-    printf("Type not defined\n");
-  }  
-}
-
-void generate_diagonal_files(FILE *f, int lA, int size, struct node *root_node, int type) {
-  fprintf(f, "#include <math.h>\n");
-  fprintf(f, "#include \"../include/chebyshev_boys_computation.hpp\"\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "#include \"config_obara_saika.hpp\"\n");
-  fprintf(f, "#include \"integral_%d.hu\"\n", lA);
-  fprintf(f, "\n");
-  fprintf(f, "#define PI 3.14159265358979323846\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define MIN(a,b)			\\\n"); 
-  fprintf(f, "  ({ __typeof__ (a) _a = (a);	        \\\n");
-  fprintf(f, "  __typeof__ (b) _b = (b);		\\\n");
-  fprintf(f, "  _a < _b ? _a : _b; })\n");
-  fprintf(f, "\n");
-  fprintf(f, "namespace XGPU {\n");
-  fprintf(f, "__global__ void integral_%d(size_t npts,\n", lA);
-  fprintf(f, "                          point rA,\n");
-  fprintf(f, "                          point rB,\n");
-  fprintf(f, "                          int nprim_pairs,\n");
-  fprintf(f, "                          prim_pair *prim_pairs,\n");  
-  fprintf(f, "                          double *_points,\n");
-  fprintf(f, "                          double *Xi,\n");
-  fprintf(f, "                          int ldX,\n");
-  fprintf(f, "                          double *Gi,\n");
-  fprintf(f, "                          int ldG, \n");
-  fprintf(f, "                          double *weights,\n");
-  fprintf(f, "                          double *boys_table) {\n");	 
-
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-  
-  //fprintf(f, "   __shared__ double temp[%d * blockDim.x];\n",  size - partial_size);
-  fprintf(f, "   __shared__ double *temp;\n");
-  
-  char variable[1024];
-  sprintf(variable, "A");
-  
-  fprintf(f, "   for(size_t p_outer = blockIdx.x * blockDim.x; p_outer < npts; p_outer += gridDim.x * blockDim.x) {\n");
-  fprintf(f, "      double *_point_outer = (_points + p_outer);\n\n");
-  fprintf(f, "      size_t p_inner = (threadIdx.x < (npts - p_outer)) ? threadIdx.x : (npts - p_outer);\n\n");
-  fprintf(f, "      double xA = rA.x;\n");
-  fprintf(f, "      double yA = rA.y;\n");
-  fprintf(f, "      double zA = rA.z;\n");
-  fprintf(f, "\n");
-  fprintf(f, "      for(int i = 0; i < %d; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());\n", size - partial_size);
-  fprintf(f, "\n");
-  fprintf(f, "      for(int ij = 0; ij < nprim_pairs; ++ij) {\n");
-  fprintf(f, "         double RHO = prim_pairs[ij].gamma;\n");
-  if(lA > 0) {
-    fprintf(f, "         double RHO_INV = prim_pairs[ij].gamma_inv;\n");
-  }
-  fprintf(f, "\n");
-  if(lA != 0) {
-    fprintf(f, "         constexpr double X_PA = 0.0;\n");
-    fprintf(f, "         constexpr double Y_PA = 0.0;\n");
-    fprintf(f, "         constexpr double Z_PA = 0.0;\n");
-    fprintf(f, "\n");
-  }
-  fprintf(f, "         double eval = prim_pairs[ij].K_coeff_prod;\n");
-  fprintf(f, "\n");
-  fprintf(f, "         // Evaluate T Values\n");
-  
-  generate_part_0(f, variable);
-
-  fprintf(f, "         SCALAR_TYPE ");
-  for(int l = 0; l < 2 * lA; ++l) {
-    fprintf(f, "t0%d, ", l);
-  }
-  fprintf(f, "t0%d, TVAL_inv_e;\n\n", 2 * lA);
-
-  fprintf(f, "         // Evaluate Boys function\n");
-  fprintf(f, "         boys_element<%d>(&TVAL, &TVAL_inv_e, &t0%d, boys_table);\n", 2 * lA, 2 * lA);
-  fprintf(f, "\n");
-  fprintf(f, "         // Evaluate VRR Buffer\n");
-
-  generate_part_1(f, lA, lA, root_node, variable);
-  
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");  
-
-  generate_diagonal_part_2(f, lA, type);
-  
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-  fprintf(f, "}\n");
-}
-
-void generate_off_diagonal_files(FILE *f, int lA, int lB, int size, struct node *root_node, int type) {
-  fprintf(f, "#include <math.h>\n");
-  fprintf(f, "#include \"../include/chebyshev_boys_computation.hpp\"\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "#include \"config_obara_saika.hpp\"\n");
-  fprintf(f, "#include \"integral_%d_%d.hu\"\n", lA, lB);
-  fprintf(f, "\n");
-  fprintf(f, "#define PI 3.14159265358979323846\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define MIN(a,b)			\\\n"); 
-  fprintf(f, "  ({ __typeof__ (a) _a = (a);	        \\\n");
-  fprintf(f, "  __typeof__ (b) _b = (b);		\\\n");
-  fprintf(f, "  _a < _b ? _a : _b; })\n");
-  fprintf(f, "\n");
-  fprintf(f, "namespace XGPU {\n");
-  fprintf(f, "__global__ void integral_%d_%d(size_t npts,\n", lA, lB);
-  fprintf(f, "                             point rA,\n");
-  fprintf(f, "                             point rB,\n");
-  fprintf(f, "                             int nprim_pairs,\n");
-  fprintf(f, "                             prim_pair *prim_pairs,\n");
-  fprintf(f, "                             double *_points,\n");
-  fprintf(f, "                             double *Xi,\n");
-  fprintf(f, "                             double *Xj,\n");
-  fprintf(f, "                             int ldX,\n");
-  fprintf(f, "                             double *Gi,\n");
-  fprintf(f, "                             double *Gj,\n");
-  fprintf(f, "                             int ldG, \n");
-  fprintf(f, "                             double *weights, \n");
-  fprintf(f, "                             double *boys_table) {\n");	 
-
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-  
-  //fprintf(f, "   __shared__ double temp[%d * blockDim.x];\n",  size - partial_size);
-  fprintf(f, "   __shared__ double *temp;\n");
-
-  char variable[1024];
-  sprintf(variable, "P");
-
-  fprintf(f, "   for(size_t p_outer = blockIdx.x * blockDim.x; p_outer < npts; p_outer += gridDim.x * blockDim.x) {\n");
-  fprintf(f, "      double *_point_outer = (_points + p_outer);\n\n");
-  fprintf(f, "      size_t p_inner = (threadIdx.x < (npts - p_outer)) ? threadIdx.x : (npts - p_outer);\n\n");
-  if(lB != 0) {
-    fprintf(f, "      double X_AB = rA.x - rB.x;\n");
-    fprintf(f, "      double Y_AB = rA.y - rB.y;\n");
-    fprintf(f, "      double Z_AB = rA.z - rB.z;\n");
-    fprintf(f, "\n");
-  }
-  fprintf(f, "      for(int i = 0; i < %d; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());\n", size - partial_size);
-  fprintf(f, "\n");
-  fprintf(f, "      for(int ij = 0; ij < nprim_pairs; ++ij) {\n");
-  fprintf(f, "         double RHO = prim_pairs[ij].gamma;\n");
-  if(lA + lB > 1) {
-    fprintf(f, "         double RHO_INV = prim_pairs[ij].gamma_inv;\n");
-  }
-  if(lA != 0) {
-    fprintf(f, "         double X_PA = prim_pairs[ij].PA.x;\n");
-    fprintf(f, "         double Y_PA = prim_pairs[ij].PA.y;\n");
-    fprintf(f, "         double Z_PA = prim_pairs[ij].PA.z;\n");
-  }
-  fprintf(f, "\n");
-  fprintf(f, "         double xP = prim_pairs[ij].P.x;\n");
-  fprintf(f, "         double yP = prim_pairs[ij].P.y;\n");
-  fprintf(f, "         double zP = prim_pairs[ij].P.z;\n");
-  fprintf(f, "\n");
-  fprintf(f, "         double eval = prim_pairs[ij].K_coeff_prod;\n");
-  fprintf(f, "\n");
-  fprintf(f, "         // Evaluate T Values\n");
-
-  generate_part_0(f, variable);
-
-  fprintf(f, "         SCALAR_TYPE ");
-  for(int l = 0; l < lA+lB; ++l) {
-    fprintf(f, "t0%d, ", l);
-  }
-  fprintf(f, "t0%d, TVAL_inv_e;\n\n", (lA + lB));
-  
-  fprintf(f, "         // Evaluate Boys function\n");
-  fprintf(f, "         boys_element<%d>(&TVAL, &TVAL_inv_e, &t0%d, boys_table);\n", lA + lB, lA + lB);
-  fprintf(f, "\n");
-  fprintf(f, "         // Evaluate VRR Buffer\n");
-
-  generate_part_1(f, lA, lB, root_node, variable);
-  
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-
-  generate_off_diagonal_part_2(f, lA, lB, type);
-
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-  fprintf(f, "}\n");
-}
-
-void generate_diagonal_header_files(int lA) {
-  char filename[512];
-      
-  sprintf(filename, "integral_%d.hu", lA);
-      
-  FILE *f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_%d\n", lA);
-  fprintf(f, "#define __MY_INTEGRAL_%d\n", lA);
-  fprintf(f, "\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "namespace XGPU {\n");
-  fprintf(f, "__global__ void integral_%d(size_t npts,\n", lA);
-  fprintf(f, "                          point rA,\n");
-  fprintf(f, "                          point rB,\n");
-  fprintf(f, "                          int nprim_pairs,\n");
-  fprintf(f, "                          prim_pair *prim_pairs,\n");
-  fprintf(f, "                          double *points,\n");
-  fprintf(f, "                          double *Xi,\n");
-  fprintf(f, "                          int ldX,\n");	 
-  fprintf(f, "                          double *Gi,\n");
-  fprintf(f, "                          int ldG, \n");
-  fprintf(f, "                          double *weights, \n");
-  fprintf(f, "                          double *boys_table);\n");	 
-  fprintf(f, "}\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);
-}
-
-void generate_off_diagonal_header_files(int lA, int lB) {
-  char filename[512];
-      
-  sprintf(filename, "integral_%d_%d.hu", lA, lB);
-      
-  FILE *f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_%d_%d\n", lA, lB);
-  fprintf(f, "#define __MY_INTEGRAL_%d_%d\n", lA, lB);
-  fprintf(f, "\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "namespace XGPU {\n");
-  fprintf(f, "__global__ void integral_%d_%d(size_t npts,\n", lA, lB);
-  fprintf(f, "                             point rA,\n");
-  fprintf(f, "                             point rB,\n");
-  fprintf(f, "                             int nprim_pairs,\n");
-  fprintf(f, "                             prim_pair *prim_pairs,\n");
-  fprintf(f, "                             double *points,\n");
-  fprintf(f, "                             double *Xi,\n");
-  fprintf(f, "                             double *Xj,\n");
-  fprintf(f, "                             int ldX,\n");	 
-  fprintf(f, "                             double *Gi,\n");
-  fprintf(f, "                             double *Gj,\n");
-  fprintf(f, "                             int ldG, \n");
-  fprintf(f, "                             double *weights,\n");
-  fprintf(f, "                             double *boys_table);\n");	 
-  fprintf(f, "}\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);
-}
-
-void generate_main_files(int lA) {
-  char filename[512];
-
-  FILE *f;
-  
-  sprintf(filename, "obara_saika_integrals.hpp");
-      
-  f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_OBARA_SAIKA\n");
-  fprintf(f, "#define __MY_INTEGRAL_OBARA_SAIKA\n");
-  fprintf(f, "namespace XGPU {\n");
-  fprintf(f, "void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs);\n");
-  fprintf(f, "void compute_integral_shell_pair(size_t npts,\n");
-  fprintf(f, "                             int is_diag,\n");
-  fprintf(f, "                             int lA,\n");
-  fprintf(f, "                             int lB,\n");
-  fprintf(f, "                             point rA,\n");
-  fprintf(f, "                             point rB,\n");
-  fprintf(f, "                             int nprim_pairs,\n");
-  fprintf(f, "                             prim_pair *prim_pairs,\n");
-  fprintf(f, "                             double *points,\n");
-  fprintf(f, "                             double *Xi,\n");
-  fprintf(f, "                             double *Xj,\n");
-  fprintf(f, "                             int ldX,\n");	 
-  fprintf(f, "                             double *Gi,\n");
-  fprintf(f, "                             double *Gj,\n");
-  fprintf(f, "                             int ldG, \n");
-  fprintf(f, "                             double *weights,\n");
-  fprintf(f, "                             double *boys_table);\n");
-  fprintf(f, " }\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);  
-
-  sprintf(filename, "obara_saika_integrals.cu");
-      
-  f = fopen(filename, "w");
-
-  fprintf(f, "#include <stdio.h>\n");
-  fprintf(f, "#include <stdlib.h>\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "#include \"../include/obara_saika_integrals.hpp\"\n");
-  for(int i = 0; i <= lA; ++i) {
-    fprintf(f, "#include \"integral_%d.hu\"\n", i);
-  }
-
-  for(int i = 0; i <= lA; ++i) {
-    for(int j = 0; j <= i; ++j) {
-      fprintf(f, "#include \"integral_%d_%d.hu\"\n", i, j);
-    }
-  }
-  fprintf(f, "namespace XGPU {\n");
-  fprintf(f, "\nvoid generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs) {\n");
-  fprintf(f, "   // L Values\n");
-  fprintf(f, "   int lA = A.L;\n");
-  fprintf(f, "   int lB = B.L;\n\n");
-
-  fprintf(f, "   const auto xA = A.origin.x;\n");
-  fprintf(f, "   const auto yA = A.origin.y;\n");
-  fprintf(f, "   const auto zA = A.origin.z;\n\n");
-
-  fprintf(f, "   const auto xB = B.origin.x;\n");
-  fprintf(f, "   const auto yB = B.origin.y;\n");
-  fprintf(f, "   const auto zB = B.origin.z;\n\n");
-
-  fprintf(f, "   double rABx = xA - xB;\n");
-  fprintf(f, "   double rABy = yA - yB;\n");
-  fprintf(f, "   double rABz = zA - zB;\n\n");
-
-  fprintf(f, "   const double dAB = rABx*rABx + rABy*rABy + rABz*rABz;\n\n");
-
-  fprintf(f, "   const int nprim_A = A.m;\n");
-  fprintf(f, "   const int nprim_B = B.m;\n");
-  fprintf(f, "   const int np = nprim_A * nprim_B;\n\n");
-
-  fprintf(f, "   for(int i = 0, ij = 0; i < nprim_A; ++i       )\n");
-  fprintf(f, "   for(int j = 0        ; j < nprim_B; ++j, ++ij ) {\n");
-  fprintf(f, "      auto& pair = prim_pairs[ij];\n");
-  fprintf(f, "      const auto alpha_A = A.coeff[i].alpha;\n");
-  fprintf(f, "      const auto alpha_B = B.coeff[j].alpha;\n\n");
-
-  fprintf(f, "      pair.gamma = alpha_A + alpha_B;\n");
-  fprintf(f, "      pair.gamma_inv = 1. / pair.gamma;\n\n");
-
-  fprintf(f, "      pair.P.x = (alpha_A * xA + alpha_B * xB) * pair.gamma_inv;\n");
-  fprintf(f, "      pair.P.y = (alpha_A * yA + alpha_B * yB) * pair.gamma_inv;\n");
-  fprintf(f, "      pair.P.z = (alpha_A * zA + alpha_B * zB) * pair.gamma_inv;\n\n");
-
-  fprintf(f, "      pair.PA.x = pair.P.x - xA;\n");
-  fprintf(f, "      pair.PA.y = pair.P.y - yA;\n");
-  fprintf(f, "      pair.PA.z = pair.P.z - zA;\n\n");
-
-  fprintf(f, "      pair.PB.x = pair.P.x - xB;\n");
-  fprintf(f, "      pair.PB.y = pair.P.y - yB;\n");
-  fprintf(f, "      pair.PB.z = pair.P.z - zB;\n\n");
-
-  fprintf(f, "      pair.K_coeff_prod = 2 * M_PI * A.coeff[i].coeff * B.coeff[j].coeff * pair.gamma_inv * std::exp( - alpha_A * alpha_B * dAB * pair.gamma_inv );\n");
-  fprintf(f, "   }\n\n");
-  fprintf(f, "}\n");
-  
-  fprintf(f, "\n");
-  fprintf(f, "void compute_integral_shell_pair(size_t npts,\n");
-  fprintf(f, "                  int is_diag,\n");
-  fprintf(f, "                  int lA,\n");
-  fprintf(f, "                  int lB,\n");
-  fprintf(f, "                  point rA,\n");
-  fprintf(f, "                  point rB,\n");
-  fprintf(f, "                  int nprim_pairs,\n");
-  fprintf(f, "                  prim_pair *prim_pairs,\n");
-  fprintf(f, "                  double *points,\n");
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights,\n");
-  fprintf(f, "                  double *boys_table) {\n");	 
-
-  int size = 0;
-  int partial_size = 0;
-  
-  fprintf(f, "   if (is_diag) {\n");
-  size = 0;
-  for(int l = 0; l < (0 + 0 + 1); ++l) {
-    size += (l + 1) * (l + 2) / 2;
-  }
-
-  partial_size = 0;
-  for(int l = 0; l < 0; ++l) {
-    partial_size += (l + 1) * (l + 2) / 2;
-  }
-  
-  fprintf(f, "      if(lA == %d) {\n", 0);
-  fprintf(f, "         integral_%d<<<320, 128, 128 * %d * sizeof(double)>>>(npts,\n", 0, size - partial_size);
-  fprintf(f, "                                rA,\n");
-  fprintf(f, "                                rB,\n");
-  fprintf(f, "                                nprim_pairs,\n");
-  fprintf(f, "                                prim_pairs,\n");
-  fprintf(f, "                                points,\n");
-  fprintf(f, "                                Xi,\n");
-  fprintf(f, "                                ldX,\n");
-  fprintf(f, "                                Gi,\n");
-  fprintf(f, "                                ldG, \n");
-  fprintf(f, "                                weights, \n");
-  fprintf(f, "                                boys_table);\n");
-  
-  fprintf(f, "      } else ");
-
-  for(int i = 1; i <= lA; ++i) {
-    size = 0;
-    for(int l = 0; l < (i + i + 1); ++l) {
-      size += (l + 1) * (l + 2) / 2;
-    }
-
-    partial_size = 0;
-    for(int l = 0; l < i; ++l) {
-      partial_size += (l + 1) * (l + 2) / 2;
-    }
-
-    fprintf(f, "if(lA == %d) {\n", i);
-    fprintf(f, "        integral_%d<<<320, 128, 128 * %d * sizeof(double)>>>(npts,\n", 0, size - partial_size);
-    fprintf(f, "                               rA,\n");
-    fprintf(f, "                               rB,\n");
-    fprintf(f, "                               nprim_pairs,\n");
-    fprintf(f, "                               prim_pairs,\n");
-    fprintf(f, "                               points,\n");
-    fprintf(f, "                               Xi,\n");
-    fprintf(f, "                               ldX,\n");
-    fprintf(f, "                               Gi,\n");
-    fprintf(f, "                               ldG, \n");
-    fprintf(f, "                               weights, \n");
-    fprintf(f, "                               boys_table);\n");	 
-    fprintf(f, "      } else ");
-  }
-
-  fprintf(f, "{\n");
-  fprintf(f, "         printf(\"Type not defined!\\n\");\n");
-  fprintf(f, "      }\n");  
-  fprintf(f, "   } else {\n");
-
-  size = 0;
-  for(int l = 0; l < (0 + 0 + 1); ++l) {
-    size += (l + 1) * (l + 2) / 2;
-  }
-
-  partial_size = 0;
-  for(int l = 0; l < 0; ++l) {
-    partial_size += (l + 1) * (l + 2) / 2;
-  }
-  
-  fprintf(f, "      if((lA == %d) && (lB == %d)) {\n", 0, 0);
-  fprintf(f, "         integral_%d_%d<<<320, 128, 128 * %d * sizeof(double)>>>(npts,\n", 0, 0, size - partial_size);
-  fprintf(f, "                                  rA,\n");
-  fprintf(f, "                                  rB,\n");
-  fprintf(f, "                                  nprim_pairs,\n");
-  fprintf(f, "                                  prim_pairs,\n");
-  fprintf(f, "                                  points,\n");
-  fprintf(f, "                                  Xi,\n");
-  fprintf(f, "                                  Xj,\n");
-  fprintf(f, "                                  ldX,\n");
-  fprintf(f, "                                  Gi,\n");
-  fprintf(f, "                                  Gj,\n");
-  fprintf(f, "                                  ldG, \n");
-  fprintf(f, "                                  weights,\n");
-  fprintf(f, "                                  boys_table);\n");	 
-  fprintf(f, "      } else ");
-
-  for(int i = 1; i <= lA; ++i) {
-    for(int j = 0; j < i; ++j) {
-      size = 0;
-      for(int l = 0; l < (i + j + 1); ++l) {
-	size += (l + 1) * (l + 2) / 2;
-      }
-
-      partial_size = 0;
-      for(int l = 0; l < i; ++l) {
-	partial_size += (l + 1) * (l + 2) / 2;
-      }
-      
-      fprintf(f, "if((lA == %d) && (lB == %d)) {\n", i, j);
-      fprintf(f, "         integral_%d_%d<<<320, 128, 128 * %d * sizeof(double)>>>(npts,\n", i, j, size - partial_size);
-      fprintf(f, "                                  rA,\n");
-      fprintf(f, "                                  rB,\n");
-      fprintf(f, "                                  nprim_pairs,\n");
-      fprintf(f, "                                  prim_pairs,\n");
-      fprintf(f, "                                  points,\n");
-      fprintf(f, "                                  Xi,\n");
-      fprintf(f, "                                  Xj,\n");
-      fprintf(f, "                                  ldX,\n");
-      fprintf(f, "                                  Gi,\n");
-      fprintf(f, "                                  Gj,\n");
-      fprintf(f, "                                  ldG, \n");
-      fprintf(f, "                                  weights,\n");
-      fprintf(f, "                                  boys_table);\n");	 
-      fprintf(f, "      } else if((lA == %d) && (lB == %d)) {\n", j, i);
-      fprintf(f, "         integral_%d_%d<<<320, 128, 128 * %d * sizeof(double)>>>(npts,\n", i, j, size - partial_size);
-      fprintf(f, "                                  rB,\n");
-      fprintf(f, "                                  rA,\n");
-      fprintf(f, "                                  nprim_pairs,\n");
-      fprintf(f, "                                  prim_pairs,\n");
-      fprintf(f, "                                  points,\n");
-      fprintf(f, "                                  Xj,\n");
-      fprintf(f, "                                  Xi,\n");
-      fprintf(f, "                                  ldX,\n");
-      fprintf(f, "                                  Gj,\n");
-      fprintf(f, "                                  Gi,\n");
-      fprintf(f, "                                  ldG, \n");
-      fprintf(f, "                                  weights, \n");
-      fprintf(f, "                                  boys_table);\n");	 
-      fprintf(f, "      } else ");
-    }
-
-    size = 0;
-    for(int l = 0; l < (i + i + 1); ++l) {
-      size += (l + 1) * (l + 2) / 2;
-    }
-
-    partial_size = 0;
-    for(int l = 0; l < i; ++l) {
-      partial_size += (l + 1) * (l + 2) / 2;
-    }
-    
-    fprintf(f, "if((lA == %d) && (lB == %d)) {\n", i, i);
-    fprintf(f, "        integral_%d_%d<<<320, 128, 128 * %d * sizeof(double)>>>(npts,\n", i, i, size - partial_size);
-    fprintf(f, "                                 rA,\n");
-    fprintf(f, "                                 rB,\n");
-    fprintf(f, "                                 nprim_pairs,\n");
-    fprintf(f, "                                 prim_pairs,\n");
-    fprintf(f, "                                 points,\n");
-    fprintf(f, "                                 Xi,\n");
-    fprintf(f, "                                 Xj,\n");
-    fprintf(f, "                                 ldX,\n");
-    fprintf(f, "                                 Gi,\n");
-    fprintf(f, "                                 Gj,\n");
-    fprintf(f, "                                 ldG, \n");
-    fprintf(f, "                                 weights,\n");
-    fprintf(f, "                                 boys_table);\n");	 
-    fprintf(f, "      } else ");
-  }
-
-  fprintf(f, "{\n");
-  fprintf(f, "         printf(\"Type not defined!\\n\");\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "   }\n\n");  
-  fprintf(f, "}\n");
-  fprintf(f, "}\n");
-  
-  fclose(f);  
-}
-
-int main(int argc, char **argv) {
-  int lA = atoi(argv[1]);
-  int tV = atoi(argv[2]);
-
-  generate_main_files(lA);
-  
-  for(int i = 0; i <= lA; ++i) {
-    for(int j = 0; j <= i; ++j) {
-      int size = 0;
-      for(int l = 0; l < (i + j + 1); ++l) {
-	size += (l + 1) * (l + 2) / 2;
-      }
-  
-      struct node *node_list = (struct node *) malloc(size * sizeof(struct node));
-
-      for(int i = 0; i < size; ++i) {
-	node_list[i].iA = 0;
-	node_list[i].jA = 0;
-	node_list[i].kA = 0;
-    
-	node_list[i].iB = 0;
-	node_list[i].jB = 0;
-	node_list[i].kB = 0;
-    
-	node_list[i].level = 0;
-	node_list[i].vars = 0;
-
-	node_list[i].valid = 0;
-	node_list[i].offset = 0;
-    
-	node_list[i].nr_children = 0;;
-      }
-
-      if(i == j) {
-	generate_diagonal_header_files(i);
-      }
-      
-      generate_off_diagonal_header_files(i, j);
-      
-      int type = ((i + j) <= tV) ? 1 : 0;
-      
-      // initialization part
-      initialize_tree_structure(type, i, j, size, node_list);
-      
-      // vrr construction
-      if(i == j) {
-	char filename[512];
-      
-	sprintf(filename, "integral_%d.cu", i);
-      
-	FILE *f = fopen(filename, "w");
-
-	generate_diagonal_files(f, i, size, node_list, type);
-
-	fclose(f);
-      }
-
-      char filename[512];
-      
-      sprintf(filename, "integral_%d_%d.cu", i, j);
-      
-      FILE *f = fopen(filename, "w");
-
-      generate_off_diagonal_files(f, i, j, size, node_list, type);
-
-      fclose(f);
-      
-      free(node_list);
-    }
-  }
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/chebyshev_boys_computation.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/chebyshev_boys_computation.hpp
deleted file mode 100644
index 110f76d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/chebyshev_boys_computation.hpp
+++ /dev/null
@@ -1,28 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <iostream>
-
-#define DEFAULT_NCHEB  7
-#define DEFAULT_MAX_M  8
-#define DEFAULT_MAX_T 30
-
-#define DEFAULT_NSEGMENT ((DEFAULT_MAX_T * DEFAULT_NCHEB) / 2)
-#define DEFAULT_LD_TABLE (DEFAULT_NCHEB + 1)
-
-namespace XGPU {
-  // create tables
-  double *boys_init();
-  void boys_finalize(double *boys_table);
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/integral_data_types.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/integral_data_types.hpp
deleted file mode 100644
index 3a2ca46..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/integral_data_types.hpp
+++ /dev/null
@@ -1,52 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cmath>
-#include <gauxc/shell_pair.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include "device/xc_device_task.hpp"
-#include "device/common/shell_pair_to_task.hpp"
-
-namespace XGPU {
-
-  //typedef struct {
-  //  double x, y, z;
-  //} point;
-  using point = GauXC::detail::cartesian_point;
-
-  typedef struct {
-    double alpha, coeff;
-  } coefficients;
-
-  typedef struct {
-    point origin;
-    coefficients *coeff;
-    int m, L;
-  } shells;
-
-#if 0
-  typedef struct {
-    point P;
-    point PA;
-    point PB;
-
-    double K_coeff_prod;
-    double gamma;
-    double gamma_inv;
-  } prim_pair;
-#else
-  using prim_pair = GauXC::PrimitivePair<double>;
-  using shell_pair = GauXC::ShellPair<double>;
-#endif
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/obara_saika_integrals.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/obara_saika_integrals.hpp
deleted file mode 100644
index 14ea313..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/include/gpu/obara_saika_integrals.hpp
+++ /dev/null
@@ -1,47 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace XGPU {
-  
-  void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs);
-  void compute_integral_shell_pair(int is_diag,
-				   size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-				   int lA,
-				   int lB,
-				   point rA,
-				   point rB,
-           shell_pair* sp,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights,
-				   double *boys_table,
-           cudaStream_t stream);
-
-  void compute_integral_shell_pair_batched( int is_diag,
-    size_t ntask_sp,
-    int lA, int lB, 
-    double X_AB,
-		double Y_AB,
-		double Z_AB,
-    const GauXC::ShellPairToTaskDevice* sp2task,
-    GauXC::XCDeviceTask*                device_tasks,
-		double *boys_table,
-    cudaStream_t stream); 
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/chebyshev_boys_computation.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/chebyshev_boys_computation.cu
deleted file mode 100644
index e607d08..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/chebyshev_boys_computation.cu
+++ /dev/null
@@ -1,133 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "gpu/chebyshev_boys_computation.hpp"
-#include <gauxc/util/constexpr_math.hpp>
-#include <iostream>
-#include <cmath>
-#include <algorithm>
-#include <numeric>
-#include <limits>
-#include <memory>
-#include <vector>
-
-#define MIN(a,b)			\
-  ({ __typeof__ (a) _a = (a);	        \
-  __typeof__ (b) _b = (b);		\
-  _a < _b ? _a : _b; })
-
-namespace XGPU {
-  double boys_reference(int m, double T) {
-    double denom = m + 0.5;
-    double term  = std::exp(-T) / (2 * denom);
-    double old_term = term;
-    double sum = old_term;
-
-    double eps = std::numeric_limits<double>::epsilon();
-    double eps_10 = eps / 10;
-
-    while( term > sum * eps_10 || old_term < term ) {
-      denom = denom + 1;
-      old_term = term;
-      term = old_term * T / denom;
-      sum = sum + term;
-    }
-
-    return sum;
-  }
-  
-  // create table - so this should be done on the host
-  void cheby_coeff(int m, int ncheb, double a, double b, double* c) {
-    const int n = ncheb+1;
-    const double pi_ov_2n = M_PI / (2 * n);
-    
-    std::vector<double> f_table(n);
-    for( int i = 0; i < n; ++i ) {
-      double x = std::cos( (2.*(i+1)-1) * pi_ov_2n );
-      x = 0.5 * ( a+b + (b-a)*x );
-      f_table[i] = boys_reference(m, x);
-    }
-
-    c[0] = std::accumulate( f_table.begin(), f_table.end(),0. ) / n;
-    for( int i = 1; i < n; ++i ) {
-      double _val = 0.;
-      for( int j = 0; j < n; ++j ) {
-	_val += f_table[j] * std::cos( i * (2*(j+1)-1) * pi_ov_2n );
-      }
-      c[i] = 2.0 * _val / n;
-    }
-  }
-
-  void cheby_to_monomial_coeff( int ncheb, double *coeff ) {
-    const int n = ncheb+1;
-    int64_t i_fact = 1;
-    int64_t t_fact = 1;
-    for(int i = 0; i < n; ++i) {
-      if(i)     i_fact *= i;
-      if(i > 1) t_fact *= 2;
-
-      double _val = 0;
-      if(!i) {
-	int m1_fact = 1;
-	for( int j = i; j < n; j += 2 ) {
-	  _val += m1_fact * coeff[j];
-	  m1_fact *= -1;
-	}
-      } else {
-	int m1_term = 1;
-	for( int j = i; j < n; j += 2 ) {
-	  const int f_up = (i+j)/2 - 1;
-	  const int f_lo = (j-i)/2;
-	  int f_term = 1;
-	  for( int k = f_lo+1; k <= f_up; ++k ) f_term *= k;
-	  _val += t_fact * j * m1_term * double(f_term) / double(i_fact) * coeff[j];
-	  m1_term *= -1;
-	}
-
-      }
-      coeff[i] = _val;
-    }
-  }
-  
-  void generate_boys_table(int ncheb, int maxM, double maxT, int nseg, double* cheb_coeff_table, int ld) {
-    const double deltaT = maxT / nseg;
-    for( int m = 0; m <= maxM; ++m ) {
-      double* coeff_m = cheb_coeff_table + m * ld * nseg; // table offset for current m
-      for( int iseg = 0; iseg < nseg; ++iseg ) {
-	double* coeff_seg = coeff_m + iseg * ld;
-
-	const double a = iseg * deltaT;
-	const double b = a + deltaT;
-
-	cheby_coeff( m, ncheb, a, b, coeff_seg ); // Generate coeff in Chebyshev basis
-	cheby_to_monomial_coeff( ncheb, coeff_seg );   // Convert to monomial basis
-      }
-    }
-  }
-  
-  double* boys_init() {
-    double *tmp = (double*) malloc(DEFAULT_LD_TABLE * DEFAULT_NSEGMENT * (DEFAULT_MAX_M + 1) * sizeof(double));    
-    generate_boys_table(DEFAULT_NCHEB, DEFAULT_MAX_M, DEFAULT_MAX_T, DEFAULT_NSEGMENT, tmp, DEFAULT_LD_TABLE);
-
-    double *dev_tmp;
-
-    cudaMalloc((void**)&dev_tmp, DEFAULT_LD_TABLE * DEFAULT_NSEGMENT * (DEFAULT_MAX_M + 1) * sizeof(double));
-    cudaMemcpy(dev_tmp, tmp, DEFAULT_LD_TABLE * DEFAULT_NSEGMENT * (DEFAULT_MAX_M + 1) * sizeof(double), cudaMemcpyHostToDevice);
-
-    free(tmp);
-    
-    return dev_tmp;
-  }
-  
-  void boys_finalize(double *tmp) {
-    cudaFree(tmp);
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/config_obara_saika.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/config_obara_saika.hpp
deleted file mode 100644
index d8a472f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/config_obara_saika.hpp
+++ /dev/null
@@ -1,220 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/util/constexpr_math.hpp>
-
-#define NPTS_LOCAL 64
-
-#define DEFAULT_NCHEB  7
-#define DEFAULT_MAX_M  8
-#define DEFAULT_MAX_T 30
-
-#define DEFAULT_NSEGMENT ((DEFAULT_MAX_T * DEFAULT_NCHEB) / 2)
-#define DEFAULT_LD_TABLE (DEFAULT_NCHEB + 1)
- 
-namespace XGPU {
-  template <int M>
-  __device__ inline void boys_element(double *T, double *T_inv_e, double *eval, double *boys_table) {
-    if((*T) < DEFAULT_MAX_T) {
-      if constexpr (M == 0) {
-	const double sqrt_t = std::sqrt((*T));
-	const double inv_sqrt_t = 1./sqrt_t;
-	*(T_inv_e) = 0.0;
-	*(eval) = GauXC::constants::sqrt_pi_ov_2<> * std::erf(sqrt_t) * inv_sqrt_t;
-      } else {
-	const double* boys_m = (boys_table + M * DEFAULT_LD_TABLE * DEFAULT_NSEGMENT);
-	constexpr double deltaT = double(DEFAULT_MAX_T) / DEFAULT_NSEGMENT;
-	constexpr double one_over_deltaT = 1 / deltaT;
-	
-	int iseg = std::floor((*T) * one_over_deltaT);
-	const double* boys_seg = boys_m + iseg * DEFAULT_LD_TABLE;
-	
-	const double ratio = (2 * iseg + 1);
-	const double fact  = 2.0 / deltaT;
-	
-	double xt = (*T) * fact - ratio;
-	double _rec = 1.0;
-	double _val = boys_seg[0];
-	
-	for(int i = 1; i < DEFAULT_NCHEB + 1; ++i) {
-	  _rec = _rec * xt;
-	  _val += _rec * boys_seg[i];
-	}
-
-	*(T_inv_e) = 0.5 * std::exp(-(*T));
-	*(eval) = _val;
-      }
-    } else {
-      const double t_inv = 1./(*T);
-      //double _val = GauXC::constants::sqrt_pi_ov_2<> * std::sqrt(t_inv);
-      double _val = GauXC::constants::sqrt_pi_ov_2<> * rsqrt(*T);
-    
-      for(int i = 1; i < M + 1; ++i) {
-	_val *= ((i - 0.5) * t_inv);
-      }
-
-      *(T_inv_e) = 0.0;
-      *(eval) = _val;
-    }
-  }
-
-  __device__ __inline__ double boys_element_0( double T ) {
-  #if 0
-    if( T < DEFAULT_MAX_T ) {
-      const double sqrt_t = std::sqrt(T);
-      const double inv_sqrt_t = 1.0 / sqrt_t;
-      return 0.88622692545275801364 * std::erf(sqrt_t) * inv_sqrt_t;
-    } else {
-      return 0.88622692545275801364 * rsqrt(T);
-    }
-  #else
-    if( T > 26.0 ) {
-      return 0.88622692545275801364 * rsqrt(T);
-    } else if( T < 13.0 ) {
-      const auto exp_t = exp( - T * 0.33333333333333333333 );
-
-      double b =  4.014103057876808e-23;
-      b = fma( T, b, -5.822235306869006e-21 );
-      b = fma( T, b,  4.093796011592500e-19 );
-      b = fma( T, b, -1.869382772172656e-17 );
-      b = fma( T, b,  6.338163538927402e-16 );
-      b = fma( T, b, -1.721896819094452e-14 );
-      b = fma( T, b,  3.984232174194261e-13 );
-      b = fma( T, b, -8.072677948936458e-12 );
-      b = fma( T, b,  1.489767929273334e-10 );
-      b = fma( T, b, -2.441928489146782e-09 );
-      b = fma( T, b,  3.780445468547986e-08 );
-      b = fma( T, b, -4.872128794416657e-07 );
-      b = fma( T, b,  6.455920003140367e-06 );
-      b = fma( T, b, -5.700739807688489e-05 );
-      b = fma( T, b,  7.054673174084430e-04 );
-      b = fma( T, b, -2.821869460954601e-03 );
-      b = fma( T, b,  4.444444443709288e-02 );
-      b = fma( T, b,  7.778049953252520e-13 );
-      b = fma( T, b,  9.999999999999863e-01 );
-      return b * exp_t;
-
-    } else {
-    #if 0
-      const double sqrt_t = std::sqrt(T);
-      const double inv_sqrt_t = 1.0 / sqrt_t;
-      return 0.88622692545275801364 * std::erf(sqrt_t) * inv_sqrt_t;
-    #else
-      const auto exp_t = exp( - T * 0.33333333333333333333 );
-
-      double b = 1.153599464241947e-26;
-      b = fma( T, b, -4.025061230220665e-24);
-      b = fma( T, b,  6.845330692919496e-22);
-      b = fma( T, b, -7.455104439417363e-20);
-      b = fma( T, b,  5.806227138295288e-18);
-      b = fma( T, b, -3.426510194853584e-16);
-      b = fma( T, b,  1.587043680665803e-14);
-      b = fma( T, b, -5.898342915599428e-13);
-      b = fma( T, b,  1.785040325720807e-11);
-      b = fma( T, b, -4.437916159483046e-10);
-      b = fma( T, b,  9.111870867088944e-09);
-      b = fma( T, b, -1.546337818112499e-07);
-      b = fma( T, b,  2.167268088592726e-06);
-      b = fma( T, b, -2.490299656562666e-05);
-      b = fma( T, b,  2.335812755969758e-04);
-      b = fma( T, b, -1.744532113923084e-03);
-      b = fma( T, b,  1.048354410615184e-02);
-      b = fma( T, b, -4.539934464926983e-02);
-      b = fma( T, b,  1.754968961724573e-01);
-      b = fma( T, b, -2.542050397037139e-01);
-      b = fma( T, b,  1.233675832421592e+00);
-      return b * exp_t;
-    #endif
-    }
-  #endif
-  }
-}
-
-#define SCALAR_TYPE double
-
-#define SCALAR_LENGTH 1
-
-#define SCALAR_SET1(x) (x)
-#define SCALAR_ZERO() (0.0)
-
-#define SCALAR_LOAD(x) *(x)
-#define SCALAR_STORE(x, y) *(x) = y
-
-#define SCALAR_ADD(x, y) (x + y)
-#define SCALAR_SUB(x, y) (x - y)
-
-#define SCALAR_MUL(x, y) (x * y)
-#define SCALAR_FMA(x, y, z) (z + x * y)
-#define SCALAR_FNMA(x, y, z) (z - x * y)
-
-#define SCALAR_RECIPROCAL(x) (1.0 / (1.0 * x))
-
-/*
-  __device__  inline double monomial_expand(const double* coeff, const double x, double a, double b) {
-  //const int n = DEFAULT_NCHEB + 1;
-  const double sum = a+b;
-  const double diff = b-a;
-  const double ratio = sum / diff;
-  const double fact = 2. / diff;
-
-  //double xp[n]; xp[0] = 1.;
-  double xp[DEFAULT_NCHEB + 1]; xp[0] = 1.;
-
-  double xt = fact * x - ratio;
-
-  //for(int i = 1; i < n; ++i) xp[i] = xp[i-1] * xt;
-  for(int i = 1; i < DEFAULT_NCHEB + 1; ++i) xp[i] = xp[i-1] * xt;
-
-  double _val = 0.;
-  //for(int i = 0; i < n; ++i) _val += xp[i] * coeff[i];
-  for(int i = 0; i < DEFAULT_NCHEB + 1; ++i) _val += xp[i] * coeff[i];
-
-  return _val;
-  }
-
-  template <int M>
-  __device__  inline double boys_asymp_element( double x ) {
-  const auto x_inv = 1./x;
-
-  if constexpr (M != 0) {
-  constexpr double const_coeff = (constants::sqrt_pi<> / integral_pow_two<2*M+1>::value) * (integral_factorial<2*M>::value / integral_factorial<M>::value);
-  return const_coeff * std::sqrt(integral_pow<2*M+1>(x_inv));
-  }
-    
-  return constants::sqrt_pi_ov_2<> * std::sqrt( x_inv ); 
-  }
-  
-  template <int M>
-  __device__  inline double gauxc_boys_element(double *boys_table, double T) {
-
-  if(T < DEFAULT_MAX_T) {
-  if constexpr (M != 0) {
-  const double* boys_m = (boys_table + M * DEFAULT_LD_TABLE * DEFAULT_NSEGMENT);
-  constexpr double deltaT = double(DEFAULT_MAX_T) / DEFAULT_NSEGMENT;
-
-  int iseg = std::floor(T/ deltaT);
-  const double* boys_seg = boys_m + iseg * DEFAULT_LD_TABLE;
-
-  const double a = iseg * deltaT;
-  const double b = a + deltaT;
-  return monomial_expand(boys_seg, T, a, b);
-  }
-
-  const double sqrt_t = std::sqrt(T);
-  const double inv_sqrt_t = 1./sqrt_t;
-  return constants::sqrt_pi_ov_2<> * std::erf(sqrt_t) * inv_sqrt_t;
-  }
-
-  return boys_asymp_element<M>(T);
-  }
-*/
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0.cu
deleted file mode 100644
index 23eb95c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0.cu
+++ /dev/null
@@ -1,189 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_0.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_0_driver(size_t npts,
-				 double *_points_x,
-				 double *_points_y,
-				 double *_points_z,
-                 const int nprim_pairs,
-                 const GauXC::PrimitivePair<double>* prim_pairs,
-				 double *Xi,
-				 int ldX,
-				 double *Gi,
-				 int ldG, 
-				 double *weights,
-				 double *boys_table) {
-    __shared__ double temp[128 * 1];
-    
-    for(size_t p_outer = blockIdx.x * blockDim.x; p_outer < npts; p_outer += gridDim.x * blockDim.x) {
-      double *_point_outer_x = (_points_x + p_outer);
-      double *_point_outer_y = (_points_y + p_outer);
-      double *_point_outer_z = (_points_z + p_outer);
-      
-      size_t p_inner = (threadIdx.x < (npts - p_outer)) ? threadIdx.x : (npts - p_outer);
-
-      for(int i = 0; i < 1; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-
-	double xA = prim_pairs[ij].P.x;
-	double yA = prim_pairs[ij].P.y;
-	double zA = prim_pairs[ij].P.z;
-	
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xA, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yA, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zA, zC);
-
-	X_PC = SCALAR_MUL(X_PC, X_PC);
-	X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-	X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-	SCALAR_TYPE TVAL = SCALAR_MUL(RHO, X_PC);
-
-	SCALAR_TYPE t00, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<0>(&TVAL, &TVAL_inv_e, &t00, boys_table);
-	
-	// Evaluate VRR Buffer
-	SCALAR_TYPE tx;
-
-	t00 = SCALAR_MUL(eval, t00);
-	tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t00);
-	SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-      }
-
-      if(threadIdx.x < npts - p_outer) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-
-	SCALAR_TYPE tx, wg, xik, gik;
-	tx  = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 0 * ldX));
-	gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 0 * ldG), gik);
-      }
-    }
-  }
-
-  __global__ void dev_integral_0(size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   int ldX,
-				   double *Gi,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_0_driver( npts, points_x, points_y, points_z, nprim_pairs, prim_pairs, Xi, ldX,
-      Gi, ldG, weights, boys_table );
-  }
-
-  void integral_0(size_t npts,
-		  double *_points_x,	
-		  double *_points_y,	
-		  double *_points_z,	
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		  double *Xi,
-		  int ldX,
-		  double *Gi,
-		  int ldG, 
-		  double *weights,
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_0<<<320, 128, 0, stream>>>(npts,
-				 _points_x,
-				 _points_y,
-				 _points_z,
-         nprim_pairs, prim_pairs,
-				 Xi,
-				 ldX,
-				 Gi,
-				 ldG, 
-				 weights, 
-				 boys_table);
-  }
-
-  __global__ void dev_integral_0_batched(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    const int ntask = sp2task->ntask;
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      const auto  i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-
-      dev_integral_0_driver( 
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        npts,
-        task->gmat + i_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-
-  void integral_0_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-    dev_integral_0_batched<<<nblocks,nthreads,0,stream>>>(
-      sp2task, device_tasks, boys_table );
-
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0.hu
deleted file mode 100644
index 6779a4e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0.hu
+++ /dev/null
@@ -1,36 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_0(size_t npts,
-		  double *points_x,	
-		  double *points_y,	
-		  double *points_z,	
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		  double *Xi,
-		  int ldX,
-		  double *Gi,
-		  int ldG, 
-		  double *weights, 
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_0_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0_0.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0_0.cu
deleted file mode 100644
index ec51003..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0_0.cu
+++ /dev/null
@@ -1,537 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_0_0.hu"
-
-#include "task_map_base.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_0_0_driver(size_t npts, 
-				   const double *points_x,
-				   const double *points_y,
-				   const double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   const double *Xi,
-				   const double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   const double *weights, 
-				   const double *boys_table) {
-
-    double temp;
-
-    //// Load PrimPairs into shared mem
-    //const int nprim_pairs = sp->nprim_pairs();
-    //#if 1
-    //__shared__ GauXC::PrimitivePair<double> prim_pairs[GauXC::detail::nprim_pair_max];
-    //__syncthreads();
-    //if( threadIdx.x < 32 ) {
-    //  const auto pp = sp->prim_pairs();
-    //  for(int ij = threadIdx.x; ij < nprim_pairs; ij += 32) {
-    //    prim_pairs[ij] = pp[ij];
-    //  }
-    //}
-    //__syncthreads();
-    //#else
-    //const auto& prim_pairs = sp->prim_pairs();
-    //#endif
-
-    const int npts_int = (int) npts;
-
-    #pragma unroll(1)
-    for(int p_outer = blockIdx.x * 128; p_outer < npts_int; p_outer += gridDim.x * 128) {
-
-      const double * __restrict__ _point_outer_x = (points_x + p_outer);
-      const double * __restrict__ _point_outer_y = (points_y + p_outer);
-      const double * __restrict__ _point_outer_z = (points_z + p_outer);
-
-      int p_inner = threadIdx.x;
-      if (threadIdx.x < npts_int - p_outer) {
-
-      temp = SCALAR_ZERO();
-	    const SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	    const SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	    const SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-        double RHO = prim_pairs[ij].gamma;
-      
-        double xP = prim_pairs[ij].P.x;
-        double yP = prim_pairs[ij].P.y;
-        double zP = prim_pairs[ij].P.z;
-      
-        double eval = prim_pairs[ij].K_coeff_prod;
-      
-        // Evaluate T Values
-        const SCALAR_TYPE X_PC = SCALAR_SUB(xP, xC);
-        const SCALAR_TYPE Y_PC = SCALAR_SUB(yP, yC);
-        const SCALAR_TYPE Z_PC = SCALAR_SUB(zP, zC);
-      
-        SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-        TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-        TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-        TVAL = SCALAR_MUL(RHO, TVAL);
-      
-        // Evaluate VRR Buffer
-        const SCALAR_TYPE t00 = boys_element_0(TVAL);
-        temp = SCALAR_FMA( eval, t00, temp );
-      }
-      if (abs(temp) > 1e-12) {
-        const double * __restrict__ Xik = (Xi + p_outer + p_inner);
-        const double * __restrict__ Xjk = (Xj + p_outer + p_inner);
-        double * __restrict__ Gik = (Gi + p_outer + p_inner);
-        double * __restrict__ Gjk = (Gj + p_outer + p_inner);
-      
-        SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-      
-        double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-        SCALAR_TYPE const_value_w;
-        SCALAR_TYPE tx, ty, tz, tw, t0;
-      
-        X_ABp = 1.0; comb_m_i = 1.0;
-        Y_ABp = 1.0; comb_n_j = 1.0;
-        Z_ABp = 1.0; comb_p_k = 1.0;
-        const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-        const_value_w = SCALAR_MUL(const_value_v, const_value);
-        tx = SCALAR_LOAD(Xik);
-        ty = SCALAR_LOAD(Xjk);
-        t0 = SCALAR_MUL(temp, const_value_w);
-        tz = SCALAR_MUL(ty, t0);
-        tw = SCALAR_MUL(tx, t0);
-        atomicAdd(Gik, tz);
-        atomicAdd(Gjk, tw);
-      }
-      }
-    }
-  }
-
-
-
-
-
-  __global__ void dev_integral_0_0(size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_0_0_driver( npts, points_x, points_y, points_z, nprim_pairs, prim_pairs, Xi, Xj, ldX,
-      Gi, Gj, ldG, weights, boys_table );
-  }
-
-
-
-  void integral_0_0(size_t npts,
-		    double *points_x,
-		    double *points_y,
-		    double *points_z,
-            const int nprim_pairs,
-            const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights, 
-		    double *boys_table,
-        cudaStream_t stream) {
-    int nthreads = 128;
-    int nblocks = std::min(uintmax_t(320), GauXC::util::div_ceil(npts,nthreads));
-    dev_integral_0_0<<<nblocks, nthreads,0,stream>>>(npts,
-				   points_x,
-				   points_y,
-				   points_z,
-        nprim_pairs,prim_pairs,
-				   Xi,
-				   Xj,
-				   ldX,
-				   Gi,
-				   Gj,
-				   ldG, 
-				   weights,
-				   boys_table);
-  }
-
-
-
-
-
-  __inline__ __device__ void dev_integral_0_0_batched_driver(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    //if (sp2task->shell_pair_device->nprim_pairs() == 0) return;
-    const int ntask = sp2task->ntask;
-
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      const auto  i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-      const auto  j_off = sp2task->task_shell_off_col_device[i_task]*npts;
-
-      dev_integral_0_0_driver( 
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        task->fmat + j_off,
-        npts,
-        task->gmat + i_off,
-        task->gmat + j_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-  __global__ void dev_integral_0_0_batched(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    dev_integral_0_0_batched_driver( sp2task, device_tasks, boys_table );
-  }
-
-  void integral_0_0_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-    dev_integral_0_0_batched<<<nblocks,nthreads,0,stream>>>(
-      sp2task, device_tasks, boys_table );
-
-  }
-
-
-
-
-
-  __inline__ __device__ void dev_integral_0_0_soa_batched_driver(
-           int32_t                         ntask,
-           const int32_t*                  sp2task_idx_device,
-           const int32_t*                  sp2task_shell_off_row_device,
-           const int32_t*                  sp2task_shell_off_col_device,
-           const int32_t                   nprim_pairs,
-           const GauXC::PrimitivePair<double>* prim_pairs_device,
-           const int32_t*                  task_npts,
-           const double**                  task_points_x,
-           const double**                  task_points_y,
-           const double**                  task_points_z,
-           const double**                  task_weights,
-           const double**                  task_fmat,
-           double**                        task_gmat,
-				   double *                        boys_table) {
-
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT   = sp2task_idx_device[i_task];
-      const auto npts = task_npts[iT];
-
-      const auto  i_off = sp2task_shell_off_row_device[i_task] * npts;
-      const auto  j_off = sp2task_shell_off_col_device[i_task] * npts;
-
-      dev_integral_0_0_driver( 
-        npts,
-        task_points_x[iT],
-        task_points_y[iT],
-        task_points_z[iT],
-        nprim_pairs, prim_pairs_device,
-        task_fmat[iT] + i_off,
-        task_fmat[iT] + j_off,
-        npts,
-        task_gmat[iT] + i_off,
-        task_gmat[iT] + j_off,
-        npts,
-        task_weights[iT], boys_table );
-    }
-
-  }
-
-  __global__ void dev_integral_0_0_soa_batched(
-           int32_t                         ntask,
-           const int32_t*                  sp2task_idx_device,
-           const int32_t*                  sp2task_shell_off_row_device,
-           const int32_t*                  sp2task_shell_off_col_device,
-           const int32_t                   nprim_pairs,
-           const GauXC::PrimitivePair<double>* prim_pairs_device,
-           const int32_t*                  task_npts,
-           const double**                   task_points_x,
-           const double**                   task_points_y,
-           const double**                   task_points_z,
-           const double**                   task_weights,
-           const double**                   task_fmat,
-           double**                         task_gmat,
-				   double *boys_table) {
-    dev_integral_0_0_soa_batched_driver( ntask, sp2task_idx_device, 
-      sp2task_shell_off_row_device, sp2task_shell_off_col_device, nprim_pairs,
-      prim_pairs_device,
-      task_npts, task_points_x, task_points_y, task_points_z, task_weights,
-      task_fmat, task_gmat, boys_table );
-  }
-
-
-  __global__ void 
-  __launch_bounds__(128, 16)
-  dev_integral_0_0_shell_batched(
-           int nsp,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    for( int i = blockIdx.z; i < nsp; i += gridDim.z ) {
-      dev_integral_0_0_batched_driver( sp2task + i, device_tasks, boys_table );
-    }
-
-  }
-
-  void integral_0_0_shell_batched(
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    size_t xy_max = (1ul << 16) - 1;
-    int nthreads = 128;
-    int nblocks_x = 1;
-    int nblocks_y = std::min(max_ntask, xy_max);
-    int nblocks_z = std::min(nsp,  xy_max);
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-
-    dev_integral_0_0_shell_batched<<<nblocks,nthreads,0,stream>>>(
-      nsp, sp2task, device_tasks, boys_table );
-
-  }
-
-
-template<ObaraSaikaType type_, int points_per_subtask_, int primpair_shared_limit_>
-struct DeviceTask00 {
-  static constexpr int max_primpair_shared_limit = 32;
-
-  static constexpr int primpair_shared_limit = primpair_shared_limit_;
-  static constexpr int points_per_subtask = points_per_subtask_;
-  static constexpr int num_threads = points_per_subtask_;
-  static constexpr ObaraSaikaType type = type_;
-
-  static_assert(ObaraSaikaType::swap != type, "DeviceTask00 does not support swap");
-  static constexpr bool diag = (ObaraSaikaType::diag == type);
-
-  static constexpr bool use_shared = (primpair_shared_limit > 0) && 
-                                     (primpair_shared_limit <= max_primpair_shared_limit);
-  static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-  // Cannot declare shared memory array with length 0
-  static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-  using Params = ObaraSaikaBaseParams<type>;
-
-  __inline__ __device__ static void compute( 
-    const int i,
-    const int npts,
-    const int nprim_pairs,
-    // Point data
-    double4 (&s_task_data)[points_per_subtask],
-    // Shell Pair Data
-    const GauXC::PrimitivePair<double>* prim_pairs,
-    // Output Data
-    const Params param,
-    int ldX,
-    int ldG, 
-    // Other
-    double *boys_table) {
-
-    // Unpack Params;
-    const double *Xi = param.Xi;
-    const double *Xj = param.Xj;
-    double *Gi = param.Gi;
-    double *Gj = param.Gj;
-
-    const int laneId = threadIdx.x % GauXC::cuda::warp_size;
-    const int warpId __attribute__((unused)) = threadIdx.x / GauXC::cuda::warp_size;
-
-    __shared__ GauXC::PrimitivePair<double> s_prim_pairs[prim_buffer_size] __attribute__((unused));
-
-    if constexpr (use_shared) {
-      load_primpair_shared(laneId, warpId, nprim_pairs,
-        &(prim_pairs[0]), &(s_prim_pairs[warpId * primpair_shared_limit]));
-      __syncwarp();
-    }
-
-    // Loop over points in shared in batches of 32
-    for (int i = 0; i <  num_warps; i++) {
-      double temp = SCALAR_ZERO();
-
-      const int pointIndex = i * GauXC::cuda::warp_size + laneId;
-
-      if (pointIndex < npts) {
-
-        const double point_x = s_task_data[pointIndex].x;
-        const double point_y = s_task_data[pointIndex].y;
-        const double point_z = s_task_data[pointIndex].z;
-        const double weight = s_task_data[pointIndex].w;
-
-        for (int ij = 0; ij < nprim_pairs; ij++) {
-          const GauXC::PrimitivePair<double>* prim_pairs_use = nullptr; 
-          if constexpr (use_shared) prim_pairs_use = &(s_prim_pairs[warpId * primpair_shared_limit]);
-          else                      prim_pairs_use = &(prim_pairs[0]);
-
-          double RHO = prim_pairs_use[ij].gamma;
-          double xP = prim_pairs_use[ij].P.x;
-          double yP = prim_pairs_use[ij].P.y;
-          double zP = prim_pairs_use[ij].P.z;
-          double eval = prim_pairs_use[ij].K_coeff_prod;
-       
-          // Evaluate T Values
-          const SCALAR_TYPE X_PC = SCALAR_SUB(xP, point_x);
-          const SCALAR_TYPE Y_PC = SCALAR_SUB(yP, point_y);
-          const SCALAR_TYPE Z_PC = SCALAR_SUB(zP, point_z);
-        
-          SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-          TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-          TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-          TVAL = SCALAR_MUL(RHO, TVAL);
-        
-          // Evaluate VRR Buffer
-          const SCALAR_TYPE t00 = boys_element_0(TVAL);
-          temp = SCALAR_FMA( eval, t00, temp );
-        }
-
-        // Output
-        if (diag || abs(temp) > 1e-12) {
-          const double * __restrict__ Xik = (Xi + pointIndex);
-          const double * __restrict__ Xjk = (Xj + pointIndex);
-          double * __restrict__ Gik = (Gi + pointIndex);
-          double * __restrict__ Gjk = (Gj + pointIndex);
-
-          SCALAR_TYPE const_value_v = weight;
-        
-          double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-          SCALAR_TYPE const_value_w;
-          SCALAR_TYPE tx, ty, tz, tw, t0;
-        
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = SCALAR_LOAD(Xik);
-          ty = SCALAR_LOAD(Xjk);
-          t0 = SCALAR_MUL(temp, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          atomicAdd(Gik, tz);
-          if constexpr (!diag) atomicAdd(Gjk, tw);
-        }
-      }
-    }
-    __syncwarp();
-  }
-};
-
-template <int primpair_limit>
-using AM00 = DeviceTask00<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, primpair_limit>;
-
-template <int primpair_limit>
-using AM0 = DeviceTask00<ObaraSaikaType::diag,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, primpair_limit>;
-
-  void integral_0_0_task_batched(
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-    
-    dev_integral_task_map_dispatcher<AM00>(
-      nblocks, nthreads, max_primpair, stream, 
-      ntasks, nsubtask,
-      device_tasks, task2sp, 
-      (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-      sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-      boys_table );
-  }
-
-  void integral_0_task_batched(
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-    
-    dev_integral_task_map_dispatcher<AM0>(
-      nblocks, nthreads, max_primpair, stream, 
-      ntasks, nsubtask,
-      device_tasks, task2sp, 
-      (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-      sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-      boys_table );
-  }
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0_0.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0_0.hu
deleted file mode 100644
index 62cd3d5..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_0_0.hu
+++ /dev/null
@@ -1,70 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_0_0(size_t npts,
-		    double *points_x,	
-		    double *points_y,	
-		    double *points_z,	
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights,
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_0_0_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream);
-
-
-  void integral_0_0_task_batched(
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-  void integral_0_task_batched(
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1.cu
deleted file mode 100644
index 667e851..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1.cu
+++ /dev/null
@@ -1,325 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_1.hu"
-
-namespace XGPU {
-  __inline__ __device__ void dev_integral_1_driver(size_t npts,
-				 double *points_x,
-				 double *points_y,
-				 double *points_z,
-                 const int nprim_pairs,
-                 const GauXC::PrimitivePair<double>* prim_pairs,
-				 double *Xi,
-				 int ldX,
-				 double *Gi,
-				 int ldG,
-				 double *weights,
-				 double *boys_table) {
-    __shared__ double temp[128 * 9];
-    
-    for(size_t p_outer = blockIdx.x * blockDim.x; p_outer < npts; p_outer += gridDim.x * blockDim.x) {
-      double *_point_outer_x = (points_x + p_outer);
-      double *_point_outer_y = (points_y + p_outer);
-      double *_point_outer_z = (points_z + p_outer);
-
-      size_t p_inner = (threadIdx.x < (npts - p_outer)) ? threadIdx.x : (npts - p_outer);
-
-      for(int i = 0; i < 9; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double RHO_INV = prim_pairs[ij].gamma_inv;
-
-	double xA = prim_pairs[ij].P.x;
-	double yA = prim_pairs[ij].P.y;
-	double zA = prim_pairs[ij].P.z;
-	
-	constexpr double X_PA = 0.0;
-	constexpr double Y_PA = 0.0;
-	constexpr double Z_PA = 0.0;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xA, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yA, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zA, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-        TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-
-	SCALAR_TYPE t00, t01, t02, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<2>(&TVAL, &TVAL_inv_e, &t02, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, t11, t20, tx, ty;
-
-	t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-	
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t02 = SCALAR_MUL(eval, t02);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	t11 = SCALAR_MUL(X_PA, t01);
-	t11 = SCALAR_FNMA(X_PC, t02, t11);
-	tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t10);
-	SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(X_PA, t10);
-	t20 = SCALAR_FNMA(X_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	t11 = SCALAR_MUL(Y_PA, t01);
-	t11 = SCALAR_FNMA(Y_PC, t02, t11);
-	tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t10);
-	SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	tx = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 6 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 7 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	t11 = SCALAR_MUL(Z_PA, t01);
-	t11 = SCALAR_FNMA(Z_PC, t02, t11);
-	tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t10);
-	SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	tx = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 8 * blockDim.x + threadIdx.x), tx);
-      }
-
-      if(threadIdx.x < npts - p_outer) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-
-	SCALAR_TYPE tx, wg, xik, gik;
-	tx  = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 0 * ldX));
-	gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 0 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 0 * ldX));
-	gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 1 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 0 * ldX));
-	gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 2 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 1 * ldX));
-	gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 0 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 1 * ldX));
-	gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 1 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 1 * ldX));
-	gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 2 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 2 * ldX));
-	gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 0 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 2 * ldX));
-	gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 1 * ldG), gik);
-	tx  = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	xik = SCALAR_LOAD((Xik + 2 * ldX));
-	gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-	tx = SCALAR_MUL(tx, wg);
-	gik = SCALAR_FMA(tx, xik, gik);
-	SCALAR_STORE((Gik + 2 * ldG), gik);
-      }
-    }
-  }
-
-  __global__ void dev_integral_1(size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   int ldX,
-				   double *Gi,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_1_driver( npts, points_x, points_y, points_z, nprim_pairs, prim_pairs, Xi, ldX,
-      Gi, ldG, weights, boys_table );
-  }
-
-  void integral_1(size_t npts,
-		  double *_points_x,	
-		  double *_points_y,	
-		  double *_points_z,	
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		  double *Xi,
-		  int ldX,
-		  double *Gi,
-		  int ldG, 
-		  double *weights,
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_1<<<320, 128, 0, stream>>>(npts,
-				 _points_x,
-				 _points_y,
-				 _points_z,
-         nprim_pairs, prim_pairs,
-				 Xi,
-				 ldX,
-				 Gi,
-				 ldG, 
-				 weights, 
-				 boys_table);
-  }
-
-  __global__ void dev_integral_1_batched(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    const int ntask = sp2task->ntask;
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      const auto  i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-
-      dev_integral_1_driver( 
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        npts,
-        task->gmat + i_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-
-  void integral_1_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-    dev_integral_1_batched<<<nblocks,nthreads,0,stream>>>(
-      sp2task, device_tasks, boys_table );
-
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1.hu
deleted file mode 100644
index 16f8324..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1.hu
+++ /dev/null
@@ -1,36 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_1(size_t npts,
-		  double *points_x,
-		  double *points_y,
-		  double *points_z,
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		  double *Xi,
-		  int ldX,
-		  double *Gi,
-		  int ldG, 
-		  double *weights, 
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_1_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_0.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_0.cu
deleted file mode 100644
index 71313b0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_0.cu
+++ /dev/null
@@ -1,625 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_1_0.hu"
-
-#include "task_map_base.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_1_0_driver(size_t npts,
-				   double *_points_x,
-				   double *_points_y,
-				   double *_points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    //__shared__ double temp[128 * 3];
-    double temp_0, temp_1, temp_2;
-
-
-    const int npts_int = (int) npts;
-    
-    for(int p_outer = blockIdx.x * blockDim.x; p_outer < npts_int; p_outer += gridDim.x * blockDim.x) {
-      double *_point_outer_x = (_points_x + p_outer);
-      double *_point_outer_y = (_points_y + p_outer);
-      double *_point_outer_z = (_points_z + p_outer);
-
-      int p_inner = threadIdx.x;
-      if (threadIdx.x < npts_int - p_outer) {
-
-      //for(int i = 0; i < 3; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-      temp_0 = SCALAR_ZERO();
-      temp_1 = SCALAR_ZERO();
-      temp_2 = SCALAR_ZERO();
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double X_PA = prim_pairs[ij].PA.x;
-	double Y_PA = prim_pairs[ij].PA.y;
-	double Z_PA = prim_pairs[ij].PA.z;
-
-	double xP = prim_pairs[ij].P.x;
-	double yP = prim_pairs[ij].P.y;
-	double zP = prim_pairs[ij].P.z;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xP, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yP, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zP, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-	TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-	
-	SCALAR_TYPE t00, t01, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<1>(&TVAL, &TVAL_inv_e, &t01, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, tx;
-
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	//tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	tx = temp_0;
-	tx = SCALAR_ADD(tx, t10);
-	//SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-  temp_0 = tx;
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	//tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	tx = temp_1;
-	tx = SCALAR_ADD(tx, t10);
-	//SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-  temp_1 = tx;
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	//tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	tx = temp_2;
-	tx = SCALAR_ADD(tx, t10);
-	//SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-  temp_2 = tx;
-      }
-
-  
-      if (abs(temp_0) > 1e-12 || abs(temp_1) > 1e-12 || abs(temp_2) > 1e-12) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Xjk = (Xj + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-	double *Gjk = (Gj + p_outer + p_inner);
-
-	SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-	SCALAR_TYPE const_value_w;
-	SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-  #if 0
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-  t0 = temp_0;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-  t1 = temp_1;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-  t2 = temp_2;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-  #else
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-
-	t0 = SCALAR_MUL(temp_0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	atomicAdd((Gik + 0 * ldG), tz);
-                                   
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-
-	atomicAdd((Gjk + 0 * ldG), tw);
-  #endif
-      }
-      }
-    }
-  }
-
-  __global__ void dev_integral_1_0(size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_1_0_driver( npts, points_x, points_y, points_z, nprim_pairs, prim_pairs, Xi, Xj, ldX,
-      Gi, Gj, ldG, weights, boys_table );
-  }
-
-    void integral_1_0(size_t npts,
-		    double *points_x,
-		    double *points_y,
-		    double *points_z,
-            const int nprim_pairs,
-            const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights, 
-		  double *boys_table,
-      cudaStream_t stream) {
-      dev_integral_1_0<<<320, 128, 0, stream>>>(npts,
-				     points_x,
-				     points_y,
-				     points_z,
-        nprim_pairs,prim_pairs,
-				     Xi,
-				     Xj,
-				     ldX,
-				     Gi,
-				     Gj,
-				     ldG, 
-				     weights,
-				     boys_table);
-    }
-
-
-
-
-  template <bool swap>
-  __inline__ __device__ void dev_integral_1_0_batched_driver(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    //if (sp2task->shell_pair_device->nprim_pairs() == 0) return;
-    const int ntask = sp2task->ntask;
-    #pragma unroll 1
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      int i_off, j_off;
-      if constexpr ( swap ) {
-        j_off = sp2task->task_shell_off_row_device[i_task]*npts;
-        i_off = sp2task->task_shell_off_col_device[i_task]*npts;
-      } else {
-        i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-        j_off = sp2task->task_shell_off_col_device[i_task]*npts;
-      }
-
-
-      dev_integral_1_0_driver( 
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        task->fmat + j_off,
-        npts,
-        task->gmat + i_off,
-        task->gmat + j_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-  template <bool swap>
-  __global__ void dev_integral_1_0_batched(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    dev_integral_1_0_batched_driver<swap>(sp2task,device_tasks,boys_table);
-  }
-
-
-  void integral_1_0_batched(bool swap, size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-
-    if(swap)
-      dev_integral_1_0_batched<true><<<nblocks,nthreads,0,stream>>>(
-        sp2task, device_tasks, boys_table );
-    else
-      dev_integral_1_0_batched<false><<<nblocks,nthreads,0,stream>>>(
-        sp2task, device_tasks, boys_table );
-
-  }
-
-  template <bool swap>
-  __global__ void dev_integral_1_0_shell_batched(
-           int nsp,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    for(int i = blockIdx.z; i < nsp; i+= gridDim.z ) {
-      dev_integral_1_0_batched_driver<swap>(sp2task+i,device_tasks,boys_table);
-    }
-  }
-
-  void integral_1_0_shell_batched(
-        bool swap,
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    size_t xy_max = (1ul << 16) - 1;
-    int nthreads = 128;
-    int nblocks_x = 1;
-    int nblocks_y = std::min(max_ntask, xy_max);
-    int nblocks_z = std::min(nsp,  xy_max);
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    if(swap)
-      dev_integral_1_0_shell_batched<true><<<nblocks,nthreads,0,stream>>>(
-        nsp, sp2task, device_tasks, boys_table );
-    else
-      dev_integral_1_0_shell_batched<false><<<nblocks,nthreads,0,stream>>>(
-        nsp, sp2task, device_tasks, boys_table );
-
-  }
-
-template<ObaraSaikaType type_, int points_per_subtask_, int primpair_shared_limit_,
-         bool pure_bra>
-struct DeviceTask10 {
-  static constexpr int max_primpair_shared_limit = 32;
-
-  static constexpr int primpair_shared_limit = primpair_shared_limit_;
-  static constexpr int points_per_subtask = points_per_subtask_;
-  static constexpr int num_threads = points_per_subtask_;
-  static constexpr ObaraSaikaType type = type_;
-
-  static_assert(ObaraSaikaType::diag != type, "DeviceTask10 does not support diag");
-
-  static constexpr bool use_shared = (primpair_shared_limit > 0) && 
-                                     (primpair_shared_limit <= max_primpair_shared_limit);
-  static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-  // Cannot declare shared memory array with length 0
-  static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-  using Params = ObaraSaikaBaseParams<type>;
-
-  __inline__ __device__ static void compute( 
-    const int i,
-    const int npts,
-    const int nprim_pairs,
-    // Point data
-    double4 (&s_task_data)[points_per_subtask],
-    // Shell Pair Data
-    const GauXC::PrimitivePair<double>* prim_pairs,
-    // Output Data
-    const Params param,
-    int ldX,
-    int ldG, 
-    // Other
-    double *boys_table) {
-
-    // Unpack Params;
-    const double *Xi = param.Xi;
-    const double *Xj = param.Xj;
-    double *Gi = param.Gi;
-    double *Gj = param.Gj;
-
-    static constexpr bool use_shared = (primpair_shared_limit > 0);
-    static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-    // Cannot declare shared memory array with length 0
-    static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-    const int laneId = threadIdx.x % GauXC::cuda::warp_size;
-    const int warpId __attribute__((unused)) = threadIdx.x / GauXC::cuda::warp_size;
-
-    __shared__ GauXC::PrimitivePair<double> s_prim_pairs[prim_buffer_size] __attribute__((unused));
-
-    if constexpr (use_shared) {
-      load_primpair_shared(laneId, warpId, nprim_pairs,
-        &(prim_pairs[0]), &(s_prim_pairs[warpId * primpair_shared_limit]));
-        __syncwarp();
-    }
-
-    // Loop over points in shared in batches of 32
-    for (int i = 0; i <  num_warps; i++) {
-      double temp_0 = SCALAR_ZERO();
-      double temp_1 = SCALAR_ZERO();
-      double temp_2 = SCALAR_ZERO();
-
-      const int pointIndex = i * GauXC::cuda::warp_size + laneId;
-
-      if (pointIndex < npts) {
-        const double point_x = s_task_data[pointIndex].x;
-        const double point_y = s_task_data[pointIndex].y;
-        const double point_z = s_task_data[pointIndex].z;
-        const double weight = s_task_data[pointIndex].w;
-
-        for(int ij = 0; ij < nprim_pairs; ++ij) {
-          const GauXC::PrimitivePair<double>* prim_pairs_use = nullptr; 
-          if constexpr (use_shared) prim_pairs_use = &(s_prim_pairs[warpId * primpair_shared_limit]);
-          else                      prim_pairs_use = &(prim_pairs[0]);
-
-          double RHO = prim_pairs_use[ij].gamma;
-          double X_PA = prim_pairs_use[ij].PA.x;
-          double Y_PA = prim_pairs_use[ij].PA.y;
-          double Z_PA = prim_pairs_use[ij].PA.z;
-
-          double xP = prim_pairs_use[ij].P.x;
-          double yP = prim_pairs_use[ij].P.y;
-          double zP = prim_pairs_use[ij].P.z;
-
-          double eval = prim_pairs_use[ij].K_coeff_prod;
-
-          // Evaluate T Values
-          SCALAR_TYPE X_PC = SCALAR_SUB(xP, point_x);
-          SCALAR_TYPE Y_PC = SCALAR_SUB(yP, point_y);
-          SCALAR_TYPE Z_PC = SCALAR_SUB(zP, point_z);
-
-          SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-          TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-          TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-          TVAL = SCALAR_MUL(RHO, TVAL);
-          
-          SCALAR_TYPE t00, t01, TVAL_inv_e;
-
-          // Evaluate Boys function
-          boys_element<1>(&TVAL, &TVAL_inv_e, &t01, boys_table);
-
-          // Evaluate VRR Buffer
-          SCALAR_TYPE t10, tx;
-
-          t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-          t00 = SCALAR_MUL(eval, t00);
-          t01 = SCALAR_MUL(eval, t01);
-          t10 = SCALAR_MUL(X_PA, t00);
-          t10 = SCALAR_FNMA(X_PC, t01, t10);
-          tx = temp_0;
-          tx = SCALAR_ADD(tx, t10);
-          temp_0 = tx;
-          t10 = SCALAR_MUL(Y_PA, t00);
-          t10 = SCALAR_FNMA(Y_PC, t01, t10);
-          tx = temp_1;
-          tx = SCALAR_ADD(tx, t10);
-          temp_1 = tx;
-          t10 = SCALAR_MUL(Z_PA, t00);
-          t10 = SCALAR_FNMA(Z_PC, t01, t10);
-          tx = temp_2;
-          tx = SCALAR_ADD(tx, t10);
-          temp_2 = tx;
-        }
-
-    
-        if (abs(temp_0) > 1e-12 || abs(temp_1) > 1e-12 || abs(temp_2) > 1e-12) {
-          const double * __restrict__ Xik = (Xi + pointIndex);
-          const double * __restrict__ Xjk = (Xj + pointIndex);
-          double * __restrict__ Gik = (Gi + pointIndex);
-          double * __restrict__ Gjk = (Gj + pointIndex);
-
-          SCALAR_TYPE const_value_v = weight;
-
-          double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-          SCALAR_TYPE const_value_w;
-          SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-          SCALAR_TYPE Xik_0, Xik_1, Xik_2;
-
-          if constexpr (pure_bra) {
-            Xik_0 = SCALAR_LOAD((Xik + 2*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 1*ldX));
-          } else {
-            Xik_0 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 1*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 2*ldX));
-          }
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          ty = SCALAR_LOAD((Xjk + 0 * ldX));
-
-          t0 = SCALAR_MUL(temp_0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          if constexpr (pure_bra) atomicAdd((Gik + 2 * ldG), tz);
-          else                    atomicAdd((Gik + 0 * ldG), tz);
-                                         
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          if constexpr (pure_bra) atomicAdd((Gik + 0 * ldG), tz);
-          else                    atomicAdd((Gik + 1 * ldG), tz);
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          if constexpr (pure_bra) atomicAdd((Gik + 1 * ldG), tz);
-          else                    atomicAdd((Gik + 2 * ldG), tz);
-
-          atomicAdd((Gjk + 0 * ldG), tw);
-        }
-      }
-    }
-    __syncwarp();
-  }
-};
-
-template <int primpair_limit>
-using AM10_swap_cart = DeviceTask10<ObaraSaikaType::swap,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false>;
-
-template <int primpair_limit>
-using AM10_cart = DeviceTask10<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false>;
-
-template <int primpair_limit>
-using AM10_swap_sph = DeviceTask10<ObaraSaikaType::swap,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true>;
-
-template <int primpair_limit>
-using AM10_sph = DeviceTask10<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true>;
-
-  void integral_1_0_task_batched(
-    bool swap,
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-
-    if (swap) {
-      if(sph)
-        dev_integral_task_map_dispatcher<AM10_swap_sph>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else
-        dev_integral_task_map_dispatcher<AM10_swap_cart>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-    } else {
-      if(sph)
-        dev_integral_task_map_dispatcher<AM10_sph>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else
-        dev_integral_task_map_dispatcher<AM10_cart>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-    }
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_0.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_0.hu
deleted file mode 100644
index 21273e2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_0.hu
+++ /dev/null
@@ -1,55 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_1_0(size_t npts,
-		    double *_points_x,
-		    double *_points_y,
-		    double *_points_z,
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights,
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_1_0_batched(bool swap, size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_1_0_task_batched(
-    bool swap,
-    bool sph,
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_1.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_1.cu
deleted file mode 100644
index fae49af..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_1.cu
+++ /dev/null
@@ -1,1301 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_1_1.hu"
-
-#include "task_map_base.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_1_1_driver(double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-				   size_t npts,
-				   double *_points_x,
-				   double *_points_y,
-				   double *_points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    //__shared__ double temp[128 * 9];
-    double temp_0, temp_1, temp_2, temp_3, temp_4, temp_5, temp_6, temp_7, temp_8;
-
-    __shared__ double outBuffer[128][3];
-
-    const int npts_int = (int) npts;
-    
-    for(int p_outer = blockIdx.x * blockDim.x; p_outer < npts_int; p_outer += gridDim.x * blockDim.x) {
-      for (int i = 0; i < 3; i++) {
-        outBuffer[threadIdx.x][i] = 0.0;
-      }
-
-      double *_point_outer_x = (_points_x + p_outer);
-      double *_point_outer_y = (_points_y + p_outer);
-      double *_point_outer_z = (_points_z + p_outer);
-
-      int p_inner = threadIdx.x;
-      if (threadIdx.x < npts_int - p_outer) {
-
-      //for(int i = 0; i < 9; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-      temp_0 = SCALAR_ZERO();
-      temp_1 = SCALAR_ZERO();
-      temp_2 = SCALAR_ZERO();
-      temp_3 = SCALAR_ZERO();
-      temp_4 = SCALAR_ZERO();
-      temp_5 = SCALAR_ZERO();
-      temp_6 = SCALAR_ZERO();
-      temp_7 = SCALAR_ZERO();
-      temp_8 = SCALAR_ZERO();
-
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double RHO_INV = prim_pairs[ij].gamma_inv;
-	double X_PA = prim_pairs[ij].PA.x;
-	double Y_PA = prim_pairs[ij].PA.y;
-	double Z_PA = prim_pairs[ij].PA.z;
-
-	double xP = prim_pairs[ij].P.x;
-	double yP = prim_pairs[ij].P.y;
-	double zP = prim_pairs[ij].P.z;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xP, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yP, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zP, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-	TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-
-	SCALAR_TYPE t00, t01, t02, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<2>(&TVAL, &TVAL_inv_e, &t02, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, t11, t20, tx, ty;
-
-	t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t02 = SCALAR_MUL(eval, t02);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	t11 = SCALAR_MUL(X_PA, t01);
-	t11 = SCALAR_FNMA(X_PC, t02, t11);
-	//tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-  tx = temp_0;
-	tx = SCALAR_ADD(tx, t10);
-	//SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-  temp_0 = tx;
-	t20 = SCALAR_MUL(X_PA, t10);
-	t20 = SCALAR_FNMA(X_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	//tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-  tx = temp_3;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-  temp_3 = tx;
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	//tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-  tx = temp_4;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-  temp_4 = tx;
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	//tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-  tx = temp_5;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-  temp_5 = tx;
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	t11 = SCALAR_MUL(Y_PA, t01);
-	t11 = SCALAR_FNMA(Y_PC, t02, t11);
-	//tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-  tx = temp_1;
-	tx = SCALAR_ADD(tx, t10);
-	//SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-  temp_1 = tx;
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	//tx = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-  tx = temp_6;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 6 * blockDim.x + threadIdx.x), tx);
-  temp_6 = tx;
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	//tx = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-  tx = temp_7;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 7 * blockDim.x + threadIdx.x), tx);
-  temp_7 = tx;
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	t11 = SCALAR_MUL(Z_PA, t01);
-	t11 = SCALAR_FNMA(Z_PC, t02, t11);
-	//tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-  tx = temp_2;
-	tx = SCALAR_ADD(tx, t10);
-	//SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-  temp_2 = tx;
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	//tx = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-  tx = temp_8;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 8 * blockDim.x + threadIdx.x), tx);
-  temp_8 = tx;
-      }
-
-    if (
-      abs(temp_0) > 1e-12 || abs(temp_1) > 1e-12 || abs(temp_2) > 1e-12 ||
-      abs(temp_3) > 1e-12 || abs(temp_4) > 1e-12 || abs(temp_5) > 1e-12 ||
-      abs(temp_6) > 1e-12 || abs(temp_7) > 1e-12 || abs(temp_8) > 1e-12
-    ) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Xjk = (Xj + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-	double *Gjk = (Gj + p_outer + p_inner);
-
-	SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-	SCALAR_TYPE const_value_w;
-	SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-  #if 0
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t0 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-  t0 = temp_3;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t1 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-  t1 = temp_4;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t2 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-  t2 = temp_5;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-  t0 = temp_0;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-  t1 = temp_1;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-  t2 = temp_2;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	//t0 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-  t0 = temp_4;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	//t1 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-  t1 = temp_6;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	//t2 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-  t2 = temp_7;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	//t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-  t0 = temp_0;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	//t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-  t1 = temp_1;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	//t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-  t2 = temp_2;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	//t0 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-  t0 = temp_5;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	//t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-  t1 = temp_7;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	//t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-  t2 = temp_8;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	//t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-  t0 = temp_0;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	//t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-  t1 = temp_1;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	//t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-  t2 = temp_2;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-  #else
-
-  /**** j = 0 ****/
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	t0 = SCALAR_MUL(temp_3, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-    outBuffer[threadIdx.x][0] += tz;
-//	atomicAdd((Gik + 0 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_4, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-    outBuffer[threadIdx.x][1] += tz;
-//	atomicAdd((Gik + 1 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_5, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-    outBuffer[threadIdx.x][2] += tz;
-//	atomicAdd((Gik + 2 * ldG), tz);
-
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_MUL(temp_0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-    outBuffer[threadIdx.x][0] += tz;
-	//atomicAdd((Gik + 0 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-    outBuffer[threadIdx.x][1] += tz;
-//	atomicAdd((Gik + 1 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-    outBuffer[threadIdx.x][2] += tz;
-//	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-
-
-
-  /**** j = 1 ****/
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	t0 = SCALAR_MUL(temp_4, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-    outBuffer[threadIdx.x][0] += tz;
-//	atomicAdd((Gik + 0 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_6, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-    outBuffer[threadIdx.x][1] += tz;
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_7, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-//	atomicAdd((Gik + 2 * ldG), tz);
-    outBuffer[threadIdx.x][2] += tz;
-
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_MUL(temp_0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-    outBuffer[threadIdx.x][0] += tz;
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-    outBuffer[threadIdx.x][1] += tz;
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-//	atomicAdd((Gik + 2 * ldG), tz);
-    outBuffer[threadIdx.x][2] += tz;
-	atomicAdd((Gjk + 1 * ldG), tw);
-
-
-  /**** j = 2 ****/
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	t0 = SCALAR_MUL(temp_5, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-//	atomicAdd((Gik + 0 * ldG), tz);
-    outBuffer[threadIdx.x][0] += tz;
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_7, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-    outBuffer[threadIdx.x][1] += tz;
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_8, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-//	atomicAdd((Gik + 2 * ldG), tz);
-    outBuffer[threadIdx.x][2] += tz;
-
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_MUL(temp_0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-//	atomicAdd((Gik + 0 * ldG), tz);
-    outBuffer[threadIdx.x][0] += tz;
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-//	atomicAdd((Gik + 1 * ldG), tz);
-    outBuffer[threadIdx.x][1] += tz;
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-//	atomicAdd((Gik + 2 * ldG), tz);
-    outBuffer[threadIdx.x][2] += tz;
-	atomicAdd((Gjk + 2 * ldG), tw);
-
-	atomicAdd((Gik + 0 * ldG), outBuffer[threadIdx.x][0]);
-	atomicAdd((Gik + 1 * ldG), outBuffer[threadIdx.x][1]);
-	atomicAdd((Gik + 2 * ldG), outBuffer[threadIdx.x][2]);
-
-  #endif
-      }
-      }
-    }
-  }
-
-  __global__ void dev_integral_1_1(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_1_1_driver( X_AB, Y_AB, Z_AB, npts, points_x, points_y, 
-      points_z, nprim_pairs, prim_pairs, Xi, Xj, ldX, Gi, Gj, ldG, weights, boys_table );
-  }
-
-  void integral_1_1(double X_AB,
-		    double Y_AB,
-		    double Z_AB,
-		    size_t npts,
-		    double *points_x,
-		    double *points_y,
-		    double *points_z,
-            const int nprim_pairs,
-            const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights, 
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_1_1<<<320, 128, 0, stream>>>(X_AB,
-				   Y_AB,
-				   Z_AB,
-				   npts,
-				   points_x,
-				   points_y,
-				   points_z,
-           nprim_pairs, prim_pairs,
-				   Xi,
-				   Xj,
-				   ldX,
-				   Gi,
-				   Gj,
-				   ldG, 
-				   weights,
-				   boys_table);
-  }
-
-  __inline__ __device__ void dev_integral_1_1_batched_driver(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    //if (sp2task->shell_pair_device->nprim_pairs() == 0) return;
-    const int ntask = sp2task->ntask;
-    #pragma unroll 1
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      const auto  i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-      const auto  j_off = sp2task->task_shell_off_col_device[i_task]*npts;
-
-
-      dev_integral_1_1_driver( 
-        X_AB, Y_AB, Z_AB,
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        task->fmat + j_off,
-        npts,
-        task->gmat + i_off,
-        task->gmat + j_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-  __global__ void dev_integral_1_1_batched(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-   dev_integral_1_1_batched_driver(X_AB,Y_AB,Z_AB,sp2task,device_tasks,boys_table);
- }
-
-
-
-  void integral_1_1_batched(size_t ntask_sp,
-        double X_AB,
-				double Y_AB,
-				double Z_AB,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-
-    dev_integral_1_1_batched<<<nblocks,nthreads,0,stream>>>(
-      X_AB, Y_AB, Z_AB, sp2task, device_tasks, boys_table );
-
-  }
-
-
-
-  __global__ void dev_integral_1_1_shell_batched(
-           int nsp,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-   for( int i = blockIdx.z; i < nsp; i += gridDim.z ) {
-     auto sp = sp2task + i;
-     const auto X_AB = sp->X_AB;
-     const auto Y_AB = sp->Y_AB;
-     const auto Z_AB = sp->Z_AB;
-     dev_integral_1_1_batched_driver(X_AB,Y_AB,Z_AB,sp,device_tasks,boys_table);
-   }
- }
-
-  void integral_1_1_shell_batched(
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    size_t xy_max = (1ul << 16) - 1;
-    int nthreads = 128;
-    int nblocks_x = 1;
-    int nblocks_y = std::min(max_ntask, xy_max);
-    int nblocks_z = std::min(nsp,  xy_max);
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dev_integral_1_1_shell_batched<<<nblocks,nthreads,0,stream>>>(
-      nsp, sp2task, device_tasks, boys_table );
-
-  }
-
-template<ObaraSaikaType type_, int points_per_subtask_, int primpair_shared_limit_,
-         bool pure_bra, bool pure_ket>
-struct DeviceTask11 {
-  static constexpr int max_primpair_shared_limit = 32;
-
-  static constexpr int primpair_shared_limit = primpair_shared_limit_;
-  static constexpr int points_per_subtask = points_per_subtask_;
-  static constexpr int num_threads = points_per_subtask_;
-  static constexpr ObaraSaikaType type = type_;
-
-  static_assert(ObaraSaikaType::swap != type, "DeviceTask11 does not support swap");
-  static constexpr bool diag = (ObaraSaikaType::diag == type);
-
-  static constexpr bool use_shared = (primpair_shared_limit > 0) && 
-                                     (primpair_shared_limit <= max_primpair_shared_limit);
-  static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-  // Cannot declare shared memory array with length 0
-  static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-  using Params = ObaraSaikaParamsWithAB<type>;
-
-  __inline__ __device__ static void compute( 
-    const int i,
-    const int npts,
-    const int nprim_pairs,
-    // Point data
-    double4 (&s_task_data)[points_per_subtask],
-    // Shell Pair Data
-    const GauXC::PrimitivePair<double>* prim_pairs,
-    // Output Data
-    const Params param,
-    int ldX,
-    int ldG, 
-    // Other
-    double *boys_table) {
-
-    // Unpack Params;
-    const double *Xi = param.Xi;
-    const double *Xj = param.Xj;
-    double *Gi = param.Gi;
-    double *Gj = param.Gj;
-    const double X_AB = param.X_AB;
-    const double Y_AB = param.Y_AB;
-    const double Z_AB = param.Z_AB;
-
-    static constexpr bool use_shared = (primpair_shared_limit > 0);
-    static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-    // Cannot declare shared memory array with length 0
-    static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-    const int laneId = threadIdx.x % GauXC::cuda::warp_size;
-    const int warpId __attribute__((unused)) = threadIdx.x / GauXC::cuda::warp_size;
-
-    __shared__ GauXC::PrimitivePair<double> s_prim_pairs[prim_buffer_size] __attribute__((unused));
-
-    if constexpr (use_shared) {
-      load_primpair_shared(laneId, warpId, nprim_pairs,
-        &(prim_pairs[0]), &(s_prim_pairs[warpId * primpair_shared_limit]));
-        __syncwarp();
-    }
-
-    __shared__ double outBuffer[num_threads][3];
-
-    // Loop over points in shared in batches of 32
-    for (int i = 0; i <  num_warps; i++) {
-      for (int j = 0; j < 3; j++) {
-        outBuffer[threadIdx.x][j] = 0.0;
-      }
-
-      double temp_0, temp_1, temp_2, temp_3, temp_4, temp_5, temp_6, temp_7, temp_8;
-      temp_0 = SCALAR_ZERO();
-      temp_1 = SCALAR_ZERO();
-      temp_2 = SCALAR_ZERO();
-      temp_3 = SCALAR_ZERO();
-      temp_4 = SCALAR_ZERO();
-      temp_5 = SCALAR_ZERO();
-      temp_6 = SCALAR_ZERO();
-      temp_7 = SCALAR_ZERO();
-      temp_8 = SCALAR_ZERO();
-
-      const int pointIndex = i * GauXC::cuda::warp_size + laneId;
-
-      if (pointIndex < npts) {
-        const double point_x = s_task_data[pointIndex].x;
-        const double point_y = s_task_data[pointIndex].y;
-        const double point_z = s_task_data[pointIndex].z;
-        const double weight = s_task_data[pointIndex].w;
-
-        for(int ij = 0; ij < nprim_pairs; ++ij) {
-          const GauXC::PrimitivePair<double>* prim_pairs_use = nullptr; 
-          if constexpr (use_shared) prim_pairs_use = &(s_prim_pairs[warpId * primpair_shared_limit]);
-          else                      prim_pairs_use = &(prim_pairs[0]);
-
-          double RHO = prim_pairs_use[ij].gamma;
-          double RHO_INV = prim_pairs_use[ij].gamma_inv;
-          double X_PA = prim_pairs_use[ij].PA.x;
-          double Y_PA = prim_pairs_use[ij].PA.y;
-          double Z_PA = prim_pairs_use[ij].PA.z;
-
-          double xP = prim_pairs_use[ij].P.x;
-          double yP = prim_pairs_use[ij].P.y;
-          double zP = prim_pairs_use[ij].P.z;
-
-          double eval = prim_pairs_use[ij].K_coeff_prod;
-
-          // Evaluate T Values
-          SCALAR_TYPE X_PC = SCALAR_SUB(xP, point_x);
-          SCALAR_TYPE Y_PC = SCALAR_SUB(yP, point_y);
-          SCALAR_TYPE Z_PC = SCALAR_SUB(zP, point_z);
-
-
-          SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-          TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-          TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-          TVAL = SCALAR_MUL(RHO, TVAL);
-
-          SCALAR_TYPE t00, t01, t02, TVAL_inv_e;
-
-          // Evaluate Boys function
-          boys_element<2>(&TVAL, &TVAL_inv_e, &t02, boys_table);
-
-          // Evaluate VRR Buffer
-          SCALAR_TYPE t10, t11, t20, tx, ty;
-
-          t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-          t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-          t00 = SCALAR_MUL(eval, t00);
-          t01 = SCALAR_MUL(eval, t01);
-          t02 = SCALAR_MUL(eval, t02);
-          t10 = SCALAR_MUL(X_PA, t00);
-          t10 = SCALAR_FNMA(X_PC, t01, t10);
-          t11 = SCALAR_MUL(X_PA, t01);
-          t11 = SCALAR_FNMA(X_PC, t02, t11);
-          tx = temp_0;
-          tx = SCALAR_ADD(tx, t10);
-          temp_0 = tx;
-          t20 = SCALAR_MUL(X_PA, t10);
-          t20 = SCALAR_FNMA(X_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          tx = temp_3;
-          tx = SCALAR_ADD(tx, t20);
-          temp_3 = tx;
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          tx = temp_4;
-          tx = SCALAR_ADD(tx, t20);
-          temp_4 = tx;
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          tx = temp_5;
-          tx = SCALAR_ADD(tx, t20);
-          temp_5 = tx;
-          t10 = SCALAR_MUL(Y_PA, t00);
-          t10 = SCALAR_FNMA(Y_PC, t01, t10);
-          t11 = SCALAR_MUL(Y_PA, t01);
-          t11 = SCALAR_FNMA(Y_PC, t02, t11);
-          tx = temp_1;
-          tx = SCALAR_ADD(tx, t10);
-          temp_1 = tx;
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          tx = temp_6;
-          tx = SCALAR_ADD(tx, t20);
-          temp_6 = tx;
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          tx = temp_7;
-          tx = SCALAR_ADD(tx, t20);
-          temp_7 = tx;
-          t10 = SCALAR_MUL(Z_PA, t00);
-          t10 = SCALAR_FNMA(Z_PC, t01, t10);
-          t11 = SCALAR_MUL(Z_PA, t01);
-          t11 = SCALAR_FNMA(Z_PC, t02, t11);
-          tx = temp_2;
-          tx = SCALAR_ADD(tx, t10);
-          temp_2 = tx;
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          tx = temp_8;
-          tx = SCALAR_ADD(tx, t20);
-          temp_8 = tx;
-        }
-
-        if (diag ||
-          abs(temp_0) > 1e-12 || abs(temp_1) > 1e-12 || abs(temp_2) > 1e-12 ||
-          abs(temp_3) > 1e-12 || abs(temp_4) > 1e-12 || abs(temp_5) > 1e-12 ||
-          abs(temp_6) > 1e-12 || abs(temp_7) > 1e-12 || abs(temp_8) > 1e-12
-        ) {
-          const double * __restrict__ Xik = (Xi + pointIndex);
-          const double * __restrict__ Xjk = (Xj + pointIndex);
-          double * __restrict__ Gik = (Gi + pointIndex);
-          double * __restrict__ Gjk = (Gj + pointIndex);
-
-          SCALAR_TYPE const_value_v = weight;
-
-          double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-          SCALAR_TYPE const_value_w;
-          SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-          SCALAR_TYPE Xik_0, Xik_1, Xik_2;
-          SCALAR_TYPE Xjk_0, Xjk_1, Xjk_2;
-          SCALAR_TYPE Gjk_0, Gjk_1, Gjk_2;
-
-          if constexpr (pure_bra) {
-            Xik_0 = SCALAR_LOAD((Xik + 2*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 1*ldX));
-          } else {
-            Xik_0 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 1*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 2*ldX));
-          }
-
-          if constexpr (pure_ket) {
-            Xjk_0 = SCALAR_LOAD((Xjk + 2*ldX));
-            Xjk_1 = SCALAR_LOAD((Xjk + 0*ldX));
-            Xjk_2 = SCALAR_LOAD((Xjk + 1*ldX));
-          } else {
-            Xjk_0 = SCALAR_LOAD((Xjk + 0*ldX));
-            Xjk_1 = SCALAR_LOAD((Xjk + 1*ldX));
-            Xjk_2 = SCALAR_LOAD((Xjk + 2*ldX));
-          }
-
-          Gjk_0 = 0;
-          Gjk_1 = 0;
-          Gjk_2 = 0;
-
-          /**** j = 0 ****/
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          ty = Xjk_0;
-          t0 = SCALAR_MUL(temp_3, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[threadIdx.x][0] += tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_4, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[threadIdx.x][1] += tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_5, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[threadIdx.x][2] += tz;
-
-          X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          t0 = SCALAR_MUL(temp_0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[threadIdx.x][0] += tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[threadIdx.x][1] += tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[threadIdx.x][2] += tz;
-          if constexpr (!diag) Gjk_0 = tw;
-
-          /**** j = 1 ****/
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          ty = Xjk_1;
-          t0 = SCALAR_MUL(temp_4, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[threadIdx.x][0] += tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_6, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[threadIdx.x][1] += tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_7, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[threadIdx.x][2] += tz;
-
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          t0 = SCALAR_MUL(temp_0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[threadIdx.x][0] += tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[threadIdx.x][1] += tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[threadIdx.x][2] += tz;
-          if constexpr (!diag) Gjk_1 = tw;
-
-          /**** j = 2 ****/
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          ty = Xjk_2;
-          t0 = SCALAR_MUL(temp_5, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[threadIdx.x][0] += tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_7, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[threadIdx.x][1] += tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_8, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[threadIdx.x][2] += tz;
-
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          t0 = SCALAR_MUL(temp_0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[threadIdx.x][0] += tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[threadIdx.x][1] += tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[threadIdx.x][2] += tz;
-          if constexpr (!diag) Gjk_2 = tw;
-
-          if constexpr (!diag) {
-            if constexpr (pure_ket) {
-              atomicAdd((Gjk + 2 * ldG), Gjk_0);
-              atomicAdd((Gjk + 0 * ldG), Gjk_1);
-              atomicAdd((Gjk + 1 * ldG), Gjk_2);
-            } else {
-              atomicAdd((Gjk + 0 * ldG), Gjk_0);
-              atomicAdd((Gjk + 1 * ldG), Gjk_1);
-              atomicAdd((Gjk + 2 * ldG), Gjk_2);
-            }
-          }
-
-          if constexpr (pure_bra) {
-            atomicAdd((Gik + 2 * ldG), outBuffer[threadIdx.x][0]);
-            atomicAdd((Gik + 0 * ldG), outBuffer[threadIdx.x][1]);
-            atomicAdd((Gik + 1 * ldG), outBuffer[threadIdx.x][2]);
-          } else {
-            atomicAdd((Gik + 0 * ldG), outBuffer[threadIdx.x][0]);
-            atomicAdd((Gik + 1 * ldG), outBuffer[threadIdx.x][1]);
-            atomicAdd((Gik + 2 * ldG), outBuffer[threadIdx.x][2]);
-          }
-
-        }
-      }
-    }
-  __syncwarp();
-  }
-};
-
-template <int primpair_limit>
-using AM11_cart = DeviceTask11<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false, false>;
-template <int primpair_limit>
-using AM1_cart = DeviceTask11<ObaraSaikaType::diag,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false, false>;
-template <int primpair_limit>
-using AM11_sph = DeviceTask11<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, true>;
-template <int primpair_limit>
-using AM1_sph = DeviceTask11<ObaraSaikaType::diag,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, true>;
-
-
-
-  void integral_1_1_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-    
-    if(sph)
-      dev_integral_task_map_dispatcher<AM11_sph>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-    else
-      dev_integral_task_map_dispatcher<AM11_cart>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-  }
-
-  void integral_1_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-    
-    if(sph)
-      dev_integral_task_map_dispatcher<AM1_sph>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-    else
-      dev_integral_task_map_dispatcher<AM1_cart>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_1.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_1.hu
deleted file mode 100644
index 222765f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_1_1.hu
+++ /dev/null
@@ -1,77 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_1_1(double X_AB,
-		    double Y_AB,
-		    double Z_AB,
-		    size_t npts,
-		    double *points_x,	
-		    double *points_y,	
-		    double *points_z,	
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights,
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_1_1_batched(size_t ntask_sp,
-        double X_AB,
-				double Y_AB,
-				double Z_AB,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_1_1_task_batched(
-    bool sph,
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-  void integral_1_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2.cu
deleted file mode 100644
index e8318b2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2.cu
+++ /dev/null
@@ -1,603 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2.hu"
-
-namespace XGPU {
-  __inline__ __device__ void dev_integral_2_driver(size_t npts,
-				 double *points_x,
-				 double *points_y,
-				 double *points_z,
-                 const int nprim_pairs,
-                 const GauXC::PrimitivePair<double>* prim_pairs,
-				 double *Xi,
-				 int ldX,
-				 double *Gi,
-				 int ldG, 
-				 double *weights,
-				 double *boys_table) {
-    __shared__ double temp[128 * 31];
-    
-    for(size_t p_outer = blockIdx.x * blockDim.x; p_outer < npts; p_outer += gridDim.x * blockDim.x) {
-      double *_point_outer_x = (points_x + p_outer);
-      double *_point_outer_y = (points_y + p_outer);
-      double *_point_outer_z = (points_z + p_outer);
-
-      size_t p_inner = (threadIdx.x < (npts - p_outer)) ? threadIdx.x : (npts - p_outer);
-
-      for(int i = 0; i < 31; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double RHO_INV = prim_pairs[ij].gamma_inv;
-
-	double xA = prim_pairs[ij].P.x;
-	double yA = prim_pairs[ij].P.y;
-	double zA = prim_pairs[ij].P.z;
-	
-	constexpr double X_PA = 0.0;
-	constexpr double Y_PA = 0.0;
-	constexpr double Z_PA = 0.0;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xA, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yA, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zA, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-	TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-
-	SCALAR_TYPE t00, t01, t02, t03, t04, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<4>(&TVAL, &TVAL_inv_e, &t04, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, t11, t12, t13, t20, t21, t22, t30, t31, t40, tx, ty;
-
-	t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t04), TVAL_inv_e), SCALAR_SET1(0.28571428571428569843));
-	t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t03), TVAL_inv_e), SCALAR_SET1(0.40000000000000002220));
-	t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t02 = SCALAR_MUL(eval, t02);
-	t03 = SCALAR_MUL(eval, t03);
-	t04 = SCALAR_MUL(eval, t04);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	t11 = SCALAR_MUL(X_PA, t01);
-	t11 = SCALAR_FNMA(X_PC, t02, t11);
-	t12 = SCALAR_MUL(X_PA, t02);
-	t12 = SCALAR_FNMA(X_PC, t03, t12);
-	t13 = SCALAR_MUL(X_PA, t03);
-	t13 = SCALAR_FNMA(X_PC, t04, t13);
-	t20 = SCALAR_MUL(X_PA, t10);
-	t20 = SCALAR_FNMA(X_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(X_PA, t11);
-	t21 = SCALAR_FNMA(X_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	t22 = SCALAR_MUL(X_PA, t12);
-	t22 = SCALAR_FNMA(X_PC, t13, t22);
-	tx = SCALAR_SUB(t02, t03);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t22 = SCALAR_FMA(tx, ty, t22);
-	tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(X_PA, t20);
-	t30 = SCALAR_FNMA(X_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(X_PA, t21);
-	t31 = SCALAR_FNMA(X_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 6 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(X_PA, t30);
-	t40 = SCALAR_FNMA(X_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 3);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 16 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 16 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 17 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 17 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 18 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 18 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	t31 = SCALAR_MUL(Y_PA, t21);
-	t31 = SCALAR_FNMA(Y_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 7 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 19 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 20 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 8 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 21 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	t21 = SCALAR_MUL(Y_PA, t11);
-	t21 = SCALAR_FNMA(Y_PC, t12, t21);
-	t22 = SCALAR_MUL(Y_PA, t12);
-	t22 = SCALAR_FNMA(Y_PC, t13, t22);
-	tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Y_PA, t21);
-	t31 = SCALAR_FNMA(Y_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 9 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 22 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 22 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 23 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 10 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 24 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	t22 = SCALAR_MUL(Z_PA, t12);
-	t22 = SCALAR_FNMA(Z_PC, t13, t22);
-	tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 11 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 25 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 25 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	t11 = SCALAR_MUL(Y_PA, t01);
-	t11 = SCALAR_FNMA(Y_PC, t02, t11);
-	t12 = SCALAR_MUL(Y_PA, t02);
-	t12 = SCALAR_FNMA(Y_PC, t03, t12);
-	t13 = SCALAR_MUL(Y_PA, t03);
-	t13 = SCALAR_FNMA(Y_PC, t04, t13);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(Y_PA, t11);
-	t21 = SCALAR_FNMA(Y_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	t22 = SCALAR_MUL(Y_PA, t12);
-	t22 = SCALAR_FNMA(Y_PC, t13, t22);
-	tx = SCALAR_SUB(t02, t03);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t22 = SCALAR_FMA(tx, ty, t22);
-	tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Y_PA, t21);
-	t31 = SCALAR_FNMA(Y_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 12 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 3);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 26 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 26 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 27 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 27 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 13 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 28 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	t22 = SCALAR_MUL(Z_PA, t12);
-	t22 = SCALAR_FNMA(Z_PC, t13, t22);
-	tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 14 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 29 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 29 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	t11 = SCALAR_MUL(Z_PA, t01);
-	t11 = SCALAR_FNMA(Z_PC, t02, t11);
-	t12 = SCALAR_MUL(Z_PA, t02);
-	t12 = SCALAR_FNMA(Z_PC, t03, t12);
-	t13 = SCALAR_MUL(Z_PA, t03);
-	t13 = SCALAR_FNMA(Z_PC, t04, t13);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	t22 = SCALAR_MUL(Z_PA, t12);
-	t22 = SCALAR_FNMA(Z_PC, t13, t22);
-	tx = SCALAR_SUB(t02, t03);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t22 = SCALAR_FMA(tx, ty, t22);
-	tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 15 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 3);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 30 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 30 * blockDim.x + threadIdx.x), tx);
-      }
-
-      if(threadIdx.x < npts - p_outer) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-
-	for(int c0 = 0; c0 <= 2; ++c0) {
-	  for(int c1 = 0; c1 <= c0; ++c1) {
-	    int m = 2 - c0;
-	    int p = c1;
-
-	    int idxB = (((2 - m) * (2 - m + 1)) >> 1) + p;
-
-	    int mv, pv;
-
-	    SCALAR_TYPE tx, wg, xik, gik;
-	    mv = 2 + m; pv = 0 + p;
-	    tx  = SCALAR_LOAD((temp + (16 + (((4 - mv) * (4 - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));
-	    wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	    xik = SCALAR_LOAD((Xik + idxB * ldX));
-	    gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-	    tx = SCALAR_MUL(tx, wg);
-	    gik = SCALAR_FMA(tx, xik, gik);
-	    SCALAR_STORE((Gik + 0 * ldG), gik);
-	    mv = 1 + m; pv = 0 + p;
-	    tx  = SCALAR_LOAD((temp + (16 + (((4 - mv) * (4 - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));
-	    wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	    xik = SCALAR_LOAD((Xik + idxB * ldX));
-	    gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-	    tx = SCALAR_MUL(tx, wg);
-	    gik = SCALAR_FMA(tx, xik, gik);
-	    SCALAR_STORE((Gik + 1 * ldG), gik);
-	    mv = 1 + m; pv = 1 + p;
-	    tx  = SCALAR_LOAD((temp + (16 + (((4 - mv) * (4 - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));
-	    wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	    xik = SCALAR_LOAD((Xik + idxB * ldX));
-	    gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-	    tx = SCALAR_MUL(tx, wg);
-	    gik = SCALAR_FMA(tx, xik, gik);
-	    SCALAR_STORE((Gik + 2 * ldG), gik);
-	    mv = 0 + m; pv = 0 + p;
-	    tx  = SCALAR_LOAD((temp + (16 + (((4 - mv) * (4 - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));
-	    wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	    xik = SCALAR_LOAD((Xik + idxB * ldX));
-	    gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-	    tx = SCALAR_MUL(tx, wg);
-	    gik = SCALAR_FMA(tx, xik, gik);
-	    SCALAR_STORE((Gik + 3 * ldG), gik);
-	    mv = 0 + m; pv = 1 + p;
-	    tx  = SCALAR_LOAD((temp + (16 + (((4 - mv) * (4 - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));
-	    wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	    xik = SCALAR_LOAD((Xik + idxB * ldX));
-	    gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-	    tx = SCALAR_MUL(tx, wg);
-	    gik = SCALAR_FMA(tx, xik, gik);
-	    SCALAR_STORE((Gik + 4 * ldG), gik);
-	    mv = 0 + m; pv = 2 + p;
-	    tx  = SCALAR_LOAD((temp + (16 + (((4 - mv) * (4 - mv + 1)) >> 1) + pv) * blockDim.x + threadIdx.x));
-	    wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	    xik = SCALAR_LOAD((Xik + idxB * ldX));
-	    gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-	    tx = SCALAR_MUL(tx, wg);
-	    gik = SCALAR_FMA(tx, xik, gik);
-	    SCALAR_STORE((Gik + 5 * ldG), gik);
-	  }
-	}
-      }
-    }
-  }
-
-  __global__ void dev_integral_2(size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   int ldX,
-				   double *Gi,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_2_driver( npts, points_x, points_y, points_z, nprim_pairs, prim_pairs, Xi, ldX,
-      Gi, ldG, weights, boys_table );
-  }
-
-  void integral_2(size_t npts,
-		  double *_points_x,	
-		  double *_points_y,	
-		  double *_points_z,	
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		  double *Xi,
-		  int ldX,
-		  double *Gi,
-		  int ldG, 
-		  double *weights,
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_2<<<320, 128, 0, stream>>>(npts,
-				 _points_x,
-				 _points_y,
-				 _points_z,
-         nprim_pairs, prim_pairs,
-				 Xi,
-				 ldX,
-				 Gi,
-				 ldG, 
-				 weights, 
-				 boys_table);
-  }
-
-  __global__ void dev_integral_2_batched(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    const int ntask = sp2task->ntask;
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      const auto  i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-
-      dev_integral_2_driver( 
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        npts,
-        task->gmat + i_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-
-  void integral_2_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-    dev_integral_2_batched<<<nblocks,nthreads,0,stream>>>(
-      sp2task, device_tasks, boys_table );
-
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2.hu
deleted file mode 100644
index 09e63bd..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2.hu
+++ /dev/null
@@ -1,37 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_2(size_t npts,
-		  double *points_x,
-		  double *points_y,
-		  double *points_z,
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		  double *Xi,
-		  int ldX,
-		  double *Gi,
-		  int ldG, 
-		  double *weights, 
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_batched(size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_0.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_0.cu
deleted file mode 100644
index ecbfa6e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_0.cu
+++ /dev/null
@@ -1,829 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2_0.hu"
-
-#include "task_map_base.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_2_0_driver(size_t npts,
-				   double *_points_x,
-				   double *_points_y,
-				   double *_points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    //__shared__ double temp[128 * 6];
-    double temp_0, temp_1, temp_2, temp_3, temp_4, temp_5;
-    
-    const int npts_int = (int) npts;
-
-    for(int p_outer = blockIdx.x * blockDim.x; p_outer < npts_int; p_outer += gridDim.x * blockDim.x) {
-      double *_point_outer_x = (_points_x + p_outer);
-      double *_point_outer_y = (_points_y + p_outer);
-      double *_point_outer_z = (_points_z + p_outer);
-
-      int p_inner = threadIdx.x;
-      if (threadIdx.x < npts_int - p_outer) {
-
-      //for(int i = 0; i < 6; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-      temp_0 = SCALAR_ZERO();
-      temp_1 = SCALAR_ZERO();
-      temp_2 = SCALAR_ZERO();
-      temp_3 = SCALAR_ZERO();
-      temp_4 = SCALAR_ZERO();
-      temp_5 = SCALAR_ZERO();
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double RHO_INV = prim_pairs[ij].gamma_inv;
-	double X_PA = prim_pairs[ij].PA.x;
-	double Y_PA = prim_pairs[ij].PA.y;
-	double Z_PA = prim_pairs[ij].PA.z;
-
-	double xP = prim_pairs[ij].P.x;
-	double yP = prim_pairs[ij].P.y;
-	double zP = prim_pairs[ij].P.z;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xP, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yP, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zP, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-	TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-
-	SCALAR_TYPE t00, t01, t02, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<2>(&TVAL, &TVAL_inv_e, &t02, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, t11, t20, tx, ty;
-
-	t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t02 = SCALAR_MUL(eval, t02);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	t11 = SCALAR_MUL(X_PA, t01);
-	t11 = SCALAR_FNMA(X_PC, t02, t11);
-	t20 = SCALAR_MUL(X_PA, t10);
-	t20 = SCALAR_FNMA(X_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	//tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-  tx = temp_0;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-  temp_0 = tx;
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	//tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-  tx = temp_1;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-  temp_1 = tx;
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	//tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-  tx = temp_2;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-  temp_2 = tx;
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	t11 = SCALAR_MUL(Y_PA, t01);
-	t11 = SCALAR_FNMA(Y_PC, t02, t11);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	//tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-  tx = temp_3;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-  temp_3 = tx;
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	//tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-  tx = temp_4;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-  temp_4 = tx;
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	t11 = SCALAR_MUL(Z_PA, t01);
-	t11 = SCALAR_FNMA(Z_PC, t02, t11);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	//tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-  tx = temp_5;
-	tx = SCALAR_ADD(tx, t20);
-	//SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-  temp_5 = tx;
-      }
-
-    if (
-      abs(temp_0) > 1e-12 || abs(temp_1) > 1e-12 || abs(temp_2) > 1e-12 ||
-      abs(temp_3) > 1e-12 || abs(temp_4) > 1e-12 || abs(temp_5) > 1e-12
-    ) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Xjk = (Xj + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-	double *Gjk = (Gj + p_outer + p_inner);
-
-	SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-	SCALAR_TYPE const_value_w;
-	SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-  #if 0
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = temp_0;
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = temp_1;
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = temp_2;
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = temp_3;
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = temp_4;
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	//t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = temp_5;
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-  #else
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	t0 = SCALAR_MUL(temp_0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	atomicAdd((Gik + 0 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_MUL(temp_1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_MUL(temp_2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_MUL(temp_3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_MUL(temp_4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_MUL(temp_5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-
-	atomicAdd((Gjk + 0 * ldG), tw);
-  #endif
-      }
-      }
-    }
-  }
-
-  __global__ void dev_integral_2_0(size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_2_0_driver( npts, points_x, points_y, points_z, nprim_pairs, prim_pairs, Xi, Xj, ldX,
-      Gi, Gj, ldG, weights, boys_table );
-  }
-
-  void integral_2_0(size_t npts,
-		    double *points_x,
-		    double *points_y,
-		    double *points_z,
-            const int nprim_pairs,
-            const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights, 
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_2_0<<<320, 128, 0, stream>>>(npts,
-				   points_x,
-				   points_y,
-				   points_z,
-        nprim_pairs,prim_pairs,
-				   Xi,
-				   Xj,
-				   ldX,
-				   Gi,
-				   Gj,
-				   ldG, 
-				   weights,
-				   boys_table);
-  }
-
-  template <bool swap>
-  __inline__ __device__ void dev_integral_2_0_batched_driver(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    //if (sp2task->shell_pair_device->nprim_pairs() == 0) return;
-    const int ntask = sp2task->ntask;
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      int i_off, j_off;
-      if constexpr ( swap ) {
-        j_off = sp2task->task_shell_off_row_device[i_task]*npts;
-        i_off = sp2task->task_shell_off_col_device[i_task]*npts;
-      } else {
-        i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-        j_off = sp2task->task_shell_off_col_device[i_task]*npts;
-      }
-
-
-      dev_integral_2_0_driver( 
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        task->fmat + j_off,
-        npts,
-        task->gmat + i_off,
-        task->gmat + j_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-  template <bool swap>
-  __global__ void dev_integral_2_0_batched(
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    dev_integral_2_0_batched_driver<swap>(sp2task,device_tasks,boys_table);
-  }
-
-
-
-  void integral_2_0_batched(bool swap, size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-
-    if(swap)
-      dev_integral_2_0_batched<true><<<nblocks,nthreads,0,stream>>>(
-        sp2task, device_tasks, boys_table );
-    else
-      dev_integral_2_0_batched<false><<<nblocks,nthreads,0,stream>>>(
-        sp2task, device_tasks, boys_table );
-
-  }
-
-
-
-  template <bool swap>
-  __global__ void dev_integral_2_0_shell_batched(
-           int nsp,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    for(int i = blockIdx.z; i < nsp; i+= gridDim.z ) {
-      dev_integral_2_0_batched_driver<swap>(sp2task+i,device_tasks,boys_table);
-    }
-  }
-
-  void integral_2_0_shell_batched(
-        bool swap,
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 1;
-    int nblocks_y = max_ntask;
-    int nblocks_z = nsp;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    if(swap)
-      dev_integral_2_0_shell_batched<true><<<nblocks,nthreads,0,stream>>>(
-        nsp, sp2task, device_tasks, boys_table );
-    else
-      dev_integral_2_0_shell_batched<false><<<nblocks,nthreads,0,stream>>>(
-        nsp, sp2task, device_tasks, boys_table );
-  }
-
-template<ObaraSaikaType type_, int points_per_subtask_, int primpair_shared_limit_,
-         bool pure_bra>
-struct DeviceTask20 {
-  static constexpr int max_primpair_shared_limit = 32;
-
-  static constexpr int primpair_shared_limit = primpair_shared_limit_;
-  static constexpr int points_per_subtask = points_per_subtask_;
-  static constexpr int num_threads = points_per_subtask_;
-  static constexpr ObaraSaikaType type = type_;
-
-  static_assert(ObaraSaikaType::diag != type, "DeviceTask20 does not support diag");
-
-  static constexpr bool use_shared = (primpair_shared_limit > 0) && 
-                                     (primpair_shared_limit <= max_primpair_shared_limit);
-  static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-  // Cannot declare shared memory array with length 0
-  static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-  using Params = ObaraSaikaBaseParams<type>;
-
-  __inline__ __device__ static void compute( 
-    const int i,
-    const int npts,
-    const int nprim_pairs,
-    // Point data
-    double4 (&s_task_data)[points_per_subtask],
-    // Shell Pair Data
-    const GauXC::PrimitivePair<double>* prim_pairs,
-    // Output Data
-    const Params param,
-    int ldX,
-    int ldG, 
-    // Other
-    double *boys_table) {
-
-    // Unpack Params;
-    const double *Xi = param.Xi;
-    const double *Xj = param.Xj;
-    double *Gi = param.Gi;
-    double *Gj = param.Gj;
-
-    static constexpr bool use_shared = (primpair_shared_limit > 0);
-    static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-    // Cannot declare shared memory array with length 0
-    static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-    const int laneId = threadIdx.x % GauXC::cuda::warp_size;
-    const int warpId __attribute__((unused)) = threadIdx.x / GauXC::cuda::warp_size;
-
-    __shared__ GauXC::PrimitivePair<double> s_prim_pairs[prim_buffer_size] __attribute__((unused));
-
-    if constexpr (use_shared) {
-      load_primpair_shared(laneId, warpId, nprim_pairs,
-        &(prim_pairs[0]), &(s_prim_pairs[warpId * primpair_shared_limit]));
-        __syncwarp();
-    }
-
-
-    // Loop over points in shared in batches of 32
-    for (int i = 0; i <  num_warps; i++) {
-      double temp_0 = SCALAR_ZERO();
-      double temp_1 = SCALAR_ZERO();
-      double temp_2 = SCALAR_ZERO();
-      double temp_3 = SCALAR_ZERO();
-      double temp_4 = SCALAR_ZERO();
-      double temp_5 = SCALAR_ZERO();
-
-      const int pointIndex = i * GauXC::cuda::warp_size + laneId;
-
-      if (pointIndex < npts) {
-
-        const double point_x = s_task_data[pointIndex].x;
-        const double point_y = s_task_data[pointIndex].y;
-        const double point_z = s_task_data[pointIndex].z;
-        const double weight = s_task_data[pointIndex].w;
-
-        for(int ij = 0; ij < nprim_pairs; ++ij) {
-          const GauXC::PrimitivePair<double>* prim_pairs_use = nullptr; 
-          if constexpr (use_shared) prim_pairs_use = &(s_prim_pairs[warpId * primpair_shared_limit]);
-          else                      prim_pairs_use = &(prim_pairs[0]);
-
-          double RHO = prim_pairs_use[ij].gamma;
-          double RHO_INV = prim_pairs_use[ij].gamma_inv;
-          double X_PA = prim_pairs_use[ij].PA.x;
-          double Y_PA = prim_pairs_use[ij].PA.y;
-          double Z_PA = prim_pairs_use[ij].PA.z;
-
-          double xP = prim_pairs_use[ij].P.x;
-          double yP = prim_pairs_use[ij].P.y;
-          double zP = prim_pairs_use[ij].P.z;
-
-          double eval = prim_pairs_use[ij].K_coeff_prod;
-
-          // Evaluate T Values
-          SCALAR_TYPE X_PC = SCALAR_SUB(xP, point_x);
-          SCALAR_TYPE Y_PC = SCALAR_SUB(yP, point_y);
-          SCALAR_TYPE Z_PC = SCALAR_SUB(zP, point_z);
-
-          SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-          TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-          TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-          TVAL = SCALAR_MUL(RHO, TVAL);
-
-          SCALAR_TYPE t00, t01, t02, TVAL_inv_e;
-
-          // Evaluate Boys function
-          boys_element<2>(&TVAL, &TVAL_inv_e, &t02, boys_table);
-
-          // Evaluate VRR Buffer
-          SCALAR_TYPE t10, t11, t20, tx, ty;
-
-          t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-          t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-          t00 = SCALAR_MUL(eval, t00);
-          t01 = SCALAR_MUL(eval, t01);
-          t02 = SCALAR_MUL(eval, t02);
-          t10 = SCALAR_MUL(X_PA, t00);
-          t10 = SCALAR_FNMA(X_PC, t01, t10);
-          t11 = SCALAR_MUL(X_PA, t01);
-          t11 = SCALAR_FNMA(X_PC, t02, t11);
-          t20 = SCALAR_MUL(X_PA, t10);
-          t20 = SCALAR_FNMA(X_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          //tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-          tx = temp_0;
-          tx = SCALAR_ADD(tx, t20);
-          //SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-          temp_0 = tx;
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          //tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-          tx = temp_1;
-          tx = SCALAR_ADD(tx, t20);
-          //SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-          temp_1 = tx;
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          //tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-          tx = temp_2;
-          tx = SCALAR_ADD(tx, t20);
-          //SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-          temp_2 = tx;
-          t10 = SCALAR_MUL(Y_PA, t00);
-          t10 = SCALAR_FNMA(Y_PC, t01, t10);
-          t11 = SCALAR_MUL(Y_PA, t01);
-          t11 = SCALAR_FNMA(Y_PC, t02, t11);
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          //tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-          tx = temp_3;
-          tx = SCALAR_ADD(tx, t20);
-          //SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-          temp_3 = tx;
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          //tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-          tx = temp_4;
-          tx = SCALAR_ADD(tx, t20);
-          //SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-          temp_4 = tx;
-          t10 = SCALAR_MUL(Z_PA, t00);
-          t10 = SCALAR_FNMA(Z_PC, t01, t10);
-          t11 = SCALAR_MUL(Z_PA, t01);
-          t11 = SCALAR_FNMA(Z_PC, t02, t11);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          //tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-          tx = temp_5;
-          tx = SCALAR_ADD(tx, t20);
-          //SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-          temp_5 = tx;
-        }
-
-        if (
-          abs(temp_0) > 1e-12 || abs(temp_1) > 1e-12 || abs(temp_2) > 1e-12 ||
-          abs(temp_3) > 1e-12 || abs(temp_4) > 1e-12 || abs(temp_5) > 1e-12
-        ) {
-          const double * __restrict__ Xik = (Xi + pointIndex);
-          const double * __restrict__ Xjk = (Xj + pointIndex);
-          double * __restrict__ Gik = (Gi + pointIndex);
-          double * __restrict__ Gjk = (Gj + pointIndex);
-
-          SCALAR_TYPE const_value_v = weight;
-
-          double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-          SCALAR_TYPE const_value_w;
-          SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-          SCALAR_TYPE Xik_0, Xik_1, Xik_2, Xik_3, Xik_4, Xik_5;
-          SCALAR_TYPE Xjk_0;
-          SCALAR_TYPE Gik_0, Gik_1, Gik_2, Gik_3, Gik_4, Gik_5;
-
-          if constexpr (pure_bra) {
-            SCALAR_TYPE Xik_m2 = SCALAR_LOAD((Xik + 0*ldX));
-            SCALAR_TYPE Xik_m1 = SCALAR_LOAD((Xik + 1*ldX));
-            SCALAR_TYPE Xik_z0 = SCALAR_LOAD((Xik + 2*ldX));
-            SCALAR_TYPE Xik_p1 = SCALAR_LOAD((Xik + 3*ldX));
-            SCALAR_TYPE Xik_p2 = SCALAR_LOAD((Xik + 4*ldX));
-
-            ::cuda::std::tie(Xik_0, Xik_1, Xik_2, Xik_3, Xik_4, Xik_5) =
-              sph::itform_l2(Xik_m2, Xik_m1, Xik_z0, Xik_p1, Xik_p2);
-          } else {
-            Xik_0 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 1*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 2*ldX));
-            Xik_3 = SCALAR_LOAD((Xik + 3*ldX));
-            Xik_4 = SCALAR_LOAD((Xik + 4*ldX));
-            Xik_5 = SCALAR_LOAD((Xik + 5*ldX));
-          }
-
-          Xjk_0 = SCALAR_LOAD((Xjk + 0*ldX));
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_0;
-          t0 = SCALAR_MUL(temp_0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          Gik_0 = tz;
-
-          tx = Xik_1;
-          t1 = SCALAR_MUL(temp_1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          Gik_1 = tz;
-
-          tx = Xik_2;
-          t2 = SCALAR_MUL(temp_2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          Gik_2 = tz;
-
-          tx = Xik_3;
-          t3 = SCALAR_MUL(temp_3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          Gik_3 = tz;
-
-          tx = Xik_4;
-          t4 = SCALAR_MUL(temp_4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          Gik_4 = tz;
-
-          tx = Xik_5;
-          t5 = SCALAR_MUL(temp_5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          Gik_5 = tz;
-
-          if constexpr (pure_bra) {
-            SCALAR_TYPE Gik_m2, Gik_m1, Gik_z0, Gik_p1, Gik_p2;
-            
-            ::cuda::std::tie(Gik_m2, Gik_m1, Gik_z0, Gik_p1, Gik_p2) =
-              sph::tform_l2(Gik_0, Gik_1, Gik_2, Gik_3, Gik_4, Gik_5);
-            atomicAdd((Gik + 0 * ldG), Gik_m2);
-            atomicAdd((Gik + 1 * ldG), Gik_m1);
-            atomicAdd((Gik + 2 * ldG), Gik_z0);
-            atomicAdd((Gik + 3 * ldG), Gik_p1);
-            atomicAdd((Gik + 4 * ldG), Gik_p2);
-          } else {
-            atomicAdd((Gik + 0 * ldG), Gik_0);
-            atomicAdd((Gik + 1 * ldG), Gik_1);
-            atomicAdd((Gik + 2 * ldG), Gik_2);
-            atomicAdd((Gik + 3 * ldG), Gik_3);
-            atomicAdd((Gik + 4 * ldG), Gik_4);
-            atomicAdd((Gik + 5 * ldG), Gik_5);
-          }
-
-          atomicAdd((Gjk + 0 * ldG), tw);
-        }
-      }
-    }
-    __syncwarp();
-  }
-};
-
-template <int primpair_limit>
-using AM20_swap_cart = DeviceTask20<ObaraSaikaType::swap,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false>;
-
-template <int primpair_limit>
-using AM20_cart = DeviceTask20<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false>;
-
-template <int primpair_limit>
-using AM20_swap_sph = DeviceTask20<ObaraSaikaType::swap,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true>;
-
-template <int primpair_limit>
-using AM20_sph = DeviceTask20<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true>;
-
-  void integral_2_0_task_batched(
-    bool swap,
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-
-    if (swap) {
-      if(sph)
-        dev_integral_task_map_dispatcher<AM20_swap_sph>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else
-        dev_integral_task_map_dispatcher<AM20_swap_cart>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-    } else {
-      if(sph)
-        dev_integral_task_map_dispatcher<AM20_sph>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else
-        dev_integral_task_map_dispatcher<AM20_cart>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-    }
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_0.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_0.hu
deleted file mode 100644
index 47b6cec..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_0.hu
+++ /dev/null
@@ -1,56 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_2_0(size_t npts,
-		    double *_points_x,
-		    double *_points_y,
-		    double *_points_z,
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights,
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_0_batched(bool swap, size_t ntask_sp,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_2_0_task_batched(
-    bool swap,
-    bool sph,
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_1.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_1.cu
deleted file mode 100644
index 153bcf7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_1.cu
+++ /dev/null
@@ -1,1972 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2_1.hu"
-
-#include "task_map_base.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_2_1_driver(double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-				   size_t npts,
-				   double *_points_x,
-				   double *_points_y,
-				   double *_points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    __shared__ double temp[128 * 16];
-    __shared__ double outBuffer[128][6];
-
-
-    const int npts_int = (int) npts;
-    for(int p_outer = blockIdx.x * blockDim.x; p_outer < npts_int; p_outer += gridDim.x * blockDim.x) {
-      for (int i = 0; i < 6; i++) {
-        outBuffer[threadIdx.x][i] = 0.0;
-      }
-
-
-      double *_point_outer_x = (_points_x + p_outer);
-      double *_point_outer_y = (_points_y + p_outer);
-      double *_point_outer_z = (_points_z + p_outer);
-
-      int p_inner = threadIdx.x;
-      if (threadIdx.x < npts_int - p_outer) {
-
-      for(int i = 0; i < 16; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double RHO_INV = prim_pairs[ij].gamma_inv;
-	double X_PA = prim_pairs[ij].PA.x;
-	double Y_PA = prim_pairs[ij].PA.y;
-	double Z_PA = prim_pairs[ij].PA.z;
-
-	double xP = prim_pairs[ij].P.x;
-	double yP = prim_pairs[ij].P.y;
-	double zP = prim_pairs[ij].P.z;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xP, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yP, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zP, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-	TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-
-	SCALAR_TYPE t00, t01, t02, t03, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<3>(&TVAL, &TVAL_inv_e, &t03, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, t11, t12, t20, t21, t30, tx, ty;
-
-	t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t03), TVAL_inv_e), SCALAR_SET1(0.40000000000000002220));
-	t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t02 = SCALAR_MUL(eval, t02);
-	t03 = SCALAR_MUL(eval, t03);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	t11 = SCALAR_MUL(X_PA, t01);
-	t11 = SCALAR_FNMA(X_PC, t02, t11);
-	t12 = SCALAR_MUL(X_PA, t02);
-	t12 = SCALAR_FNMA(X_PC, t03, t12);
-	t20 = SCALAR_MUL(X_PA, t10);
-	t20 = SCALAR_FNMA(X_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(X_PA, t11);
-	t21 = SCALAR_FNMA(X_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(X_PA, t20);
-	t30 = SCALAR_FNMA(X_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	tx = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 6 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 7 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 8 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	t21 = SCALAR_MUL(Y_PA, t11);
-	t21 = SCALAR_FNMA(Y_PC, t12, t21);
-	tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	tx = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 9 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 10 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	tx = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 11 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	t11 = SCALAR_MUL(Y_PA, t01);
-	t11 = SCALAR_FNMA(Y_PC, t02, t11);
-	t12 = SCALAR_MUL(Y_PA, t02);
-	t12 = SCALAR_FNMA(Y_PC, t03, t12);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(Y_PA, t11);
-	t21 = SCALAR_FNMA(Y_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	tx = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 12 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 13 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	tx = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 14 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	t11 = SCALAR_MUL(Z_PA, t01);
-	t11 = SCALAR_FNMA(Z_PC, t02, t11);
-	t12 = SCALAR_MUL(Z_PA, t02);
-	t12 = SCALAR_FNMA(Z_PC, t03, t12);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	tx = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 15 * blockDim.x + threadIdx.x), tx);
-      }
-
-      bool nonzero = false;
-      for(int i = 0; i < 16; ++i) {
-        nonzero = nonzero || abs(temp[i * blockDim.x + threadIdx.x]) > 1e-12;
-      }
-
-      if (nonzero) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Xjk = (Xj + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-	double *Gjk = (Gj + p_outer + p_inner);
-
-	SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-	SCALAR_TYPE const_value_w;
-	SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-  #if 0
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 0 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 1 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	SCALAR_STORE((Gik + 0 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	SCALAR_STORE((Gik + 1 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	SCALAR_STORE((Gik + 2 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	SCALAR_STORE((Gik + 3 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	SCALAR_STORE((Gik + 4 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	SCALAR_STORE((Gik + 5 * ldG), tz);
-	SCALAR_STORE((Gjk + 2 * ldG), tw);
-  #else
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-  /*** j = 0 ***/
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz; 
-
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz; 
-	atomicAdd((Gjk + 0 * ldG), tw);
-
-
-  /*** j = 1 ***/
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz; 
-
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz; 
-	atomicAdd((Gjk + 1 * ldG), tw);
-
-  /*** j = 2 ***/
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz; 
-
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz; 
-
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz; 
-	atomicAdd((Gjk + 2 * ldG), tw);
-
-	atomicAdd((Gik + 0 * ldG), outBuffer[threadIdx.x][0]);
-	atomicAdd((Gik + 1 * ldG), outBuffer[threadIdx.x][1]);
-	atomicAdd((Gik + 2 * ldG), outBuffer[threadIdx.x][2]);
-	atomicAdd((Gik + 3 * ldG), outBuffer[threadIdx.x][3]);
-	atomicAdd((Gik + 4 * ldG), outBuffer[threadIdx.x][4]);
-	atomicAdd((Gik + 5 * ldG), outBuffer[threadIdx.x][5]);
-
-
-  #endif
-      }
-      }
-    }
-  }
-
-  __global__ void dev_integral_2_1(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_2_1_driver( X_AB, Y_AB, Z_AB, npts, points_x, points_y, 
-      points_z, nprim_pairs, prim_pairs, Xi, Xj, ldX, Gi, Gj, ldG, weights, boys_table );
-  }
-
-  void integral_2_1(double X_AB,
-		    double Y_AB,
-		    double Z_AB,
-		    size_t npts,
-		    double *points_x,
-		    double *points_y,
-		    double *points_z,
-            const int nprim_pairs,
-            const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights, 
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_2_1<<<320, 128, 0, stream>>>(X_AB,
-				   Y_AB,
-				   Z_AB,
-				   npts,
-				   points_x,
-				   points_y,
-				   points_z,
-        nprim_pairs,prim_pairs,
-				   Xi,
-				   Xj,
-				   ldX,
-				   Gi,
-				   Gj,
-				   ldG, 
-				   weights,
-				   boys_table);
-  }
-
-  template <bool swap>
-  __inline__ __device__ void dev_integral_2_1_batched_driver(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    //if (sp2task->shell_pair_device->nprim_pairs() == 0) return;
-    const int ntask = sp2task->ntask;
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      int i_off, j_off;
-      if constexpr ( swap ) {
-        j_off = sp2task->task_shell_off_row_device[i_task]*npts;
-        i_off = sp2task->task_shell_off_col_device[i_task]*npts;
-      } else {
-        i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-        j_off = sp2task->task_shell_off_col_device[i_task]*npts;
-      }
-
-
-      dev_integral_2_1_driver( 
-        X_AB, Y_AB, Z_AB,
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        task->fmat + j_off,
-        npts,
-        task->gmat + i_off,
-        task->gmat + j_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-
-  template <bool swap>
-  __global__ void dev_integral_2_1_batched(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    dev_integral_2_1_batched_driver<swap>(X_AB,Y_AB,Z_AB,sp2task,device_tasks,boys_table);
-  }
-
-
-  void integral_2_1_batched(bool swap, size_t ntask_sp,
-        double X_AB,
-				double Y_AB,
-				double Z_AB,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-
-    if(swap)
-      dev_integral_2_1_batched<true><<<nblocks,nthreads,0,stream>>>(
-        -X_AB, -Y_AB, -Z_AB, sp2task, device_tasks, boys_table );
-    else
-      dev_integral_2_1_batched<false><<<nblocks,nthreads,0,stream>>>(
-        X_AB, Y_AB, Z_AB, sp2task, device_tasks, boys_table );
-
-  }
-
-
-
-
-
-
-
-  template <bool swap>
-  __global__ void dev_integral_2_1_shell_batched(
-           int nsp,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-    for(int i = blockIdx.z; i < nsp; i+= gridDim.z ) {
-      auto sp = sp2task + i;
-      const double X_AB = (swap ? -sp->X_AB : sp->X_AB );
-      const double Y_AB = (swap ? -sp->Y_AB : sp->Y_AB );
-      const double Z_AB = (swap ? -sp->Z_AB : sp->Z_AB );
-      dev_integral_2_1_batched_driver<swap>(X_AB,Y_AB,Z_AB,sp,device_tasks,boys_table);
-    }
-  }
-
-
-
-  void integral_2_1_shell_batched(
-        bool swap,
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 1;
-    int nblocks_y = max_ntask;
-    int nblocks_z = nsp;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-
-    if(swap)
-      dev_integral_2_1_shell_batched<true><<<nblocks,nthreads,0,stream>>>(
-        nsp, sp2task, device_tasks, boys_table );
-    else
-      dev_integral_2_1_shell_batched<false><<<nblocks,nthreads,0,stream>>>(
-        nsp, sp2task, device_tasks, boys_table );
-
-  }
-
-template<ObaraSaikaType type_, int points_per_subtask_, int primpair_shared_limit_,
-         bool pure_bra, bool pure_ket>
-struct DeviceTask21 {
-  static constexpr int max_primpair_shared_limit = 8;
-
-  static constexpr int primpair_shared_limit = primpair_shared_limit_;
-  static constexpr int points_per_subtask = points_per_subtask_;
-  static constexpr int num_threads = points_per_subtask_;
-  static constexpr ObaraSaikaType type = type_;
-
-  static_assert(ObaraSaikaType::diag != type, "DeviceTask21 does not support diag");
-
-  static constexpr bool use_shared = (primpair_shared_limit > 0) && 
-                                     (primpair_shared_limit <= max_primpair_shared_limit);
-  static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-  // Cannot declare shared memory array with length 0
-  static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-  using Params = ObaraSaikaParamsWithAB<type>;
-
-  __inline__ __device__ static void compute( 
-    const int i,
-    const int npts,
-    const int nprim_pairs,
-    // Point data
-    double4 (&s_task_data)[points_per_subtask],
-    // Shell Pair Data
-    const GauXC::PrimitivePair<double>* prim_pairs,
-    // Output Data
-    const Params param,
-    int ldX,
-    int ldG, 
-    // Other
-    double *boys_table) {
-
-    // Unpack Params;
-    const double *Xi = param.Xi;
-    const double *Xj = param.Xj;
-    double *Gi = param.Gi;
-    double *Gj = param.Gj;
-    const double X_AB = param.X_AB;
-    const double Y_AB = param.Y_AB;
-    const double Z_AB = param.Z_AB;
-
-    const int laneId = threadIdx.x % GauXC::cuda::warp_size;
-    const int warpId __attribute__((unused)) = threadIdx.x / GauXC::cuda::warp_size;
-
-    __shared__ GauXC::PrimitivePair<double> s_prim_pairs[prim_buffer_size] __attribute__((unused));
-
-    if constexpr (use_shared) {
-      load_primpair_shared(laneId, warpId, nprim_pairs,
-        &(prim_pairs[0]), &(s_prim_pairs[warpId * primpair_shared_limit]));
-      __syncwarp();
-    }
-
-    double outBuffer[6];
-    __shared__ double temp[num_threads * 16];
-
-    // Loop over points in shared in batches of 32
-    for (int i = 0; i <  num_warps; i++) {
-
-      // Zero temp buffers
-      for (int j = 0; j < 6; j++) {
-        outBuffer[j] = 0.0;
-      }
-      for(int j = 0; j < 16; ++j) SCALAR_STORE((temp + j * blockDim.x + threadIdx.x), SCALAR_ZERO());
-
-      const int pointIndex = i * GauXC::cuda::warp_size + laneId;
-
-      if (pointIndex < npts) {
-        const double point_x = s_task_data[pointIndex].x;
-        const double point_y = s_task_data[pointIndex].y;
-        const double point_z = s_task_data[pointIndex].z;
-        const double weight = s_task_data[pointIndex].w;
-
-        for(int ij = 0; ij < nprim_pairs; ++ij) {
-          const GauXC::PrimitivePair<double>* prim_pairs_use = nullptr; 
-          if constexpr (use_shared) prim_pairs_use = &(s_prim_pairs[warpId * primpair_shared_limit]);
-          else                      prim_pairs_use = &(prim_pairs[0]);
-
-          double RHO = prim_pairs_use[ij].gamma;
-          double RHO_INV = prim_pairs_use[ij].gamma_inv;
-          double X_PA = prim_pairs_use[ij].PA.x;
-          double Y_PA = prim_pairs_use[ij].PA.y;
-          double Z_PA = prim_pairs_use[ij].PA.z;
-
-          double xP = prim_pairs_use[ij].P.x;
-          double yP = prim_pairs_use[ij].P.y;
-          double zP = prim_pairs_use[ij].P.z;
-
-          double eval = prim_pairs_use[ij].K_coeff_prod;
-
-          // Evaluate T Values
-          SCALAR_TYPE X_PC = SCALAR_SUB(xP, point_x);
-          SCALAR_TYPE Y_PC = SCALAR_SUB(yP, point_y);
-          SCALAR_TYPE Z_PC = SCALAR_SUB(zP, point_z);
-
-          SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-          TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-          TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-          TVAL = SCALAR_MUL(RHO, TVAL);
-
-          SCALAR_TYPE t00, t01, t02, t03, TVAL_inv_e;
-
-          // Evaluate Boys function
-          boys_element<3>(&TVAL, &TVAL_inv_e, &t03, boys_table);
-
-          // Evaluate VRR Buffer
-          SCALAR_TYPE t10, t11, t12, t20, t21, t30, tx, ty;
-
-          t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t03), TVAL_inv_e), SCALAR_SET1(0.40000000000000002220));
-          t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-          t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-          t00 = SCALAR_MUL(eval, t00);
-          t01 = SCALAR_MUL(eval, t01);
-          t02 = SCALAR_MUL(eval, t02);
-          t03 = SCALAR_MUL(eval, t03);
-          t10 = SCALAR_MUL(X_PA, t00);
-          t10 = SCALAR_FNMA(X_PC, t01, t10);
-          t11 = SCALAR_MUL(X_PA, t01);
-          t11 = SCALAR_FNMA(X_PC, t02, t11);
-          t12 = SCALAR_MUL(X_PA, t02);
-          t12 = SCALAR_FNMA(X_PC, t03, t12);
-          t20 = SCALAR_MUL(X_PA, t10);
-          t20 = SCALAR_FNMA(X_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          t21 = SCALAR_MUL(X_PA, t11);
-          t21 = SCALAR_FNMA(X_PC, t12, t21);
-          tx = SCALAR_SUB(t01, t02);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t21 = SCALAR_FMA(tx, ty, t21);
-          tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(X_PA, t20);
-          t30 = SCALAR_FNMA(X_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          tx = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 6 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Y_PA, t20);
-          t30 = SCALAR_FNMA(Y_PC, t21, t30);
-          tx = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 7 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 8 * blockDim.x + threadIdx.x), tx);
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          t21 = SCALAR_MUL(Y_PA, t11);
-          t21 = SCALAR_FNMA(Y_PC, t12, t21);
-          tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Y_PA, t20);
-          t30 = SCALAR_FNMA(Y_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          tx = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 9 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 10 * blockDim.x + threadIdx.x), tx);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          t21 = SCALAR_MUL(Z_PA, t11);
-          t21 = SCALAR_FNMA(Z_PC, t12, t21);
-          tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          tx = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 11 * blockDim.x + threadIdx.x), tx);
-          t10 = SCALAR_MUL(Y_PA, t00);
-          t10 = SCALAR_FNMA(Y_PC, t01, t10);
-          t11 = SCALAR_MUL(Y_PA, t01);
-          t11 = SCALAR_FNMA(Y_PC, t02, t11);
-          t12 = SCALAR_MUL(Y_PA, t02);
-          t12 = SCALAR_FNMA(Y_PC, t03, t12);
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          t21 = SCALAR_MUL(Y_PA, t11);
-          t21 = SCALAR_FNMA(Y_PC, t12, t21);
-          tx = SCALAR_SUB(t01, t02);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t21 = SCALAR_FMA(tx, ty, t21);
-          tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Y_PA, t20);
-          t30 = SCALAR_FNMA(Y_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          tx = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 12 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 13 * blockDim.x + threadIdx.x), tx);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          t21 = SCALAR_MUL(Z_PA, t11);
-          t21 = SCALAR_FNMA(Z_PC, t12, t21);
-          tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          tx = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 14 * blockDim.x + threadIdx.x), tx);
-          t10 = SCALAR_MUL(Z_PA, t00);
-          t10 = SCALAR_FNMA(Z_PC, t01, t10);
-          t11 = SCALAR_MUL(Z_PA, t01);
-          t11 = SCALAR_FNMA(Z_PC, t02, t11);
-          t12 = SCALAR_MUL(Z_PA, t02);
-          t12 = SCALAR_FNMA(Z_PC, t03, t12);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          t21 = SCALAR_MUL(Z_PA, t11);
-          t21 = SCALAR_FNMA(Z_PC, t12, t21);
-          tx = SCALAR_SUB(t01, t02);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t21 = SCALAR_FMA(tx, ty, t21);
-          tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          tx = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 15 * blockDim.x + threadIdx.x), tx);
-        }
-
-        bool nonzero = false;
-        for(int i = 0; i < 16; ++i) {
-          nonzero = nonzero || abs(temp[i * blockDim.x + threadIdx.x]) > 1e-12;
-        }
-
-        if (nonzero) {
-          const double * __restrict__ Xik = (Xi + pointIndex);
-          const double * __restrict__ Xjk = (Xj + pointIndex);
-          double * __restrict__ Gik = (Gi + pointIndex);
-          double * __restrict__ Gjk = (Gj + pointIndex);
-
-          SCALAR_TYPE const_value_v = weight;
-
-          double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-          SCALAR_TYPE const_value_w;
-          SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-          SCALAR_TYPE Xik_0, Xik_1, Xik_2, Xik_3, Xik_4, Xik_5;
-          SCALAR_TYPE Xjk_0, Xjk_1, Xjk_2;
-          SCALAR_TYPE Gjk_0, Gjk_1, Gjk_2;
-
-          if constexpr (pure_bra) {
-            SCALAR_TYPE Xik_m2 = SCALAR_LOAD((Xik + 0*ldX));
-            SCALAR_TYPE Xik_m1 = SCALAR_LOAD((Xik + 1*ldX));
-            SCALAR_TYPE Xik_z0 = SCALAR_LOAD((Xik + 2*ldX));
-            SCALAR_TYPE Xik_p1 = SCALAR_LOAD((Xik + 3*ldX));
-            SCALAR_TYPE Xik_p2 = SCALAR_LOAD((Xik + 4*ldX));
-
-            ::cuda::std::tie(Xik_0, Xik_1, Xik_2, Xik_3, Xik_4, Xik_5) =
-              sph::itform_l2(Xik_m2, Xik_m1, Xik_z0, Xik_p1, Xik_p2);
-          } else {
-            Xik_0 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 1*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 2*ldX));
-            Xik_3 = SCALAR_LOAD((Xik + 3*ldX));
-            Xik_4 = SCALAR_LOAD((Xik + 4*ldX));
-            Xik_5 = SCALAR_LOAD((Xik + 5*ldX));
-          }
-
-          
-          if constexpr (pure_ket) {
-            Xjk_0 = SCALAR_LOAD((Xjk + 2*ldX));
-            Xjk_1 = SCALAR_LOAD((Xjk + 0*ldX));
-            Xjk_2 = SCALAR_LOAD((Xjk + 1*ldX));
-          } else {
-            Xjk_0 = SCALAR_LOAD((Xjk + 0*ldX));
-            Xjk_1 = SCALAR_LOAD((Xjk + 1*ldX));
-            Xjk_2 = SCALAR_LOAD((Xjk + 2*ldX));
-          }
-
-          Gjk_0 = 0;
-          Gjk_1 = 0;
-          Gjk_2 = 0;
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-    /*** j = 0 ***/
-
-          tx = Xik_0;
-          ty = Xjk_0;
-          t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz; 
-
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz; 
-
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz; 
-
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz; 
-
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz; 
-
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz; 
-
-          X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz; 
-
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz; 
-
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz; 
-
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz; 
-
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz; 
-
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz; 
-          Gjk_0 += tw;
-
-
-    /*** j = 1 ***/
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_1;
-          t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz; 
-
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz; 
-
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz; 
-
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz; 
-
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz; 
-
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz; 
-
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz; 
-
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz; 
-
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz; 
-
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz; 
-
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz; 
-
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz; 
-          Gjk_1 += tw;
-
-    /*** j = 2 ***/
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          ty = Xjk_2;
-          t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz; 
-
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz; 
-
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz; 
-
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz; 
-
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz; 
-
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz; 
-
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz; 
-
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz; 
-
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz; 
-
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz; 
-
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz; 
-
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz; 
-          //atomicAdd((Gjk + 2 * ldG), tw);
-          Gjk_2 += tw;
-
-          if constexpr (pure_ket) {
-            atomicAdd((Gjk + 2 * ldG), Gjk_0);
-            atomicAdd((Gjk + 0 * ldG), Gjk_1);
-            atomicAdd((Gjk + 1 * ldG), Gjk_2);
-          } else {
-            atomicAdd((Gjk + 0 * ldG), Gjk_0);
-            atomicAdd((Gjk + 1 * ldG), Gjk_1);
-            atomicAdd((Gjk + 2 * ldG), Gjk_2);
-          }
-
-          if constexpr (pure_bra) {
-            SCALAR_TYPE Gik_m2, Gik_m1, Gik_z0, Gik_p1, Gik_p2;
-              
-            ::cuda::std::tie(Gik_m2, Gik_m1, Gik_z0, Gik_p1, Gik_p2) =
-              sph::tform_l2(outBuffer[0], outBuffer[1], outBuffer[2], 
-                            outBuffer[3], outBuffer[4], outBuffer[5]);
-            atomicAdd((Gik + 0 * ldG), Gik_m2);
-            atomicAdd((Gik + 1 * ldG), Gik_m1);
-            atomicAdd((Gik + 2 * ldG), Gik_z0);
-            atomicAdd((Gik + 3 * ldG), Gik_p1);
-            atomicAdd((Gik + 4 * ldG), Gik_p2);
-          } else {
-            atomicAdd((Gik + 0 * ldG), outBuffer[0]);
-            atomicAdd((Gik + 1 * ldG), outBuffer[1]);
-            atomicAdd((Gik + 2 * ldG), outBuffer[2]);
-            atomicAdd((Gik + 3 * ldG), outBuffer[3]);
-            atomicAdd((Gik + 4 * ldG), outBuffer[4]);
-            atomicAdd((Gik + 5 * ldG), outBuffer[5]);
-          }
-        }
-      }
-    }
-    __syncwarp();
-  }
-};
-
-template <int primpair_limit>
-using AM21_swap_cart = DeviceTask21<ObaraSaikaType::swap, 
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false, false>;
-
-template <int primpair_limit>
-using AM21_cart = DeviceTask21<ObaraSaikaType::base, 
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false, false>;
-
-template <int primpair_limit>
-using AM21_swap_sc = DeviceTask21<ObaraSaikaType::swap, 
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, false>;
-
-template <int primpair_limit>
-using AM21_sc = DeviceTask21<ObaraSaikaType::base, 
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, false>;
-
-template <int primpair_limit>
-using AM21_swap_sph = DeviceTask21<ObaraSaikaType::swap, 
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, true>;
-
-template <int primpair_limit>
-using AM21_sph = DeviceTask21<ObaraSaikaType::base, 
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, true>;
-
-  void integral_2_1_task_batched(
-    bool swap,
-    bool sph_2, bool sph_1,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-
-    if (swap) {
-      if(sph_2 and sph_1)
-        dev_integral_task_map_dispatcher<AM21_swap_sph>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else if(sph_2)
-        dev_integral_task_map_dispatcher<AM21_swap_sc>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else
-        dev_integral_task_map_dispatcher<AM21_swap_cart>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-    } else {
-      if(sph_2 and sph_1)
-        dev_integral_task_map_dispatcher<AM21_sph>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else if(sph_2)
-        dev_integral_task_map_dispatcher<AM21_sc>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-      else
-        dev_integral_task_map_dispatcher<AM21_cart>(
-          nblocks, nthreads, max_primpair, stream, 
-          ntasks, nsubtask,
-          device_tasks, task2sp, 
-          (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-          sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-          boys_table );
-    }
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_1.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_1.hu
deleted file mode 100644
index e0038e3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_1.hu
+++ /dev/null
@@ -1,63 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_2_1(double X_AB,
-		    double Y_AB,
-		    double Z_AB,
-		    size_t npts,
-		    double *_points_x,
-		    double *_points_y,
-		    double *_points_z,
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights,
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_1_batched(bool swap, size_t ntask_sp,
-        double X_AB,
-				double Y_AB,
-				double Z_AB,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_2_1_task_batched(
-    bool swap,
-    bool sph_2, bool sph_1,
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_2.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_2.cu
deleted file mode 100644
index 88c18b7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_2.cu
+++ /dev/null
@@ -1,4794 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/gpu/chebyshev_boys_computation.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2_2.hu"
-
-#include "task_map_base.hu"
-
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-
-namespace XGPU {
-
-using namespace GauXC;
-
-  __inline__ __device__ void dev_integral_2_2_driver(double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-				   size_t npts,
-				   double *_points_x,
-				   double *_points_y,
-				   double *_points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    __shared__ double temp[128 * 31];
-
-    __shared__ double outBuffer[128][6];
-
-    for(size_t p_outer = blockIdx.x * blockDim.x; p_outer < npts; p_outer += gridDim.x * blockDim.x) {
-      for (int i = 0; i < 6; i++) {
-        outBuffer[threadIdx.x][i] = 0.0;
-      }
-
-      double *_point_outer_x = (_points_x + p_outer);
-      double *_point_outer_y = (_points_y + p_outer);
-      double *_point_outer_z = (_points_z + p_outer);
-
-      size_t p_inner = (threadIdx.x < (npts - p_outer)) ? threadIdx.x : (npts - p_outer);
-
-      for(int i = 0; i < 31; ++i) SCALAR_STORE((temp + i * blockDim.x + threadIdx.x), SCALAR_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-	double RHO = prim_pairs[ij].gamma;
-	double RHO_INV = prim_pairs[ij].gamma_inv;
-	double X_PA = prim_pairs[ij].PA.x;
-	double Y_PA = prim_pairs[ij].PA.y;
-	double Z_PA = prim_pairs[ij].PA.z;
-
-	double xP = prim_pairs[ij].P.x;
-	double yP = prim_pairs[ij].P.y;
-	double zP = prim_pairs[ij].P.z;
-
-	double eval = prim_pairs[ij].K_coeff_prod;
-
-	// Evaluate T Values
-	SCALAR_TYPE xC = SCALAR_LOAD((_point_outer_x + p_inner));
-	SCALAR_TYPE yC = SCALAR_LOAD((_point_outer_y + p_inner));
-	SCALAR_TYPE zC = SCALAR_LOAD((_point_outer_z + p_inner));
-
-	SCALAR_TYPE X_PC = SCALAR_SUB(xP, xC);
-	SCALAR_TYPE Y_PC = SCALAR_SUB(yP, yC);
-	SCALAR_TYPE Z_PC = SCALAR_SUB(zP, zC);
-
-	SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-	TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-	TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-	TVAL = SCALAR_MUL(RHO, TVAL);
-
-	SCALAR_TYPE t00, t01, t02, t03, t04, TVAL_inv_e;
-
-	// Evaluate Boys function
-	boys_element<4>(&TVAL, &TVAL_inv_e, &t04, boys_table);
-
-	// Evaluate VRR Buffer
-	SCALAR_TYPE t10, t11, t12, t13, t20, t21, t22, t30, t31, t40, tx, ty;
-
-	t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t04), TVAL_inv_e), SCALAR_SET1(0.28571428571428569843));
-	t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t03), TVAL_inv_e), SCALAR_SET1(0.40000000000000002220));
-	t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-	t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-	t00 = SCALAR_MUL(eval, t00);
-	t01 = SCALAR_MUL(eval, t01);
-	t02 = SCALAR_MUL(eval, t02);
-	t03 = SCALAR_MUL(eval, t03);
-	t04 = SCALAR_MUL(eval, t04);
-	t10 = SCALAR_MUL(X_PA, t00);
-	t10 = SCALAR_FNMA(X_PC, t01, t10);
-	t11 = SCALAR_MUL(X_PA, t01);
-	t11 = SCALAR_FNMA(X_PC, t02, t11);
-	t12 = SCALAR_MUL(X_PA, t02);
-	t12 = SCALAR_FNMA(X_PC, t03, t12);
-	t13 = SCALAR_MUL(X_PA, t03);
-	t13 = SCALAR_FNMA(X_PC, t04, t13);
-	t20 = SCALAR_MUL(X_PA, t10);
-	t20 = SCALAR_FNMA(X_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(X_PA, t11);
-	t21 = SCALAR_FNMA(X_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	t22 = SCALAR_MUL(X_PA, t12);
-	t22 = SCALAR_FNMA(X_PC, t13, t22);
-	tx = SCALAR_SUB(t02, t03);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t22 = SCALAR_FMA(tx, ty, t22);
-	tx = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 0 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(X_PA, t20);
-	t30 = SCALAR_FNMA(X_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(X_PA, t21);
-	t31 = SCALAR_FNMA(X_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 6 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(X_PA, t30);
-	t40 = SCALAR_FNMA(X_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 3);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 16 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 16 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 17 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 17 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 18 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 18 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	t31 = SCALAR_MUL(Y_PA, t21);
-	t31 = SCALAR_FNMA(Y_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 7 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 19 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 20 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 8 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 21 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	t21 = SCALAR_MUL(Y_PA, t11);
-	t21 = SCALAR_FNMA(Y_PC, t12, t21);
-	t22 = SCALAR_MUL(Y_PA, t12);
-	t22 = SCALAR_FNMA(Y_PC, t13, t22);
-	tx = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 1 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Y_PA, t21);
-	t31 = SCALAR_FNMA(Y_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 9 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 22 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 22 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 23 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 10 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 24 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	t22 = SCALAR_MUL(Z_PA, t12);
-	t22 = SCALAR_FNMA(Z_PC, t13, t22);
-	tx = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 2 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 11 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 25 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 25 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Y_PA, t00);
-	t10 = SCALAR_FNMA(Y_PC, t01, t10);
-	t11 = SCALAR_MUL(Y_PA, t01);
-	t11 = SCALAR_FNMA(Y_PC, t02, t11);
-	t12 = SCALAR_MUL(Y_PA, t02);
-	t12 = SCALAR_FNMA(Y_PC, t03, t12);
-	t13 = SCALAR_MUL(Y_PA, t03);
-	t13 = SCALAR_FNMA(Y_PC, t04, t13);
-	t20 = SCALAR_MUL(Y_PA, t10);
-	t20 = SCALAR_FNMA(Y_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(Y_PA, t11);
-	t21 = SCALAR_FNMA(Y_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	t22 = SCALAR_MUL(Y_PA, t12);
-	t22 = SCALAR_FNMA(Y_PC, t13, t22);
-	tx = SCALAR_SUB(t02, t03);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t22 = SCALAR_FMA(tx, ty, t22);
-	tx = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 3 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Y_PA, t20);
-	t30 = SCALAR_FNMA(Y_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Y_PA, t21);
-	t31 = SCALAR_FNMA(Y_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 12 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Y_PA, t30);
-	t40 = SCALAR_FNMA(Y_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 3);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 26 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 26 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_LOAD((temp + 27 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 27 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 13 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 28 * blockDim.x + threadIdx.x), tx);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	t22 = SCALAR_MUL(Z_PA, t12);
-	t22 = SCALAR_FNMA(Z_PC, t13, t22);
-	tx = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 4 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 14 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 29 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 29 * blockDim.x + threadIdx.x), tx);
-	t10 = SCALAR_MUL(Z_PA, t00);
-	t10 = SCALAR_FNMA(Z_PC, t01, t10);
-	t11 = SCALAR_MUL(Z_PA, t01);
-	t11 = SCALAR_FNMA(Z_PC, t02, t11);
-	t12 = SCALAR_MUL(Z_PA, t02);
-	t12 = SCALAR_FNMA(Z_PC, t03, t12);
-	t13 = SCALAR_MUL(Z_PA, t03);
-	t13 = SCALAR_FNMA(Z_PC, t04, t13);
-	t20 = SCALAR_MUL(Z_PA, t10);
-	t20 = SCALAR_FNMA(Z_PC, t11, t20);
-	tx = SCALAR_SUB(t00, t01);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t20 = SCALAR_FMA(tx, ty, t20);
-	t21 = SCALAR_MUL(Z_PA, t11);
-	t21 = SCALAR_FNMA(Z_PC, t12, t21);
-	tx = SCALAR_SUB(t01, t02);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t21 = SCALAR_FMA(tx, ty, t21);
-	t22 = SCALAR_MUL(Z_PA, t12);
-	t22 = SCALAR_FNMA(Z_PC, t13, t22);
-	tx = SCALAR_SUB(t02, t03);
-	ty = SCALAR_SET1(0.5 * 1);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t22 = SCALAR_FMA(tx, ty, t22);
-	tx = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t20);
-	SCALAR_STORE((temp + 5 * blockDim.x + threadIdx.x), tx);
-	t30 = SCALAR_MUL(Z_PA, t20);
-	t30 = SCALAR_FNMA(Z_PC, t21, t30);
-	tx = SCALAR_SUB(t10, t11);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t30 = SCALAR_FMA(tx, ty, t30);
-	t31 = SCALAR_MUL(Z_PA, t21);
-	t31 = SCALAR_FNMA(Z_PC, t22, t31);
-	tx = SCALAR_SUB(t11, t12);
-	ty = SCALAR_SET1(0.5 * 2);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t31 = SCALAR_FMA(tx, ty, t31);
-	tx = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t30);
-	SCALAR_STORE((temp + 15 * blockDim.x + threadIdx.x), tx);
-	t40 = SCALAR_MUL(Z_PA, t30);
-	t40 = SCALAR_FNMA(Z_PC, t31, t40);
-	tx = SCALAR_SUB(t20, t21);
-	ty = SCALAR_SET1(0.5 * 3);
-	ty = SCALAR_MUL(ty, RHO_INV);
-	t40 = SCALAR_FMA(tx, ty, t40);
-	tx = SCALAR_LOAD((temp + 30 * blockDim.x + threadIdx.x));
-	tx = SCALAR_ADD(tx, t40);
-	SCALAR_STORE((temp + 30 * blockDim.x + threadIdx.x), tx);
-      }
-
-      if(threadIdx.x < npts - p_outer) {
-	double *Xik = (Xi + p_outer + p_inner);
-	double *Xjk = (Xj + p_outer + p_inner);
-	double *Gik = (Gi + p_outer + p_inner);
-	double *Gjk = (Gj + p_outer + p_inner);
-
-	SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-	double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-	SCALAR_TYPE const_value_w;
-	SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-  #if 0
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t0 = SCALAR_LOAD((temp + 16 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t1 = SCALAR_LOAD((temp + 17 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t2 = SCALAR_LOAD((temp + 18 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t3 = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t4 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t5 = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 0 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 0 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t0 = SCALAR_LOAD((temp + 17 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t1 = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t2 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t3 = SCALAR_LOAD((temp + 22 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t4 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t5 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 1 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 1 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t0 = SCALAR_LOAD((temp + 18 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t1 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t2 = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t3 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t4 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t5 = SCALAR_LOAD((temp + 25 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 2 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 2 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t0 = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t1 = SCALAR_LOAD((temp + 22 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t2 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t3 = SCALAR_LOAD((temp + 26 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t4 = SCALAR_LOAD((temp + 27 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t5 = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 3 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 3 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t0 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t1 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t2 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t3 = SCALAR_LOAD((temp + 27 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t4 = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t5 = SCALAR_LOAD((temp + 29 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 4 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 4 * ldG), tw);
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t0 = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t1 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t2 = SCALAR_LOAD((temp + 25 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t3 = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t4 = SCALAR_LOAD((temp + 29 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t5 = SCALAR_LOAD((temp + 30 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 0 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_FMA(ty, t0, tz);
-	tw = SCALAR_FMA(tx, t0, tw);
-	atomicAdd((Gik + 0 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 1 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_FMA(ty, t1, tz);
-	tw = SCALAR_FMA(tx, t1, tw);
-	atomicAdd((Gik + 1 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 2 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_FMA(ty, t2, tz);
-	tw = SCALAR_FMA(tx, t2, tw);
-	atomicAdd((Gik + 2 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 3 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_FMA(ty, t3, tz);
-	tw = SCALAR_FMA(tx, t3, tw);
-	atomicAdd((Gik + 3 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 4 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_FMA(ty, t4, tz);
-	tw = SCALAR_FMA(tx, t4, tw);
-	atomicAdd((Gik + 4 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	tz = SCALAR_LOAD((Gik + 5 * ldG));
-	tw = SCALAR_LOAD((Gjk + 5 * ldG));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_FMA(ty, t5, tz);
-	tw = SCALAR_FMA(tx, t5, tw);
-	atomicAdd((Gik + 5 * ldG), tz);
-	atomicAdd((Gjk + 5 * ldG), tw);
-  #else
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 16 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 17 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 18 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-	atomicAdd((Gjk + 0 * ldG), tw);
-  
-
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 1 * ldX));
-	t0 = SCALAR_LOAD((temp + 17 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 22 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-	atomicAdd((Gjk + 1 * ldG), tw);
-
-
-
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 2 * ldX));
-	t0 = SCALAR_LOAD((temp + 18 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 25 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 6 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-	atomicAdd((Gjk + 2 * ldG), tw);
-
-
-
-
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 3 * ldX));
-	t0 = SCALAR_LOAD((temp + 19 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 22 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 26 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 27 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-	atomicAdd((Gjk + 3 * ldG), tw);
-
-
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 4 * ldX));
-	t0 = SCALAR_LOAD((temp + 20 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 23 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 27 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 29 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 7 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 9 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 12 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-	atomicAdd((Gjk + 4 * ldG), tw);
-
-
-
-
-	X_ABp = 1.0; comb_m_i = 1.0;
-	Y_ABp = 1.0; comb_n_j = 1.0;
-	Z_ABp = 1.0; comb_p_k = 1.0;
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	ty = SCALAR_LOAD((Xjk + 5 * ldX));
-	t0 = SCALAR_LOAD((temp + 21 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_MUL(tx, t0);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 24 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 25 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 28 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 29 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 30 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 8 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 10 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 11 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 13 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 14 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 15 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-                                
-	Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-	const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-	const_value_w = SCALAR_MUL(const_value_v, const_value);
-	tx = SCALAR_LOAD((Xik + 0 * ldX));
-	t0 = SCALAR_LOAD((temp + 0 * blockDim.x + threadIdx.x));
-	t0 = SCALAR_MUL(t0, const_value_w);
-	tz = SCALAR_MUL(ty, t0);
-	tw = SCALAR_FMA(tx, t0, tw);
-	//atomicAdd((Gik + 0 * ldG), tz);
-	outBuffer[threadIdx.x][0] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 1 * ldX));
-	t1 = SCALAR_LOAD((temp + 1 * blockDim.x + threadIdx.x));
-	t1 = SCALAR_MUL(t1, const_value_w);
-	tz = SCALAR_MUL(ty, t1);
-	tw = SCALAR_FMA(tx, t1, tw);
-	//atomicAdd((Gik + 1 * ldG), tz);
-	outBuffer[threadIdx.x][1] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 2 * ldX));
-	t2 = SCALAR_LOAD((temp + 2 * blockDim.x + threadIdx.x));
-	t2 = SCALAR_MUL(t2, const_value_w);
-	tz = SCALAR_MUL(ty, t2);
-	tw = SCALAR_FMA(tx, t2, tw);
-	//atomicAdd((Gik + 2 * ldG), tz);
-	outBuffer[threadIdx.x][2] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 3 * ldX));
-	t3 = SCALAR_LOAD((temp + 3 * blockDim.x + threadIdx.x));
-	t3 = SCALAR_MUL(t3, const_value_w);
-	tz = SCALAR_MUL(ty, t3);
-	tw = SCALAR_FMA(tx, t3, tw);
-	//atomicAdd((Gik + 3 * ldG), tz);
-	outBuffer[threadIdx.x][3] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 4 * ldX));
-	t4 = SCALAR_LOAD((temp + 4 * blockDim.x + threadIdx.x));
-	t4 = SCALAR_MUL(t4, const_value_w);
-	tz = SCALAR_MUL(ty, t4);
-	tw = SCALAR_FMA(tx, t4, tw);
-	//atomicAdd((Gik + 4 * ldG), tz);
-	outBuffer[threadIdx.x][4] += tz;
-                                
-	tx = SCALAR_LOAD((Xik + 5 * ldX));
-	t5 = SCALAR_LOAD((temp + 5 * blockDim.x + threadIdx.x));
-	t5 = SCALAR_MUL(t5, const_value_w);
-	tz = SCALAR_MUL(ty, t5);
-	tw = SCALAR_FMA(tx, t5, tw);
-	//atomicAdd((Gik + 5 * ldG), tz);
-	outBuffer[threadIdx.x][5] += tz;
-	atomicAdd((Gjk + 5 * ldG), tw);
-
-	atomicAdd((Gik + 0 * ldG), outBuffer[threadIdx.x][0]);
-	atomicAdd((Gik + 1 * ldG), outBuffer[threadIdx.x][1]);
-	atomicAdd((Gik + 2 * ldG), outBuffer[threadIdx.x][2]);
-	atomicAdd((Gik + 3 * ldG), outBuffer[threadIdx.x][3]);
-	atomicAdd((Gik + 4 * ldG), outBuffer[threadIdx.x][4]);
-	atomicAdd((Gik + 5 * ldG), outBuffer[threadIdx.x][5]);
-
-  #endif
-      }
-    }
-  }
-
-  __global__ void dev_integral_2_2(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-                   const int nprim_pairs,
-                   const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights, 
-				   double *boys_table) {
-    dev_integral_2_2_driver( X_AB, Y_AB, Z_AB, npts, points_x, points_y, 
-      points_z, nprim_pairs, prim_pairs, Xi, Xj, ldX, Gi, Gj, ldG, weights, boys_table );
-  }
-
-  void integral_2_2(double X_AB,
-		    double Y_AB,
-		    double Z_AB,
-		    size_t npts,
-		    double *points_x,
-		    double *points_y,
-		    double *points_z,
-            const int nprim_pairs,
-            const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights, 
-		  double *boys_table,
-      cudaStream_t stream) {
-    dev_integral_2_2<<<320, 128, 0, stream>>>(X_AB,
-				   Y_AB,
-				   Z_AB,
-				   npts,
-				   points_x,
-				   points_y,
-				   points_z,
-        nprim_pairs,prim_pairs,
-				   Xi,
-				   Xj,
-				   ldX,
-				   Gi,
-				   Gj,
-				   ldG, 
-				   weights,
-				   boys_table);
-  }
-
-  __inline__ __device__ void dev_integral_2_2_batched_driver (
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-    //if (sp2task->shell_pair_device->nprim_pairs() == 0) return;
-    const int ntask = sp2task->ntask;
-    for( int i_task = blockIdx.y; i_task < ntask; i_task += gridDim.y ) {
-    
-      const auto iT = sp2task->task_idx_device[i_task];
-      const auto* task  = device_tasks + iT;
-      const auto  npts  = task->npts;
-
-      const auto  i_off = sp2task->task_shell_off_row_device[i_task]*npts;
-      const auto  j_off = sp2task->task_shell_off_col_device[i_task]*npts;
-
-
-      dev_integral_2_2_driver( 
-        X_AB, Y_AB, Z_AB,
-        npts,
-        task->points_x,
-        task->points_y,
-        task->points_z,
-        sp2task->nprim_pairs,
-        sp2task->prim_pairs_device,
-        task->fmat + i_off,
-        task->fmat + j_off,
-        npts,
-        task->gmat + i_off,
-        task->gmat + j_off,
-        npts,
-        task->weights, boys_table );
-    }
-
-  }
-
-  __global__ void dev_integral_2_2_batched(
-           double X_AB,
-				   double Y_AB,
-				   double Z_AB,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-   dev_integral_2_2_batched_driver(X_AB,Y_AB,Z_AB,sp2task,device_tasks,boys_table);
- }
-
-
-
-  void integral_2_2_batched(size_t ntask_sp,
-        double X_AB,
-				double Y_AB,
-				double Z_AB,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 160;
-    int nblocks_y = ntask_sp;
-    dim3 nblocks(nblocks_x, nblocks_y);
-
-    dev_integral_2_2_batched<<<nblocks,nthreads,0,stream>>>(
-      X_AB, Y_AB, Z_AB, sp2task, device_tasks, boys_table );
-
-  }
-
-
-
-  __global__ void dev_integral_2_2_shell_batched(
-           int nsp,
-           const GauXC::ShellPairToTaskDevice* sp2task,
-           GauXC::XCDeviceTask*                device_tasks,
-				   double *boys_table) {
-
-   for( int i = blockIdx.z; i < nsp; i += gridDim.z ) {
-     auto sp = sp2task + i;
-     const auto X_AB = sp->X_AB;
-     const auto Y_AB = sp->Y_AB;
-     const auto Z_AB = sp->Z_AB;
-     dev_integral_2_2_batched_driver(X_AB,Y_AB,Z_AB,sp,device_tasks,boys_table);
-   }
- }
-
-  void integral_2_2_shell_batched(
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream) {
-
-    int nthreads = 128;
-    int nblocks_x = 1;
-    int nblocks_y = max_ntask;
-    int nblocks_z = nsp;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dev_integral_2_2_shell_batched<<<nblocks,nthreads,0,stream>>>(
-      nsp, sp2task, device_tasks, boys_table );
-
-  }
-
-template<ObaraSaikaType type_, int points_per_subtask_, int primpair_shared_limit_,
-         bool pure_bra, bool pure_ket>
-struct DeviceTask22 {
-  static constexpr int max_primpair_shared_limit = 8;
-
-  static constexpr int primpair_shared_limit = primpair_shared_limit_;
-  static constexpr int points_per_subtask = points_per_subtask_;
-  static constexpr int num_threads = points_per_subtask_;
-  static constexpr ObaraSaikaType type = type_;
-
-  static_assert(ObaraSaikaType::swap != type, "DeviceTask22 does not support swap");
-  static constexpr bool diag = (ObaraSaikaType::diag == type);
-
-  static constexpr bool use_shared = (primpair_shared_limit > 0) && 
-                                     (primpair_shared_limit <= max_primpair_shared_limit);
-  static constexpr int num_warps = points_per_subtask / GauXC::cuda::warp_size;
-  // Cannot declare shared memory array with length 0
-  static constexpr int prim_buffer_size = (use_shared) ? num_warps * primpair_shared_limit : 1;
-
-  using Params = ObaraSaikaParamsWithAB<type>;
-
-  __inline__ __device__ static void compute( 
-    const int i,
-    const int npts,
-    const int nprim_pairs,
-    // Point data
-    double4 (&s_task_data)[points_per_subtask],
-    // Shell Pair Data
-    const GauXC::PrimitivePair<double>* prim_pairs,
-    // Output Data
-    const Params param,
-    int ldX,
-    int ldG, 
-    // Other
-    double *boys_table) {
-
-    // Unpack Params;
-    const double *Xi = param.Xi;
-    const double *Xj = param.Xj;
-    double *Gi = param.Gi;
-    double *Gj = param.Gj;
-    const double X_AB = param.X_AB;
-    const double Y_AB = param.Y_AB;
-    const double Z_AB = param.Z_AB;
-
-    const int laneId = threadIdx.x % GauXC::cuda::warp_size;
-    const int warpId __attribute__((unused)) = threadIdx.x / GauXC::cuda::warp_size;
-
-    __shared__ GauXC::PrimitivePair<double> s_prim_pairs[prim_buffer_size] __attribute__((unused));
-
-    if constexpr (use_shared) {
-      load_primpair_shared(laneId, warpId, nprim_pairs,
-        &(prim_pairs[0]), &(s_prim_pairs[warpId * primpair_shared_limit]));
-      __syncwarp();
-    }
-
-    double outBuffer[6];
-    double temp[num_threads * 31];
-
-    // Loop over points in shared in batches of 32
-    for (int i = 0; i <  num_warps; i++) {
-
-      for (int j = 0; j < 6; j++) {
-        outBuffer[j] = 0.0;
-      }
-
-      for(int j = 0; j < 31; ++j) SCALAR_STORE((temp + j), SCALAR_ZERO());
-
-      const int pointIndex = i * GauXC::cuda::warp_size + laneId;
-
-      if (pointIndex < npts) {
-        const double point_x = s_task_data[pointIndex].x;
-        const double point_y = s_task_data[pointIndex].y;
-        const double point_z = s_task_data[pointIndex].z;
-        const double weight = s_task_data[pointIndex].w;
-
-        for(int ij = 0; ij < nprim_pairs; ++ij) {
-          const GauXC::PrimitivePair<double>* prim_pairs_use = nullptr; 
-          if constexpr (use_shared) prim_pairs_use = &(s_prim_pairs[warpId * primpair_shared_limit]);
-          else                      prim_pairs_use = &(prim_pairs[0]);
-
-          double RHO = prim_pairs_use[ij].gamma;
-          double RHO_INV = prim_pairs_use[ij].gamma_inv;
-          double X_PA = prim_pairs_use[ij].PA.x;
-          double Y_PA = prim_pairs_use[ij].PA.y;
-          double Z_PA = prim_pairs_use[ij].PA.z;
-
-          double xP = prim_pairs_use[ij].P.x;
-          double yP = prim_pairs_use[ij].P.y;
-          double zP = prim_pairs_use[ij].P.z;
-
-          double eval = prim_pairs_use[ij].K_coeff_prod;
-
-          // Evaluate T Values
-          SCALAR_TYPE X_PC = SCALAR_SUB(xP, point_x);
-          SCALAR_TYPE Y_PC = SCALAR_SUB(yP, point_y);
-          SCALAR_TYPE Z_PC = SCALAR_SUB(zP, point_z);
-
-          SCALAR_TYPE TVAL = SCALAR_MUL(X_PC, X_PC);
-          TVAL = SCALAR_FMA(Y_PC, Y_PC, TVAL);
-          TVAL = SCALAR_FMA(Z_PC, Z_PC, TVAL);
-          TVAL = SCALAR_MUL(RHO, TVAL);
-
-          SCALAR_TYPE t00, t01, t02, t03, t04, TVAL_inv_e;
-
-          // Evaluate Boys function
-          boys_element<4>(&TVAL, &TVAL_inv_e, &t04, boys_table);
-
-          // Evaluate VRR Buffer
-          SCALAR_TYPE t10, t11, t12, t13, t20, t21, t22, t30, t31, t40, tx, ty;
-
-          t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t04), TVAL_inv_e), SCALAR_SET1(0.28571428571428569843));
-          t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t03), TVAL_inv_e), SCALAR_SET1(0.40000000000000002220));
-          t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t02), TVAL_inv_e), SCALAR_SET1(0.66666666666666662966));
-          t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(TVAL, t01), TVAL_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-          t00 = SCALAR_MUL(eval, t00);
-          t01 = SCALAR_MUL(eval, t01);
-          t02 = SCALAR_MUL(eval, t02);
-          t03 = SCALAR_MUL(eval, t03);
-          t04 = SCALAR_MUL(eval, t04);
-          t10 = SCALAR_MUL(X_PA, t00);
-          t10 = SCALAR_FNMA(X_PC, t01, t10);
-          t11 = SCALAR_MUL(X_PA, t01);
-          t11 = SCALAR_FNMA(X_PC, t02, t11);
-          t12 = SCALAR_MUL(X_PA, t02);
-          t12 = SCALAR_FNMA(X_PC, t03, t12);
-          t13 = SCALAR_MUL(X_PA, t03);
-          t13 = SCALAR_FNMA(X_PC, t04, t13);
-          t20 = SCALAR_MUL(X_PA, t10);
-          t20 = SCALAR_FNMA(X_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          t21 = SCALAR_MUL(X_PA, t11);
-          t21 = SCALAR_FNMA(X_PC, t12, t21);
-          tx = SCALAR_SUB(t01, t02);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t21 = SCALAR_FMA(tx, ty, t21);
-          t22 = SCALAR_MUL(X_PA, t12);
-          t22 = SCALAR_FNMA(X_PC, t13, t22);
-          tx = SCALAR_SUB(t02, t03);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t22 = SCALAR_FMA(tx, ty, t22);
-          tx = SCALAR_LOAD((temp + 0 ));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 0 ), tx);
-          t30 = SCALAR_MUL(X_PA, t20);
-          t30 = SCALAR_FNMA(X_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          t31 = SCALAR_MUL(X_PA, t21);
-          t31 = SCALAR_FNMA(X_PC, t22, t31);
-          tx = SCALAR_SUB(t11, t12);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t31 = SCALAR_FMA(tx, ty, t31);
-          tx = SCALAR_LOAD((temp + 6 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 6 ), tx);
-          t40 = SCALAR_MUL(X_PA, t30);
-          t40 = SCALAR_FNMA(X_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 3);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 16 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 16 ), tx);
-          t40 = SCALAR_MUL(Y_PA, t30);
-          t40 = SCALAR_FNMA(Y_PC, t31, t40);
-          tx = SCALAR_LOAD((temp + 17 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 17 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_LOAD((temp + 18 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 18 ), tx);
-          t30 = SCALAR_MUL(Y_PA, t20);
-          t30 = SCALAR_FNMA(Y_PC, t21, t30);
-          t31 = SCALAR_MUL(Y_PA, t21);
-          t31 = SCALAR_FNMA(Y_PC, t22, t31);
-          tx = SCALAR_LOAD((temp + 7 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 7 ), tx);
-          t40 = SCALAR_MUL(Y_PA, t30);
-          t40 = SCALAR_FNMA(Y_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 19 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 19 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_LOAD((temp + 20 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 20 ), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          t31 = SCALAR_MUL(Z_PA, t21);
-          t31 = SCALAR_FNMA(Z_PC, t22, t31);
-          tx = SCALAR_LOAD((temp + 8 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 8 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 21 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 21 ), tx);
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          t21 = SCALAR_MUL(Y_PA, t11);
-          t21 = SCALAR_FNMA(Y_PC, t12, t21);
-          t22 = SCALAR_MUL(Y_PA, t12);
-          t22 = SCALAR_FNMA(Y_PC, t13, t22);
-          tx = SCALAR_LOAD((temp + 1 ));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 1 ), tx);
-          t30 = SCALAR_MUL(Y_PA, t20);
-          t30 = SCALAR_FNMA(Y_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          t31 = SCALAR_MUL(Y_PA, t21);
-          t31 = SCALAR_FNMA(Y_PC, t22, t31);
-          tx = SCALAR_SUB(t11, t12);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t31 = SCALAR_FMA(tx, ty, t31);
-          tx = SCALAR_LOAD((temp + 9 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 9 ), tx);
-          t40 = SCALAR_MUL(Y_PA, t30);
-          t40 = SCALAR_FNMA(Y_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 22 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 22 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_LOAD((temp + 23 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 23 ), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          t31 = SCALAR_MUL(Z_PA, t21);
-          t31 = SCALAR_FNMA(Z_PC, t22, t31);
-          tx = SCALAR_LOAD((temp + 10 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 10 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 24 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 24 ), tx);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          t21 = SCALAR_MUL(Z_PA, t11);
-          t21 = SCALAR_FNMA(Z_PC, t12, t21);
-          t22 = SCALAR_MUL(Z_PA, t12);
-          t22 = SCALAR_FNMA(Z_PC, t13, t22);
-          tx = SCALAR_LOAD((temp + 2 ));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 2 ), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          t31 = SCALAR_MUL(Z_PA, t21);
-          t31 = SCALAR_FNMA(Z_PC, t22, t31);
-          tx = SCALAR_SUB(t11, t12);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t31 = SCALAR_FMA(tx, ty, t31);
-          tx = SCALAR_LOAD((temp + 11 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 11 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 25 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 25 ), tx);
-          t10 = SCALAR_MUL(Y_PA, t00);
-          t10 = SCALAR_FNMA(Y_PC, t01, t10);
-          t11 = SCALAR_MUL(Y_PA, t01);
-          t11 = SCALAR_FNMA(Y_PC, t02, t11);
-          t12 = SCALAR_MUL(Y_PA, t02);
-          t12 = SCALAR_FNMA(Y_PC, t03, t12);
-          t13 = SCALAR_MUL(Y_PA, t03);
-          t13 = SCALAR_FNMA(Y_PC, t04, t13);
-          t20 = SCALAR_MUL(Y_PA, t10);
-          t20 = SCALAR_FNMA(Y_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          t21 = SCALAR_MUL(Y_PA, t11);
-          t21 = SCALAR_FNMA(Y_PC, t12, t21);
-          tx = SCALAR_SUB(t01, t02);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t21 = SCALAR_FMA(tx, ty, t21);
-          t22 = SCALAR_MUL(Y_PA, t12);
-          t22 = SCALAR_FNMA(Y_PC, t13, t22);
-          tx = SCALAR_SUB(t02, t03);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t22 = SCALAR_FMA(tx, ty, t22);
-          tx = SCALAR_LOAD((temp + 3 ));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 3 ), tx);
-          t30 = SCALAR_MUL(Y_PA, t20);
-          t30 = SCALAR_FNMA(Y_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          t31 = SCALAR_MUL(Y_PA, t21);
-          t31 = SCALAR_FNMA(Y_PC, t22, t31);
-          tx = SCALAR_SUB(t11, t12);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t31 = SCALAR_FMA(tx, ty, t31);
-          tx = SCALAR_LOAD((temp + 12 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 12 ), tx);
-          t40 = SCALAR_MUL(Y_PA, t30);
-          t40 = SCALAR_FNMA(Y_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 3);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 26 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 26 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_LOAD((temp + 27 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 27 ), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          t31 = SCALAR_MUL(Z_PA, t21);
-          t31 = SCALAR_FNMA(Z_PC, t22, t31);
-          tx = SCALAR_LOAD((temp + 13 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 13 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 28 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 28 ), tx);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          t21 = SCALAR_MUL(Z_PA, t11);
-          t21 = SCALAR_FNMA(Z_PC, t12, t21);
-          t22 = SCALAR_MUL(Z_PA, t12);
-          t22 = SCALAR_FNMA(Z_PC, t13, t22);
-          tx = SCALAR_LOAD((temp + 4 ));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 4 ), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          t31 = SCALAR_MUL(Z_PA, t21);
-          t31 = SCALAR_FNMA(Z_PC, t22, t31);
-          tx = SCALAR_SUB(t11, t12);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t31 = SCALAR_FMA(tx, ty, t31);
-          tx = SCALAR_LOAD((temp + 14 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 14 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 29 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 29 ), tx);
-          t10 = SCALAR_MUL(Z_PA, t00);
-          t10 = SCALAR_FNMA(Z_PC, t01, t10);
-          t11 = SCALAR_MUL(Z_PA, t01);
-          t11 = SCALAR_FNMA(Z_PC, t02, t11);
-          t12 = SCALAR_MUL(Z_PA, t02);
-          t12 = SCALAR_FNMA(Z_PC, t03, t12);
-          t13 = SCALAR_MUL(Z_PA, t03);
-          t13 = SCALAR_FNMA(Z_PC, t04, t13);
-          t20 = SCALAR_MUL(Z_PA, t10);
-          t20 = SCALAR_FNMA(Z_PC, t11, t20);
-          tx = SCALAR_SUB(t00, t01);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t20 = SCALAR_FMA(tx, ty, t20);
-          t21 = SCALAR_MUL(Z_PA, t11);
-          t21 = SCALAR_FNMA(Z_PC, t12, t21);
-          tx = SCALAR_SUB(t01, t02);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t21 = SCALAR_FMA(tx, ty, t21);
-          t22 = SCALAR_MUL(Z_PA, t12);
-          t22 = SCALAR_FNMA(Z_PC, t13, t22);
-          tx = SCALAR_SUB(t02, t03);
-          ty = SCALAR_SET1(0.5 * 1);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t22 = SCALAR_FMA(tx, ty, t22);
-          tx = SCALAR_LOAD((temp + 5 ));
-          tx = SCALAR_ADD(tx, t20);
-          SCALAR_STORE((temp + 5 ), tx);
-          t30 = SCALAR_MUL(Z_PA, t20);
-          t30 = SCALAR_FNMA(Z_PC, t21, t30);
-          tx = SCALAR_SUB(t10, t11);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t30 = SCALAR_FMA(tx, ty, t30);
-          t31 = SCALAR_MUL(Z_PA, t21);
-          t31 = SCALAR_FNMA(Z_PC, t22, t31);
-          tx = SCALAR_SUB(t11, t12);
-          ty = SCALAR_SET1(0.5 * 2);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t31 = SCALAR_FMA(tx, ty, t31);
-          tx = SCALAR_LOAD((temp + 15 ));
-          tx = SCALAR_ADD(tx, t30);
-          SCALAR_STORE((temp + 15 ), tx);
-          t40 = SCALAR_MUL(Z_PA, t30);
-          t40 = SCALAR_FNMA(Z_PC, t31, t40);
-          tx = SCALAR_SUB(t20, t21);
-          ty = SCALAR_SET1(0.5 * 3);
-          ty = SCALAR_MUL(ty, RHO_INV);
-          t40 = SCALAR_FMA(tx, ty, t40);
-          tx = SCALAR_LOAD((temp + 30 ));
-          tx = SCALAR_ADD(tx, t40);
-          SCALAR_STORE((temp + 30 ), tx);
-        }
-
-        bool nonzero = false;
-        for(int i = 0; i < 31; ++i) {
-          nonzero = nonzero || abs(temp[i ]) > 1e-12;
-        }
-
-        if (diag || nonzero) {
-          const double * __restrict__ Xik = (Xi + pointIndex);
-          const double * __restrict__ Xjk = (Xj + pointIndex);
-          double * __restrict__ Gik = (Gi + pointIndex);
-          double * __restrict__ Gjk = (Gj + pointIndex);
-
-          SCALAR_TYPE const_value_v = weight;
-
-          double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-          SCALAR_TYPE const_value_w;
-          SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-          SCALAR_TYPE Xik_0, Xik_1, Xik_2, Xik_3, Xik_4, Xik_5;
-          SCALAR_TYPE Xjk_0, Xjk_1, Xjk_2, Xjk_3, Xjk_4, Xjk_5;
-          SCALAR_TYPE Gjk_0, Gjk_1, Gjk_2, Gjk_3, Gjk_4, Gjk_5;
-
-          if constexpr (pure_bra) {
-            SCALAR_TYPE Xik_m2 = SCALAR_LOAD((Xik + 0*ldX));
-            SCALAR_TYPE Xik_m1 = SCALAR_LOAD((Xik + 1*ldX));
-            SCALAR_TYPE Xik_z0 = SCALAR_LOAD((Xik + 2*ldX));
-            SCALAR_TYPE Xik_p1 = SCALAR_LOAD((Xik + 3*ldX));
-            SCALAR_TYPE Xik_p2 = SCALAR_LOAD((Xik + 4*ldX));
-
-            ::cuda::std::tie(Xik_0, Xik_1, Xik_2, Xik_3, Xik_4, Xik_5) =
-              sph::itform_l2(Xik_m2, Xik_m1, Xik_z0, Xik_p1, Xik_p2);
-          } else {
-            Xik_0 = SCALAR_LOAD((Xik + 0*ldX));
-            Xik_1 = SCALAR_LOAD((Xik + 1*ldX));
-            Xik_2 = SCALAR_LOAD((Xik + 2*ldX));
-            Xik_3 = SCALAR_LOAD((Xik + 3*ldX));
-            Xik_4 = SCALAR_LOAD((Xik + 4*ldX));
-            Xik_5 = SCALAR_LOAD((Xik + 5*ldX));
-          }
-
-          if constexpr (pure_ket) {
-            SCALAR_TYPE Xjk_m2 = SCALAR_LOAD((Xjk + 0*ldX));
-            SCALAR_TYPE Xjk_m1 = SCALAR_LOAD((Xjk + 1*ldX));
-            SCALAR_TYPE Xjk_z0 = SCALAR_LOAD((Xjk + 2*ldX));
-            SCALAR_TYPE Xjk_p1 = SCALAR_LOAD((Xjk + 3*ldX));
-            SCALAR_TYPE Xjk_p2 = SCALAR_LOAD((Xjk + 4*ldX));
-
-            ::cuda::std::tie(Xjk_0, Xjk_1, Xjk_2, Xjk_3, Xjk_4, Xjk_5) =
-              sph::itform_l2(Xjk_m2, Xjk_m1, Xjk_z0, Xjk_p1, Xjk_p2);
-          } else {
-            Xjk_0 = SCALAR_LOAD((Xjk + 0*ldX));
-            Xjk_1 = SCALAR_LOAD((Xjk + 1*ldX));
-            Xjk_2 = SCALAR_LOAD((Xjk + 2*ldX));
-            Xjk_3 = SCALAR_LOAD((Xjk + 3*ldX));
-            Xjk_4 = SCALAR_LOAD((Xjk + 4*ldX));
-            Xjk_5 = SCALAR_LOAD((Xjk + 5*ldX));
-          }
-
-          Gjk_0 = 0;
-          Gjk_1 = 0;
-          Gjk_2 = 0;
-          Gjk_3 = 0;
-          Gjk_4 = 0;
-          Gjk_5 = 0;
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_0;
-          t0 = SCALAR_LOAD((temp + 16 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 17 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 18 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 19 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 20 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 21 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 6 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 7 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 8 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 9 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 10 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 11 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-          //if constexpr (!diag) atomicAdd((Gjk + 0 * ldG), tw);
-          if constexpr (!diag) Gjk_0 += tw;
-    
-
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_1;
-          t0 = SCALAR_LOAD((temp + 17 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 19 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 20 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 22 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 23 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 24 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 6 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 7 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 8 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 9 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 10 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 11 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 7 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 9 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 10 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 12 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 13 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 14 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-          //if constexpr (!diag) atomicAdd((Gjk + 1 * ldG), tw);
-          if constexpr (!diag) Gjk_1 += tw;
-
-
-
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_2;
-          t0 = SCALAR_LOAD((temp + 18 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 20 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 21 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 23 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 24 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 25 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 6 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 7 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 8 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 9 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 10 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 11 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 8 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 10 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 11 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 13 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 14 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 15 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-          //if constexpr (!diag) atomicAdd((Gjk + 2 * ldG), tw);
-          if constexpr (!diag) Gjk_2 += tw;
-
-
-
-
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_3;
-          t0 = SCALAR_LOAD((temp + 19 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 22 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 23 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 26 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 27 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 28 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 7 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 9 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 10 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 12 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 13 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 14 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-          //if constexpr (!diag) atomicAdd((Gjk + 3 * ldG), tw);
-          if constexpr (!diag) Gjk_3 += tw;
-
-
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_4;
-          t0 = SCALAR_LOAD((temp + 20 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 23 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 24 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 27 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 28 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 29 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 7 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 9 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 10 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 12 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 13 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 14 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 8 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 10 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 11 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 13 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 14 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 15 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-          //if constexpr (!diag) atomicAdd((Gjk + 4 * ldG), tw);
-          if constexpr (!diag) Gjk_4 += tw;
-
-
-
-
-          X_ABp = 1.0; comb_m_i = 1.0;
-          Y_ABp = 1.0; comb_n_j = 1.0;
-          Z_ABp = 1.0; comb_p_k = 1.0;
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          ty = Xjk_5;
-          t0 = SCALAR_LOAD((temp + 21 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_MUL(tx, t0);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 24 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 25 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 28 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 29 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 30 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 8 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 10 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 11 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 13 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 14 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 15 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-                                  
-          Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-          const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-          const_value_w = SCALAR_MUL(const_value_v, const_value);
-          tx = Xik_0;
-          t0 = SCALAR_LOAD((temp + 0 ));
-          t0 = SCALAR_MUL(t0, const_value_w);
-          tz = SCALAR_MUL(ty, t0);
-          tw = SCALAR_FMA(tx, t0, tw);
-          outBuffer[0] += tz;
-                                  
-          tx = Xik_1;
-          t1 = SCALAR_LOAD((temp + 1 ));
-          t1 = SCALAR_MUL(t1, const_value_w);
-          tz = SCALAR_MUL(ty, t1);
-          tw = SCALAR_FMA(tx, t1, tw);
-          outBuffer[1] += tz;
-                                  
-          tx = Xik_2;
-          t2 = SCALAR_LOAD((temp + 2 ));
-          t2 = SCALAR_MUL(t2, const_value_w);
-          tz = SCALAR_MUL(ty, t2);
-          tw = SCALAR_FMA(tx, t2, tw);
-          outBuffer[2] += tz;
-                                  
-          tx = Xik_3;
-          t3 = SCALAR_LOAD((temp + 3 ));
-          t3 = SCALAR_MUL(t3, const_value_w);
-          tz = SCALAR_MUL(ty, t3);
-          tw = SCALAR_FMA(tx, t3, tw);
-          outBuffer[3] += tz;
-                                  
-          tx = Xik_4;
-          t4 = SCALAR_LOAD((temp + 4 ));
-          t4 = SCALAR_MUL(t4, const_value_w);
-          tz = SCALAR_MUL(ty, t4);
-          tw = SCALAR_FMA(tx, t4, tw);
-          outBuffer[4] += tz;
-                                  
-          tx = Xik_5;
-          t5 = SCALAR_LOAD((temp + 5 ));
-          t5 = SCALAR_MUL(t5, const_value_w);
-          tz = SCALAR_MUL(ty, t5);
-          tw = SCALAR_FMA(tx, t5, tw);
-          outBuffer[5] += tz;
-          //if constexpr (!diag) atomicAdd((Gjk + 5 * ldG), tw);
-          if constexpr (!diag) Gjk_5 += tw;
-
-          if constexpr (!diag) {
-            if constexpr (pure_ket) {
-              SCALAR_TYPE Gjk_m2, Gjk_m1, Gjk_z0, Gjk_p1, Gjk_p2;
-              
-              ::cuda::std::tie(Gjk_m2, Gjk_m1, Gjk_z0, Gjk_p1, Gjk_p2) =
-                sph::tform_l2(Gjk_0, Gjk_1, Gjk_2, Gjk_3, Gjk_4, Gjk_5);
-              atomicAdd((Gjk + 0 * ldG), Gjk_m2);
-              atomicAdd((Gjk + 1 * ldG), Gjk_m1);
-              atomicAdd((Gjk + 2 * ldG), Gjk_z0);
-              atomicAdd((Gjk + 3 * ldG), Gjk_p1);
-              atomicAdd((Gjk + 4 * ldG), Gjk_p2);
-            } else {
-              atomicAdd((Gjk + 0 * ldG), Gjk_0);
-              atomicAdd((Gjk + 1 * ldG), Gjk_1);
-              atomicAdd((Gjk + 2 * ldG), Gjk_2);
-              atomicAdd((Gjk + 3 * ldG), Gjk_3);
-              atomicAdd((Gjk + 4 * ldG), Gjk_4);
-              atomicAdd((Gjk + 5 * ldG), Gjk_5);
-            }
-          }
-
-          if constexpr (pure_bra) {
-            SCALAR_TYPE Gik_m2, Gik_m1, Gik_z0, Gik_p1, Gik_p2;
-              
-            ::cuda::std::tie(Gik_m2, Gik_m1, Gik_z0, Gik_p1, Gik_p2) =
-              sph::tform_l2(outBuffer[0], outBuffer[1], outBuffer[2], 
-                            outBuffer[3], outBuffer[4], outBuffer[5]);
-            atomicAdd((Gik + 0 * ldG), Gik_m2);
-            atomicAdd((Gik + 1 * ldG), Gik_m1);
-            atomicAdd((Gik + 2 * ldG), Gik_z0);
-            atomicAdd((Gik + 3 * ldG), Gik_p1);
-            atomicAdd((Gik + 4 * ldG), Gik_p2);
-          } else {
-            atomicAdd((Gik + 0 * ldG), outBuffer[0]);
-            atomicAdd((Gik + 1 * ldG), outBuffer[1]);
-            atomicAdd((Gik + 2 * ldG), outBuffer[2]);
-            atomicAdd((Gik + 3 * ldG), outBuffer[3]);
-            atomicAdd((Gik + 4 * ldG), outBuffer[4]);
-            atomicAdd((Gik + 5 * ldG), outBuffer[5]);
-          }
-        }
-      }
-    }
-    __syncwarp();
-  }
-};
-
-template <int primpair_limit>
-using AM22_cart = DeviceTask22<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false, false>;
-
-template <int primpair_limit>
-using AM2_cart = DeviceTask22<ObaraSaikaType::diag,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, false, false>;
-
-template <int primpair_limit>
-using AM22_sph = DeviceTask22<ObaraSaikaType::base,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, true>;
-
-template <int primpair_limit>
-using AM2_sph = DeviceTask22<ObaraSaikaType::diag,
-  alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask, 
-  primpair_limit, true, true>;
-
-  void integral_2_2_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-    
-    if(sph)    
-      dev_integral_task_map_dispatcher<AM22_sph>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-    else
-      dev_integral_task_map_dispatcher<AM22_cart>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-  }
-
-  void integral_2_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpair, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream) {
-
-    int nblocks_x = nsubtask;
-    int nblocks_y = 8; 
-    int nblocks_z = 1;
-    dim3 nblocks(nblocks_x, nblocks_y, nblocks_z);
-    dim3 nthreads(alg_constants::CudaAoSScheme1::ObaraSaika::points_per_subtask);
-    
-    if(sph)
-      dev_integral_task_map_dispatcher<AM2_sph>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-    else
-      dev_integral_task_map_dispatcher<AM2_cart>(
-        nblocks, nthreads, max_primpair, stream, 
-        ntasks, nsubtask,
-        device_tasks, task2sp, 
-        (int4*) subtasks, nprim_pairs_device, prim_pair_ptr_device,
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device,
-        boys_table );
-  }
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_2.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_2.hu
deleted file mode 100644
index 12fe23e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/integral_2_2.hu
+++ /dev/null
@@ -1,75 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "../include/gpu/integral_data_types.hpp"
-namespace XGPU {
-  void integral_2_2(double X_AB,
-		    double Y_AB,
-		    double Z_AB,
-		    size_t npts,
-		    double *_points_x,
-		    double *_points_y,
-		    double *_points_z,
-          const int nprim_pairs,
-          const GauXC::PrimitivePair<double>* prim_pairs,
-		    double *Xi,
-		    double *Xj,
-		    int ldX,
-		    double *Gi,
-		    double *Gj,
-		    int ldG, 
-		    double *weights,
-		    double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_2_batched(size_t ntask_sp,
-        double X_AB,
-				double Y_AB,
-				double Z_AB,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-		    double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_2_2_task_batched(
-    bool sph,
-    size_t ntasks,
-    size_t nsubtasks,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-  void integral_2_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/obara_saika_integrals.cu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/obara_saika_integrals.cu
deleted file mode 100644
index 267c195..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/obara_saika_integrals.cu
+++ /dev/null
@@ -1,348 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdio.h>
-#include <stdlib.h>
-#include "../include/gpu/integral_data_types.hpp"
-#include "../include/gpu/obara_saika_integrals.hpp"
-#include "integral_0.hu"
-#include "integral_1.hu"
-#include "integral_2.hu"
-#include "integral_0_0.hu"
-#include "integral_1_0.hu"
-#include "integral_1_1.hu"
-#include "integral_2_0.hu"
-#include "integral_2_1.hu"
-#include "integral_2_2.hu"
-namespace XGPU {
-
-  void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs) {
-    // L Values
-    const auto xA = A.origin.x;
-    const auto yA = A.origin.y;
-    const auto zA = A.origin.z;
-
-    const auto xB = B.origin.x;
-    const auto yB = B.origin.y;
-    const auto zB = B.origin.z;
-
-    double rABx = xA - xB;
-    double rABy = yA - yB;
-    double rABz = zA - zB;
-
-    const double dAB = rABx*rABx + rABy*rABy + rABz*rABz;
-
-    const int nprim_A = A.m;
-    const int nprim_B = B.m;
-    for(int i = 0, ij = 0; i < nprim_A; ++i       )
-      for(int j = 0        ; j < nprim_B; ++j, ++ij ) {
-	auto& pair = prim_pairs[ij];
-	const auto alpha_A = A.coeff[i].alpha;
-	const auto alpha_B = B.coeff[j].alpha;
-
-	pair.gamma = alpha_A + alpha_B;
-	pair.gamma_inv = 1. / pair.gamma;
-
-	pair.P.x = (alpha_A * xA + alpha_B * xB) * pair.gamma_inv;
-	pair.P.y = (alpha_A * yA + alpha_B * yB) * pair.gamma_inv;
-	pair.P.z = (alpha_A * zA + alpha_B * zB) * pair.gamma_inv;
-
-	pair.PA.x = pair.P.x - xA;
-	pair.PA.y = pair.P.y - yA;
-	pair.PA.z = pair.P.z - zA;
-
-	pair.PB.x = pair.P.x - xB;
-	pair.PB.y = pair.P.y - yB;
-	pair.PB.z = pair.P.z - zB;
-
-	pair.K_coeff_prod = 2 * M_PI * pair.gamma_inv * std::exp( - alpha_A * alpha_B * dAB * pair.gamma_inv ) * A.coeff[i].coeff * B.coeff[j].coeff;
-      }
-  }
-
-  void compute_integral_shell_pair(int is_diag,
-				   size_t npts,
-				   double *points_x,
-				   double *points_y,
-				   double *points_z,
-				   int lA,
-				   int lB,
-				   point rA,
-				   point rB,
-                 const int nprim_pairs,
-                 const GauXC::PrimitivePair<double>* prim_pairs,
-				   double *Xi,
-				   double *Xj,
-				   int ldX,
-				   double *Gi,
-				   double *Gj,
-				   int ldG, 
-				   double *weights,
-		  double *boys_table,
-      cudaStream_t stream) {
-    if (is_diag) {
-      if(lA == 0) {
-	integral_0(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-       nprim_pairs,prim_pairs,
-		   Xi,
-		   ldX,
-		   Gi,
-		   ldG, 
-		   weights, 
-		   boys_table,
-       stream);
-      } else if(lA == 1) {
-        integral_1(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-       nprim_pairs,prim_pairs,
-		   Xi,
-		   ldX,
-		   Gi,
-		   ldG, 
-		   weights, 
-		   boys_table,
-       stream);
-      } else if(lA == 2) {
-        integral_2(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-       nprim_pairs,prim_pairs,
-		   Xi,
-		   ldX,
-		   Gi,
-		   ldG, 
-		   weights, 
-		   boys_table,
-       stream);
-      } else {
-	printf("Type not defined!\n");
-      }
-    } else {
-      if((lA == 0) && (lB == 0)) {
-	integral_0_0(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xi,
-		     Xj,
-		     ldX,
-		     Gi,
-		     Gj,
-		     ldG, 
-		     weights,
-		   boys_table,
-       stream);
-      } else if((lA == 1) && (lB == 0)) {
-	integral_1_0(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xi,
-		     Xj,
-		     ldX,
-		     Gi,
-		     Gj,
-		     ldG, 
-		     weights,
-		   boys_table,
-       stream);
-      } else if((lA == 0) && (lB == 1)) {
-	integral_1_0(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xj,
-		     Xi,
-		     ldX,
-		     Gj,
-		     Gi,
-		     ldG, 
-		     weights, 
-		   boys_table,
-       stream);
-      } else if((lA == 1) && (lB == 1)) {
-        integral_1_1(rA.x - rB.x,
-		     rA.y - rB.y,
-		     rA.z - rB.z,
-		     npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xi,
-		     Xj,
-		     ldX,
-		     Gi,
-		     Gj,
-		     ldG, 
-		     weights,
-		   boys_table,
-       stream);
-      } else if((lA == 2) && (lB == 0)) {
-	integral_2_0(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xi,
-		     Xj,
-		     ldX,
-		     Gi,
-		     Gj,
-		     ldG, 
-		     weights,
-		   boys_table,
-       stream);
-      } else if((lA == 0) && (lB == 2)) {
-	integral_2_0(npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xj,
-		     Xi,
-		     ldX,
-		     Gj,
-		     Gi,
-		     ldG, 
-		     weights, 
-		   boys_table,
-       stream);
-      } else if((lA == 2) && (lB == 1)) {
-	integral_2_1(rA.x - rB.x,
-		     rA.y - rB.y,
-		     rA.z - rB.z,
-		     npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xi,
-		     Xj,
-		     ldX,
-		     Gi,
-		     Gj,
-		     ldG, 
-		     weights,
-		   boys_table,
-       stream);
-      } else if((lA == 1) && (lB == 2)) {
-	integral_2_1(rB.x - rA.x,
-		     rB.y - rA.y,
-		     rB.z - rA.z,
-		     npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xj,
-		     Xi,
-		     ldX,
-		     Gj,
-		     Gi,
-		     ldG, 
-		     weights, 
-		   boys_table,
-       stream);
-      } else if((lA == 2) && (lB == 2)) {
-        integral_2_2(rA.x - rB.x,
-		     rA.y - rB.y,
-		     rA.z - rB.z,
-		     npts,
-		   points_x,
-		   points_y,
-		   points_z,
-         nprim_pairs,prim_pairs,
-		     Xi,
-		     Xj,
-		     ldX,
-		     Gi,
-		     Gj,
-		     ldG, 
-		     weights,
-		   boys_table,
-       stream);
-      } else {
-	printf("Type not defined!\n");
-      }
-    }
-  }
-
-
-
-  void compute_integral_shell_pair_batched( int is_diag,
-    size_t ntask_sp,
-    int lA, int lB, 
-    double X_AB,
-		double Y_AB,
-		double Z_AB,
-    const GauXC::ShellPairToTaskDevice* sp2task,
-    GauXC::XCDeviceTask*                device_tasks,
-		double *boys_table,
-    cudaStream_t stream ) {
-
-    if( is_diag ) {
-      switch(lA) {
-        case 0:
-          integral_0_batched( ntask_sp, sp2task, device_tasks, boys_table, 
-            stream );
-          break;
-        case 1:
-          integral_1_batched( ntask_sp, sp2task, device_tasks, boys_table, 
-            stream );
-          break;
-        case 2:
-          integral_2_batched( ntask_sp, sp2task, device_tasks, boys_table, 
-            stream );
-          break;
-        default:
-          throw std::runtime_error("Diagonal EXX Kernel L > 2 NYI");
-      }
-    } else { // END diagonal code
-
-      bool swap = (lA < lB);
-      if( swap ) std::swap( lA, lB );
-
-      if( lA == 0 and lB == 0 )
-        integral_0_0_batched( ntask_sp, sp2task, device_tasks, boys_table,
-          stream );
-      else if( lA == 1 and lB == 0 )
-        integral_1_0_batched( swap, ntask_sp, sp2task, device_tasks, boys_table,
-          stream );
-      else if( lA == 1 and lB == 1 )
-        integral_1_1_batched( ntask_sp, X_AB, Y_AB, Z_AB, sp2task, device_tasks, 
-          boys_table, stream );
-      else if( lA == 2 and lB == 0 )
-        integral_2_0_batched( swap, ntask_sp, sp2task, device_tasks, boys_table,
-          stream );
-      else if( lA == 2 and lB == 1 )
-        integral_2_1_batched( swap, ntask_sp, X_AB, Y_AB, Z_AB, sp2task, 
-          device_tasks, boys_table, stream );
-      else if( lA == 2 and lB == 2 )
-        integral_2_2_batched( ntask_sp, X_AB, Y_AB, Z_AB, sp2task, device_tasks, 
-          boys_table, stream );
-      else {
-        throw std::runtime_error("EXX Kernels L > 2 NYI");
-      }
-
-    } // END Off-diagonal code
-
-
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/task_map_base.hu b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/task_map_base.hu
deleted file mode 100644
index df85fa5..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/src/task_map_base.hu
+++ /dev/null
@@ -1,251 +0,0 @@
-#include "device_specific/cuda_device_constants.hpp"
-#include "../../cuda_aos_scheme1.hpp"
-#include <tuple>
-#include <cuda/std/tuple>
-
-namespace XGPU {
-
-namespace constants {
-  constexpr double sqrt_3 = 1.7320508075688772;
-}
-
-namespace sph {
-
-__inline__ __device__ auto tform_l2(
-  double xx, double xy, double xz, double yy, double yz, double zz
-) {
-
-  double m2 = constants::sqrt_3 * xy;
-  double m1 = constants::sqrt_3 * yz;
-  double z0 = zz - 0.5 * (xx + yy);
-  double p1 = constants::sqrt_3 * xz;
-  double p2 = constants::sqrt_3 * 0.5 * (xx - yy);
-
-  return cuda::std::make_tuple(m2, m1, z0, p1, p2);
-
-}
-
-__inline__ __device__ auto itform_l2(
-  double m2, double m1, double z0, double p1, double p2
-) {
-
-  double xx = 0.5 * (-z0 + constants::sqrt_3 * p2);
-  double xy = constants::sqrt_3 * m2;
-  double xz = constants::sqrt_3 * p1;
-  double yy = -0.5 * (z0 + constants::sqrt_3 * p2);
-  double yz = constants::sqrt_3 * m1;
-  double zz = z0;
-
-  return cuda::std::make_tuple(xx,xy,xz,yy,yz,zz);
-
-}
-
-}
-
-using namespace GauXC;
-
-
-template<typename T>
-__inline__ __device__ void load_primpair_shared(
-  const int laneId, const int warpId, const int n,
-  const T* src_t, T* dst_t) {
-
-  const int32_t* src = (const int32_t*) src_t;
-  int32_t* dst = (int32_t*) dst_t;
-  const int num_transfers = n * sizeof(GauXC::PrimitivePair<double>) / sizeof(int32_t);
-
-  for (int i = laneId; i < num_transfers; i += GauXC::cuda::warp_size) {
-    dst[i] = src[i]; 
-  }
-}
-
-enum class ObaraSaikaType {
-  base,
-  swap,
-  diag
-};
-
-template<ObaraSaikaType type>
-struct ObaraSaikaBaseParams {
-  const double *Xi;
-  const double *Xj;
-  double *Gi;
-  double *Gj;
-
-  __inline__ __device__ ObaraSaikaBaseParams( 
-    const double *Xi_, const double *Xj_,
-    double *Gi_, double *Gj_,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    const int index) {
-    if constexpr (type == ObaraSaikaType::diag) {
-      Xi = Xi_;
-      Xj = Xi_;
-      Gi = Gi_;
-      Gj = Gi_;
-    } else if constexpr (type == ObaraSaikaType::swap) {
-      Xi = Xj_;
-      Xj = Xi_;
-      Gi = Gj_;
-      Gj = Gi_;
-    } else {
-      Xi = Xi_;
-      Xj = Xj_;
-      Gi = Gi_;
-      Gj = Gj_;
-    }
-  }
-};
-
-template<ObaraSaikaType type>
-struct ObaraSaikaParamsWithAB : ObaraSaikaBaseParams<type> {
-  double X_AB;
-  double Y_AB;
-  double Z_AB;
-
-  __inline__ __device__ ObaraSaikaParamsWithAB( 
-    const double *Xi_, const double *Xj_,
-    double *Gi_, double *Gj_,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    const int index) 
-    : ObaraSaikaBaseParams<type>(
-        Xi_, Xj_, Gi_, Gj_, 
-        sp_X_AB_device, sp_Y_AB_device, sp_Z_AB_device, 
-        index) {
-
-    if constexpr (type == ObaraSaikaType::swap) {
-      X_AB = -1.0 * sp_X_AB_device[index];
-      Y_AB = -1.0 * sp_Y_AB_device[index];
-      Z_AB = -1.0 * sp_Z_AB_device[index];
-    } else {
-      X_AB = sp_X_AB_device[index];
-      Y_AB = sp_Y_AB_device[index];
-      Z_AB = sp_Z_AB_device[index];
-    }
-  }
-};
-
-
-template<typename AngularMomentum>
-__global__
-__launch_bounds__(AngularMomentum::num_threads, 1)
-void task_map_kernel(
-  int ntask, int nsubtask,
-  GauXC::XCDeviceTask*                device_tasks,
-  const GauXC::TaskToShellPairDevice* task2sp,
-  const int4* subtasks,
-  const int32_t* nprim_pairs_device,
-  GauXC::PrimitivePair<double>** prim_pair_ptr_device,
-  double* sp_X_AB_device,
-  double* sp_Y_AB_device,
-  double* sp_Z_AB_device,
-  double *boys_table) {
-
-  static constexpr int points_per_subtask = AngularMomentum::points_per_subtask;
-  static constexpr int num_warps = AngularMomentum::num_warps;
-
-  __shared__ double4 s_task_data[points_per_subtask];
-
-  const int warpId = threadIdx.x / GauXC::cuda::warp_size;
-  
-  const int i_subtask = blockIdx.x;
-  const int i_task = subtasks[i_subtask].x;
-  const int point_start = subtasks[i_subtask].y;
-  const int point_end = subtasks[i_subtask].z;
-  const int point_count = point_end - point_start;
-
-  const auto* task = device_tasks + i_task;
-
-  const int npts = task->npts;
-
-  const auto* points_x = task->points_x;
-  const auto* points_y = task->points_y;
-  const auto* points_z = task->points_z;
-  const auto* weights = task->weights;
-
-  const auto nsp = task2sp[i_task].nsp;
-
-  // NOTE: util::div_ceil converts to 64bit int
-  const int npts_block = util::div_ceil(point_count, blockDim.x);
-
-  for (int i_block = 0; i_block < npts_block; i_block++) {
-    const int i = point_start + i_block * blockDim.x;
-
-    // load point into registers
-    const double point_x = points_x[i + threadIdx.x];
-    const double point_y = points_y[i + threadIdx.x];
-    const double point_z = points_z[i + threadIdx.x];
-    const double weight = weights[i + threadIdx.x];
-
-    s_task_data[threadIdx.x].x = point_x;
-    s_task_data[threadIdx.x].y = point_y;
-    s_task_data[threadIdx.x].z = point_z;
-    s_task_data[threadIdx.x].w = weight;
-    __syncthreads();
-
-    for (int j = num_warps*blockIdx.y+warpId; j < nsp; j+=num_warps*gridDim.y) {
-      const auto i_off = task2sp[i_task].task_shell_off_row_device[j];
-      const auto j_off = task2sp[i_task].task_shell_off_col_device[j];
-
-      const auto index =  task2sp[i_task].shell_pair_linear_idx_device[j];
-      const auto* pp = prim_pair_ptr_device[index];
-      const auto nprim_pairs = nprim_pairs_device[index];
-
-      const auto param = AngularMomentum::Params(
-        task->fmat + i_off + i,
-        task->fmat + j_off + i,
-        task->gmat + i_off + i,
-        task->gmat + j_off + i,
-        sp_X_AB_device,
-        sp_Y_AB_device,
-        sp_Z_AB_device,
-        index);
-
-      AngularMomentum::compute( 
-        i, point_count, nprim_pairs,
-        s_task_data,
-        pp,
-        param,
-        npts,
-        npts,
-        boys_table);
-    }
-    __syncthreads();
-  }
-}
-
-template< template<int> class AngularMomentum, typename... Args>
-void dev_integral_task_map_dispatcher(dim3 nblock, dim3 nthreads, int max_primpair, cudaStream_t stream, 
-  Args&&... args) {
-
-  // Invoke different version of the kernel based on the maximum number of primpair for this 
-  // AM. The kernel with the smallest primpair buffer should perform best as it leaves the
-  // most space for L1 cache. If the max number of primpairs exceeds the largest buffer, it 
-  // will not use a shared memory buffer by setting primpair_limit to zero.
-
-  // The largest buffer size is capped by the 48KB static shared memory limit; using dynamic 
-  // shared memory would allow us to go higher. If the shared buffer size would exceed the 
-  // limit, the use_shared to set to false to avoid a compiler error.
-  if (constexpr int primpair_limit = 8; max_primpair <= primpair_limit) {
-    using AM = AngularMomentum<primpair_limit>;
-    task_map_kernel<AM><<<nblock, nthreads, 0, stream>>>( std::forward<Args>(args)...);
-
-  } else if (constexpr int primpair_limit = 16; max_primpair <= primpair_limit) {
-    using AM = AngularMomentum<primpair_limit>;
-    task_map_kernel<AM><<<nblock, nthreads, 0, stream>>>( std::forward<Args>(args)...);
-
-  } else if (constexpr int primpair_limit = 32; max_primpair <= primpair_limit) {
-    using AM = AngularMomentum<primpair_limit>;
-    task_map_kernel<AM><<<nblock, nthreads, 0, stream>>>( std::forward<Args>(args)...);
-
-  } else {
-    using AM = AngularMomentum<0>;
-    task_map_kernel<AM><<<nblock, nthreads, 0, stream>>>( std::forward<Args>(args)...);
-  }
-}
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/CMakeLists.txt
deleted file mode 100644
index 93b1b58..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/CMakeLists.txt
+++ /dev/null
@@ -1,47 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-cmake_minimum_required( VERSION 3.20 FATAL_ERROR )
-project( gpu_snlink LANGUAGES CXX CUDA )
-
-add_library( snlink_gpu 
-${CMAKE_CURRENT_LIST_DIR}/../src/chebyshev_boys_computation.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_0.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_0_0.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_1.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_1_0.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_1_1.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_2.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_2_0.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_2_1.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/integral_2_2.cu
-${CMAKE_CURRENT_LIST_DIR}/../src/obara_saika_integrals.cu
-)
-target_include_directories( snlink_gpu PUBLIC
-  ${CMAKE_CURRENT_LIST_DIR}/../include
-  ${CMAKE_CURRENT_LIST_DIR}/../src
-  ${CMAKE_CURRENT_LIST_DIR}/../../../../../../../include
-)
-target_compile_options( snlink_gpu PRIVATE --expt-relaxed-constexpr ) 
-target_compile_features( snlink_gpu PUBLIC cxx_std_17 )
-set_property(TARGET snlink_gpu PROPERTY CUDA_SEPARABLE_COMPILATION ON)
-
-find_package( CUDAToolkit REQUIRED )
-find_package( Libint2 REQUIRED )
-
-add_executable( snlink_test test.cpp )
-target_link_libraries( snlink_test PUBLIC snlink_gpu )
-target_link_libraries( snlink_test PUBLIC Libint2::cxx )
-if(NOT GAUXC_LINK_CUDA_STATIC)
-  target_link_libraries( snlink_test PUBLIC CUDA::cudart )
-else()
-  target_link_libraries( snlink_test PUBLIC CUDA::cudart_static )
-endif()
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/Makefile
deleted file mode 100644
index f62275b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/Makefile
+++ /dev/null
@@ -1,16 +0,0 @@
-#LIBINT_ROOT = /global/cfs/cdirs/m1027/dbwy/mpqc4/li/install/haswell/release
-#EIGEN_DIR   = /global/common/sw/cray/cnl7/haswell/eigen/3.3.7/gcc/8.2.0/2wwrykb/include/eigen3
-
-CPU_CC = CC
-CC = g++
-
-#CONST_LIB = ../../../../../../include/
-#LIBINT_ROOT = /home/dtpopovici/Executables/libint
-#EIGEN_DIR   = /usr/local/include/eigen3
-
-CONST_LIB = ../../../../../../include/
-LIBINT_ROOT = /global/homes/t/thom13/Executables/libint_gnu/
-EIGEN_DIR   = /global/homes/t/thom13/Executables/Eigen/include/eigen3/
-
-compile:
-	$(CC) test.cpp ../obara_saika.a $(LIBINT_ROOT)/lib/libint2.a -o test.x  -I$(CONST_LIB) -I$(LIBINT_ROOT)/include -I$(EIGEN_DIR) -I../include/ -std=c++17 -I/usr/common/software/sles15_cgpu/cuda/11.1.1/include/ -L/usr/common/software/sles15_cgpu/cuda/11.1.1/lib64/ -lcudart -lcudadevrt
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/test.cpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/test.cpp
deleted file mode 100644
index 0b31a90..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/test.cpp
+++ /dev/null
@@ -1,288 +0,0 @@
-#include <cuda_runtime.h>
-#include <device_launch_parameters.h>
-#include <libint2.hpp>
-#include <gpu/integral_data_types.hpp>
-#include <gpu/obara_saika_integrals.hpp>
-#include <gpu/chebyshev_boys_computation.hpp>
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-#include <sys/time.h>
-
-int main(int argc, char** argv) {
-  libint2::initialize();
-
-  // Benzene
-  std::vector<libint2::Atom> atoms = {
-    libint2::Atom{ 6,  6.92768e-01,  -1.77656e+00,   1.40218e-03},
-    libint2::Atom{ 6,  3.35108e+00,  -1.77668e+00,   2.21098e-03},
-    libint2::Atom{ 6,  4.68035e+00,   5.25219e-01,   1.22454e-03},
-    libint2::Atom{ 6,  3.35121e+00,   2.82744e+00,  -7.02978e-04},
-    libint2::Atom{ 6,  6.93087e-01,   2.82756e+00,  -1.55902e-03},
-    libint2::Atom{ 6, -6.36278e-01,   5.25491e-01,  -4.68652e-04},
-    libint2::Atom{ 1, -3.41271e-01,  -3.56759e+00,   2.21287e-03},
-    libint2::Atom{ 1,  4.38492e+00,  -3.56783e+00,   3.73599e-03},
-    libint2::Atom{ 1,  6.74844e+00,   5.25274e-01,   1.88028e-03},
-    libint2::Atom{ 1,  4.38551e+00,   4.61832e+00,  -1.48721e-03},
-    libint2::Atom{ 1, -3.41001e-01,   4.61857e+00,  -3.05569e-03},
-    libint2::Atom{ 1, -2.70437e+00,   5.25727e-01,  -1.09793e-03} 
-  };
-
-  // Create cc-pVDZ BasisSet
-  const std::string basis_name = "cc-pVDZ";
-  libint2::BasisSet basis( basis_name, atoms );
-  basis.set_pure(false); // Reset to Cartesian
-  auto shell2bf = basis.shell2bf();
-
-  auto [min_x, max_x] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> 
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() {
-    return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) };
-  };
-
-  if( argc != 2 ) throw std::runtime_error("Must Specify NGrid");
-  
-  const int ngrid = std::stoll( std::string(argv[1]) );
-  
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  const size_t nbf = basis.nbf();
-  std::cout << "Running sn-LinK Proxy App with Settings:" << std::endl
-	    << "  * NBF   = " << nbf << std::endl
-	    << "  * NGRID = " << ngrid << std::endl
-	    << std::endl;
-
-  std::vector<libint2::Engine> engines;
-  engines.reserve(ngrid);
-  for( const auto& g : grid_points ) {
-    engines.emplace_back( libint2::Operator::nuclear, basis.max_nprim(),
-		          basis.max_l(), 0 );
-    std::vector< std::pair<double, std::array<double,3>> > q = { {-1., g} }; 
-    engines.back().set_params(q);
-  }
-
-  // Generate a random F matrix
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-  
-  // Generate random grid weights
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  // Compute A
-  std::vector<double> A( nbf * nbf * ngrid );
-  
-  using row_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  using const_row_major_map = Eigen::Map< const row_major_mat >;
-  
-  using col_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
-  using col_major_map = Eigen::Map< col_major_mat >;
-
-  // correctness - libint implementation
-  
-  for( int k = 0; k < ngrid; ++k ) {
-    auto& engine = engines.at(k);
-    const auto& engine_buf = engine.results();
-
-    col_major_map A_k( A.data() + nbf * nbf * k, nbf, nbf );
-
-    for( int j = 0; j < basis.size(); ++j) {
-      auto bf_j = shell2bf[j];
-      auto nj   = basis[j].size();
-      
-      for( int i = 0; i < basis.size(); ++i) {
-        auto bf_i = shell2bf[i];
-        auto ni   = basis[i].size();
-
-	engine.compute( basis[i], basis[j] );
-	  
-	const_row_major_map buf_map( engine_buf[0], ni, nj );
-	A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-      }
-    }
-  }
-
-  std::vector<double> G_libint( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_libint[i] = 0.0;
-  }
-  for( int k = 0; k < ngrid; ++k ) {
-    for( int i = 0; i < nbf; ++i ) {
-      double tmp = 0.0;
-
-      for( int j = 0; j < nbf; ++j )
-        tmp += A[i + j * nbf + k * nbf * nbf] * F[j * ngrid + k];
-
-      G_libint[ i * ngrid + k ] = w[k] * tmp;
-    }
-  }
-
-  // correctness - own implementation
-
-  struct timeval start, end;
-
-  int nshells = basis.size();
-  
-  double *dev_boys_table = XGPU::boys_init(); 
-
-  std::vector<double> GPU_G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    GPU_G_own[i] = 0.0;
-  }
-  
-  std::vector<XGPU::shells> _shells;
-  std::vector<double> _points_transposed(3 * ngrid);
-
-  _shells.resize(nshells);
-  
-  for( int i = 0; i < ngrid; ++i ){
-    _points_transposed[i + 0 * ngrid] = grid_points[i][0];
-    _points_transposed[i + 1 * ngrid] = grid_points[i][1];
-    _points_transposed[i + 2 * ngrid] = grid_points[i][2];
-      }
-
-  for( int i = 0; i < nshells; ++i ) {
-    _shells[i].origin.x = basis[i].O[0];
-    _shells[i].origin.y = basis[i].O[1];
-    _shells[i].origin.z = basis[i].O[2];
-
-    _shells[i].m = basis[i].alpha.size();
-    _shells[i].L = basis[i].contr[0].l;
-    
-    _shells[i].coeff = new XGPU::coefficients[_shells[i].m];
-    for( int j = 0; j < _shells[i].m; ++j ) {
-      _shells[i].coeff[j].alpha = basis[i].alpha[j];
-      _shells[i].coeff[j].coeff = basis[i].contr[0].coeff[j];
-    }
-  }
-
-  int total_prim_pairs = 0;
-  for( int i = 0; i < nshells; ++i) {
-    for( int j = 0; j <= i; ++j) {
-      total_prim_pairs += (_shells[i].m * _shells[j].m);
-    }
-  }
-
-  XGPU::prim_pair *prim_pairs = new XGPU::prim_pair[total_prim_pairs];
-
-  int offset = 0;
-  for( int i = 0; i < nshells; ++i) {
-    for( int j = 0; j <= i; ++j) {
-      if( _shells[i].L >= _shells[j].L )
-	XGPU::generate_shell_pair(_shells[i], _shells[j], (prim_pairs + offset));
-      else
-	XGPU::generate_shell_pair(_shells[j], _shells[i], (prim_pairs + offset));
-
-      offset += (_shells[i].m * _shells[j].m);
-    }
-  }
-
-  double *dev_points_transposed, *dev_X, *dev_G, *dev_weights;
-  XGPU::prim_pair *dev_prim_pairs;
-  
-  cudaMalloc((void**) &dev_points_transposed, 3 * ngrid * sizeof(double));
-  cudaMalloc((void**) &dev_X, ngrid * nbf * sizeof(double));
-  cudaMalloc((void**) &dev_G, ngrid * nbf * sizeof(double));
-  cudaMalloc((void**) &dev_weights, ngrid * sizeof(double));
-
-  cudaMalloc((void**) &dev_prim_pairs, total_prim_pairs * sizeof(XGPU::prim_pair));
-  
-  cudaMemcpy(dev_points_transposed, _points_transposed.data(), 3 * ngrid * sizeof(double), cudaMemcpyHostToDevice);
-  cudaMemcpy(dev_X, F.data(), ngrid * nbf * sizeof(double), cudaMemcpyHostToDevice);
-  cudaMemcpy(dev_G, GPU_G_own.data(), ngrid * nbf * sizeof(double), cudaMemcpyHostToDevice);
-  cudaMemcpy(dev_weights, w.data(), ngrid * sizeof(double), cudaMemcpyHostToDevice);
-
-  cudaMemcpy(dev_prim_pairs, prim_pairs, total_prim_pairs * sizeof(XGPU::prim_pair), cudaMemcpyHostToDevice);
-    
-  double *Xi = dev_X;
-  double *Xj = dev_X;
-
-  double *Gi = dev_G;
-  double *Gj = dev_G;
-
-  gettimeofday(&start, NULL);
-  offset = 0;
-  int ioff_cart = 0;
-  for( int i = 0; i < nshells; ++i) {
-    XGPU::shells bra_shell = _shells[i];
-    int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-
-    int joff_cart = 0;
-    for( int j = 0; j <= i; ++j) {
-      XGPU::shells ket_shell = _shells[j];
-      int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-      XGPU::compute_integral_shell_pair(i == j,
-					ngrid,
-					dev_points_transposed,
-					_shells[i].L,
-					_shells[j].L,
-					_shells[i].origin,
-					_shells[j].origin,
-					(_shells[i].m * _shells[j].m),
-					(dev_prim_pairs + offset),
-					(Xi + ioff_cart * ngrid),
-					(Xj + joff_cart * ngrid),
-					ngrid,
-					(Gi + ioff_cart * ngrid),
-					(Gj + joff_cart * ngrid),
-					ngrid,
-					dev_weights,
-					dev_boys_table);
-      
-      offset += (_shells[i].m * _shells[j].m);
-      
-      joff_cart += ket_cart_size;
-    }
-
-    ioff_cart += bra_cart_size;
-  }
-
-  cudaDeviceSynchronize();
-  
-  gettimeofday(&end, NULL);
-
-  cudaMemcpy(GPU_G_own.data(), dev_G, ngrid * nbf * sizeof(double), cudaMemcpyDeviceToHost);
-
-  cudaFree(dev_X);
-  cudaFree(dev_G);
-  cudaFree(dev_points_transposed);
-  cudaFree(dev_weights);
-  cudaFree(dev_prim_pairs);
-  
-  XGPU::boys_finalize(dev_boys_table);
-
-  int correct = 1;
-  
-  for( int i = 0; i < nbf * ngrid; ++i) {	
-    if((fabs(G_libint[i] - GPU_G_own[i]) > 1e-2) || std::isnan(GPU_G_own[i])) {
-      printf("%lf %lf\n", G_libint[i], GPU_G_own[i]);
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << "\tExecution: "<< 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec) << std::endl;
-
-  cudaFree(dev_X);
-  cudaFree(dev_G);
-  cudaFree(dev_points_transposed);
-  cudaFree(dev_weights);
-  
-  libint2::finalize();  // done with libint
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/test_new.cpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/test_new.cpp
deleted file mode 100644
index 9b35be5..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/obara_saika/test/test_new.cpp
+++ /dev/null
@@ -1,349 +0,0 @@
-#if 0
-#include <cuda_runtime.h>
-#include <device_launch_parameters.h>
-
-#include "gpu/integral_data_types.hpp"
-#include "gpu/obara_saika_integrals.hpp"
-#include "gpu/chebyshev_boys_computation.hpp"
-
-#include "cpu/integral_data_types.hpp"
-#include "cpu/obara_saika_integrals.hpp"
-#include "cpu/chebyshev_boys_computation.hpp"
-
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-#include <sys/time.h>
-
-#include <gauxc/molecule.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-
-int main(int argc, char* argv[]) {
-
-  if( argc < 3 ) throw std::runtime_error("NOT VALID INPUT");
-
-  struct timeval cpu_start, cpu_end, gpu_start, gpu_end;
-  
-  std::string data_file = argv[1];
-
-  const int ngrid = std::stoll( std::string(argv[2]) );
-  
-  GauXC::Molecule mol;
-  GauXC::read_hdf5_record(mol, data_file, "/MOLECULE");
-
-  GauXC::BasisSet<double> basis;
-  GauXC::read_hdf5_record(basis, data_file, "/BASIS");
-  for( auto& sh : basis ) sh.set_pure(false); // Reset to cartesian
-
-  std::cout << mol.size() << std::endl; 
-  std::cout << basis.size() << std::endl;
-  std::cout << basis.nbf() << std::endl;
-  
-  auto [min_x, max_x] = std::minmax_element( mol.begin(), mol.end(), []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( mol.begin(), mol.end(), []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( mol.begin(), mol.end(), []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double>
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() { return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) }; };
-
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  int nbf = basis.nbf();
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  int nshells = basis.size();
-  
-  std::vector<double> CPU_G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    CPU_G_own[i] = 0.0;
-  }
-
-  {
-    double *cpu_boys_table = XCPU::boys_init();
-    
-    std::vector<XCPU::shells> _shells;
-    std::vector<double> _points_transposed(3 * ngrid);
-
-    _shells.resize(nshells);
-  
-    for( int i = 0; i < ngrid; ++i ){
-      _points_transposed[i + 0 * ngrid] = grid_points[i][0];
-      _points_transposed[i + 1 * ngrid] = grid_points[i][1];
-      _points_transposed[i + 2 * ngrid] = grid_points[i][2];
-    }
-
-    for( int i = 0; i < nshells; ++i ) {
-      _shells[i].origin.x = basis[i].O()[0];
-      _shells[i].origin.y = basis[i].O()[1];
-      _shells[i].origin.z = basis[i].O()[2];
-
-      _shells[i].m = basis[i].nprim();
-      _shells[i].L = basis[i].l();
-
-      _shells[i].coeff = new XCPU::coefficients[_shells[i].m];
-      for( int j = 0; j < _shells[i].m; ++j ) {
-	_shells[i].coeff[j].alpha = basis[i].alpha()[j];
-	_shells[i].coeff[j].coeff = basis[i].coeff()[j];
-      }
-    }
-
-    int total_prim_pairs = 0;
-    for( int i = 0; i < nshells; ++i) {
-      for( int j = 0; j <= i; ++j) {
-	total_prim_pairs += (_shells[i].m * _shells[j].m);
-      }
-    }
-
-    XCPU::prim_pair *prim_pairs = new XCPU::prim_pair[total_prim_pairs];
-
-    int offset = 0;
-    for( int i = 0; i < nshells; ++i) {
-      for( int j = 0; j <= i; ++j) {
-	if( _shells[i].L >= _shells[j].L )
-	  XCPU::generate_shell_pair(_shells[i], _shells[j], (prim_pairs + offset));
-	else
-	  XCPU::generate_shell_pair(_shells[j], _shells[i], (prim_pairs + offset));
-
-	offset += (_shells[i].m * _shells[j].m);
-      }
-    }
-  
-    // CPU implementation
-    double *Xi = F.data();
-    double *Xj = F.data();
-
-    double *Gi = CPU_G_own.data();
-    double *Gj = CPU_G_own.data();
-
-    gettimeofday(&cpu_start, NULL);
-    offset = 0;
-    int ioff_cart = 0;
-    for( int i = 0; i < nshells; ++i) {
-      XCPU::shells bra_shell = _shells[i];
-      int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-
-      int joff_cart = 0;
-      for( int j = 0; j <= i; ++j) {
-	XCPU::shells ket_shell = _shells[j];
-	int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-	XCPU::compute_integral_shell_pair(i == j,
-					  ngrid,
-					  _points_transposed.data(),
-					  _shells[i].L,
-					  _shells[j].L,
-					  _shells[i].origin,
-					  _shells[j].origin,
-					  (_shells[i].m * _shells[j].m),
-					  (prim_pairs + offset),
-					  (Xi + ioff_cart * ngrid),
-					  (Xj + joff_cart * ngrid),
-					  ngrid,
-					  (Gi + ioff_cart * ngrid),
-					  (Gj + joff_cart * ngrid),
-					  ngrid,
-					  w.data(),
-					  cpu_boys_table);
-
-	offset += (_shells[i].m * _shells[j].m);
-      
-	joff_cart += ket_cart_size;
-      }
-
-      ioff_cart += bra_cart_size;
-    }
-
-    gettimeofday(&cpu_end, NULL);
-    
-    XCPU::boys_finalize(cpu_boys_table);
-  }
- 
-  // GPU implementation
-
-  std::vector<double> GPU_G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    GPU_G_own[i] = 0.0;
-  }
-
-  {
-    double *dev_boys_table = XGPU::boys_init(); 
-
-    std::vector<double> _points_transposed(3 * ngrid);
-    for( int i = 0; i < ngrid; ++i ){
-      _points_transposed[i + 0 * ngrid] = grid_points[i][0];
-      _points_transposed[i + 1 * ngrid] = grid_points[i][1];
-      _points_transposed[i + 2 * ngrid] = grid_points[i][2];
-    }
-
-    
-    #if 0
-    std::vector<XGPU::shells> _shells;
-    _shells.resize(nshells);
-    for( int i = 0; i < nshells; ++i ) {
-      _shells[i].origin.x = basis[i].O()[0];
-      _shells[i].origin.y = basis[i].O()[1];
-      _shells[i].origin.z = basis[i].O()[2];
-
-      _shells[i].m = basis[i].nprim();
-      _shells[i].L = basis[i].l();
-
-      _shells[i].coeff = new XGPU::coefficients[_shells[i].m];
-      for( int j = 0; j < _shells[i].m; ++j ) {
-	_shells[i].coeff[j].alpha = basis[i].alpha()[j];
-	_shells[i].coeff[j].coeff = basis[i].coeff()[j];
-      }
-    }
-
-    int total_prim_pairs = 0;
-    for( int i = 0; i < nshells; ++i) {
-      for( int j = 0; j <= i; ++j) {
-	total_prim_pairs += (_shells[i].m * _shells[j].m);
-      }
-    }
-
-    XGPU::prim_pair *prim_pairs = new XGPU::prim_pair[total_prim_pairs];
-
-    int offset = 0;
-    for( int i = 0; i < nshells; ++i) {
-      for( int j = 0; j <= i; ++j) {
-	if( _shells[i].L >= _shells[j].L )
-	  XGPU::generate_shell_pair(_shells[i], _shells[j], (prim_pairs + offset));
-	else
-	  XGPU::generate_shell_pair(_shells[j], _shells[i], (prim_pairs + offset));
-
-	offset += (_shells[i].m * _shells[j].m);
-      }
-    }
-    #else
-    GauXC::ShellPairCollection shell_pairs(basis);
-    #endif
-
-    double *dev_points_transposed, *dev_X, *dev_G, *dev_weights;
-    //XGPU::prim_pair *dev_prim_pairs;
-    XGPU::shell_pair* dev_shell_pairs;
-  
-    cudaMalloc((void**) &dev_points_transposed, 3 * ngrid * sizeof(double));
-    cudaMalloc((void**) &dev_X, ngrid * nbf * sizeof(double));
-    cudaMalloc((void**) &dev_G, ngrid * nbf * sizeof(double));
-    cudaMalloc((void**) &dev_weights, ngrid * sizeof(double));
-
-    #if 0
-    cudaMalloc((void**) &dev_prim_pairs, total_prim_pairs * sizeof(XGPU::prim_pair));
-    #else
-    cudaMalloc((void**) &dev_shell_pairs, shell_pairs.npairs() * sizeof(XGPU::shell_pair));
-    #endif
-  
-    cudaMemcpy(dev_points_transposed, _points_transposed.data(), 3 * ngrid * sizeof(double), cudaMemcpyHostToDevice);
-    cudaMemcpy(dev_X, F.data(), ngrid * nbf * sizeof(double), cudaMemcpyHostToDevice);
-    //cudaMemcpy(dev_G, GPU_G_own.data(), ngrid * nbf * sizeof(double), cudaMemcpyHostToDevice);
-    cudaMemset( dev_G, 0, ngrid*nbf*sizeof(double));
-    cudaMemcpy(dev_weights, w.data(), ngrid * sizeof(double), cudaMemcpyHostToDevice);
-
-    #if 0
-    cudaMemcpy(dev_prim_pairs, prim_pairs, total_prim_pairs * sizeof(XGPU::prim_pair), cudaMemcpyHostToDevice);
-    #else
-    cudaMemcpy(dev_shell_pairs, shell_pairs.shell_pairs(), shell_pairs.npairs() * sizeof(XGPU::shell_pair), cudaMemcpyHostToDevice);
-    #endif
-    
-    double *Xi = dev_X;
-    double *Xj = dev_X;
-
-    double *Gi = dev_G;
-    double *Gj = dev_G;
-
-    gettimeofday(&gpu_start, NULL);
-    //offset = 0;
-    int ioff_cart = 0;
-    for( int i = 0; i < nshells; ++i) {
-      #if 0
-      XGPU::shells bra_shell = _shells[i];
-      int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-      #else
-      auto& bra_shell = basis[i];
-      auto bra_cart_size = bra_shell.size();
-      #endif
-
-      int joff_cart = 0;
-      for( int j = 0; j <= i; ++j) {
-        #if 0
-        XGPU::shells ket_shell = _shells[i];
-        int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-        #else
-        auto& ket_shell = basis[j];
-        auto ket_cart_size = ket_shell.size();
-        #endif
-        
-        XGPU::point A{bra_shell.O()[0], bra_shell.O()[1], bra_shell.O()[2]};
-        XGPU::point B{ket_shell.O()[0], ket_shell.O()[1], ket_shell.O()[2]};
-        auto sp = dev_shell_pairs + GauXC::detail::packed_lt_index(i,j,nshells);
-        XGPU::compute_integral_shell_pair(i == j,
-        				  ngrid,
-        				  dev_points_transposed + 0*ngrid,
-        				  dev_points_transposed + 1*ngrid,
-        				  dev_points_transposed + 2*ngrid,
-        				  bra_shell.l(), ket_shell.l(),
-                  A, B,
-        				  sp,
-        				  (Xi + ioff_cart * ngrid),
-        				  (Xj + joff_cart * ngrid),
-        				  ngrid,
-        				  (Gi + ioff_cart * ngrid),
-        				  (Gj + joff_cart * ngrid),
-        				  ngrid,
-        				  dev_weights,
-        				  dev_boys_table,0 );
-        
-        //offset += (_shells[i].m * _shells[j].m);
-            
-        joff_cart += ket_cart_size;
-      }
-
-      ioff_cart += bra_cart_size;
-    }
-
-    cudaDeviceSynchronize();
-  
-    gettimeofday(&gpu_end, NULL);
-
-    cudaMemcpy(GPU_G_own.data(), dev_G, ngrid * nbf * sizeof(double), cudaMemcpyDeviceToHost);
-
-    cudaFree(dev_X);
-    cudaFree(dev_G);
-    cudaFree(dev_points_transposed);
-    cudaFree(dev_weights);
-    cudaFree(dev_shell_pairs);
-  
-    XGPU::boys_finalize(dev_boys_table);
-  }
-
-  int correct = 1;
-  
-  for( int i = 0; i < nbf * ngrid; ++i) {
-    if((fabs(CPU_G_own[i] - GPU_G_own[i]) > 1e-10) || std::isnan(GPU_G_own[i]) || std::isnan(GPU_G_own[i])) {
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << "\tCPU Execution: "<< 1000000 * (cpu_end.tv_sec - cpu_start.tv_sec) + (cpu_end.tv_usec - cpu_start.tv_usec) << "\tGPU Execution: "<< 1000000 * (gpu_end.tv_sec - gpu_start.tv_sec) + (gpu_end.tv_usec - gpu_start.tv_usec) << std::endl;
-  
-  return 0;
-}
-#else
-int main() {}
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_base.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_base.cxx
deleted file mode 100644
index a51e6bc..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_base.cxx
+++ /dev/null
@@ -1,201 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdexcept>
-
-#include "scheme1_cutlass_base.hpp"
-#include "device/common/pack_submat.hpp"
-#include "device/common/inc_potential.hpp"
-#include "device/common/device_blas.hpp"
-
-#include "device/cuda/kernels/cutlass_wrapper.hpp"
-
-namespace GauXC {
-
-// Common implementation for eval_xmat and eval_xmat_trial
-template<bool is_trial>
-void AoSScheme1CUTLASSBase::eval_xmat_impl(double fac, XCDeviceData* _data, bool do_grad, density_id den_id) {
-  auto* data = dynamic_cast<AoSScheme1CUTLASSBase::Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  // Pack density matrix 
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  
-  double* dmat_ptr;
-  if constexpr (is_trial) {
-    dmat_ptr = static_stack.tden_selector(den_id);
-    // now screened trial density matrix is stored in aos_stack.device_tasks[itask].nbe_scr
-  } else {
-    dmat_ptr = static_stack.den_selector(den_id);
-  }
-  
-  sym_pack_submat( ntasks, aos_stack.device_tasks, dmat_ptr, 
-    nbf, submat_block_size, data->device_backend_->queue() );
-
-  auto cutlass_stack = data->cutlass_stack;
-  double** dmat_array;
-  if constexpr (is_trial) {
-    dmat_array = cutlass_stack.tdmat_array(den_id);
-  } else {
-    dmat_array = cutlass_stack.dmat_array(den_id);
-  }
-  cutlass_gemm(
-    cutlass_stack.problem_sizes_device,
-    data->problem_sizes_host.data(),
-    ntasks,
-    cutlass_stack.bf_array_device, dmat_array,
-    cutlass_stack.zmat_array_device, cutlass_stack.zmat_array_device,
-    cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_dmat_array_device,
-    cutlass_stack.ld64_zmat_array_device, cutlass_stack.ld64_zmat_array_device,
-    fac, 0.0,
-    data->device_backend_->queue()
-  );
-
-  if(do_grad) {
-    cutlass_gemm(
-      cutlass_stack.problem_sizes_device,
-      data->problem_sizes_host.data(),
-      ntasks,
-      cutlass_stack.bfx_array_device, dmat_array,
-      cutlass_stack.xmat_x_array_device, cutlass_stack.xmat_x_array_device,
-      cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_dmat_array_device,
-      cutlass_stack.ld64_zmat_array_device, cutlass_stack.ld64_zmat_array_device,
-      fac, 0.0,
-      data->device_backend_->queue()
-    );
-    cutlass_gemm(
-      cutlass_stack.problem_sizes_device,
-      data->problem_sizes_host.data(),
-      ntasks,
-      cutlass_stack.bfy_array_device, dmat_array,
-      cutlass_stack.xmat_y_array_device, cutlass_stack.xmat_y_array_device,
-      cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_dmat_array_device,
-      cutlass_stack.ld64_zmat_array_device, cutlass_stack.ld64_zmat_array_device,
-      fac, 0.0,
-      data->device_backend_->queue()
-    );
-    cutlass_gemm(
-      cutlass_stack.problem_sizes_device,
-      data->problem_sizes_host.data(),
-      ntasks,
-      cutlass_stack.bfz_array_device, dmat_array,
-      cutlass_stack.xmat_z_array_device, cutlass_stack.xmat_z_array_device,
-      cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_dmat_array_device,
-      cutlass_stack.ld64_zmat_array_device, cutlass_stack.ld64_zmat_array_device,
-      fac, 0.0,
-      data->device_backend_->queue()
-    );
-  }
-}
-
-void AoSScheme1CUTLASSBase::eval_xmat(double fac, XCDeviceData* _data, bool do_grad, density_id den_id ) {
-  eval_xmat_impl<false>(fac, _data, do_grad, den_id);
-}
-
-void AoSScheme1CUTLASSBase::eval_xmat_trial(double fac, XCDeviceData* _data, bool do_grad, density_id den_id ) {
-  eval_xmat_impl<true>(fac, _data, do_grad, den_id);
-}
-
-
-// Common implementation for inc_vxc and inc_fxc
-template<bool is_fxc>
-void AoSScheme1CUTLASSBase::inc_potential_impl(XCDeviceData* _data, density_id den_id, bool do_m) {
-  auto* data = dynamic_cast<AoSScheme1CUTLASSBase::Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  auto cutlass_stack = data->cutlass_stack;
-  cutlass_syr2k(
-    cutlass_stack.syr2k_sizes_device,
-    data->syr2k_sizes_host.data(),
-    ntasks,
-    cutlass_stack.bf_array_device, cutlass_stack.zmat_array_device,
-    cutlass_stack.vmat_array_device, cutlass_stack.vmat_array_device,
-    cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_zmat_array_device,
-    cutlass_stack.ld64_vmat_array_device, cutlass_stack.ld64_vmat_array_device,
-    1.0, 0.0,
-    data->device_backend_->queue()
-  );
-  if(do_m) {
-    cutlass_syr2k(
-      cutlass_stack.syr2k_sizes_device,
-      data->syr2k_sizes_host.data(),
-      ntasks,
-      cutlass_stack.bfx_array_device, cutlass_stack.xmat_x_array_device,
-      cutlass_stack.vmat_array_device, cutlass_stack.vmat_array_device,
-      cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_zmat_array_device,
-      cutlass_stack.ld64_vmat_array_device, cutlass_stack.ld64_vmat_array_device,
-      1.0, 1.0,
-      data->device_backend_->queue()
-    );
-    cutlass_syr2k(
-      cutlass_stack.syr2k_sizes_device,
-      data->syr2k_sizes_host.data(),
-      ntasks,
-      cutlass_stack.bfy_array_device, cutlass_stack.xmat_y_array_device,
-      cutlass_stack.vmat_array_device, cutlass_stack.vmat_array_device,
-      cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_zmat_array_device,
-      cutlass_stack.ld64_vmat_array_device, cutlass_stack.ld64_vmat_array_device,
-      1.0, 1.0,
-      data->device_backend_->queue()
-    );
-    cutlass_syr2k(
-      cutlass_stack.syr2k_sizes_device,
-      data->syr2k_sizes_host.data(),
-      ntasks,
-      cutlass_stack.bfz_array_device, cutlass_stack.xmat_z_array_device,
-      cutlass_stack.vmat_array_device, cutlass_stack.vmat_array_device,
-      cutlass_stack.ld64_bf_array_device, cutlass_stack.ld64_zmat_array_device,
-      cutlass_stack.ld64_vmat_array_device, cutlass_stack.ld64_vmat_array_device,
-      1.0, 1.0,
-      data->device_backend_->queue()
-    );
-  }
-
-  // Increment global VXC/FXC
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  
-  double* potential_ptr;
-  if constexpr (is_fxc) {
-    potential_ptr = static_stack.fxc_selector(den_id);
-    // cutlass_stack.vmat_array_device points to aos_stack.device_tasks[itask].nbe_scr
-  } else {
-    potential_ptr = static_stack.vxc_selector(den_id);
-  }
-  
-  sym_task_inc_potential( ntasks, aos_stack.device_tasks, potential_ptr, nbf, 
-    submat_block_size, data->device_backend_->queue() );
-}
-
-void AoSScheme1CUTLASSBase::inc_vxc( XCDeviceData* _data, density_id den_id, bool do_m ) {
-  inc_potential_impl<false>(_data, den_id, do_m);
-}
-
-void AoSScheme1CUTLASSBase::inc_fxc( XCDeviceData* _data, density_id den_id, bool do_m ) {
-  inc_potential_impl<true>(_data, den_id, do_m);
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_base.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_base.hpp
deleted file mode 100644
index 80b9911..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_base.hpp
+++ /dev/null
@@ -1,123 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#ifdef GAUXC_HAS_CUTLASS
-#include "device/scheme1_base.hpp"
-
-#include <cutlass/cutlass.h>
-#include <cutlass/gemm/gemm.h>
-
-namespace GauXC {
-
-struct AoSScheme1CUTLASSBase : public AoSScheme1Base {
-
-  template<bool is_trial>
-  void eval_xmat_impl(double fac, XCDeviceData*, bool do_grad, density_id );
-  template<bool is_fxc>
-  void inc_potential_impl(XCDeviceData*, density_id, bool do_m);
-
-
-  void eval_xmat(double fac, XCDeviceData*, bool do_grad, density_id ) override final;
-  void eval_xmat_trial(double fac, XCDeviceData*, bool do_grad, density_id ) override final;
-  void inc_vxc( XCDeviceData*, density_id, bool ) override final;
-  void inc_fxc( XCDeviceData*, density_id, bool ) override final;
-
-  struct Data;
-
-  virtual ~AoSScheme1CUTLASSBase() = default;
-};
-
-struct AoSScheme1CUTLASSBase::Data : public AoSScheme1Base::Data {
-
-  using base_type = AoSScheme1Base::Data;
-  using base_type::host_task_type;
-  using base_type::device_buffer_t;
-
-  struct cutlass_data {
-    double** dmat_s_array_device = nullptr;
-    double** dmat_z_array_device = nullptr;
-    double** dmat_y_array_device = nullptr;
-    double** dmat_x_array_device = nullptr;
-    double** vmat_array_device = nullptr;
-    double** zmat_array_device = nullptr;
-    double** bf_array_device   = nullptr;
-    double** bfx_array_device   = nullptr;
-    double** bfy_array_device   = nullptr;
-    double** bfz_array_device   = nullptr;
-    double** xmat_x_array_device   = nullptr;
-    double** xmat_y_array_device   = nullptr;
-    double** xmat_z_array_device   = nullptr;
-
-    double** tdmat_s_array_device = nullptr;
-    double** tdmat_z_array_device = nullptr;
-    double** tdmat_y_array_device = nullptr;
-    double** tdmat_x_array_device = nullptr;
-
-    inline double** dmat_array(density_id id) {
-      switch(id) {
-        case DEN_S: return dmat_s_array_device;
-        case DEN_Z: return dmat_z_array_device;
-        case DEN_Y: return dmat_y_array_device;
-        case DEN_X: return dmat_x_array_device;
-        default: GAUXC_GENERIC_EXCEPTION("dmat_array: density_id not recognized");
-      }
-    }
-
-    inline double** tdmat_array(density_id id) {
-      switch(id) {
-        case DEN_S: return tdmat_s_array_device;
-        case DEN_Z: return tdmat_z_array_device;
-        case DEN_Y: return tdmat_y_array_device;
-        case DEN_X: return tdmat_x_array_device;
-        default: GAUXC_GENERIC_EXCEPTION("dmat_array: density_id not recognized");
-      }
-    }
-                           
-    cutlass::gemm::GemmCoord* problem_sizes_device = nullptr;
-    cutlass::gemm::GemmCoord* syr2k_sizes_device = nullptr;
-      
-    int64_t* ld64_dmat_array_device = nullptr;
-    int64_t* ld64_vmat_array_device = nullptr;
-    int64_t* ld64_zmat_array_device = nullptr;
-    int64_t* ld64_bf_array_device   = nullptr;
-
-    inline void reset(){ std::memset(this,0,sizeof(cutlass_data)); }
-  };
-
-                           
-  std::vector<cutlass::gemm::GemmCoord> syr2k_sizes_host;
-  std::vector<cutlass::gemm::GemmCoord> problem_sizes_host;
-      
-
-  cutlass_data cutlass_stack;
-
-  template <typename... Args>
-  Data( Args&&... args ) : base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~Data() = default;
-
-  size_t get_mem_req( integrator_term_tracker, 
-    const host_task_type&) override final;
-  size_t get_static_mem_requirement() override final; 
-  void reset_allocations() override final;
-  device_buffer_t allocate_dynamic_stack( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, device_buffer_t buf )
-    override final;
-  void pack_and_send( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, 
-    const BasisSetMap& basis_map ) override final;
-
-};
-
-}
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_data_base.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_data_base.cxx
deleted file mode 100644
index 3e5ee55..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/scheme1_cutlass_data_base.cxx
+++ /dev/null
@@ -1,310 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "scheme1_cutlass_base.hpp"
-#include "buffer_adaptor.hpp"
-
-namespace GauXC {
-
-
-void AoSScheme1CUTLASSBase::Data::reset_allocations() {
-  base_type::reset_allocations();
-  cutlass_stack.reset();
-  syr2k_sizes_host.clear();
-  problem_sizes_host.clear();
-}
-
-size_t AoSScheme1CUTLASSBase::Data::get_static_mem_requirement() {
-  return base_type::get_static_mem_requirement() + 
-         4 * sizeof(int32_t) +
-         2 * sizeof(cutlass::gemm::GemmCoord); 
-    // Extra elements in CUTLASS dimension arrays
-}
-
-size_t AoSScheme1CUTLASSBase::Data::get_mem_req( integrator_term_tracker terms, 
-  const host_task_type& task ) {
-
-  auto is_uks = terms.ks_scheme == UKS;
-  auto is_gks = terms.ks_scheme == GKS;
-  
-  size_t base_size = base_type::get_mem_req(terms, task);
-
-  // TODO: There is probably a better way to check this
-  required_term_storage reqt(terms);
-  if( reqt.task_nbe_scr ) {
-    base_size += 
-      4*sizeof(double*) + // batch device pointers (containg trial ones)
-      4*sizeof(int64_t) +
-      2*sizeof(cutlass::gemm::GemmCoord);  // Dimensions + leading dimensions 
-                                           // (extra handled by get_static_mem_requirement)
-    if(reqt.task_xmat_grad) {
-      base_size += 6 * sizeof(double*);
-    }
-
-    if(is_uks or is_gks) {
-      base_size += sizeof(double*); // z dmat 
-    }
-    if(is_gks) {
-      base_size += 2*sizeof(double*); // x/y dmat 
-    }
-    
-    if(terms.fxc_contraction) {
-      base_size += sizeof(double*); // s tdmat
-      if(is_uks or is_gks)
-        base_size += sizeof(double*); // z tdmat
-      if(is_gks) {
-        base_size += 2*sizeof(double*); // x/y tdmat
-      }
-    }
-
-  }
-  return base_size;
-
-
-}
-AoSScheme1CUTLASSBase::Data::device_buffer_t 
-  AoSScheme1CUTLASSBase::Data::allocate_dynamic_stack( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end, 
-  device_buffer_t buf ){
-
-  // Allocate base info on the stack
-  buf = base_type::allocate_dynamic_stack( terms, task_begin, task_end,
-    buf );
-
-  required_term_storage reqt(terms);
-  if( not reqt.task_nbe_scr ) return buf;
-
-  auto is_uks = terms.ks_scheme == UKS;
-  auto is_gks = terms.ks_scheme == GKS;
-
-  // Allocate additional device memory 
-  auto [ ptr, sz ] = buf;
-  buffer_adaptor mem( ptr, sz );
-
-  const auto ntask = std::distance( task_begin, task_end );
-  cutlass_stack.dmat_s_array_device = mem.aligned_alloc<double*>( ntask, csl );
-  cutlass_stack.vmat_array_device   = mem.aligned_alloc<double*>( ntask, csl );
-  cutlass_stack.zmat_array_device   = mem.aligned_alloc<double*>( ntask, csl );
-  cutlass_stack.bf_array_device     = mem.aligned_alloc<double*>( ntask, csl );
-  if(reqt.task_xmat_grad) {
-    cutlass_stack.bfx_array_device    = mem.aligned_alloc<double*>( ntask, csl );
-    cutlass_stack.bfy_array_device    = mem.aligned_alloc<double*>( ntask, csl );
-    cutlass_stack.bfz_array_device    = mem.aligned_alloc<double*>( ntask, csl );
-    cutlass_stack.xmat_x_array_device = mem.aligned_alloc<double*>( ntask, csl );
-    cutlass_stack.xmat_y_array_device = mem.aligned_alloc<double*>( ntask, csl );
-    cutlass_stack.xmat_z_array_device = mem.aligned_alloc<double*>( ntask, csl );
-  }
-
-  if(is_uks or is_gks) {
-    cutlass_stack.dmat_z_array_device = mem.aligned_alloc<double*>( ntask, csl );
-  }
-
-  if(is_gks) {
-    cutlass_stack.dmat_y_array_device = mem.aligned_alloc<double*>( ntask, csl );
-    cutlass_stack.dmat_x_array_device = mem.aligned_alloc<double*>( ntask, csl );
-  }
-
-  if(terms.fxc_contraction) {
-    cutlass_stack.tdmat_s_array_device = mem.aligned_alloc<double*>( ntask, csl );
-    if(is_uks or is_gks)
-      cutlass_stack.tdmat_z_array_device = mem.aligned_alloc<double*>( ntask, csl );
-    if(is_gks){
-      cutlass_stack.tdmat_y_array_device = mem.aligned_alloc<double*>( ntask, csl );
-      cutlass_stack.tdmat_x_array_device = mem.aligned_alloc<double*>( ntask, csl );
-    }
-  }
-
-  cutlass_stack.ld64_dmat_array_device = mem.aligned_alloc<int64_t>( ntask + 1, csl );
-  cutlass_stack.ld64_zmat_array_device = mem.aligned_alloc<int64_t>( ntask + 1, csl );
-  cutlass_stack.ld64_vmat_array_device = mem.aligned_alloc<int64_t>( ntask + 1, csl );
-  cutlass_stack.ld64_bf_array_device   = mem.aligned_alloc<int64_t>( ntask + 1, csl );
-  
-  cutlass_stack.problem_sizes_device = mem.aligned_alloc<cutlass::gemm::GemmCoord>( ntask + 1, csl );
-  cutlass_stack.syr2k_sizes_device   = mem.aligned_alloc<cutlass::gemm::GemmCoord>( ntask + 1, csl );
-
-  // Update dynmem data for derived impls
-  return device_buffer_t{ mem.stack(), mem.nleft() };
-}
-
-void AoSScheme1CUTLASSBase::Data::pack_and_send( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end,
-  const BasisSetMap& basis_map ) {
-
-  base_type::pack_and_send( terms, task_begin, task_end, basis_map );
-  required_term_storage reqt(terms);
-  if( not reqt.task_nbe_scr ) return;
-
-  auto is_uks = terms.ks_scheme == UKS;
-  auto is_gks = terms.ks_scheme == GKS;
-
-  const auto ntask = std::distance( task_begin, task_end );
-  std::vector<double*> dmat_host( ntask ), zmat_host( ntask ), bf_host( ntask ),
-                       vmat_host( ntask ), tdmat_host( ntask );
-  problem_sizes_host.resize(ntask);
-  syr2k_sizes_host.resize(ntask);
-  std::vector<int64_t> ld64_dmat_host( ntask ), ld64_zmat_host( ntask ), 
-                       ld64_vmat_host( ntask ), ld64_bf_host( ntask );
-
-  const auto nbf = global_dims.nbf;
-
-  // host_device_tasks should be populated by parent impl called at top
-  for( auto i = 0; i < ntask; ++i ) {
-    auto& task = host_device_tasks[i];
-    zmat_host[i] = task.zmat;    ld64_zmat_host[i] = task.npts;
-    bf_host[i]   = task.bf;      ld64_bf_host[i]   = task.npts;
-    vmat_host[i] = task.nbe_scr; ld64_vmat_host[i] = task.bfn_screening.nbe;
-    if( task.bfn_screening.ncut > 1 ) {
-      dmat_host[i]    = task.nbe_scr;
-      ld64_dmat_host[i] = task.bfn_screening.nbe;
-    } else {
-      dmat_host[i]    = static_stack.dmat_s_device + task.bfn_screening.ibf_begin*(nbf+1);
-      ld64_dmat_host[i] = nbf;
-    }
-
-    cutlass::gemm::GemmCoord problem(task.npts, task.bfn_screening.nbe, task.bfn_screening.nbe);
-    problem_sizes_host[i] = problem;
-
-    cutlass::gemm::GemmCoord problem2(task.bfn_screening.nbe, task.bfn_screening.nbe, task.npts);
-    syr2k_sizes_host[i] = problem2;
-  }
-
-  // Send to device
-  device_backend_->copy_async( ntask, dmat_host.data(), 
-    cutlass_stack.dmat_s_array_device, "send dmat_s array" );
-  device_backend_->copy_async( ntask, zmat_host.data(), 
-    cutlass_stack.zmat_array_device, "send zmat array" );
-  device_backend_->copy_async( ntask, vmat_host.data(), 
-    cutlass_stack.vmat_array_device, "send vmat array" );
-  device_backend_->copy_async( ntask, bf_host.data(), 
-    cutlass_stack.bf_array_device, "send bf array" );
-
-  device_backend_->copy_async( ntask, problem_sizes_host.data(), 
-    cutlass_stack.problem_sizes_device, "send problemsize array" );
-  device_backend_->copy_async( ntask, syr2k_sizes_host.data(), 
-    cutlass_stack.syr2k_sizes_device, "send problemsize array" );
-  device_backend_->copy_async( ntask, ld64_dmat_host.data(), 
-    cutlass_stack.ld64_dmat_array_device, "send ld dmat array" );
-  device_backend_->copy_async( ntask, ld64_zmat_host.data(), 
-    cutlass_stack.ld64_zmat_array_device, "send ld zmat array" );
-  device_backend_->copy_async( ntask, ld64_vmat_host.data(), 
-    cutlass_stack.ld64_vmat_array_device, "send ld vmat array" );
-  device_backend_->copy_async( ntask, ld64_bf_host.data(), 
-    cutlass_stack.ld64_bf_array_device, "send ld bf array" );
-
-  if(is_uks or is_gks) {
-    std::vector<double*> dmat_z_host( ntask );
-    for( auto i = 0; i < ntask; ++i ) {
-      auto& task = host_device_tasks[i];
-      if( task.bfn_screening.ncut > 1 ) {
-        dmat_z_host[i] = task.nbe_scr;
-      } else {
-        dmat_z_host[i] = static_stack.dmat_z_device + task.bfn_screening.ibf_begin*(nbf+1);
-      }
-    }
-    device_backend_->copy_async( ntask, dmat_z_host.data(), 
-      cutlass_stack.dmat_z_array_device, "send dmat_z array" );
-  }
-
-  if(is_gks) {
-    std::vector<double*> dmat_y_host( ntask );
-    std::vector<double*> dmat_x_host( ntask );
-    for( auto i = 0; i < ntask; ++i ) {
-      auto& task = host_device_tasks[i];
-      if( task.bfn_screening.ncut > 1 ) {
-        dmat_y_host[i] = task.nbe_scr;
-        dmat_x_host[i] = task.nbe_scr;
-      } else {
-        dmat_y_host[i] = static_stack.dmat_y_device + task.bfn_screening.ibf_begin*(nbf+1);
-        dmat_x_host[i] = static_stack.dmat_x_device + task.bfn_screening.ibf_begin*(nbf+1);
-      }
-    }
-    device_backend_->copy_async( ntask, dmat_x_host.data(), 
-      cutlass_stack.dmat_x_array_device, "send dmat_x array" );
-    device_backend_->copy_async( ntask, dmat_y_host.data(), 
-      cutlass_stack.dmat_y_array_device, "send dmat_y array" );
-  }
-
-  if(reqt.task_xmat_grad) {
-    std::vector<double*> xmat_x_host( ntask ), bfx_host( ntask );
-    std::vector<double*> xmat_y_host( ntask ), bfy_host( ntask );
-    std::vector<double*> xmat_z_host( ntask ), bfz_host( ntask );
-    for( auto i = 0; i < ntask; ++i ) {
-      auto& task = host_device_tasks[i];
-      xmat_x_host[i] = task.xmat_x;
-      xmat_y_host[i] = task.xmat_y;
-      xmat_z_host[i] = task.xmat_z;
-      bfx_host[i]    = task.dbfx;
-      bfy_host[i]    = task.dbfy;
-      bfz_host[i]    = task.dbfz;
-    }
-    device_backend_->copy_async( ntask, xmat_x_host.data(), 
-      cutlass_stack.xmat_x_array_device, "send xmat_x array" );
-    device_backend_->copy_async( ntask, xmat_y_host.data(), 
-      cutlass_stack.xmat_y_array_device, "send xmat_y array" );
-    device_backend_->copy_async( ntask, xmat_z_host.data(), 
-      cutlass_stack.xmat_z_array_device, "send xmat_z array" );
-    device_backend_->copy_async( ntask, bfx_host.data(), 
-      cutlass_stack.bfx_array_device, "send bfx array" );
-    device_backend_->copy_async( ntask, bfy_host.data(), 
-      cutlass_stack.bfy_array_device, "send bfy array" );
-    device_backend_->copy_async( ntask, bfz_host.data(), 
-      cutlass_stack.bfz_array_device, "send bfz array" );
-  }
-
-  if(terms.fxc_contraction) {
-    std::vector<double*> tdmat_host( ntask );
-    for( auto i = 0; i < ntask; ++i ) {
-      auto& task = host_device_tasks[i];
-      if( task.bfn_screening.ncut > 1 )
-        tdmat_host[i] = task.nbe_scr;
-      else 
-        tdmat_host[i] = static_stack.tdmat_s_device + task.bfn_screening.ibf_begin*(nbf+1);
-    }
-    device_backend_->copy_async( ntask, tdmat_host.data(), 
-      cutlass_stack.tdmat_s_array_device, "send tdmat_s array" );
-    if(is_uks or is_gks) {
-      std::vector<double*> tdmat_z_host( ntask );
-      for( auto i = 0; i < ntask; ++i ) {
-        auto& task = host_device_tasks[i];
-        if( task.bfn_screening.ncut > 1 )
-          tdmat_z_host[i] = task.nbe_scr;
-        else 
-          tdmat_z_host[i] = static_stack.tdmat_z_device + task.bfn_screening.ibf_begin*(nbf+1);
-      }
-      device_backend_->copy_async( ntask, tdmat_z_host.data(), 
-        cutlass_stack.tdmat_z_array_device, "send tdmat_z array" );
-    }
-    if(is_gks) {
-      std::vector<double*> tdmat_y_host( ntask );
-      std::vector<double*> tdmat_x_host( ntask );
-      for( auto i = 0; i < ntask; ++i ) {
-        auto& task = host_device_tasks[i];
-        if( task.bfn_screening.ncut > 1 ) {
-          tdmat_y_host[i] = task.nbe_scr;
-          tdmat_x_host[i] = task.nbe_scr;
-        } else {
-          tdmat_y_host[i] = static_stack.tdmat_y_device + task.bfn_screening.ibf_begin*(nbf+1);
-          tdmat_x_host[i] = static_stack.tdmat_x_device + task.bfn_screening.ibf_begin*(nbf+1);
-        }
-      }
-      device_backend_->copy_async( ntask, tdmat_x_host.data(), 
-        cutlass_stack.tdmat_x_array_device, "send tdmat_x array" );
-      device_backend_->copy_async( ntask, tdmat_y_host.data(), 
-        cutlass_stack.tdmat_y_array_device, "send tdmat_y array" );
-    }
-  }
-
-  device_backend_->master_queue_synchronize(); 
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/xc_functional_eval_wrapper.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/xc_functional_eval_wrapper.cxx
deleted file mode 100644
index 838078c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/cuda/xc_functional_eval_wrapper.cxx
+++ /dev/null
@@ -1,75 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/xc_functional_eval_wrapper.hpp"
-#include "device_specific/cuda_util.hpp"
-
-namespace GauXC {
-
-void eval_kern_exc_vxc_lda( const functional_type& func, size_t npts,
-  const double* rho, double* eps, double* vrho, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  func.eval_exc_vxc_device( npts, rho, eps, vrho, stream );
-
-}
-
-void eval_kern_exc_vxc_gga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, double* eps, double* vrho,
-  double* vgamma, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  func.eval_exc_vxc_device( npts, rho, gamma, eps, vrho, vgamma, stream );
-
-}
-
-void eval_kern_exc_vxc_mgga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, const double* tau, const double* lapl,
-  double* eps, double* vrho, double* vgamma, double* vtau, double* vlapl, 
-  device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  func.eval_exc_vxc_device( npts, rho, gamma, lapl, tau, eps, vrho, vgamma, vlapl, vtau,  stream );
-
-}
-
-
-
-void eval_kern_vxc_fxc_lda( const functional_type& func, size_t npts,
-  const double* rho, double* vrho, double* v2rho2, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  func.eval_vxc_fxc_device( npts, rho, vrho, v2rho2, stream );
-}
-
-void eval_kern_vxc_fxc_gga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, double* vrho, double* vgamma,
-  double* v2rho2, double* v2rhogamma, double* v2gamma2, device_queue queue ) {
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  func.eval_vxc_fxc_device( npts, rho, gamma, vrho, vgamma, v2rho2, v2rhogamma, v2gamma2, stream );
-}
-
-void eval_kern_vxc_fxc_mgga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, const double* lapl, const double* tau,
-  double* vrho, double* vgamma, double* vlapl, double* vtau,
-  double* v2rho2, double* v2rhogamma, double* v2rholapl, double* v2rhotau,
-  double* v2gamma2, double* v2gammalapl, double* v2gammatau, double* v2lapl2,
-  double* v2lapltau, double* v2tau2, device_queue queue ){
-
-  cudaStream_t stream = queue.queue_as<util::cuda_stream>();
-  func.eval_vxc_fxc_device( npts, rho, gamma, lapl, tau, vrho, vgamma, vlapl, vtau,
-    v2rho2, v2rhogamma, v2rholapl, v2rhotau, v2gamma2, v2gammalapl, v2gammatau,
-    v2lapl2, v2lapltau, v2tau2, stream );
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/CMakeLists.txt
deleted file mode 100644
index a7b14ce..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/CMakeLists.txt
+++ /dev/null
@@ -1,36 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources(gauxc PRIVATE
-  hip_aos_scheme1_data.cxx
-  hip_aos_scheme1.cxx
-
-  xc_functional_eval_wrapper.cxx
-
-  kernels/collocation_device.hip
-  kernels/grid_to_center.hip
-  kernels/hip_ssf_1d.hip
-  kernels/hip_ssh_2d.hip
-  #cuda_aos_scheme1_weights.cu # cuda_ssf_2d w/ CudaAoSScheme1 constants
-  kernels/pack_submat.hip
-  kernels/hipblas_extensions.hip
-  kernels/uvvars.hip
-  kernels/zmat_vxc.hip
-  kernels/hip_inc_potential.hip
-  kernels/symmetrize_mat.hip
-
-)
-
-if(GAUXC_HAS_MAGMA)
-  # MAGMA requires linkage to hipSPARSE for some strange reason....
-  find_package( hipsparse REQUIRED )
-  target_link_libraries( gauxc PUBLIC roc::hipsparse )
-endif()
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1.cxx
deleted file mode 100644
index b5d6f49..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1.cxx
+++ /dev/null
@@ -1,70 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip_aos_scheme1.hpp"
-#include "device/hip/hip_backend.hpp"
-#include "kernels/grid_to_center.hpp"
-#include "kernels/hip_ssf_1d.hpp"
-#include "kernels/hip_ssh_2d.hpp"
-
-namespace GauXC {
-
-template <typename Base>
-std::unique_ptr<XCDeviceData> HipAoSScheme1<Base>::create_device_data(const DeviceRuntimeEnvironment& rt) {
-  return std::make_unique<Data>(rt);
-}
-
-
-template <typename Base>
-void HipAoSScheme1<Base>::partition_weights( XCDeviceData* _data ) {
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  auto device_backend = dynamic_cast<HIPBackend*>(data->device_backend_);
-  if( !device_backend ) GAUXC_BAD_BACKEND_CAST();
-
-  const auto ldatoms = data->get_ldatoms();
-  auto base_stack    = data->base_stack;
-  auto static_stack  = data->static_stack;
-  auto scheme1_stack = data->scheme1_stack;
-
-  // Compute distances from grid to atomic centers
-  compute_grid_to_center_dist( data->total_npts_task_batch, data->global_dims.natoms,
-    static_stack.coords_device, base_stack.points_x_device, 
-    base_stack.points_y_device, base_stack.points_z_device,
-    scheme1_stack.dist_scratch_device, ldatoms, *device_backend->master_stream );
-
-#if 1
-  partition_weights_ssf_2d( data->total_npts_task_batch, data->global_dims.natoms,
-    static_stack.rab_device, ldatoms, static_stack.coords_device,
-    scheme1_stack.dist_scratch_device, ldatoms, scheme1_stack.iparent_device,
-    scheme1_stack.dist_nearest_device, base_stack.weights_device,
-    *device_backend->master_stream );
-
-#else
-  // Modify weights
-  partition_weights_ssf_1d( data->total_npts_task_batch, data->global_dims.natoms,
-    static_stack.rab_device, ldatoms, static_stack.coords_device, 
-    scheme1_stack.dist_scratch_device, ldatoms, scheme1_stack.iparent_device, 
-    scheme1_stack.dist_nearest_device, base_stack.weights_device,
-    *device_backend->master_stream );
-#endif
-
-}
-
-
-template struct HipAoSScheme1<AoSScheme1Base>;
-#ifdef GAUXC_HAS_MAGMA
-template struct HipAoSScheme1<AoSScheme1MAGMABase>;
-#endif
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1.hpp
deleted file mode 100644
index 00da2e1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1.hpp
+++ /dev/null
@@ -1,68 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/scheme1_base.hpp"
-#include "device/scheme1_magma_base.hpp"
-
-namespace GauXC {
-
-namespace alg_constants {
-
-struct HipAoSScheme1 {
-  static constexpr uint32_t weight_unroll = 4;
-  static constexpr uint32_t weight_thread_block = 640;
-  static constexpr uint32_t weight_thread_block_per_sm = 2;
-  static constexpr uint32_t max_submat_blocks = 10;
-};
-
-}
-
-template <typename Base = AoSScheme1Base>
-struct HipAoSScheme1 : public Base {
-
-  // API Overrides
-  void partition_weights( XCDeviceData* ) override final;
-
-  std::unique_ptr<XCDeviceData> create_device_data(const DeviceRuntimeEnvironment&) override final;
-
-  struct Data;
-
-};
-
-extern template struct HipAoSScheme1<AoSScheme1Base>;
-#ifdef GAUXC_HAS_MAGMA
-extern template struct HipAoSScheme1<AoSScheme1MAGMABase>;
-#endif
-
-
-template <typename Base>
-struct HipAoSScheme1<Base>::Data : public Base::Data {
-
-  virtual ~Data() noexcept;
-  Data() = delete;
-  Data(const DeviceRuntimeEnvironment& rt);
-
-  // Final overrides
-  size_t get_submat_chunk_size(int32_t,int32_t) override final;
-  size_t get_ldatoms() override final;
-  size_t get_rab_align() override final;
-  int get_points_per_subtask() override final;
-
-};
-
-extern template struct HipAoSScheme1<AoSScheme1Base>::Data;
-#ifdef GAUXC_HAS_MAGMA
-extern template struct HipAoSScheme1<AoSScheme1MAGMABase>::Data;
-#endif
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1_data.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1_data.cxx
deleted file mode 100644
index c80c9a6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hip_aos_scheme1_data.cxx
+++ /dev/null
@@ -1,68 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip_aos_scheme1.hpp"
-#include "buffer_adaptor.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device/hip/hip_backend.hpp"
-
-namespace GauXC {
-
-template <typename Base>
-HipAoSScheme1<Base>::Data::~Data() noexcept = default;
-
-template <typename Base>
-HipAoSScheme1<Base>::Data::Data(const DeviceRuntimeEnvironment& rt) :
-  Base::Data( rt ) { }
-
-template <typename Base>
-size_t HipAoSScheme1<Base>::Data::get_ldatoms() {
-  //constexpr auto weight_unroll = HipAoSScheme1<Base>::weight_unroll;
-  constexpr auto weight_unroll = 1;
-  return util::div_ceil( this->global_dims.natoms, weight_unroll ) * weight_unroll;
-}
-
-template <typename Base>
-size_t HipAoSScheme1<Base>::Data::get_rab_align() {
-  return sizeof(double2);
-}
-
-template <typename Base>
-int HipAoSScheme1<Base>::Data::get_points_per_subtask() {
-  //GAUXC_GENERIC_EXCEPTION("sn-K Path for HIP NYI");
-  return 64;
-}
-
-
-template <typename Base>
-size_t HipAoSScheme1<Base>::Data::get_submat_chunk_size(int32_t LDA, int32_t dev_id) {
-
-  constexpr int max_submat_blocks = 10;
-  int l2_cache_size;
-  auto err = hipDeviceGetAttribute(&l2_cache_size, hipDeviceAttributeL2CacheSize, dev_id);
-  GAUXC_HIP_ERROR("hipDeviceGetAttribute Failed", err);
-
-  int l2_block_size = (int) sqrt(0.75 * ((double) l2_cache_size / 8));
-  int min_block_size = LDA / max_submat_blocks;
-
-  int block_size = std::max(l2_block_size, min_block_size);
-  block_size = std::min(block_size, LDA);
-
-  return block_size;
-
-}
-
-template struct HipAoSScheme1<AoSScheme1Base>::Data;
-#ifdef GAUXC_HAS_MAGMA
-template struct HipAoSScheme1<AoSScheme1MAGMABase>::Data;
-#endif
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hipify.sh b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hipify.sh
deleted file mode 100644
index 7cc34ab..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/hipify.sh
+++ /dev/null
@@ -1,58 +0,0 @@
-#/bin/bash
-
-if [ ! -d kernels ]
-then
-  mkdir kernels
-fi
-
-if [ ! -d kernels/collocation ]
-then
-  mkdir -p kernels/collocation
-fi
-
-export CUDA_PREFIX=$PWD/../cuda/kernels
-export HIP_PREFIX=$PWD/kernels
-
-# Generate collocation kernels
-hipify-perl $CUDA_PREFIX/collocation/collocation_angular_cartesian.hpp > \
-            $HIP_PREFIX/collocation/collocation_angular_cartesian.hpp
-hipify-perl $CUDA_PREFIX/collocation/collocation_angular_spherical_unnorm.hpp > \
-            $HIP_PREFIX/collocation/collocation_angular_spherical_unnorm.hpp
-hipify-perl $CUDA_PREFIX/collocation/collocation_device_constants.hpp > \
-            $HIP_PREFIX/collocation/collocation_device_constants.hpp
-hipify-perl $CUDA_PREFIX/collocation_masked_combined_kernels.hpp > \
-            $HIP_PREFIX/collocation_masked_combined_kernels.hpp
-hipify-perl $CUDA_PREFIX/collocation_masked_kernels.hpp > \
-            $HIP_PREFIX/collocation_masked_kernels.hpp
-#hipify-perl $CUDA_PREFIX/collocation_device.hpp > \
-#            $HIP_PREFIX/collocation_device.hpp
-hipify-perl $CUDA_PREFIX/collocation_device.cu > \
-            $HIP_PREFIX/collocation_device.hip
-
-
-# Generate Weights Kernels
-#hipify-perl $CUDA_PREFIX/grid_to_center.hpp > $HIP_PREFIX/grid_to_center.hpp
-hipify-perl $CUDA_PREFIX/grid_to_center.cu  > $HIP_PREFIX/grid_to_center.hip
-#hipify-perl $CUDA_PREFIX/cuda_ssf_1d.hpp > $HIP_PREFIX/hip_ssf_1d.hpp
-hipify-perl $CUDA_PREFIX/cuda_ssf_1d.cu  > $HIP_PREFIX/hip_ssf_1d.hip
-
-
-# cuBLAS -> hipBLAS
-#hipify-perl $CUDA_PREFIX/cublas_extensions.hpp > $HIP_PREFIX/hipblas_extensions.hpp
-hipify-perl $CUDA_PREFIX/cublas_extensions.cu > $HIP_PREFIX/hipblas_extensions.hip
-
-# Z Matrix
-#hipify-perl $CUDA_PREFIX/zmat_vxc.hpp > $HIP_PREFIX/zmat_vxc.hpp
-hipify-perl $CUDA_PREFIX/zmat_vxc.cu > $HIP_PREFIX/zmat_vxc.hip
-
-
-#hipify-perl $CUDA_PREFIX/../cuda_aos_scheme1.cxx > $HIP_PREFIX/../hip_aos_scheme1.cxx
-
-sed -i -e "s/cuda/hip/g" kernels/{,*/}*.hpp *.{cxx,hpp}
-sed -i -e "s/cuda/hip/g" kernels/*.hip
-sed -i -e "s/CUDA/HIP/g" kernels/*.hip
-sed -i -e "s/cublas/hipblas/g" kernels/*.hip
-sed -i -e "s/CUBLAS/HIPBLAS/g" kernels/*.hip
-sed -i -e "s/register //g" kernels/*.hip
-
-#sed -i -e "s/Cuda/Hip/g" *.{cxx,hpp}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_angular_cartesian.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_angular_cartesian.hpp
deleted file mode 100644
index 70008f8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_angular_cartesian.hpp
+++ /dev/null
@@ -1,315 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x;
-  eval[npts * 1] = bf*y;
-  eval[npts * 2] = bf*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf + bf_x*x;
-  eval_x[npts * 1] = bf_x*y;
-  eval_x[npts * 2] = bf_x*z;
-
-  eval_y[npts * 0] = bf_y*x;
-  eval_y[npts * 1] = bf + bf_y*y;
-  eval_y[npts * 2] = bf_y*z;
-
-  eval_z[npts * 0] = bf_z*x;
-  eval_z[npts * 1] = bf_z*y;
-  eval_z[npts * 2] = bf + bf_z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x;
-  eval[npts * 1] = bf*x*y;
-  eval[npts * 2] = bf*x*z;
-  eval[npts * 3] = bf*y*y;
-  eval[npts * 4] = bf*y*z;
-  eval[npts * 5] = bf*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*(2*bf + bf_x*x);
-  eval_x[npts * 1] = y*(bf + bf_x*x);
-  eval_x[npts * 2] = z*(bf + bf_x*x);
-  eval_x[npts * 3] = bf_x*y*y;
-  eval_x[npts * 4] = bf_x*y*z;
-  eval_x[npts * 5] = bf_x*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x;
-  eval_y[npts * 1] = x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*z;
-  eval_y[npts * 3] = y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x;
-  eval_z[npts * 1] = bf_z*x*y;
-  eval_z[npts * 2] = x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*y*y;
-  eval_z[npts * 4] = y*(bf + bf_z*z);
-  eval_z[npts * 5] = z*(2*bf + bf_z*z);
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*x*x*x;
-  eval[npts * 1] = bf*x*x*y;
-  eval[npts * 2] = bf*x*x*z;
-  eval[npts * 3] = bf*x*y*y;
-  eval[npts * 4] = bf*x*y*z;
-  eval[npts * 5] = bf*x*z*z;
-  eval[npts * 6] = bf*y*y*y;
-  eval[npts * 7] = bf*y*y*z;
-  eval[npts * 8] = bf*y*z*z;
-  eval[npts * 9] = bf*z*z*z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = x*x*(3*bf + bf_x*x);
-  eval_x[npts * 1] = x*y*(2*bf + bf_x*x);
-  eval_x[npts * 2] = x*z*(2*bf + bf_x*x);
-  eval_x[npts * 3] = y*y*(bf + bf_x*x);
-  eval_x[npts * 4] = y*z*(bf + bf_x*x);
-  eval_x[npts * 5] = z*z*(bf + bf_x*x);
-  eval_x[npts * 6] = bf_x*y*y*y;
-  eval_x[npts * 7] = bf_x*y*y*z;
-  eval_x[npts * 8] = bf_x*y*z*z;
-  eval_x[npts * 9] = bf_x*z*z*z;
-
-  eval_y[npts * 0] = bf_y*x*x*x;
-  eval_y[npts * 1] = x*x*(bf + bf_y*y);
-  eval_y[npts * 2] = bf_y*x*x*z;
-  eval_y[npts * 3] = x*y*(2*bf + bf_y*y);
-  eval_y[npts * 4] = x*z*(bf + bf_y*y);
-  eval_y[npts * 5] = bf_y*x*z*z;
-  eval_y[npts * 6] = y*y*(3*bf + bf_y*y);
-  eval_y[npts * 7] = y*z*(2*bf + bf_y*y);
-  eval_y[npts * 8] = z*z*(bf + bf_y*y);
-  eval_y[npts * 9] = bf_y*z*z*z;
-
-  eval_z[npts * 0] = bf_z*x*x*x;
-  eval_z[npts * 1] = bf_z*x*x*y;
-  eval_z[npts * 2] = x*x*(bf + bf_z*z);
-  eval_z[npts * 3] = bf_z*x*y*y;
-  eval_z[npts * 4] = x*y*(bf + bf_z*z);
-  eval_z[npts * 5] = x*z*(2*bf + bf_z*z);
-  eval_z[npts * 6] = bf_z*y*y*y;
-  eval_z[npts * 7] = y*y*(bf + bf_z*z);
-  eval_z[npts * 8] = y*z*(2*bf + bf_z*z);
-  eval_z[npts * 9] = z*z*(3*bf + bf_z*z);
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_cartesian_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_cartesian_angular_0( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_cartesian_angular_1( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_cartesian_angular_2( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_cartesian_angular_3( npts, bf, x, y, z, eval );
-        collocation_cartesian_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_cartesian_angular_deriv1
-
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_angular_spherical_unnorm.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_angular_spherical_unnorm.hpp
deleted file mode 100644
index 987a13d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_angular_spherical_unnorm.hpp
+++ /dev/null
@@ -1,299 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "collocation_device_constants.hpp"
-#include <cassert>
-
-#ifndef GPGAUEVAL_INLINE
-#  define GPGAUEVAL_INLINE __noinline__
-#endif
-
-namespace GauXC {
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_0_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x;
-
-  eval_y[npts * 0] = bf_y;
-
-  eval_z[npts * 0] = bf_z;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = bf*y;
-  eval[npts * 1] = bf*z;
-  eval[npts * 2] = bf*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_1_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = bf_x*y;
-  eval_x[npts * 1] = bf_x*z;
-  eval_x[npts * 2] = bf + bf_x*x;
-
-  eval_y[npts * 0] = bf + bf_y*y;
-  eval_y[npts * 1] = bf_y*z;
-  eval_y[npts * 2] = bf_y*x;
-
-  eval_z[npts * 0] = bf_z*y;
-  eval_z[npts * 1] = bf + bf_z*z;
-  eval_z[npts * 2] = bf_z*x;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_3*bf*x*y;
-  eval[npts * 1] = sqrt_3*bf*y*z;
-  eval[npts * 2] = bf*(-x*x - y*y + 2*z*z)/2;
-  eval[npts * 3] = sqrt_3*bf*x*z;
-  eval[npts * 4] = sqrt_3*bf*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_2_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_3*y*(bf + bf_x*x);
-  eval_x[npts * 1] = sqrt_3*bf_x*y*z;
-  eval_x[npts * 2] = -bf*x - bf_x*(x*x + y*y - 2*z*z)/2;
-  eval_x[npts * 3] = sqrt_3*z*(bf + bf_x*x);
-  eval_x[npts * 4] = sqrt_3*(bf*x + bf_x*(x*x - y*y)/2);
-
-  eval_y[npts * 0] = sqrt_3*x*(bf + bf_y*y);
-  eval_y[npts * 1] = sqrt_3*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -bf*y - bf_y*(x*x + y*y - 2*z*z)/2;
-  eval_y[npts * 3] = sqrt_3*bf_y*x*z;
-  eval_y[npts * 4] = sqrt_3*(-bf*y + bf_y*(x*x - y*y)/2);
-
-  eval_z[npts * 0] = sqrt_3*bf_z*x*y;
-  eval_z[npts * 1] = sqrt_3*y*(bf + bf_z*z);
-  eval_z[npts * 2] = 2*bf*z - bf_z*(x*x + y*y - 2*z*z)/2;
-  eval_z[npts * 3] = sqrt_3*x*(bf + bf_z*z);
-  eval_z[npts * 4] = sqrt_3*bf_z*(x*x - y*y)/2;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3(
-  int32_t          npts,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-  eval[npts * 0] = sqrt_10*bf*y*(3*x*x - y*y)/4;
-  eval[npts * 1] = sqrt_15*bf*x*y*z;
-  eval[npts * 2] = sqrt_6*bf*y*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 3] = bf*z*(-3*x*x - 3*y*y + 2*z*z)/2;
-  eval[npts * 4] = sqrt_6*bf*x*(-x*x - y*y + 4*z*z)/4;
-  eval[npts * 5] = sqrt_15*bf*z*(x*x - y*y)/2;
-  eval[npts * 6] = sqrt_10*bf*x*(x*x - 3*y*y)/4;
-
-}
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_3_deriv1(
-  const int32_t   npts,
-  const T         bf,
-  const T         bf_x,
-  const T         bf_y,
-  const T         bf_z,
-  const T         x,
-  const T         y,
-  const T         z,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-  eval_x[npts * 0] = sqrt_10*y*(6*bf*x + bf_x*(3*x*x - y*y))/4;
-  eval_x[npts * 1] = sqrt_15*y*z*(bf + bf_x*x);
-  eval_x[npts * 2] = -sqrt_6*y*(2*bf*x + bf_x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 3] = -z*(6*bf*x + bf_x*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_x[npts * 4] = -sqrt_6*(bf*(3*x*x + y*y - 4*z*z) + bf_x*x*(x*x + y*y - 4*z*z))/4;
-  eval_x[npts * 5] = sqrt_15*z*(2*bf*x + bf_x*(x*x - y*y))/2;
-  eval_x[npts * 6] = sqrt_10*(3*bf*(x*x - y*y) + bf_x*x*(x*x - 3*y*y))/4;
-
-  eval_y[npts * 0] = sqrt_10*(-3*bf*(-x*x + y*y) + bf_y*y*(3*x*x - y*y))/4;
-  eval_y[npts * 1] = sqrt_15*x*z*(bf + bf_y*y);
-  eval_y[npts * 2] = -sqrt_6*(bf*(x*x + 3*y*y - 4*z*z) + bf_y*y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 3] = -z*(6*bf*y + bf_y*(3*x*x + 3*y*y - 2*z*z))/2;
-  eval_y[npts * 4] = -sqrt_6*x*(2*bf*y + bf_y*(x*x + y*y - 4*z*z))/4;
-  eval_y[npts * 5] = sqrt_15*z*(-2*bf*y + bf_y*(x*x - y*y))/2;
-  eval_y[npts * 6] = sqrt_10*x*(-6*bf*y + bf_y*(x*x - 3*y*y))/4;
-
-  eval_z[npts * 0] = sqrt_10*bf_z*y*(3*x*x - y*y)/4;
-  eval_z[npts * 1] = sqrt_15*x*y*(bf + bf_z*z);
-  eval_z[npts * 2] = sqrt_6*y*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 3] = -3*bf*(x*x + y*y - 2*z*z)/2 - bf_z*z*(3*x*x + 3*y*y - 2*z*z)/2;
-  eval_z[npts * 4] = sqrt_6*x*(8*bf*z - bf_z*(x*x + y*y - 4*z*z))/4;
-  eval_z[npts * 5] = sqrt_15*(bf + bf_z*z)*(x*x - y*y)/2;
-  eval_z[npts * 6] = sqrt_10*bf_z*x*(x*x - 3*y*y)/4;
-
-}
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular(
-  const int32_t   npts,
-  const int32_t    l,
-  const T          bf,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__  eval
-) {
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular
-
-
-template <typename T>
-GPGAUEVAL_INLINE __device__ void collocation_spherical_unnorm_angular_deriv1(
-  const int32_t    npts,
-  const int32_t    l,
-  const T          bf,
-  const T          bf_x,
-  const T          bf_y,
-  const T          bf_z,
-  const T          x,
-  const T          y,
-  const T          z,
-  T* __restrict__ eval,
-  T* __restrict__ eval_x,
-  T* __restrict__ eval_y,
-  T* __restrict__ eval_z
-) {
-
-
-      if( l == 0 ) {
-  
-        collocation_spherical_unnorm_angular_0( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_0_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 1 ) {
-  
-        collocation_spherical_unnorm_angular_1( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_1_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 2 ) {
-  
-        collocation_spherical_unnorm_angular_2( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_2_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-      } else if( l == 3 ) {
-  
-        collocation_spherical_unnorm_angular_3( npts, bf, x, y, z, eval );
-        collocation_spherical_unnorm_angular_3_deriv1( npts, bf, bf_x, bf_y, bf_z, x, y, z, eval_x, eval_y, eval_z );
-
-    } else {
-      assert( false && "L < L_MAX" );
-    }
-
-} // collocation_spherical_unnorm_angular_deriv1
-
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_device_constants.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_device_constants.hpp
deleted file mode 100644
index ae8c43e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_device_constants.hpp
+++ /dev/null
@@ -1,21 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-
-  constexpr double sqrt_15 = 3.872983346207417;
-  constexpr double sqrt_3 = 1.7320508075688772;
-  constexpr double sqrt_6 = 2.449489742783178;
-  constexpr double sqrt_10 = 3.1622776601683795;
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_spherical_unnorm.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_spherical_unnorm.hpp
deleted file mode 100644
index 102fb8b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation/collocation_spherical_unnorm.hpp
+++ /dev/null
@@ -1,12 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_device.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_device.hip
deleted file mode 100644
index 4af37bb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_device.hip
+++ /dev/null
@@ -1,218 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/hip_util.hpp"
-#include "exceptions/hip_exception.hpp"
-#include <gauxc/xc_task.hpp>
-
-#include "device/common/collocation_device.hpp"
-#include "device/hip/kernels/collocation_masked_kernels.hpp"
-#include "device/hip/kernels/collocation_masked_combined_kernels.hpp"
-//#include "device/hip/kernels/collocation_shell_to_task_kernels.hpp"
-
-#include "device_specific/hip_device_constants.hpp"
-
-namespace GauXC {
-
- 
-template <typename T>
-void eval_collocation_masked(
-  size_t            nshells,
-  size_t            nbf,
-  size_t            npts,
-  const Shell<T>*   shells_device,
-  const size_t*     mask_device,
-  const size_t*     offs_device,
-  const T*          pts_device,
-  T*                eval_device,
-  device_queue queue
-) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-
-  auto nmax_threads = util::hip_kernel_max_threads_per_block( 
-    collocation_device_masked_kernel<T>
-  );
-  auto max_warps_per_thread_block = nmax_threads / hip::warp_size;
-
-  dim3 threads(hip::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_kernel<T>), dim3(blocks), dim3(threads), 0, stream,  nshells, nbf, npts, shells_device, mask_device,
-      offs_device, pts_device, eval_device );
-
-}
- 
-template             
-void eval_collocation_masked(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  device_queue    queue
-);
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<T>*         shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue
-) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-
-  auto nmax_threads = util::hip_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel<T>
-  );
-
-  auto max_warps_per_thread_block = nmax_threads / hip::warp_size;
-  dim3 threads(hip::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_combined_kernel<T>), dim3(blocks), dim3(threads), 0, stream,  ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined(
-  size_t            ntasks,
-  size_t            npts_max,
-  size_t            nshells_max,
-  Shell<double>*    shells_device,
-  XCDeviceTask*     device_tasks,
-  device_queue queue
-);
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_deriv1(
-  size_t          nshells,
-  size_t          nbf,
-  size_t          npts,
-  const Shell<T>* shells_device,
-  const size_t*   mask_device,
-  const size_t*   offs_device,
-  const T*        pts_device,
-  T*              eval_device,
-  T*              deval_device_x,
-  T*              deval_device_y,
-  T*              deval_device_z,
-  device_queue queue
-) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-
-  auto nmax_threads = util::hip_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel<T>
-  );
-
-  auto max_warps_per_thread_block = nmax_threads / hip::warp_size;
-  dim3 threads(hip::warp_size, max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( npts,    threads.x ),
-               util::div_ceil( nshells, threads.y ) );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_kernel_deriv1<T>), dim3(blocks), dim3(threads), 0, stream,  nshells, nbf, npts, shells_device, mask_device, offs_device,
-      pts_device, eval_device, deval_device_x, deval_device_y,
-      deval_device_z );
-
-}
-
-template
-void eval_collocation_masked_deriv1(
-  size_t               nshells,
-  size_t               nbf,
-  size_t               npts,
-  const Shell<double>* shells_device,
-  const size_t*        mask_device,
-  const size_t*        offs_device,
-  const double*        pts_device,
-  double*              eval_device,
-  double*              deval_device_x,
-  double*              deval_device_y,
-  double*              deval_device_z,
-  device_queue    queue
-);
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void eval_collocation_masked_combined_deriv1(
-  size_t        ntasks,
-  size_t        npts_max,
-  size_t        nshells_max,
-  Shell<T>*     shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue
-) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-
-  auto nmax_threads = util::hip_kernel_max_threads_per_block( 
-    collocation_device_masked_combined_kernel_deriv1<T>
-  );
-
-  dim3 threads(hip::warp_size, nmax_threads/hip::warp_size, 1);
-  dim3 blocks( util::div_ceil( npts_max,    threads.x ),
-               util::div_ceil( nshells_max, threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(HIP_KERNEL_NAME(collocation_device_masked_combined_kernel_deriv1<T>), dim3(blocks), dim3(threads), 0, stream,  ntasks, shells_device, device_tasks );
-     
-}
-
-template
-void eval_collocation_masked_combined_deriv1(
-  size_t                ntasks,
-  size_t                npts_max,
-  size_t                nshells_max,
-  Shell<double>*        shells_device,
-  XCDeviceTask* device_tasks,
-  device_queue queue
-);
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_masked_combined_kernels.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_masked_combined_kernels.hpp
deleted file mode 100644
index fa24862..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_masked_combined_kernels.hpp
+++ /dev/null
@@ -1,202 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/hip/kernels/collocation/collocation_angular_cartesian.hpp"
-#include "device/hip/kernels/collocation/collocation_angular_spherical_unnorm.hpp"
-//#include "device/hip/kernels/hip_alg_variant_control.hpp"
-#include "device/xc_device_task.hpp"
-
-namespace GauXC {
-
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel(
-  size_t                     ntasks,
-  Shell<T>*     __restrict__ shells_device,
-  XCDeviceTask* __restrict__ device_tasks
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.bfn_screening.nshells;
-    const auto               nbf         = task.bfn_screening.nbe;
-    const auto               npts        = task.npts;
-    //const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ pts_x_device  = task.points_x;
-    const auto* __restrict__ pts_y_device  = task.points_y;
-    const auto* __restrict__ pts_z_device  = task.points_z;
-    const auto* __restrict__ mask_device = task.bfn_screening.shell_list;
-    const auto* __restrict__ offs_device = task.bfn_screening.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const uint32_t ipt = tid_x;
-    const uint32_t ish = tid_y;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    //const auto* pt    = pts_device + 3*ipt;
-    const auto pt_x    = pts_x_device[ipt];
-    const auto pt_y    = pts_y_device[ipt];
-    const auto pt_z    = pts_z_device[ipt];
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt_x - O[0];
-    const auto yc = pt_y - O[1];
-    const auto zc = pt_z - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( uint32_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  } // shell / point idx check
-
-  } // Batch idx check
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_combined_kernel_deriv1(
-  size_t                     ntasks,
-  Shell<T>*     __restrict__ shells_device,
-  XCDeviceTask* __restrict__ device_tasks
-) {
-
-  // DBWY: These are factored into the loop for this optimization
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( blockIdx.z < ntasks ) {
-
-    auto& task = device_tasks[ blockIdx.z ];
-  
-    const auto               nshells     = task.bfn_screening.nshells;
-    const auto               nbf         = task.bfn_screening.nbe;
-    const auto               npts        = task.npts;
-    //const auto* __restrict__ pts_device  = task.points;
-    const auto* __restrict__ pts_x_device  = task.points_x;
-    const auto* __restrict__ pts_y_device  = task.points_y;
-    const auto* __restrict__ pts_z_device  = task.points_z;
-    const auto* __restrict__ mask_device = task.bfn_screening.shell_list;
-    const auto* __restrict__ offs_device = task.bfn_screening.shell_offs;
-
-    auto* __restrict__ eval_device    = task.bf;
-    auto* __restrict__ deval_device_x = task.dbfx;
-    auto* __restrict__ deval_device_y = task.dbfy;
-    auto* __restrict__ deval_device_z = task.dbfz;
-
-  if( tid_y < nshells and tid_x < npts ) {
-
-    const uint32_t ish = tid_y;
-    const uint32_t ipt = tid_x;
-    const uint32_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-
-    //const auto* pt    = pts_device + 3*ipt;
-    const auto pt_x    = pts_x_device[ipt];
-    const auto pt_y    = pts_y_device[ipt];
-    const auto pt_z    = pts_z_device[ipt];
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt_x - O[0];
-    const auto yc = pt_y - O[1];
-    const auto zc = pt_z - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const uint32_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( uint32_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, 
-                                               tmp_z, xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  } // shell / point idx check
-  } // Batch idx check
-
-
-}
-
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_masked_kernels.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_masked_kernels.hpp
deleted file mode 100644
index cf14c26..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/collocation_masked_kernels.hpp
+++ /dev/null
@@ -1,163 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include <iostream>
-#include <cassert>
-
-#include <gauxc/shell.hpp>
-
-#include "device/hip/kernels/collocation/collocation_angular_cartesian.hpp"
-#include "device/hip/kernels/collocation/collocation_angular_spherical_unnorm.hpp"
-
-namespace GauXC      {
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    for( size_t i = 0; i < nprim; ++i )
-      tmp += coeff[i] * std::exp( - alpha[i] * rsq );
-
-    auto * bf_eval = eval_device + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph )
-      collocation_spherical_unnorm_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-    else
-      collocation_cartesian_angular( npts, shell.l(), tmp, xc, yc, zc, bf_eval );
-
-  }
-
-}
-
-
-
-
-
-
-
-
-template <typename T>
-__global__
-void collocation_device_masked_kernel_deriv1(
-  size_t                       nshells,
-  size_t                       nbf,
-  size_t                       npts,
-  const Shell<T>* __restrict__ shells_device,
-  const size_t*   __restrict__ mask_device,
-  const size_t*   __restrict__ offs_device,
-  const T*        __restrict__ pts_device,
-  T*              __restrict__ eval_device,
-  T*              __restrict__ deval_device_x,
-  T*              __restrict__ deval_device_y,
-  T*              __restrict__ deval_device_z
-) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nshells ) {
-
-    const size_t ipt = tid_x;
-    const size_t ish = tid_y;
-
-    const size_t ibf = offs_device[ish];
-
-    const auto& shell = shells_device[mask_device[ish]];
-    const auto* pt    = pts_device + 3*ipt;
-  
-
-    const auto* __restrict__ O     = shell.O_data();
-    const auto* __restrict__ alpha = shell.alpha_data();
-    const auto* __restrict__ coeff = shell.coeff_data();
-
-    const auto xc = pt[0] - O[0];
-    const auto yc = pt[1] - O[1];
-    const auto zc = pt[2] - O[2];
-  
-    const auto rsq = xc*xc + yc*yc + zc*zc;
-  
-    const size_t nprim = shell.nprim(); 
-    auto tmp = 0.;
-    auto tmp_x = 0., tmp_y = 0., tmp_z = 0.;
-    for( size_t i = 0; i < nprim; ++i ) {
-
-      const auto a = alpha[i];
-      const auto e = coeff[i] * std::exp( - a * rsq );
-
-      const auto ae = 2. * a * e;
-
-      tmp   += e;
-      tmp_x -= ae * xc;
-      tmp_y -= ae * yc;
-      tmp_z -= ae * zc;
-
-    }
-
-    auto * bf_eval = eval_device    + ibf*npts + ipt;
-    auto * dx_eval = deval_device_x + ibf*npts + ipt;
-    auto * dy_eval = deval_device_y + ibf*npts + ipt;
-    auto * dz_eval = deval_device_z + ibf*npts + ipt;
-
-    const bool do_sph = shell.pure();
-    if( do_sph ) 
-      collocation_spherical_unnorm_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                               xc, yc, zc, bf_eval, dx_eval, 
-                                               dy_eval, dz_eval );
-    else
-      collocation_cartesian_angular_deriv1( npts, shell.l(), tmp, tmp_x, tmp_y, tmp_z, 
-                                        xc, yc, zc, bf_eval, dx_eval, 
-                                        dy_eval, dz_eval );
-
-  }
-
-
-}
-
-} // namespace GauXC
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/grid_to_center.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/grid_to_center.hip
deleted file mode 100644
index f830596..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/grid_to_center.hip
+++ /dev/null
@@ -1,65 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include <gauxc/util/div_ceil.hpp>
-#include "grid_to_center.hpp"
-#include "device_specific/hip_device_constants.hpp"
-#include "exceptions/hip_exception.hpp"
-
-namespace GauXC {
-
-__global__ void compute_grid_to_center_dist(
-        int32_t npts,
-        int32_t natoms,
-  const double* coords,
-  const double* points_x,
-  const double* points_y,
-  const double* points_z,
-        double* dist,
-        size_t lddist
-) {
-
-  const auto tid_x = threadIdx.x + blockIdx.x*blockDim.x;
-  const auto tid_y = threadIdx.y + blockIdx.y*blockDim.y;
-
-  if( tid_x < natoms && tid_y < npts ) {
-    const double3* coords_vec = (double3*) coords;
-    const auto RA = coords_vec[tid_x];
-
-    const double rix = points_x[tid_y];
-    const double riy = points_y[tid_y];
-    const double riz = points_z[tid_y];
-
-    const auto rx = RA.x - rix;
-    const auto ry = RA.y - riy;
-    const auto rz = RA.z - riz;
-
-    dist[ tid_x + tid_y * lddist ] = std::sqrt(rx*rx + ry*ry + rz*rz);
-  }
-
-}
-
-void compute_grid_to_center_dist( int32_t npts, int32_t natoms,
-  const double* coords, const double* points_x,  const double* points_y, 
-  const double* points_z, double* dist, int32_t lddist, hipStream_t stream ) {
-
-
-  dim3 threads( hip::warp_size, hip::max_warps_per_thread_block );
-  dim3 blocks( util::div_ceil( natoms, threads.x ),
-               util::div_ceil( npts, threads.y ) );
-
-  hipLaunchKernelGGL( compute_grid_to_center_dist, blocks, threads, 0, stream,
-    npts, natoms, coords, points_x, points_y, points_z, dist, lddist );
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/grid_to_center.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/grid_to_center.hpp
deleted file mode 100644
index efbb9ad..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/grid_to_center.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-
-void compute_grid_to_center_dist( int32_t npts, int32_t natoms,
-  const double* coords, const double* points_x,  const double* points_y, 
-  const double* points_z, double* dist, int32_t lddist, hipStream_t stream );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_extensions.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_extensions.hpp
deleted file mode 100644
index 2d3e537..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_extensions.hpp
+++ /dev/null
@@ -1,52 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "hip/hip_runtime.h"
-#include <hipcub/hipcub.hpp>
-#include "device_specific/hip_device_constants.hpp"
-
-namespace GauXC {
-namespace hip   {
-
-template <size_t warp_sz, typename T>
-__device__ T warp_reduce_sum( T val ) { 
-
-  using warp_reducer = hipcub::WarpReduce<double>;
-  static __shared__ typename warp_reducer::TempStorage 
-    temp_storage[hip::max_warps_per_thread_block];
-  int tid = 
-    threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;
-
-  int warp_lane = tid / warp_size;
-
-  return warp_reducer( temp_storage[warp_lane] ).Sum( val );
-
-}
-
-template <size_t warp_sz, typename T>
-__device__ T warp_reduce_prod( T val ) { 
-
-  using warp_reducer = hipcub::WarpReduce<double>;
-  static __shared__ typename warp_reducer::TempStorage 
-    temp_storage[hip::max_warps_per_thread_block];
-  int tid = 
-    threadIdx.x + threadIdx.y * blockDim.x + threadIdx.z * blockDim.x * blockDim.y;
-
-  int warp_lane = tid / warp_size;
-
-  return warp_reducer( temp_storage[warp_lane] ).Reduce( val,
-    [](const T& a, const T& b){ return a * b; } );
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_inc_potential.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_inc_potential.hip
deleted file mode 100644
index 1e9044a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_inc_potential.hip
+++ /dev/null
@@ -1,88 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device_specific/hip_device_constants.hpp"
-#include "device/common/inc_potential.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/hip_util.hpp"
-
-
-namespace GauXC {
-
-template <typename T>
-__global__ void inc_by_submat_combined_kernel( size_t           ntasks,
-                                               XCDeviceTask* device_tasks,
-                                               T*               A,
-                                               size_t           LDA ) {
-
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-  auto& task = device_tasks[ batch_id ];
-
-  const auto  ncut              = task.bfn_screening.ncut;
-  const auto* submat_cut_device = task.bfn_screening.submat_cut;
-  const auto  LDAS              = task.bfn_screening.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-
-  const int tid_x = blockDim.x * blockIdx.x + threadIdx.x;
-  const int tid_y = blockDim.y * blockIdx.y + threadIdx.y;
-
-  int64_t i(0);
-  for( size_t i_cut = 0; i_cut < ncut; ++i_cut ) {
-    const int64_t i_cut_first  = submat_cut_device[ 3*i_cut ];
-    const int64_t delta_i      = submat_cut_device[ 3*i_cut + 1 ];
-
-    int64_t j(0);
-  for( size_t j_cut = 0; j_cut < ncut; ++j_cut ) {
-    const int64_t j_cut_first  = submat_cut_device[ 3*j_cut ];
-    const int64_t delta_j      = submat_cut_device[ 3*j_cut + 1 ];
-
-    auto* ASmall_begin = ASmall_device + i           + j          *LDAS;
-    auto* ABig_begin   = A             + i_cut_first + j_cut_first*LDA ;
-
-    for( size_t J = tid_y; J < delta_j; J += blockDim.y )      
-    for( size_t I = tid_x; I < delta_i; I += blockDim.x )
-      //ABig_begin[I + J*LDA] += ASmall_begin[I + J*LDAS];
-      atomicAdd( ABig_begin + I + J*LDA, ASmall_begin[I+J*LDAS] );
-
-    j += delta_j;
-  }
-    i += delta_i;
-  }
-
-  } // batch_id check
-}
-
-void sym_task_inc_potential( size_t        ntasks,
-                         XCDeviceTask* device_tasks,
-                         double*       V_device,
-                         size_t        LDV,
-                         size_t        submat_block_size,
-                         device_queue queue ) {
-
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-  dim3 threads(hip::warp_size,hip::max_warps_per_thread_block,1), 
-       blocks(1,1,ntasks);
-  hipLaunchKernelGGL(inc_by_submat_combined_kernel, blocks, threads, 0, stream , 
-    ntasks, device_tasks, V_device, LDV
-  );
-
-}
-
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssf_1d.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssf_1d.hip
deleted file mode 100644
index 4c6d587..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssf_1d.hip
+++ /dev/null
@@ -1,147 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include "hip_ssf_1d.hpp"
-#include "device_specific/hip_device_constants.hpp"
-#include "common/integrator_constants.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include <numeric>
-#include <iostream>
-#include "exceptions/hip_exception.hpp"
-
-static constexpr auto eps_d = std::numeric_limits<double>::epsilon();
-
-namespace GauXC {
-
-
-// SIMT over points: 1D kernel
-__global__ void modify_weights_ssf_kernel_1d(
-        size_t                            npts,
-        size_t                            natoms,
-  const double*                           RAB,
-        size_t                            ldRAB,
-  const double*                           coords,
-  const double*                           dist_scratch,
-        size_t                            lddist,
-  const int32_t*                          iparent_device,
-  const double*                           dist_nearest_device,
-        double*                           weights_device
-) {
-
-  // Frisch partition functions
-  auto gFrisch = [](double x) {
-
-    const double s_x  = x / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  
-  auto sFrisch = [&] (double x) {
-    if( fabs(x) < integrator::magic_ssf_factor<> ) return 0.5 * (1. - gFrisch(x));
-    else if( x >= integrator::magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-  };
-
-  constexpr double weight_tol = 1e-10;
-
-  const int tid_x = threadIdx.x + blockIdx.x * blockDim.x;
-  const int nt_x  = blockDim.x  * gridDim.x;
-
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-
-    const auto iParent = iparent_device[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist_scratch + ipt * lddist;
-    const double dist_cutoff = 0.5 * (1 - integrator::magic_ssf_factor<> ) * 
-      dist_nearest_device[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * ldRAB;
-
-      parent_weight = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( parent_weight > weight_tol ) {
-      if( iParent != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-        parent_weight *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += parent_weight;
-
-    }
-
-    if( parent_weight < eps_d ) {
-      weights_device[ipt] = 0.;
-      continue;
-    }
-
-    for( int iCenter = 0; iCenter < natoms; iCenter++ ) 
-    if( iParent != iCenter ) {
-
-      const double ri = local_dist_scratch[ iCenter ];
-
-      const double* const local_rab = RAB + iCenter * natoms;
-
-      double ps = 1.;
-      for( int jCenter = 0; jCenter < natoms; jCenter++ ) 
-      if( ps > weight_tol ) {
-      if( iCenter != jCenter ) {
-      
-        const double rj = local_dist_scratch[ jCenter ];
-
-        const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-        ps *= sFrisch( mu );
-
-      }
-      } else break;
-
-      //__syncwarp();
-      sum += ps;
-
-    }
-    weights_device[ipt] *= parent_weight / sum;
-  }
-
-}
-
-void partition_weights_ssf_1d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, double* weights,
-  hipStream_t stream ) {
-
-  dim3 threads( hip::max_threads_per_thread_block );
-  dim3 blocks ( util::div_ceil( npts, threads.x ) );
-  hipLaunchKernelGGL(modify_weights_ssf_kernel_1d, dim3(blocks), dim3(threads), 0, stream, 
-    npts, natoms, RAB, ldRAB, coords, dist, lddist, iparent, dist_nearest, weights
-  );
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssf_1d.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssf_1d.hpp
deleted file mode 100644
index 66e91b8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssf_1d.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-namespace GauXC {
-
-void partition_weights_ssf_1d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, double* weights,
-  hipStream_t stream);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssh_2d.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssh_2d.hip
deleted file mode 100644
index 385e016..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssh_2d.hip
+++ /dev/null
@@ -1,218 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include "hip_extensions.hpp"
-#include "device_specific/hip_device_constants.hpp"
-#include "device/hip/hip_aos_scheme1.hpp"
-#include "common/integrator_constants.hpp"
-#include <numeric>
-
-inline constexpr static auto eps_d = std::numeric_limits<double>::epsilon();
-
-namespace GauXC {
-
-__device__ __inline__ double gFrisch(double x) {
-  // Frisch partition functions
-//  const double s_x  = x / integrator::magic_ssf_factor<>;
-  const double s_x  = x * 1.5625;
-  const double s_x2 = s_x  * s_x;
-  const double s_x3 = s_x  * s_x2;
-  const double s_x5 = s_x3 * s_x2;
-  const double s_x7 = s_x5 * s_x2;
-
-  return ((35.) *(s_x - s_x3) + (21.) *s_x5 - (5.) *s_x7);
-}
-
-
-__device__ __inline__ double sFrisch(double x) {
-    //double frisch_val = (0.5 - (0.5/ 16.0) * gFrisch(x));
-
-    if( fabs(x) < integrator::magic_ssf_factor<> ) return (0.5 - (0.5/ 16.0) * gFrisch(x));
-    else if( x >= integrator::magic_ssf_factor<> ) return 0.;
-    else                               return 1.;
-}
-
-template <uint32_t weight_unroll,             // Unrolling factor
-          uint32_t weight_thread_block,       // Number of threads / thread block
-          uint32_t weight_thread_block_per_sm // Thread blocks / SM
-          >
-__global__ __launch_bounds__(weight_thread_block, weight_thread_block_per_sm)
-void modify_weights_ssf_kernel_2d( int32_t npts, int32_t natoms, 
-  const double* RAB, size_t ldRAB, const double* coords, const double* dist,
-  size_t lddist, const int32_t* iparent, const double* dist_nearest,
-  double* weights ) {
-
-  constexpr uint32_t warps_per_thread_block = weight_thread_block / hip::warp_size;
-  static_assert( weight_unroll == 4 );
-
-  constexpr double weight_tol = 1e-10;
-  int natom_block = ((natoms + blockDim.x - 1) / blockDim.x) * blockDim.x;
-
-  const int tid_x = threadIdx.y + blockIdx.y * blockDim.y;
-  const int nt_x  = blockDim.y  * gridDim.y;
-
-
-  __shared__ int jCounter_sm[hip::max_warps_per_thread_block];
-  int* jCounter = reinterpret_cast<int *>(jCounter_sm) + threadIdx.y;
-
-  // Each warp will work together on a point
-  for( int ipt = tid_x; ipt < npts; ipt += nt_x ) {
-  #if 1
-
-    const auto iParent = iparent[ipt];
-
-    double sum = 0.; 
-    double parent_weight = 0.;
-
-    const double* const local_dist_scratch = dist + ipt * lddist;
-    const double dist_cutoff = 0.5 * (1 - integrator::magic_ssf_factor<> ) * 
-      dist_nearest[ipt];
-    if( local_dist_scratch[iParent] < dist_cutoff ) continue;
-
-    // Do iParent First
-    {
-
-      const double ri = local_dist_scratch[ iParent ];
-      const double* const local_rab = RAB + iParent * ldRAB;
-
-      parent_weight = 1.;
-      for( int jCenter = threadIdx.x; jCenter < natom_block; jCenter+=blockDim.x ) {
-        double contribution = 1.0;
-        if (jCenter < natoms && iParent != jCenter) {
-          const double rj = local_dist_scratch[ jCenter ];
-          const double mu = (ri - rj) * local_rab[ jCenter ]; // XXX: RAB is symmetric
-          contribution = sFrisch( mu );
-        }
-        contribution = hip::warp_reduce_prod<hip::warp_size>(contribution);
-
-        parent_weight *= contribution;
-
-        if (parent_weight < weight_tol) break;
-      }
-    }
-
-    if( parent_weight < eps_d ) {
-      if (threadIdx.x == 0)
-        weights[ipt] = 0.;
-      continue;
-    }
-
-    // Initialize each counter to 0
-    if (threadIdx.x == 0) {
-      jCounter[0] = 0;
-    }
-
-    // Each thread will process an iCenter. Atomic operations are used to assign
-    // an iCenter value to each thread.
-    int iCenter = atomicAdd(jCounter, 1);
-    if (iCenter >= iParent) iCenter++; // iCenter == iParent is skipped
-
-    // The entire warp processes the same jCenter value at the same time
-    int jCenter = 0;
-
-    const double* local_rab = RAB + iCenter * ldRAB;
-    double ri = local_dist_scratch[ iCenter ];
-    double ps = 1.;
-    int iCount = 0; 
-    int cont = (iCenter < natoms);
-
-    // We will continue iterating until all of the threads have cont set to 0
-    while (__any(cont)) {
-      if (cont) {
-        double2 rj[weight_unroll/2];
-        double2 rab_val[weight_unroll/2];
-        double mu[weight_unroll];
-        iCount += weight_unroll;
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          rj[k]      = *((double2*)(local_dist_scratch + jCenter) + k);
-          rab_val[k] = *((double2*)(local_rab          + jCenter) + k); 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll/2; k++) {
-          mu[2*k+0] = (ri - rj[k].x) * rab_val[k].x; // XXX: RAB is symmetric
-          mu[2*k+1] = (ri - rj[k].y) * rab_val[k].y; 
-        }
-
-        #pragma unroll
-        for (int k = 0; k < weight_unroll; k++) {
-          if((iCenter != jCenter + k) && (jCenter + k < natoms)) {
-            mu[k] = sFrisch( mu[k] );
-            ps *= mu[k];
-          }
-        }
-
-        // A thread is done with a iCenter based on 2 conditions. Weight tolerance
-        // Or if it has seen all of the jCenters
-        if( !(ps > weight_tol && iCount < lddist )) {
-          // In the case were the thread is done, it begins processing another iCenter
-          sum += ps;
-          iCenter = atomicAdd(jCounter, 1);
-          if (iCenter >= iParent) iCenter++;
-
-          // If there are no more iCenters left to process, it signals it is ready to exit
-          cont = (iCenter < natoms);
-          ri = local_dist_scratch[ iCenter ];
-          local_rab = RAB + iCenter * ldRAB;
-          ps = 1.;
-          iCount = 0;
-        }
-      }
-      // Wraps jCenter around. This was faster than modulo
-      jCenter += weight_unroll;
-      jCenter = (jCenter < ldRAB) ? jCenter : 0;
-    }
-
-    // All of the threads then sum their contributions. Only thread 0 needs to add the parent
-    // contribution.
-    sum = hip::warp_reduce_sum<hip::warp_size>(sum);
-    if (threadIdx.x == 0) {
-      sum += parent_weight;
-      weights[ipt] *= parent_weight / sum;
-    }
-
-#endif
-  }
-
-}
-
-void partition_weights_ssf_2d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, double* weights,
-  hipStream_t stream ) {
-
-  constexpr auto weight_unroll =
-    alg_constants::HipAoSScheme1::weight_unroll;
-  constexpr auto weight_thread_block =
-    alg_constants::HipAoSScheme1::weight_thread_block;
-  constexpr auto weight_thread_block_per_sm =
-    alg_constants::HipAoSScheme1::weight_thread_block_per_sm;
-
-  // Get the number of CUs on the device
-  int num_sm;
-  int dev_id = 0;
-  hipDeviceGetAttribute(&num_sm, hipDeviceAttributeMultiprocessorCount, dev_id);
-
-  // Modify weights
-  dim3 threads( hip::warp_size, weight_thread_block / hip::warp_size );
-  dim3 blocks ( 1, num_sm * weight_thread_block_per_sm );
-  modify_weights_ssf_kernel_2d
-    <weight_unroll, weight_thread_block, weight_thread_block_per_sm>
-    <<< blocks, threads, 0, stream >>> (
-   npts, natoms, RAB, ldRAB, coords, dist, lddist, iparent, dist_nearest, weights);
-
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssh_2d.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssh_2d.hpp
deleted file mode 100644
index 788f94d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hip_ssh_2d.hpp
+++ /dev/null
@@ -1,20 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-namespace GauXC {
-
-void partition_weights_ssf_2d( int32_t npts, int32_t natoms, const double* RAB,
-  int32_t ldRAB, const double* coords, const double* dist, int32_t lddist,
-  const int32_t* iparent, const double* dist_nearest, double* weights,
-  hipStream_t stream);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hipblas_extensions.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hipblas_extensions.hip
deleted file mode 100644
index 8848ed3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/hipblas_extensions.hip
+++ /dev/null
@@ -1,190 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include <gauxc/util/div_ceil.hpp>
-#include "exceptions/hipblas_exception.hpp"
-
-#include "device_specific/hip_device_constants.hpp"
-#include "device_specific/hipblas_util.hpp"
-#include "device/common/device_blas.hpp"
-
-namespace GauXC {
-
-hipblasOperation_t device_op_to_hipblas( DeviceBlasOp op ) {
-  switch( op ) {
-    case DeviceBlasOp::NoTrans: return HIPBLAS_OP_N;
-    case DeviceBlasOp::Trans:   return HIPBLAS_OP_T;
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unsupported DeviceBlasOp");
-      return HIPBLAS_OP_N;
-  }
-}
-
-hipblasFillMode_t device_uplo_to_hipblas( DeviceBlasUplo uplo ) {
-  switch(uplo) {
-    case DeviceBlasUplo::Upper: return HIPBLAS_FILL_MODE_UPPER;
-    case DeviceBlasUplo::Lower: return HIPBLAS_FILL_MODE_LOWER;
-    default:
-      GAUXC_GENERIC_EXCEPTION("Unsupported DeviceBlasUplo");
-      return HIPBLAS_FILL_MODE_LOWER;
-  }
-}
-
-template <typename T>
-__global__ void increment_kernel( const T* X, T* Y ) {
-  const auto tid = blockIdx.x;
-  if( tid < 1 ) (*Y) += (*X);
-}
-
-template <typename T>
-void increment( const T* X, T* Y, hipStream_t stream ) {
-  hipLaunchKernelGGL(increment_kernel, dim3(1), dim3(1), 0, stream, X,Y);
-}
-
-template <>
-void dot( device_blas_handle generic_handle,
-          int            N,
-          const double*  X,
-          int            INCX,
-          const double*  Y,
-          int            INCY,
-          double*        RES ) {
-
-  hipblasHandle_t handle = generic_handle.blas_handle_as<util::hipblas_handle>();
-
-  auto stat = hipblasDdot( handle, N, X, INCX, Y, INCY, RES );
-  GAUXC_HIPBLAS_ERROR("HIPBLAS DDOT FAILED", stat );
-
-}
-
-template <typename T>
-void gdot( device_blas_handle generic_handle,
-           int       N,
-           const T*  X,
-           int       INCX,
-           const T*  Y,
-           int       INCY,
-           T*        SCR,
-           T*        RES ) {
-
-
-  dot( generic_handle, N, X, INCX, Y, INCY, SCR );
-  hipblasHandle_t handle = generic_handle.blas_handle_as<util::hipblas_handle>();
-  auto stream = util::get_stream(handle);
-  increment( SCR, RES, stream );
-
-}
-
-template 
-void gdot( device_blas_handle generic_handle,
-           int            N,
-           const double*  X,
-           int            INCX,
-           const double*  Y,
-           int            INCY,
-           double*        SCR,
-           double*        RES );
-
-
-
-
-
-
-
-
-
-
-template <typename T>
-void __global__ hadamard_product_kernel( int      M,
-                                         int      N,
-                                         const T* A,
-                                         int      LDA,
-                                         T*       B,
-                                         int      LDB ) {
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < M and tid_y < N ) {
-    B[ tid_x + tid_y*LDB ] *= A[ tid_x + tid_y*LDA ];
-  }
-
-}
-
-
-
-template <typename T>
-void hadamard_product( device_blas_handle generic_handle,
-                       int            M,
-                       int            N,
-                       const T*       A,
-                       int            LDA,
-                       T*             B,
-                       int            LDB ) {
-
-
-  hipblasHandle_t handle = generic_handle.blas_handle_as<util::hipblas_handle>();
-  auto stream = util::get_stream(handle);
-  dim3 threads(hip::warp_size, hip::max_warps_per_thread_block);
-  dim3 blocks( util::div_ceil( M, threads.x ),
-               util::div_ceil( N, threads.y ) );
-
-  hipLaunchKernelGGL(hadamard_product_kernel, dim3(blocks), dim3(threads), 0, stream ,  M, N, A, LDA, B, LDB );
-
-}
- 
-template 
-void hadamard_product( device_blas_handle generic_handle,
-                       int            M,
-                       int            N,
-                       const double*  A,
-                       int            LDA,
-                       double*        B,
-                       int            LDB ); 
-
-
-
-
-template <>
-void gemm( device_blas_handle generic_handle, 
-           DeviceBlasOp TA, DeviceBlasOp TB,
-           int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB,
-           double BETA, double* C, int LDC ) {
-
-
-  hipblasHandle_t handle = generic_handle.blas_handle_as<util::hipblas_handle>();
-  auto stat = hipblasDgemm( handle, device_op_to_hipblas(TA), 
-    device_op_to_hipblas(TB), M, N, K, &ALPHA, A, LDA,
-    B, LDB, &BETA, C, LDC );
-  GAUXC_HIPBLAS_ERROR("HIPBLAS DGEMM FAILED", stat);
-
-}
-
-
-template <>
-void syr2k( device_blas_handle generic_handle, 
-            DeviceBlasUplo UPLO, DeviceBlasOp Trans,
-            int M, int K, double ALPHA, 
-            const double* A, int LDA, const double* B, int LDB,
-            double BETA, double* C, int LDC ) {
-
-  hipblasHandle_t handle = generic_handle.blas_handle_as<util::hipblas_handle>();
-  auto stat = hipblasDsyr2k( handle, device_uplo_to_hipblas(UPLO), 
-    device_op_to_hipblas(Trans), M, K, &ALPHA, A, LDA, B, LDB,
-    &BETA, C, LDC );
-  GAUXC_HIPBLAS_ERROR("HIPBLAS DSYR2K FAILED", stat);
-
-}
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/pack_submat.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/pack_submat.hip
deleted file mode 100644
index d415139..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/pack_submat.hip
+++ /dev/null
@@ -1,84 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device_specific/hip_device_constants.hpp"
-#include "device/common/pack_submat.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/hip_util.hpp"
-
-namespace GauXC {
-
-
-template <typename T, bool skip_single_cut = true>
-__global__ __launch_bounds__(1024,1) 
-void submat_set_combined_kernel( size_t           ntasks,
-                                 XCDeviceTask* device_tasks,
-                                 T*               A,
-                                 size_t           LDA ) {
-
-  const int batch_id = blockIdx.z;
-
-  if( batch_id < ntasks ) {
-
-  auto& task = device_tasks[ batch_id ];
-
-  if constexpr (skip_single_cut ) {
-    if( task.bfn_screening.ncut == 1 ) return;
-  }
-
-  const auto  ncut              = task.bfn_screening.ncut;
-  const auto* submat_cut_device = task.bfn_screening.submat_cut;
-  const auto  LDAS              = task.bfn_screening.nbe;
-        auto* ASmall_device     = task.nbe_scr;
-
-  //if( LDAS == LDAB ) return;
-
-
-  const int tid_x = blockDim.x * blockIdx.x + threadIdx.x;
-  const int tid_y = blockDim.y * blockIdx.y + threadIdx.y;
-
-  int64_t i(0);
-  for( size_t i_cut = 0; i_cut < ncut; ++i_cut ) {
-    const int64_t i_cut_first  = submat_cut_device[ 3*i_cut ];
-    const int64_t delta_i      = submat_cut_device[ 3*i_cut + 1 ];
-
-    int64_t j(0);
-  for( size_t j_cut = 0; j_cut < ncut; ++j_cut ) {
-    const int64_t j_cut_first  = submat_cut_device[ 3*j_cut ];
-    const int64_t delta_j      = submat_cut_device[ 3*j_cut + 1 ];
-
-    auto* ASmall_begin = ASmall_device + i           + j          *LDAS;
-    auto* ABig_begin   = A             + i_cut_first + j_cut_first*LDA ;
-
-    for( size_t J = tid_y; J < delta_j; J += blockDim.y )      
-    for( size_t I = tid_x; I < delta_i; I += blockDim.x )
-      ASmall_begin[I + J*LDAS] = ABig_begin[I + J*LDA];
-
-    j += delta_j;
-  }
-    i += delta_i;
-  }
-
-  } // batch_id check
-}
-
-
-void sym_pack_submat( size_t ntasks, XCDeviceTask* device_tasks, const double* A,
-  int32_t LDA, int32_t submat_block_size, device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-  dim3 threads(hip::warp_size,hip::max_warps_per_thread_block,1), blocks(1,1,ntasks);
-  hipLaunchKernelGGL(submat_set_combined_kernel, dim3(blocks), dim3(threads), 0, stream , 
-    ntasks, device_tasks, A, LDA
-  );
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/symmetrize_mat.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/symmetrize_mat.hip
deleted file mode 100644
index c418d0a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/symmetrize_mat.hip
+++ /dev/null
@@ -1,66 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/symmetrize_mat.hpp"
-#include "hip/hip_runtime.h"
-#include "device_specific/hip_util.hpp"
-
-namespace GauXC {
-
-
-__host__ __device__ inline constexpr int div_ceil( int i, int j ){ return (i/j) + !!(i%j); } 
-
-template <int BLOCK_SIZE>
-__global__ void symmetrize_matrix_kernel( int N, double* A, int LDA ) {
-
-  __shared__ double shmem[BLOCK_SIZE][BLOCK_SIZE+1];
-
-  const auto n_block = div_ceil(N, BLOCK_SIZE);
-  for( int i_block = 0;       i_block < n_block; ++i_block )
-  for( int j_block = i_block; j_block < n_block; ++j_block ) { 
-  
-    const int ij_block = (i_block+1) + (j_block+1)*j_block/2 - 1;
-    if( ij_block % gridDim.x != blockIdx.x ) continue;
-
-    const int i_coord = i_block * BLOCK_SIZE;
-    const int j_coord = j_block * BLOCK_SIZE;
-
-    const int ix = i_coord + threadIdx.x;
-    const int iy = i_coord + threadIdx.y;
-    const int jx = j_coord + threadIdx.x;
-    const int jy = j_coord + threadIdx.y;
-
-    if( iy < N and jx < N )
-      shmem[threadIdx.y][threadIdx.x] = A[iy*LDA + jx];
-    __syncthreads();
-
-    if( jy < N and ix < N )
-    if( i_coord != j_coord or threadIdx.x < threadIdx.y ) // Diagonal block
-      A[jy*LDA + ix] = shmem[threadIdx.x][threadIdx.y];
-    __syncthreads();
-
-  }
-
-}
-
-void symmetrize_matrix( int32_t N, double* A, size_t LDA, device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-  constexpr int block_size = 32;
-  const int n_rc_blocks = div_ceil( N, block_size );
-  const size_t n_total_blocks = n_rc_blocks * (n_rc_blocks+1) / 2;
-  dim3 threads(block_size,block_size), blocks(std::min(100ul, n_total_blocks));
-  
-  symmetrize_matrix_kernel<32><<<blocks,threads,0,stream>>>( N, A, LDA );
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/uvvars.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/uvvars.hip
deleted file mode 100644
index 0d8f2d0..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/uvvars.hip
+++ /dev/null
@@ -1,208 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/uvvars.hpp"
-#include "hip_extensions.hpp"
-#include "device_specific/hip_device_constants.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/hip_util.hpp"
-
-namespace GauXC {
-
-
-__global__ void eval_uvars_lda_kernel( size_t           ntasks,
-                                       XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  auto* den_eval_device   = task.den;
-
-  const auto* basis_eval_device = task.bf;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  double den_reg = 0.;
-
-  if( tid_x < nbf and tid_y < npts ) {
-
-    const double* bf_col   = basis_eval_device     + tid_x*npts;
-    const double* db_col   = den_basis_prod_device + tid_x*npts;
-
-    den_reg = bf_col[ tid_y ]   * db_col[ tid_y ];
-
-  }
-
-  // Warp blocks are stored col major
-  den_reg = 2 * hip::warp_reduce_sum<hip::warp_size>( den_reg );
-
-
-  if( threadIdx.x == 0 and tid_y < npts ) {
-    atomicAdd( den_eval_device   + tid_y, den_reg );
-  }
-
-
-}
-
-
-void eval_uvvars_lda( size_t ntasks, int32_t nbf_max, int32_t npts_max,
-  XCDeviceTask* device_tasks, device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-
-  dim3 threads(hip::warp_size, hip::max_warps_per_thread_block, 1);
-  dim3 blocks( util::div_ceil( nbf_max , threads.x ),
-               util::div_ceil( npts_max , threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(eval_uvars_lda_kernel, dim3(blocks), dim3(threads), 0, 
-    stream, ntasks, device_tasks );
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-__global__ void eval_uvars_gga_kernel( size_t           ntasks,
-                                       XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-
-  auto* den_eval_device   = task.den;
-  auto* den_x_eval_device = task.ddenx;
-  auto* den_y_eval_device = task.ddeny;
-  auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  const auto* den_basis_prod_device = task.zmat;
-
-  // We always launch enough blocks to cover npts, so blocks aren't doing multiple results
-  double den_reg = 0.;
-  double dx_reg = 0.;
-  double dy_reg = 0.;
-  double dz_reg = 0.;
-
-  // Have each thread accumulate its own reduction result into a register.
-  // There's no real _need_ for LDS because the reductions are small and
-  // therefore can be done without sharing.
-  for( int ibf = 0; ibf < nbf; ibf++ ) {
-
-    for( int  ipt = blockIdx.x * blockDim.x + threadIdx.x; ipt < npts; ipt += blockDim.x * gridDim.x ) {
-
-      const double* bf_col   = basis_eval_device     + ibf*npts;
-      const double* bf_x_col = dbasis_x_eval_device  + ibf*npts;
-      const double* bf_y_col = dbasis_y_eval_device  + ibf*npts;
-      const double* bf_z_col = dbasis_z_eval_device  + ibf*npts;
-      const double* db_col   = den_basis_prod_device + ibf*npts;
-
-      den_reg += 2 * bf_col[ ipt ]   * db_col[ ipt ];
-      dx_reg += 4 * bf_x_col[ ipt ] * db_col[ ipt ];
-      dy_reg += 4 * bf_y_col[ ipt ] * db_col[ ipt ];
-      dz_reg += 4 * bf_z_col[ ipt ] * db_col[ ipt ];
-    }
-  }
-
-
-  for( int  ipt = blockIdx.x * blockDim.x + threadIdx.x; ipt < npts; ipt += blockDim.x * gridDim.x ) {
-    den_eval_device   [ipt] = den_reg;
-    den_x_eval_device [ipt] = dx_reg ;
-    den_y_eval_device [ipt] = dy_reg ;
-    den_z_eval_device [ipt] = dz_reg ;
-  }
-
-}
-
-
-__global__ void eval_vvars_gga_kernel( 
-  size_t        npts,
-  const double* den_x_eval_device,
-  const double* den_y_eval_device,
-  const double* den_z_eval_device,
-        double* gamma_eval_device
-) {
-
-  const int tid = threadIdx.x + blockIdx.x * blockDim.x;
-  if( tid < npts ) {
-
-    const double dx = den_x_eval_device[ tid ];
-    const double dy = den_y_eval_device[ tid ];
-    const double dz = den_z_eval_device[ tid ];
-
-    gamma_eval_device[tid] = dx*dx + dy*dy + dz*dz;
-
-  }
-
-}
-
-
-
-
-void eval_uvvars_gga( size_t ntasks, size_t npts_total, int32_t nbf_max, 
-  int32_t npts_max, XCDeviceTask* device_tasks, const double* denx, 
-  const double* deny, const double* denz, double* gamma, device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-
-  // U Variables
-  {
-  dim3 threads(hip::max_threads_per_thread_block, 1, 1);
-  dim3 blocks( util::div_ceil( npts_max , threads.x ),
-               1,
-               ntasks );
-
-  hipLaunchKernelGGL(eval_uvars_gga_kernel, dim3(blocks), dim3(threads), 0, 
-    stream, ntasks, device_tasks );
-  }
-
-  // V Variables
-  dim3 threads( hip::max_threads_per_thread_block );
-  dim3 blocks( util::div_ceil( npts_total, threads.x ) );
-  hipLaunchKernelGGL(eval_vvars_gga_kernel, blocks, threads, 0, stream,
-    npts_total, denx, deny, denz, gamma);
-
-}
-
-
-
-
-
-
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/zmat_vxc.hip b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/zmat_vxc.hip
deleted file mode 100644
index 673d5a5..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/kernels/zmat_vxc.hip
+++ /dev/null
@@ -1,154 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "hip/hip_runtime.h"
-#include "device/common/zmat_vxc.hpp"
-#include <gauxc/util/div_ceil.hpp>
-#include "device_specific/hip_util.hpp"
-#include "device_specific/hip_device_constants.hpp"
-
-namespace GauXC {
-
-
-__global__ void zmat_lda_vxc_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vrho_device    = task.vrho;
-
-  const auto* basis_eval_device = task.bf;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact = 0.5 * vrho_device[tid_x];
-
-    z_matrix_device[ ibfoff ] = fact * basis_eval_device[ ibfoff ];
-
-  }
-
-}
-
-
-
-
-void zmat_lda_vxc( size_t            ntasks,
-                   int32_t           max_nbf,
-                   int32_t           max_npts,
-                   XCDeviceTask*     tasks_device,
-                   device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>() ;
-
-
-  dim3 threads(hip::warp_size,hip::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(zmat_lda_vxc_kernel, dim3(blocks), dim3(threads), 0, stream ,  ntasks, tasks_device );
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-__global__ void zmat_gga_vxc_kernel( size_t        ntasks,
-                                     XCDeviceTask* tasks_device ) {
-
-  const int batch_idx = blockIdx.z;
-  if( batch_idx >= ntasks ) return;
-
-  auto& task = tasks_device[ batch_idx ];
-  const auto npts            = task.npts;
-  const auto nbf             = task.bfn_screening.nbe;
-  const auto* vrho_device    = task.vrho;
-  const auto* vgamma_device  = task.vgamma;
-  const auto* den_x_eval_device = task.ddenx;
-  const auto* den_y_eval_device = task.ddeny;
-  const auto* den_z_eval_device = task.ddenz;
-
-  const auto* basis_eval_device = task.bf;
-  const auto* dbasis_x_eval_device = task.dbfx;
-  const auto* dbasis_y_eval_device = task.dbfy;
-  const auto* dbasis_z_eval_device = task.dbfz;
-
-  auto* z_matrix_device = task.zmat;
-
-  const int tid_x = blockIdx.x * blockDim.x + threadIdx.x;
-  const int tid_y = blockIdx.y * blockDim.y + threadIdx.y;
-
-  if( tid_x < npts and tid_y < nbf ) {
-
-    const size_t ibfoff = tid_y * npts + tid_x;
-    const double fact_1 = 0.5 * vrho_device[tid_x]  ;
-    const double fact_2 = 2.0 * vgamma_device[tid_x];
-
-    const double dx = den_x_eval_device[ tid_x ] * dbasis_x_eval_device[ ibfoff ];
-    const double dy = den_y_eval_device[ tid_x ] * dbasis_y_eval_device[ ibfoff ];
-    const double dz = den_z_eval_device[ tid_x ] * dbasis_z_eval_device[ ibfoff ];
-
-    z_matrix_device[ ibfoff ] = 
-      fact_1 * basis_eval_device[ ibfoff ] + fact_2 * ( dx + dy + dz ); 
-
-  }
-}
-
-void zmat_gga_vxc( size_t            ntasks,
-                   int32_t           max_nbf,
-                   int32_t           max_npts,
-                   XCDeviceTask*     tasks_device,
-                   device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>() ;
-
-
-  dim3 threads(hip::warp_size,hip::max_warps_per_thread_block,1);
-  dim3 blocks( util::div_ceil( max_npts, threads.x ),
-               util::div_ceil( max_nbf,  threads.y ),
-               ntasks );
-
-  hipLaunchKernelGGL(zmat_gga_vxc_kernel, dim3(blocks), dim3(threads), 0, stream ,  ntasks, tasks_device );
-
-}
-              
-
-
-
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/xc_functional_eval_wrapper.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/xc_functional_eval_wrapper.cxx
deleted file mode 100644
index dccc9bf..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/hip/xc_functional_eval_wrapper.cxx
+++ /dev/null
@@ -1,34 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "device/common/xc_functional_eval_wrapper.hpp"
-#include "device_specific/hip_util.hpp"
-
-namespace GauXC {
-
-void eval_kern_exc_vxc_lda( const functional_type& func, size_t npts,
-  const double* rho, double* eps, double* vrho, device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-  func.eval_exc_vxc_device( npts, rho, eps, vrho, stream );
-
-}
-
-void eval_kern_exc_vxc_gga( const functional_type& func, size_t npts,
-  const double* rho, const double* gamma, double* eps, double* vrho,
-  double* vgamma, device_queue queue ) {
-
-  hipStream_t stream = queue.queue_as<util::hip_stream>();
-  func.eval_exc_vxc_device( npts, rho, gamma, eps, vrho, vgamma, stream );
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver.cxx
deleted file mode 100644
index 384d6bb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver.cxx
+++ /dev/null
@@ -1,224 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "local_device_work_driver_pimpl.hpp"
-#include <stdexcept>
-
-namespace GauXC {
-
-LocalDeviceWorkDriver::LocalDeviceWorkDriver() : 
-  pimpl_(nullptr) { }
-LocalDeviceWorkDriver::LocalDeviceWorkDriver(pimpl_type&& ptr) :
-  pimpl_( std::move(ptr) ){ }
-
-LocalDeviceWorkDriver::~LocalDeviceWorkDriver() noexcept = default;
-
-LocalDeviceWorkDriver::LocalDeviceWorkDriver( LocalDeviceWorkDriver&& other ) noexcept :
-  pimpl_(std::move(other.pimpl_)) { }
-
-#define throw_if_invalid_pimpl(ptr) \
-  if(not ptr) GAUXC_PIMPL_NOT_INITIALIZED()
-
-
-
-#define FWD_TO_PIMPL(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data);                                    \
-}
-#define FWD_TO_PIMPL_BOOL(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, bool b ) { \
-  throw_if_invalid_pimpl(pimpl_);                                       \
-  pimpl_->NAME(device_data, b);                                         \
-}
-
-#define FWD_TO_PIMPL_DEN_ID(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, density_id den ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, den);                               \
-}
-
-#define FWD_TO_PIMPL_DEN_ID_BOOL(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, density_id den, bool b ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, den, b);                               \
-}
-
-#define FWD_TO_PIMPL_BOOL_DEN_ID(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, bool b, density_id den ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, b, den);                               \
-}
-
-#define FWD_TO_PIMPL_KS_SCHEME(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, integrator_ks_scheme track ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, track);                               \
-}
-#define FWD_TO_PIMPL_KS_SCHEME_BOOL(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, integrator_ks_scheme track, bool b ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, track, b);                               \
-}
-#define FWD_TO_PIMPL_KS_SCHEME_BOOL_BOOL(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, integrator_ks_scheme track, bool b1, bool b2 ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, track, b1, b2);                               \
-}
-#define FWD_TO_PIMPL_KS_SCHEME_DEN_ID(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, integrator_ks_scheme track, density_id den ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, track, den);                               \
-}
-#define FWD_TO_PIMPL_KS_SCHEME_BOOL_DEN_ID(NAME) \
-void LocalDeviceWorkDriver::NAME( XCDeviceData* device_data, integrator_ks_scheme track, bool b, density_id den ) { \
-  throw_if_invalid_pimpl(pimpl_);                               \
-  pimpl_->NAME(device_data, track, b, den);                               \
-}
-
-FWD_TO_PIMPL(partition_weights)         // Partition weights
-
-FWD_TO_PIMPL(eval_collocation)          // Collocation
-FWD_TO_PIMPL(eval_collocation_gradient) // Collocation Gradient
-FWD_TO_PIMPL(eval_collocation_hessian)  // Collocation Hessian
-FWD_TO_PIMPL(eval_collocation_laplacian)  // Collocation Laplacian
-FWD_TO_PIMPL(eval_collocation_lapgrad)  // Collocation Laplacian gradient
-
-
-FWD_TO_PIMPL_KS_SCHEME(eval_uvars_lda)            // U variables LDA (rho)
-FWD_TO_PIMPL_KS_SCHEME(eval_uvars_gga)            // U variables GGA (gamma)
-FWD_TO_PIMPL_KS_SCHEME_BOOL(eval_uvars_mgga)      // U variables MGGA (tau, lapl)
-FWD_TO_PIMPL_DEN_ID(eval_vvars_lda)               // V variables LDA (density)
-FWD_TO_PIMPL_DEN_ID(eval_vvars_gga)               // V variables GGA (density + grad)
-FWD_TO_PIMPL_DEN_ID_BOOL(eval_vvars_mgga)         // V variables MGGA (density + grad + tau + lapl)
-
-FWD_TO_PIMPL_KS_SCHEME(eval_tmat_lda)            // T variables LDA (trho)
-FWD_TO_PIMPL_KS_SCHEME(eval_tmat_gga)            // T variables GGA (tgamma)
-FWD_TO_PIMPL_KS_SCHEME_BOOL(eval_tmat_mgga)      // T variables MGGA (ttau, tlapl)
-FWD_TO_PIMPL_DEN_ID(eval_vvars_lda_trial)               // V variables LDA (trial density)
-FWD_TO_PIMPL_DEN_ID(eval_vvars_gga_trial)               // V variables GGA (trial density + grad)
-FWD_TO_PIMPL_DEN_ID_BOOL(eval_vvars_mgga_trial)         // V variables MGGA (trial density + grad + tau + lapl)
-
-FWD_TO_PIMPL_KS_SCHEME_DEN_ID(eval_zmat_lda_vxc)         // Eval Z Matrix LDA VXC
-FWD_TO_PIMPL_KS_SCHEME_DEN_ID(eval_zmat_gga_vxc)         // Eval Z Matrix GGA VXC
-FWD_TO_PIMPL_KS_SCHEME_BOOL_DEN_ID(eval_zmat_mgga_vxc)   // Eval Z Matrix mGGA VXC
-FWD_TO_PIMPL_KS_SCHEME_BOOL_DEN_ID(eval_mmat_mgga_vxc)   // Eval M Matrix mGGA VXC
-
-void LocalDeviceWorkDriver::eval_zmat_onedft( XCDeviceData* device_data, integrator_term_tracker track, density_id den ) { 
-  throw_if_invalid_pimpl(pimpl_);                               
-  pimpl_->eval_zmat_onedft(device_data, track, den);                               
-}
-
-void LocalDeviceWorkDriver::sz_to_ab_onedft( XCDeviceData* device_data, size_t offset ) { 
-  throw_if_invalid_pimpl(pimpl_);                               
-  pimpl_->sz_to_ab_onedft(device_data, offset);                               
-}
-FWD_TO_PIMPL_DEN_ID(eval_zmat_lda_fxc)         // Eval Z Matrix LDA FXC
-FWD_TO_PIMPL_DEN_ID(eval_zmat_gga_fxc)         // Eval Z Matrix GGA FXC
-FWD_TO_PIMPL_BOOL_DEN_ID(eval_zmat_mgga_fxc)   // Eval Z Matrix mGGA FXC
-FWD_TO_PIMPL_BOOL_DEN_ID(eval_mmat_mgga_fxc)   // Eval M Matrix mGGA FXC
-
-
-FWD_TO_PIMPL(eval_exx_fmat)             // Eval EXX F Matrix
-//FWD_TO_PIMPL(eval_exx_gmat)           // Eval EXX G Matrix
-
-
-FWD_TO_PIMPL(inc_exc)
-FWD_TO_PIMPL(inc_nel)
-FWD_TO_PIMPL_DEN_ID_BOOL(inc_vxc)            // Increment VXC_I by Z
-FWD_TO_PIMPL_DEN_ID_BOOL(inc_fxc)            // Increment FXC_I by Z
-
-FWD_TO_PIMPL(inc_exx_k)     
-FWD_TO_PIMPL_KS_SCHEME_BOOL(inc_exc_grad_lda)
-FWD_TO_PIMPL_KS_SCHEME_BOOL(inc_exc_grad_gga)
-FWD_TO_PIMPL_KS_SCHEME_BOOL_BOOL(inc_exc_grad_mgga)
-
-FWD_TO_PIMPL_DEN_ID(symmetrize_vxc)
-FWD_TO_PIMPL_DEN_ID(symmetrize_fxc) // Added FXC function
-FWD_TO_PIMPL(symmetrize_exx_k)
-FWD_TO_PIMPL(eval_exx_ek_screening_bfn_stats)
-
-// X     = fac * P * B
-// dX/dx = fac * P * dB/dx (do_grad)
-
-void LocalDeviceWorkDriver::eval_xmat( double fac, XCDeviceData* device_data, bool do_grad, density_id den ) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_xmat(fac, device_data, do_grad, den);
-}
-void LocalDeviceWorkDriver::save_xmat( XCDeviceData* device_data, bool do_grad, density_id den ) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->save_xmat(device_data, do_grad, den);
-}
-void LocalDeviceWorkDriver::eval_xmat_trial( double fac, XCDeviceData* device_data, bool do_grad, density_id den ) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_xmat_trial(fac, device_data, do_grad, den);
-}
-
-void LocalDeviceWorkDriver::eval_exx_gmat( XCDeviceData* device_data, 
-  const BasisSetMap& basis_map) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_exx_gmat(device_data, basis_map);
-}
-
-void LocalDeviceWorkDriver::eval_kern_exc_vxc_lda( const functional_type& func,
-  XCDeviceData* data) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_kern_exc_vxc_lda(func,data);
-}
-
-void LocalDeviceWorkDriver::eval_kern_exc_vxc_gga( const functional_type& func,
-  XCDeviceData* data) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_kern_exc_vxc_gga(func,data);
-}
-
-void LocalDeviceWorkDriver::eval_kern_exc_vxc_mgga( const functional_type& func,
-  XCDeviceData* data) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_kern_exc_vxc_mgga(func,data);
-}
-
-void LocalDeviceWorkDriver::eval_kern_vxc_fxc_lda( const functional_type& func,
-  XCDeviceData* data) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_kern_vxc_fxc_lda(func,data);
-}
-
-void LocalDeviceWorkDriver::eval_kern_vxc_fxc_gga( const functional_type& func,
-  XCDeviceData* data) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_kern_vxc_fxc_gga(func,data);
-}
-
-void LocalDeviceWorkDriver::eval_kern_vxc_fxc_mgga( const functional_type& func,
-  XCDeviceData* data) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_kern_vxc_fxc_mgga(func,data);
-}
-
-std::unique_ptr<XCDeviceData> LocalDeviceWorkDriver::create_device_data(const DeviceRuntimeEnvironment& rt) {
-  throw_if_invalid_pimpl(pimpl_);
-  return pimpl_->create_device_data(rt);
-}
-
-void LocalDeviceWorkDriver::exx_ek_shellpair_collision( double eps_E, double eps_K, 
-  XCDeviceData* device_data, host_task_iterator tb, host_task_iterator te,
-  const ShellPairCollection<double>& shpairs ) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->exx_ek_shellpair_collision( eps_E, eps_K, device_data, tb, te, shpairs );
-}
-
-void LocalDeviceWorkDriver::eval_weight_1st_deriv_contracted( XCDeviceData* device_data, XCWeightAlg alg ) {
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_weight_1st_deriv_contracted(device_data, alg);
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver.hpp
deleted file mode 100644
index f447738..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver.hpp
+++ /dev/null
@@ -1,139 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-
-#include <memory>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/basisset_map.hpp>
-#include <gauxc/xc_task.hpp>
-
-#include "device/xc_device_data.hpp"
-#include <gauxc/runtime_environment/fwd.hpp>
-
-namespace GauXC {
-namespace detail {
-
-struct LocalDeviceWorkDriverPIMPL;
-
-}
-
-/// Base class for local work drivers in Device execution spaces 
-class LocalDeviceWorkDriver : public LocalWorkDriver {
-
-  using pimpl_type = std::unique_ptr<detail::LocalDeviceWorkDriverPIMPL>;
-
-public:
-
-  using host_task_iterator = std::vector<XCTask>::iterator;
-
-  /// Construct LocalDeviceWorkDriver instance in invalid state
-  LocalDeviceWorkDriver();
-
-  /** Construct LocalDeviceWorkDriver instance given implementation pointer
-   *  @param[in] ptr Pointer to implementation
-   */
-  LocalDeviceWorkDriver( pimpl_type&& ptr );
-
-  /// Destructor (default)
-  ~LocalDeviceWorkDriver() noexcept;
-
-  // Remove copy ctor
-  LocalDeviceWorkDriver( const LocalDeviceWorkDriver& ) = delete;
-
-  /** Construct LocalDeviceWorkDriver by transferring ownership
-   *  @param[in] other LocalDeviceWorkDriver instance to take ownership
-   */
-  LocalDeviceWorkDriver( LocalDeviceWorkDriver&& other ) noexcept;
-
-
-  // Public APIs
-
-  void partition_weights( XCDeviceData* );
-  void eval_weight_1st_deriv_contracted( XCDeviceData*, XCWeightAlg);
-
-  void eval_collocation( XCDeviceData* );
-  void eval_collocation_gradient( XCDeviceData* );
-  void eval_collocation_hessian( XCDeviceData* );
-  void eval_collocation_laplacian( XCDeviceData* );
-  void eval_collocation_lapgrad( XCDeviceData* );
-  void eval_xmat( double fac, XCDeviceData*, bool do_grad, density_id den );
-  void eval_xmat_trial( double fac, XCDeviceData*, bool do_grad, density_id den );
-  void save_xmat( XCDeviceData*, bool grad, density_id den );
-  
-  void eval_uvars_lda ( XCDeviceData*, integrator_ks_scheme ) ;
-  void eval_uvars_gga ( XCDeviceData*, integrator_ks_scheme ) ;
-  void eval_uvars_mgga( XCDeviceData*, integrator_ks_scheme, bool ) ;
-  void eval_vvars_lda ( XCDeviceData*, density_id ) ;
-  void eval_vvars_gga ( XCDeviceData*, density_id ) ;
-  void eval_vvars_mgga( XCDeviceData*, density_id, bool ) ;
-
-  void eval_tmat_lda ( XCDeviceData*, integrator_ks_scheme ) ;
-  void eval_tmat_gga ( XCDeviceData*, integrator_ks_scheme ) ;
-  void eval_tmat_mgga( XCDeviceData*, integrator_ks_scheme, bool ) ;
-  void eval_vvars_lda_trial ( XCDeviceData*, density_id ) ;
-  void eval_vvars_gga_trial ( XCDeviceData*, density_id ) ;
-  void eval_vvars_mgga_trial( XCDeviceData*, density_id, bool ) ;
-
-
-  void eval_kern_exc_vxc_lda( const functional_type&, XCDeviceData* );
-  void eval_kern_exc_vxc_gga( const functional_type&, XCDeviceData* );
-  void eval_kern_exc_vxc_mgga( const functional_type&, XCDeviceData* );
-
-  void eval_kern_vxc_fxc_lda( const functional_type&, XCDeviceData* );
-  void eval_kern_vxc_fxc_gga( const functional_type&, XCDeviceData* );
-  void eval_kern_vxc_fxc_mgga( const functional_type&, XCDeviceData* );
-
-  void eval_zmat_lda_vxc( XCDeviceData*, integrator_ks_scheme, density_id ) ;
-  void eval_zmat_gga_vxc( XCDeviceData*, integrator_ks_scheme, density_id ) ;
-  void eval_zmat_mgga_vxc( XCDeviceData*, integrator_ks_scheme, bool, density_id ) ;
-  void eval_mmat_mgga_vxc( XCDeviceData*, integrator_ks_scheme, bool, density_id );
-
-  void eval_zmat_onedft( XCDeviceData*, integrator_term_tracker, density_id );
-  void sz_to_ab_onedft( XCDeviceData*, size_t );
-  
-  void eval_zmat_lda_fxc( XCDeviceData*, density_id ) ;
-  void eval_zmat_gga_fxc( XCDeviceData*, density_id ) ;
-  void eval_zmat_mgga_fxc( XCDeviceData*, bool, density_id ) ;
-  void eval_mmat_mgga_fxc( XCDeviceData*, bool, density_id );
-
-  void eval_exx_fmat( XCDeviceData* );
-  void eval_exx_gmat( XCDeviceData*, const BasisSetMap& );
-
-  void inc_exc( XCDeviceData* );
-  void inc_nel( XCDeviceData* );
-  void inc_vxc( XCDeviceData*, density_id, bool do_m = false );
-  void inc_fxc( XCDeviceData*, density_id, bool do_m = false );
-  void inc_exc_grad_lda( XCDeviceData*, integrator_ks_scheme, bool );
-  void inc_exc_grad_gga( XCDeviceData*, integrator_ks_scheme, bool );
-  void inc_exc_grad_mgga( XCDeviceData*, integrator_ks_scheme , bool, bool );
-  void inc_exx_k( XCDeviceData* );
-
-  void eval_exx_ek_screening_bfn_stats( XCDeviceData* );
-  void exx_ek_shellpair_collision( double eps_E, double eps_K, XCDeviceData*, 
-    host_task_iterator, host_task_iterator, const ShellPairCollection<double>& );
-
-  void symmetrize_vxc( XCDeviceData*, density_id );
-  void symmetrize_fxc( XCDeviceData*, density_id );
-  void symmetrize_exx_k( XCDeviceData* );
-
-  std::unique_ptr<XCDeviceData> create_device_data(const DeviceRuntimeEnvironment&);
-
-private: 
-
-  pimpl_type pimpl_; ///< Implementation
-
-};
-
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver_pimpl.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver_pimpl.cxx
deleted file mode 100644
index 2662027..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver_pimpl.cxx
+++ /dev/null
@@ -1,19 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "local_device_work_driver_pimpl.hpp"
-
-namespace GauXC::detail {
-
-LocalDeviceWorkDriverPIMPL::LocalDeviceWorkDriverPIMPL() = default; 
-LocalDeviceWorkDriverPIMPL::~LocalDeviceWorkDriverPIMPL() noexcept = default;
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver_pimpl.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver_pimpl.hpp
deleted file mode 100644
index f20a73f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/local_device_work_driver_pimpl.hpp
+++ /dev/null
@@ -1,102 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "local_device_work_driver.hpp"
-
-
-namespace GauXC {
-namespace detail {
-
-struct LocalDeviceWorkDriverPIMPL;
-
-
-/// Base class for local work drivers in Device execution spaces 
-struct LocalDeviceWorkDriverPIMPL {
-
-  using host_task_iterator = LocalDeviceWorkDriver::host_task_iterator;
-
-  LocalDeviceWorkDriverPIMPL();
-  virtual ~LocalDeviceWorkDriverPIMPL() noexcept;
-
-  LocalDeviceWorkDriverPIMPL( const LocalDeviceWorkDriverPIMPL& )     = delete;
-  LocalDeviceWorkDriverPIMPL( LocalDeviceWorkDriverPIMPL&& ) noexcept = delete;
-
-
-  // Public APIs
-
-  virtual void partition_weights( XCDeviceData* ) = 0;
-  virtual void eval_weight_1st_deriv_contracted( XCDeviceData*, XCWeightAlg ) = 0;
-  virtual void eval_collocation( XCDeviceData* ) = 0;
-  virtual void eval_collocation_gradient( XCDeviceData* ) = 0;
-  virtual void eval_collocation_hessian( XCDeviceData* ) = 0;
-  virtual void eval_collocation_laplacian( XCDeviceData* ) = 0;
-  virtual void eval_collocation_lapgrad( XCDeviceData* ) = 0;
-  virtual void eval_xmat( double fac, XCDeviceData*, bool do_grad, density_id den ) = 0;
-  virtual void save_xmat( XCDeviceData*, bool do_grad, density_id den ) = 0;
-  virtual void eval_exx_fmat( XCDeviceData* ) = 0;
-  //virtual void eval_exx_gmat( XCDeviceData* ) = 0;
-  virtual void eval_exx_gmat( XCDeviceData*, const BasisSetMap& ) = 0;
-  virtual void eval_uvars_lda( XCDeviceData*, integrator_ks_scheme ) = 0;
-  virtual void eval_uvars_gga( XCDeviceData*, integrator_ks_scheme ) = 0;
-  virtual void eval_uvars_mgga( XCDeviceData*, integrator_ks_scheme, bool ) = 0;
-  virtual void eval_vvars_lda ( XCDeviceData*, density_id ) = 0;
-  virtual void eval_vvars_gga ( XCDeviceData*, density_id ) = 0;
-  virtual void eval_vvars_mgga( XCDeviceData*, density_id, bool ) = 0;
-  virtual void eval_kern_exc_vxc_lda( const functional_type&, XCDeviceData* ) = 0;
-  virtual void eval_kern_exc_vxc_gga( const functional_type&, XCDeviceData* ) = 0;
-  virtual void eval_kern_exc_vxc_mgga( const functional_type&, XCDeviceData* ) = 0;
-  virtual void eval_kern_vxc_fxc_lda( const functional_type&, XCDeviceData* ) = 0;
-  virtual void eval_kern_vxc_fxc_gga( const functional_type&, XCDeviceData* ) = 0;
-  virtual void eval_kern_vxc_fxc_mgga( const functional_type&, XCDeviceData* ) = 0;
-  virtual void eval_zmat_lda_vxc( XCDeviceData*, integrator_ks_scheme, density_id ) = 0;
-  virtual void eval_zmat_gga_vxc( XCDeviceData*, integrator_ks_scheme, density_id ) = 0;
-  virtual void eval_zmat_mgga_vxc( XCDeviceData*, integrator_ks_scheme, bool, density_id ) = 0;
-  virtual void eval_zmat_onedft( XCDeviceData*, integrator_term_tracker, density_id ) = 0;
-  virtual void sz_to_ab_onedft( XCDeviceData*, size_t ) = 0;
-  virtual void eval_mmat_mgga_vxc( XCDeviceData*, integrator_ks_scheme, bool, density_id ) = 0;
-  virtual void eval_zmat_lda_fxc( XCDeviceData*, density_id ) = 0;
-  virtual void eval_zmat_gga_fxc( XCDeviceData*, density_id ) = 0;
-  virtual void eval_zmat_mgga_fxc( XCDeviceData*, bool, density_id ) = 0;
-  virtual void eval_mmat_mgga_fxc( XCDeviceData*, bool, density_id ) = 0;
-  virtual void inc_exc( XCDeviceData* ) = 0;
-  virtual void inc_nel( XCDeviceData* ) = 0;
-  virtual void inc_vxc( XCDeviceData* , density_id, bool) = 0;
-  virtual void inc_fxc( XCDeviceData* , density_id, bool) = 0;  
-  virtual void inc_exc_grad_lda( XCDeviceData*, integrator_ks_scheme, bool  ) = 0;
-  virtual void inc_exc_grad_gga( XCDeviceData*, integrator_ks_scheme, bool  ) = 0;
-  virtual void inc_exc_grad_mgga( XCDeviceData*, integrator_ks_scheme , bool, bool ) = 0;
-  virtual void inc_exx_k( XCDeviceData* ) = 0;
-  virtual void symmetrize_vxc( XCDeviceData*, density_id ) = 0;
-  virtual void symmetrize_fxc( XCDeviceData*, density_id ) = 0;
-  virtual void symmetrize_exx_k( XCDeviceData* ) = 0;
-
-  //second derivative
-  virtual void eval_xmat_trial( double fac, XCDeviceData*, bool do_grad, density_id den ) = 0;
-  virtual void eval_tmat_lda( XCDeviceData*, integrator_ks_scheme ) = 0;
-  virtual void eval_tmat_gga( XCDeviceData*, integrator_ks_scheme ) = 0;
-  virtual void eval_tmat_mgga( XCDeviceData*, integrator_ks_scheme, bool ) = 0;
-  virtual void eval_vvars_lda_trial ( XCDeviceData*, density_id ) = 0;
-  virtual void eval_vvars_gga_trial ( XCDeviceData*, density_id ) = 0;
-  virtual void eval_vvars_mgga_trial( XCDeviceData*, density_id, bool ) = 0;
-
-  virtual void eval_exx_ek_screening_bfn_stats( XCDeviceData* ) = 0;
-  virtual void exx_ek_shellpair_collision( double eps_E, double eps_K, 
-    XCDeviceData*, host_task_iterator, host_task_iterator, 
-    const ShellPairCollection<double>&) = 0;
-
-  virtual std::unique_ptr<XCDeviceData> create_device_data(const DeviceRuntimeEnvironment&) = 0;
-
-};
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_base.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_base.cxx
deleted file mode 100644
index 233ff5a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_base.cxx
+++ /dev/null
@@ -1,2486 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "scheme1_base.hpp"
-#include "device/common/zmat_vxc.hpp"
-#include "device/common/onedft.hpp"
-#include "device/common/zmat_fxc.hpp"
-#include "device/common/collocation_device.hpp"
-#include "device/common/device_blas.hpp"
-#include "device/common/xc_functional_eval_wrapper.hpp"
-#include "device/common/uvvars.hpp"
-#include "device/common/pack_submat.hpp"
-#include "device/common/inc_potential.hpp"
-#include "device/common/symmetrize_mat.hpp"
-#include "device/common/increment_exc_grad.hpp"
-#include "device/common/exx_ek_screening.hpp"
-
-#include "buffer_adaptor.hpp"
-
-#include "device/common/shell_pair_to_task.hpp"
-#ifdef GAUXC_HAS_CUDA
-#include "device_specific/cuda_util.hpp"
-#include "gpu/integral_data_types.hpp"
-#include "gpu/obara_saika_integrals.hpp"
-#include "gpu/chebyshev_boys_computation.hpp"
-
-#define GAUXC_ENABLE_EXX
-#endif
-
-#ifdef GAUXC_ENABLE_EXX
-namespace XGPU {
-  void integral_0_task_batched(
-    size_t ntasks, size_t nsubtask,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-  void integral_1_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-  void integral_2_task_batched(
-    bool sph,
-    size_t ntasks, size_t nsubtask,
-    int max_primpairs, size_t max_nsp,
-    GauXC::XCDeviceTask*                device_tasks,
-    const GauXC::TaskToShellPairDevice* task2sp,
-    const std::array<int32_t, 4>*  subtasks,
-    const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-    double* sp_X_AB_device,
-    double* sp_Y_AB_device,
-    double* sp_Z_AB_device,
-    double *boys_table,
-    cudaStream_t stream);
-
-
-  void integral_0_0_task_batched(
-        size_t ntasks,
-        size_t nsubtasks,
-        int max_primpairs, size_t max_nsp,
-        GauXC::XCDeviceTask*                device_tasks,
-        const GauXC::TaskToShellPairDevice* task2sp,
-        const std::array<int32_t, 4>*  subtasks,
-        const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-        double* sp_X_AB_device,
-        double* sp_Y_AB_device,
-        double* sp_Z_AB_device,
-        double *boys_table,
-        cudaStream_t stream);
-
-  void integral_0_0_shell_batched(
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-        double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_1_1_task_batched(
-        bool sph,
-        size_t ntasks,
-        size_t nsubtasks,
-        int max_primpairs, size_t max_nsp,
-        GauXC::XCDeviceTask*                device_tasks,
-        const GauXC::TaskToShellPairDevice* task2sp,
-        const std::array<int32_t, 4>*  subtasks,
-        const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-        double* sp_X_AB_device,
-        double* sp_Y_AB_device,
-        double* sp_Z_AB_device,
-        double *boys_table,
-        cudaStream_t stream);
-
-  void integral_1_1_shell_batched(
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-        double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_2_2_task_batched(
-        bool sph,
-        size_t ntasks,
-        size_t nsubtasks,
-        int max_primpairs, size_t max_nsp,
-        GauXC::XCDeviceTask*                device_tasks,
-        const GauXC::TaskToShellPairDevice* task2sp,
-        const std::array<int32_t, 4>*  subtasks,
-        const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-        double* sp_X_AB_device,
-        double* sp_Y_AB_device,
-        double* sp_Z_AB_device,
-        double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_2_shell_batched(
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-        double *boys_table,
-        cudaStream_t stream); 
-        
-  void integral_1_0_task_batched(
-        bool swap,
-        bool sph,
-        size_t ntasks,
-        size_t nsubtasks,
-        int max_primpairs, size_t max_nsp,
-        GauXC::XCDeviceTask*                device_tasks,
-        const GauXC::TaskToShellPairDevice* task2sp,
-        const std::array<int32_t, 4>*  subtasks,
-        const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-        double* sp_X_AB_device,
-        double* sp_Y_AB_device,
-        double* sp_Z_AB_device,
-        double *boys_table,
-        cudaStream_t stream);
-
-  void integral_1_0_shell_batched(
-        bool swap,
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-        double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_2_0_task_batched(
-        bool swap,
-        bool sph,
-        size_t ntasks,
-        size_t nsubtasks,
-        int max_primpairs, size_t max_nsp,
-        GauXC::XCDeviceTask*                device_tasks,
-        const GauXC::TaskToShellPairDevice* task2sp,
-        const std::array<int32_t, 4>*  subtasks,
-        const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-        double* sp_X_AB_device,
-        double* sp_Y_AB_device,
-        double* sp_Z_AB_device,
-        double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_0_shell_batched(
-        bool swap,
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-        double *boys_table,
-        cudaStream_t stream); 
-
-  void integral_2_1_task_batched(
-        bool swap,
-        bool sph_2, bool sph_1,
-        size_t ntasks,
-        size_t nsubtasks,
-        int max_primpairs, size_t max_nsp,
-        GauXC::XCDeviceTask*                device_tasks,
-        const GauXC::TaskToShellPairDevice* task2sp,
-        const std::array<int32_t, 4>*  subtasks,
-        const int32_t* nprim_pairs_device,
-    GauXC::PrimitivePair<double>** pp_ptr_device,
-        double* sp_X_AB_device,
-        double* sp_Y_AB_device,
-        double* sp_Z_AB_device,
-        double *boys_table,
-        cudaStream_t stream);
-
-  void integral_2_1_shell_batched(
-        bool swap,
-        size_t nsp,
-        size_t max_ntask,
-        const GauXC::ShellPairToTaskDevice* sp2task,
-        GauXC::XCDeviceTask*                device_tasks,
-        double *boys_table,
-        cudaStream_t stream); 
-}
-#endif
-
-
-namespace GauXC {
-
-AoSScheme1Base::AoSScheme1Base() {
-#ifdef GAUXC_ENABLE_EXX
-  dev_boys_table = XGPU::boys_init();
-#endif
-}
-
-AoSScheme1Base::~AoSScheme1Base() noexcept {
-#ifdef GAUXC_ENABLE_EXX
-  XGPU::boys_finalize(dev_boys_table);
-#endif
-}
-
-void AoSScheme1Base::eval_zmat_lda_vxc( XCDeviceData* _data, integrator_ks_scheme scheme, density_id den ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_lda_vxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks, scheme, den,
-    data->device_backend_->queue() );
-
-  data->device_backend_->check_error("zmat_lda" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_zmat_gga_vxc( XCDeviceData* _data, integrator_ks_scheme scheme, density_id den ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_gga_vxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks, scheme, den,
-    data->device_backend_->queue() );
-
-  data->device_backend_->check_error("zmat_gga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_zmat_mgga_vxc( XCDeviceData* _data, integrator_ks_scheme scheme, bool do_lapl, density_id id){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_mgga_vxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks,
-    do_lapl, scheme, id, data->device_backend_->queue() );
-
-
-  data->device_backend_->check_error("zmat_mgga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_zmat_onedft( XCDeviceData* _data, integrator_term_tracker track, density_id den ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_onedft_vxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks,
-    track.xc_approx, den, data->device_backend_->queue() );
-  data->device_backend_->check_error("zmat_lda" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::sz_to_ab_onedft( XCDeviceData* _data, size_t offset ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-  auto backend = data->device_backend_;
-  
-  auto static_stack = data->static_stack;
-  auto base_stack    = data->base_stack;
-  size_t npoints = data->total_npts_task_batch;
-  size_t total_npts = data->global_dims.total_npts;
-
-  double* dden_x_eval_a = static_stack.dden_eval_device + offset;
-  double* dden_y_eval_a = static_stack.dden_eval_device + total_npts + offset;
-  double* dden_z_eval_a = static_stack.dden_eval_device + total_npts*2 + offset;
-
-  double* dden_x_eval_b = static_stack.dden_eval_device + total_npts*3 + offset;
-  double* dden_y_eval_b = static_stack.dden_eval_device + total_npts*4 + offset;
-  double* dden_z_eval_b = static_stack.dden_eval_device + total_npts*5 + offset;
-
-  sz_to_ab(npoints, base_stack.dden_sx_eval_device, base_stack.dden_zx_eval_device, 
-    dden_x_eval_a, dden_x_eval_b, data->device_backend_->queue());
-  sz_to_ab(npoints, base_stack.dden_sy_eval_device, base_stack.dden_zy_eval_device, 
-    dden_y_eval_a, dden_y_eval_b, data->device_backend_->queue());
-  sz_to_ab(npoints, base_stack.dden_sz_eval_device, base_stack.dden_zz_eval_device,
-    dden_z_eval_a, dden_z_eval_b, data->device_backend_->queue());
-
-  data->device_backend_->check_error("sz_to_ab_onedft" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_zmat_lda_fxc( XCDeviceData* _data, density_id den ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_lda_fxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks, den,
-    data->device_backend_->queue() );
-
-  data->device_backend_->check_error("zmat_lda_fxc" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_zmat_gga_fxc( XCDeviceData* _data, density_id den ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_gga_fxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks, den,
-    data->device_backend_->queue() );
-
-  data->device_backend_->check_error("zmat_gga_fxc" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_zmat_mgga_fxc( XCDeviceData* _data, bool do_lapl, density_id id){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  zmat_mgga_fxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks,
-    do_lapl, id, data->device_backend_->queue() );
-
-
-  data->device_backend_->check_error("zmat_mgga_fxc" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_mmat_mgga_vxc( XCDeviceData* _data, integrator_ks_scheme scheme, bool do_lapl, density_id id){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  mmat_mgga_vxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks,
-    do_lapl, scheme, id, data->device_backend_->queue() );
-
-
-  data->device_backend_->check_error("mmat_mgga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_mmat_mgga_fxc( XCDeviceData* _data, bool do_lapl, density_id id){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto aos_stack     = data->aos_stack;
-  mmat_mgga_fxc( ntasks, nbe_max, npts_max, aos_stack.device_tasks,
-    do_lapl, id, data->device_backend_->queue() );
-
-
-  data->device_backend_->check_error("mmat_mgga_fxc" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_collocation( XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  size_t npts_max = 0, nshells_max = 0;
-  for( auto& task : tasks ) {
-    npts_max    = std::max( npts_max, task.npts );
-    nshells_max = std::max( nshells_max, task.bfn_screening.nshells );
-  }
-
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  if( ! static_stack.shells_device )
-    GAUXC_GENERIC_EXCEPTION("Shells not Allocated");
-  if( ! aos_stack.device_tasks )
-    GAUXC_GENERIC_EXCEPTION("Device Tasks not Allocated");
-
-  eval_collocation_masked_combined( ntasks, npts_max, nshells_max,
-    static_stack.shells_device, aos_stack.device_tasks, 
-    data->device_backend_->queue() );
-
-  data->device_backend_->check_error("collocation" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_collocation_gradient( XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-#ifdef GAUXC_HAS_HIP
-  auto tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  size_t npts_max = 0, nshells_max = 0;
-  for( auto& task : tasks ) {
-    npts_max    = std::max( npts_max, task.npts );
-    nshells_max = std::max( nshells_max, task.bfn_screening.nshells );
-  }
-
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  eval_collocation_masked_combined_deriv1( ntasks, npts_max, nshells_max,
-    static_stack.shells_device, aos_stack.device_tasks, 
-    data->device_backend_->queue() );
-#else
-  auto aos_stack     = data->aos_stack;
-
-  auto max_l = data->l_batched_shell_to_task.size() - 1;
-  eval_collocation_shell_to_task_gradient( max_l, 
-    data->l_batched_shell_to_task.data(), aos_stack.device_tasks,
-    data->device_backend_->queue() );
-#endif
-  
-  data->device_backend_->check_error("collocation grad " __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_collocation_hessian( XCDeviceData* _data ) {
-#ifdef GAUXC_HAS_HIP
-  GAUXC_GENERIC_EXCEPTION("Hessian NYI for HIP Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto aos_stack     = data->aos_stack;
-
-  auto max_l = data->l_batched_shell_to_task.size() - 1;
-  eval_collocation_shell_to_task_hessian( max_l, 
-    data->l_batched_shell_to_task.data(), aos_stack.device_tasks,
-    data->device_backend_->queue() );
-#endif
-  
-  data->device_backend_->check_error("collocation hess" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_collocation_laplacian( XCDeviceData* _data ) {
-#ifdef GAUXC_HAS_HIP
-  GAUXC_GENERIC_EXCEPTION("Laplacian NYI for HIP Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto aos_stack     = data->aos_stack;
-
-  auto max_l = data->l_batched_shell_to_task.size() - 1;
-  eval_collocation_shell_to_task_laplacian( max_l, 
-    data->l_batched_shell_to_task.data(), aos_stack.device_tasks,
-    data->device_backend_->queue() );
-#endif
-  
-  data->device_backend_->check_error("collocation lapl" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_collocation_lapgrad( XCDeviceData* _data ) {
-#ifdef GAUXC_HAS_HIP
-  GAUXC_GENERIC_EXCEPTION("Laplacian Gradient NYI for HIP Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto aos_stack     = data->aos_stack;
-
-  auto max_l = data->l_batched_shell_to_task.size() - 1;
-  eval_collocation_shell_to_task_lapgrad( max_l, 
-    data->l_batched_shell_to_task.data(), aos_stack.device_tasks,
-    data->device_backend_->queue() );
-#endif
-  
-  data->device_backend_->check_error("collocation lap grad " __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-
-
-
-void AoSScheme1Base::inc_exc( XCDeviceData* _data ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto base_stack    = data->base_stack;
-  auto static_stack  = data->static_stack;
-  const bool is_RKS  = data->allocated_terms.ks_scheme == RKS;
-  const bool is_UKS  = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS  = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-  
-  gdot( data->device_backend_->master_blas_handle(), data->total_npts_task_batch,
-    base_stack.eps_eval_device, 1, base_stack.den_s_eval_device, 1, 
-    static_stack.acc_scr_device, static_stack.exc_device );
-
-  if( is_pol ) {
-    gdot( data->device_backend_->master_blas_handle(), data->total_npts_task_batch,
-      base_stack.eps_eval_device, 1, base_stack.den_z_eval_device, 1, 
-      static_stack.acc_scr_device, static_stack.exc_device );
-  }
-  
-  data->device_backend_->check_error("inc exc" __FILE__ ": " + std::to_string(__LINE__));
-}
-void AoSScheme1Base::inc_nel( XCDeviceData* _data ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto base_stack    = data->base_stack;
-  auto static_stack  = data->static_stack;
-
-  const bool is_RKS  = data->allocated_terms.ks_scheme == RKS;
-  const bool is_UKS  = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS  = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-  
-  gdot( data->device_backend_->master_blas_handle(), data->total_npts_task_batch,
-    base_stack.weights_device, 1, base_stack.den_s_eval_device, 1, 
-    static_stack.acc_scr_device, static_stack.nel_device );
-
-  if( is_pol ) {
-    gdot( data->device_backend_->master_blas_handle(), data->total_npts_task_batch,
-      base_stack.weights_device, 1, base_stack.den_z_eval_device, 1, 
-      static_stack.acc_scr_device, static_stack.nel_device );
-  }
-  
-  data->device_backend_->check_error("inc nel" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::eval_uvars_lda( XCDeviceData* _data, integrator_ks_scheme ks_scheme){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto base_stack    = data->base_stack;
-  
-  // Evaluate U variables
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_uvars_lda( ntasks, npts_max, ks_scheme,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-  
-  data->device_backend_->check_error("uvvar lda" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_uvars_gga( XCDeviceData* _data, integrator_ks_scheme ks_scheme){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto base_stack    = data->base_stack;
-  
-  // Evaluate U variable
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_uvars_gga( ntasks, npts_max, ks_scheme,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-  
-  data->device_backend_->check_error("uvvar gga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_uvars_mgga( XCDeviceData* _data, integrator_ks_scheme scheme, bool do_lapl ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto base_stack    = data->base_stack;
-  
-  // Evaluate U variable
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_uvars_mgga( ntasks, npts_max, scheme, do_lapl,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-  
-  data->device_backend_->check_error("uvvar mgga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_vvars_lda( XCDeviceData* _data, density_id den_select){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  // Zero density
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr    = nullptr;
-  switch ( den_select ) {
-    case DEN_S:
-      den_eval_ptr = base_stack.den_s_eval_device;
-      break;
-    case DEN_Z:
-      den_eval_ptr = base_stack.den_z_eval_device;
-      break;
-    case DEN_Y:
-      den_eval_ptr = base_stack.den_y_eval_device;
-      break;
-    case DEN_X:
-      den_eval_ptr = base_stack.den_x_eval_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_vvars_lda called with invalid density selected!" );
-  }
-
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_eval_ptr, "Den Zero" );
-
-  // Evaluate V variable
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_vvars_lda( ntasks, nbe_max, npts_max, den_select,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-}
-
-void AoSScheme1Base::eval_vvars_gga( XCDeviceData* _data, density_id den_select){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  // Zero density
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr    = nullptr;
-  double* den_x_eval_ptr  = nullptr;
-  double* den_y_eval_ptr  = nullptr;
-  double* den_z_eval_ptr  = nullptr;
-  switch ( den_select ) {
-    case DEN_S:
-      den_eval_ptr = base_stack.den_s_eval_device;
-      den_x_eval_ptr = base_stack.dden_sx_eval_device;
-      den_y_eval_ptr = base_stack.dden_sy_eval_device;
-      den_z_eval_ptr = base_stack.dden_sz_eval_device; 
-      break;
-    case DEN_Z:
-      den_eval_ptr = base_stack.den_z_eval_device;
-      den_x_eval_ptr = base_stack.dden_zx_eval_device;
-      den_y_eval_ptr = base_stack.dden_zy_eval_device;
-      den_z_eval_ptr = base_stack.dden_zz_eval_device;
-      break;
-    case DEN_Y:
-      den_eval_ptr = base_stack.den_y_eval_device;
-      den_x_eval_ptr = base_stack.dden_yx_eval_device;
-      den_y_eval_ptr = base_stack.dden_yy_eval_device;
-      den_z_eval_ptr = base_stack.dden_yz_eval_device; 
-      break;
-    case DEN_X:
-      den_eval_ptr = base_stack.den_x_eval_device;
-      den_x_eval_ptr = base_stack.dden_xx_eval_device;
-      den_y_eval_ptr = base_stack.dden_xy_eval_device;
-      den_z_eval_ptr = base_stack.dden_xz_eval_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_vvars_gga called with invalid density selected!" );
-  }
-
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_x_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_y_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_z_eval_ptr, "Den Zero" );
-  
-  // Evaluate V variable
-  auto aos_stack = data->aos_stack;
-  GauXC::eval_vvars_gga( ntasks, nbe_max, npts_max, den_select,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-}
-
-void AoSScheme1Base::eval_vvars_mgga( XCDeviceData* _data, density_id den_select, bool need_lapl){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  // Zero density
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr    = nullptr;
-  double* den_x_eval_ptr  = nullptr;
-  double* den_y_eval_ptr  = nullptr;
-  double* den_z_eval_ptr  = nullptr;
-  double* tau_eval_ptr    = nullptr;
-  double* lapl_eval_ptr   = nullptr;
-  switch ( den_select ) {
-    case DEN_S:
-      den_eval_ptr = base_stack.den_s_eval_device;
-      den_x_eval_ptr = base_stack.dden_sx_eval_device;
-      den_y_eval_ptr = base_stack.dden_sy_eval_device;
-      den_z_eval_ptr = base_stack.dden_sz_eval_device; 
-      tau_eval_ptr   = base_stack.tau_s_eval_device;
-      lapl_eval_ptr  = base_stack.lapl_s_eval_device;
-      break;
-    case DEN_Z:
-      den_eval_ptr = base_stack.den_z_eval_device;
-      den_x_eval_ptr = base_stack.dden_zx_eval_device;
-      den_y_eval_ptr = base_stack.dden_zy_eval_device;
-      den_z_eval_ptr = base_stack.dden_zz_eval_device;
-      tau_eval_ptr   = base_stack.tau_z_eval_device;
-      lapl_eval_ptr  = base_stack.lapl_z_eval_device;
-      break;
-    case DEN_Y:
-      den_eval_ptr = base_stack.den_y_eval_device;
-      den_x_eval_ptr = base_stack.dden_yx_eval_device;
-      den_y_eval_ptr = base_stack.dden_yy_eval_device;
-      den_z_eval_ptr = base_stack.dden_yz_eval_device; 
-      break;
-    case DEN_X:
-      den_eval_ptr = base_stack.den_x_eval_device;
-      den_x_eval_ptr = base_stack.dden_xx_eval_device;
-      den_y_eval_ptr = base_stack.dden_xy_eval_device;
-      den_z_eval_ptr = base_stack.dden_xz_eval_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_vvars_gga called with invalid density selected!" );
-  }
-
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_x_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_y_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_z_eval_ptr, "Den Zero" );
-  if(tau_eval_ptr)
-    data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, tau_eval_ptr, "TAU Zero");
-  if(lapl_eval_ptr)
-    data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, lapl_eval_ptr, "LAPL Zero");
-  
-  // Evaluate V variable
-  auto aos_stack = data->aos_stack;
-  GauXC::eval_vvars_mgga( ntasks, nbe_max, npts_max, den_select, need_lapl,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-}
-
-
-void AoSScheme1Base::eval_tmat_lda( XCDeviceData* _data, integrator_ks_scheme ks_scheme){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto base_stack    = data->base_stack;
-  
-  // Evaluate U variables
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_tmat_lda( ntasks, npts_max, ks_scheme,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-  
-  data->device_backend_->check_error("uvvar lda trial" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_tmat_gga( XCDeviceData* _data, integrator_ks_scheme ks_scheme){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto base_stack    = data->base_stack;
-  
-  // Evaluate U variable
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_tmat_gga( ntasks, npts_max, ks_scheme,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-  
-  data->device_backend_->check_error("uvvar gga trial" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_tmat_mgga( XCDeviceData* _data, integrator_ks_scheme scheme, bool do_lapl ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  auto base_stack    = data->base_stack;
-  
-  // Evaluate U variable
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_tmat_mgga( ntasks, npts_max, scheme, do_lapl,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-  
-  data->device_backend_->check_error("uvvar mgga trial" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::eval_vvars_lda_trial( XCDeviceData* _data, density_id den_select){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  // Zero density
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr    = nullptr;
-  switch ( den_select ) {
-    case DEN_S:
-      den_eval_ptr = base_stack.tden_s_eval_device;
-      break;
-    case DEN_Z:
-      den_eval_ptr = base_stack.tden_z_eval_device;
-      break;
-    case DEN_Y:
-      den_eval_ptr = base_stack.tden_y_eval_device;
-      break;
-    case DEN_X:
-      den_eval_ptr = base_stack.tden_x_eval_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_vvars_lda_trial called with invalid density selected!" );
-  }
-
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_eval_ptr, "Den Zero" );
-
-  // Evaluate V variable
-  auto aos_stack     = data->aos_stack;
-  GauXC::eval_vvars_lda_trial( ntasks, nbe_max, npts_max, den_select,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-}
-
-void AoSScheme1Base::eval_vvars_gga_trial( XCDeviceData* _data, density_id den_select){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  // Zero density
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr    = nullptr;
-  double* den_x_eval_ptr  = nullptr;
-  double* den_y_eval_ptr  = nullptr;
-  double* den_z_eval_ptr  = nullptr;
-  switch ( den_select ) {
-    case DEN_S:
-      den_eval_ptr = base_stack.tden_s_eval_device;
-      den_x_eval_ptr = base_stack.tdden_sx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_sy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_sz_eval_device; 
-      break;
-    case DEN_Z:
-      den_eval_ptr = base_stack.tden_z_eval_device;
-      den_x_eval_ptr = base_stack.tdden_zx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_zy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_zz_eval_device;
-      break;
-    case DEN_Y:
-      den_eval_ptr = base_stack.tden_y_eval_device;
-      den_x_eval_ptr = base_stack.tdden_yx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_yy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_yz_eval_device; 
-      break;
-    case DEN_X:
-      den_eval_ptr = base_stack.tden_x_eval_device;
-      den_x_eval_ptr = base_stack.tdden_xx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_xy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_xz_eval_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_vvars_gga_trial called with invalid density selected!" );
-  }
-
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_x_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_y_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_z_eval_ptr, "Den Zero" );
-  
-  // Evaluate V variable
-  auto aos_stack = data->aos_stack;
-  GauXC::eval_vvars_gga_trial( ntasks, nbe_max, npts_max, den_select,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-}
-
-void AoSScheme1Base::eval_vvars_mgga_trial( XCDeviceData* _data, density_id den_select, bool need_lapl){
-  auto* data = dynamic_cast<Data*>(_data);
-  if ( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  size_t nbe_max = 0, npts_max = 0;
-  for( auto& task : tasks ) {
-    nbe_max  = std::max( nbe_max, task.bfn_screening.nbe );
-    npts_max = std::max( npts_max, task.npts );
-  }
-
-  // Zero density
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr    = nullptr;
-  double* den_x_eval_ptr  = nullptr;
-  double* den_y_eval_ptr  = nullptr;
-  double* den_z_eval_ptr  = nullptr;
-  double* tau_eval_ptr    = nullptr;
-  double* lapl_eval_ptr   = nullptr;
-  switch ( den_select ) {
-    case DEN_S:
-      den_eval_ptr = base_stack.tden_s_eval_device;
-      den_x_eval_ptr = base_stack.tdden_sx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_sy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_sz_eval_device; 
-      tau_eval_ptr   = base_stack.ttau_s_eval_device;
-      lapl_eval_ptr  = base_stack.tlapl_s_eval_device;
-      break;
-    case DEN_Z:
-      den_eval_ptr = base_stack.tden_z_eval_device;
-      den_x_eval_ptr = base_stack.tdden_zx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_zy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_zz_eval_device;
-      tau_eval_ptr   = base_stack.ttau_z_eval_device;
-      lapl_eval_ptr  = base_stack.tlapl_z_eval_device;
-      break;
-    case DEN_Y:
-      den_eval_ptr = base_stack.tden_y_eval_device;
-      den_x_eval_ptr = base_stack.tdden_yx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_yy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_yz_eval_device; 
-      break;
-    case DEN_X:
-      den_eval_ptr = base_stack.tden_x_eval_device;
-      den_x_eval_ptr = base_stack.tdden_xx_eval_device;
-      den_y_eval_ptr = base_stack.tdden_xy_eval_device;
-      den_z_eval_ptr = base_stack.tdden_xz_eval_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_vvars_gga_trial called with invalid density selected!" );
-  }
-
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_x_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_y_eval_ptr, "Den Zero" );
-  data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, den_z_eval_ptr, "Den Zero" );
-  if(tau_eval_ptr)
-    data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, tau_eval_ptr, "TAU Zero");
-  if(lapl_eval_ptr)
-    data->device_backend_->set_zero_async_master_queue( data->total_npts_task_batch, lapl_eval_ptr, "LAPL Zero");
-  
-  // Evaluate V variable
-  auto aos_stack = data->aos_stack;
-  GauXC::eval_vvars_mgga_trial( ntasks, nbe_max, npts_max, den_select, need_lapl,
-    aos_stack.device_tasks, data->device_backend_->queue() );
-
-}
-
-
-template <typename T>
-void interleave_kernel_input(size_t len, const T* src_data, int src_stride, T* tgt_data, int tgt_stride, std::string msg,
-                             DeviceBackend* backend) {
-  backend->copy_async_2d(1, len, src_data, src_stride, tgt_data, tgt_stride, msg);
-}
-
-template <typename T>
-void interleave_lda_input(size_t npts, T& base_stack, DeviceBackend* backend) {
-  interleave_kernel_input(npts, base_stack.den_s_eval_device, 1, base_stack.den_interleaved_device+0, 2,
-    "den_+ - > den_interleaved", backend);
-  interleave_kernel_input(npts, base_stack.den_z_eval_device, 1, base_stack.den_interleaved_device+1, 2,
-    "den_- - > den_interleaved", backend);
-}
-
-template <typename T>
-void interleave_gga_input(size_t npts, T& base_stack, DeviceBackend* backend) {
-  interleave_lda_input(npts, base_stack, backend);
-  interleave_kernel_input(npts, base_stack.gamma_pp_eval_device, 1, base_stack.gamma_eval_device+0, 3,
-    "gamma_++ - > gamma_interleaved", backend);
-  interleave_kernel_input(npts, base_stack.gamma_pm_eval_device, 1, base_stack.gamma_eval_device+1, 3,
-    "gamma_+- - > gamma_interleaved", backend);
-  interleave_kernel_input(npts, base_stack.gamma_mm_eval_device, 1, base_stack.gamma_eval_device+2, 3,
-    "gamma_-- - > gamma_interleaved", backend);
-}
-
-template <typename T>
-void interleave_mgga_input(size_t npts, T& base_stack, DeviceBackend* backend, bool need_lapl) {
-  interleave_gga_input(npts, base_stack, backend);
-  interleave_kernel_input(npts, base_stack.tau_s_eval_device, 1, base_stack.tau_interleaved_device, 2,
-    "tau_+ - > tau_interleaved", backend);
-  interleave_kernel_input(npts, base_stack.tau_z_eval_device, 1, base_stack.tau_interleaved_device+1, 2,
-    "tau_- - > tau_interleaved", backend);
-  if(need_lapl) {
-    interleave_kernel_input(npts, base_stack.lapl_s_eval_device, 1, base_stack.lapl_interleaved_device, 2,
-      "lapl_+ - > lapl_interleaved", backend);
-    interleave_kernel_input(npts, base_stack.lapl_z_eval_device, 1, base_stack.lapl_interleaved_device+1, 2,
-      "lapl_- - > lapl_interleaved", backend);
-  }
-}
- 
-
-
-template <typename T>
-void deinterleave_lda_output(size_t npts, T& base_stack, DeviceBackend* backend) {
-  interleave_kernel_input(npts, base_stack.vrho_eval_device+0, 2, base_stack.vrho_pos_eval_device, 1,
-    "vrho -> vrho+", backend);
-  interleave_kernel_input(npts, base_stack.vrho_eval_device+1, 2, base_stack.vrho_neg_eval_device, 1,
-    "vrho -> vrho-", backend);
-}
-
-template <typename T>
-void deinterleave_gga_output(size_t npts, T& base_stack, DeviceBackend* backend) {
-  deinterleave_lda_output(npts, base_stack, backend);
-  interleave_kernel_input(npts, base_stack.vgamma_eval_device+0, 3, base_stack.vgamma_pp_eval_device, 1,
-    "vgamma -> vgamma++", backend);
-  interleave_kernel_input(npts, base_stack.vgamma_eval_device+1, 3, base_stack.vgamma_pm_eval_device, 1,
-    "vgamma -> vgamma+-", backend);
-  interleave_kernel_input(npts, base_stack.vgamma_eval_device+2, 3, base_stack.vgamma_mm_eval_device, 1,
-    "vgamma -> vgamma--", backend);
-}
-
-template <typename T>
-void deinterleave_mgga_output(size_t npts, T& base_stack, DeviceBackend* backend, bool need_lapl) {
-  deinterleave_gga_output(npts, base_stack, backend);
-  interleave_kernel_input(npts, base_stack.vtau_eval_device+0, 2, base_stack.vtau_pos_eval_device, 1,
-    "vtau -> vtau+", backend);
-  interleave_kernel_input(npts, base_stack.vtau_eval_device+1, 2, base_stack.vtau_neg_eval_device, 1,
-    "vtau -> vtau-", backend);
-  if(need_lapl) {
-    interleave_kernel_input(npts, base_stack.vlapl_eval_device+0, 2, base_stack.vlapl_pos_eval_device, 1,
-      "vlapl -> vlapl+", backend);
-    interleave_kernel_input(npts, base_stack.vlapl_eval_device+1, 2, base_stack.vlapl_neg_eval_device, 1,
-      "vlapl -> vlapl-", backend);
-  }
-}
-
-template <typename T>
-void deinterleave_vxc_fxc_lda(size_t npts, T& base_stack, DeviceBackend* backend) {
-  // Deinterleave the lda vxc output
-  deinterleave_lda_output(npts, base_stack, backend);
-  interleave_kernel_input(npts, base_stack.v2rho2_eval_device+0, 3, base_stack.v2rho2_a_a_eval_device, 1,
-    "v2rho2 -> v2rho2_aa", backend);
-  interleave_kernel_input(npts, base_stack.v2rho2_eval_device+1, 3, base_stack.v2rho2_a_b_eval_device, 1,
-    "v2rho2 -> v2rho2_ab", backend);
-  interleave_kernel_input(npts, base_stack.v2rho2_eval_device+2, 3, base_stack.v2rho2_b_b_eval_device, 1,
-    "v2rho2 -> v2rho2_bb", backend);
-}
-
-template <typename T>
-void deinterleave_vxc_fxc_gga(size_t npts, T& base_stack, DeviceBackend* backend) {
-  deinterleave_vxc_fxc_lda(npts, base_stack, backend);
-  // Deinterleave the gga vxc output
-  deinterleave_gga_output(npts, base_stack, backend);
-  
-  interleave_kernel_input(npts, base_stack.v2rhogamma_eval_device+0, 6, base_stack.v2rhogamma_a_aa_eval_device, 1,
-    "v2rhogamma -> v2rhogamma_a_aa", backend);
-  interleave_kernel_input(npts, base_stack.v2rhogamma_eval_device+1, 6, base_stack.v2rhogamma_a_ab_eval_device, 1,
-    "v2rhogamma -> v2rhogamma_a_ab", backend);
-  interleave_kernel_input(npts, base_stack.v2rhogamma_eval_device+2, 6, base_stack.v2rhogamma_a_bb_eval_device, 1,
-    "v2rhogamma -> v2rhogamma_a_bb", backend);
-  interleave_kernel_input(npts, base_stack.v2rhogamma_eval_device+3, 6, base_stack.v2rhogamma_b_aa_eval_device, 1,
-    "v2rhogamma -> v2rhogamma_b_aa", backend);
-  interleave_kernel_input(npts, base_stack.v2rhogamma_eval_device+4, 6, base_stack.v2rhogamma_b_ab_eval_device, 1,
-    "v2rhogamma -> v2rhogamma_b_ab", backend);
-  interleave_kernel_input(npts, base_stack.v2rhogamma_eval_device+5, 6, base_stack.v2rhogamma_b_bb_eval_device, 1,
-    "v2rhogamma -> v2rhogamma_b_bb", backend);
-  interleave_kernel_input(npts, base_stack.v2gamma2_eval_device+0, 6, base_stack.v2gamma2_aa_aa_eval_device, 1,
-    "v2gamma2 -> v2gamma2_aa_aa", backend);
-  interleave_kernel_input(npts, base_stack.v2gamma2_eval_device+1, 6, base_stack.v2gamma2_aa_ab_eval_device, 1,
-    "v2gamma2 -> v2gamma2_aa_ab", backend);
-  interleave_kernel_input(npts, base_stack.v2gamma2_eval_device+2, 6, base_stack.v2gamma2_aa_bb_eval_device, 1,
-    "v2gamma2 -> v2gamma2_aa_bb", backend);
-  interleave_kernel_input(npts, base_stack.v2gamma2_eval_device+3, 6, base_stack.v2gamma2_ab_ab_eval_device, 1,
-    "v2gamma2 -> v2gamma2_ab_ab", backend);
-  interleave_kernel_input(npts, base_stack.v2gamma2_eval_device+4, 6, base_stack.v2gamma2_ab_bb_eval_device, 1,
-    "v2gamma2 -> v2gamma2_ab_bb", backend);
-  interleave_kernel_input(npts, base_stack.v2gamma2_eval_device+5, 6, base_stack.v2gamma2_bb_bb_eval_device, 1,
-    "v2gamma2 -> v2gamma2_bb_bb", backend);
-}
-
-template <typename T>
-void deinterleave_vxc_fxc_mgga(size_t npts, T& base_stack, DeviceBackend* backend, bool need_lapl) {
-  deinterleave_vxc_fxc_gga(npts, base_stack, backend);
-  // Deinterleave the mgga vxc output
-  deinterleave_mgga_output(npts, base_stack, backend, need_lapl);
-  
-  interleave_kernel_input(npts, base_stack.v2rhotau_eval_device+0, 4, base_stack.v2rhotau_a_a_eval_device, 1,
-    "v2rhotau -> v2rhotau_a_a", backend);
-  interleave_kernel_input(npts, base_stack.v2rhotau_eval_device+1, 4, base_stack.v2rhotau_a_b_eval_device, 1,
-    "v2rhotau -> v2rhotau_a_b", backend);
-  interleave_kernel_input(npts, base_stack.v2rhotau_eval_device+2, 4, base_stack.v2rhotau_b_a_eval_device, 1,
-    "v2rhotau -> v2rhotau_b_a", backend);
-  interleave_kernel_input(npts, base_stack.v2rhotau_eval_device+3, 4, base_stack.v2rhotau_b_b_eval_device, 1,
-    "v2rhotau -> v2rhotau_b_b", backend);
-  interleave_kernel_input(npts, base_stack.v2gammatau_eval_device+0, 6, base_stack.v2gammatau_aa_a_eval_device, 1,
-    "v2gammatau -> v2gammatau_aa_a", backend);
-  interleave_kernel_input(npts, base_stack.v2gammatau_eval_device+1, 6, base_stack.v2gammatau_aa_b_eval_device, 1,
-    "v2gammatau -> v2gammatau_aa_b", backend);
-  interleave_kernel_input(npts, base_stack.v2gammatau_eval_device+2, 6, base_stack.v2gammatau_ab_a_eval_device, 1,
-    "v2gammatau -> v2gammatau_ab_a", backend);
-  interleave_kernel_input(npts, base_stack.v2gammatau_eval_device+3, 6, base_stack.v2gammatau_ab_b_eval_device, 1,
-    "v2gammatau -> v2gammatau_ab_b", backend);
-  interleave_kernel_input(npts, base_stack.v2gammatau_eval_device+4, 6, base_stack.v2gammatau_bb_a_eval_device, 1,
-    "v2gammatau -> v2gammatau_bb_a", backend);
-  interleave_kernel_input(npts, base_stack.v2gammatau_eval_device+5, 6, base_stack.v2gammatau_bb_b_eval_device, 1,
-    "v2gammatau -> v2gammatau_bb_b", backend);
-  interleave_kernel_input(npts, base_stack.v2tau2_eval_device+0, 3, base_stack.v2tau2_a_a_eval_device, 1,
-    "v2tau2 -> v2tau2_a_a", backend);
-  interleave_kernel_input(npts, base_stack.v2tau2_eval_device+1, 3, base_stack.v2tau2_a_b_eval_device, 1,
-    "v2tau2 -> v2tau2_a_b", backend);
-  interleave_kernel_input(npts, base_stack.v2tau2_eval_device+2, 3, base_stack.v2tau2_b_b_eval_device, 1,
-    "v2tau2 -> v2tau2_b_b", backend);
-  
-  if (need_lapl) {
-    interleave_kernel_input(npts, base_stack.v2rholapl_eval_device+0, 4, base_stack.v2rholapl_a_a_eval_device, 1,
-      "v2rholapl -> v2rholapl_a_a", backend);
-    interleave_kernel_input(npts, base_stack.v2rholapl_eval_device+1, 4, base_stack.v2rholapl_a_b_eval_device, 1,
-      "v2rholapl -> v2rholapl_a_b", backend);
-    interleave_kernel_input(npts, base_stack.v2rholapl_eval_device+2, 4, base_stack.v2rholapl_b_a_eval_device, 1,
-      "v2rholapl -> v2rholapl_b_a", backend);
-    interleave_kernel_input(npts, base_stack.v2rholapl_eval_device+3, 4, base_stack.v2rholapl_b_b_eval_device, 1,
-      "v2rholapl -> v2rholapl_b_b", backend);
-    interleave_kernel_input(npts, base_stack.v2gammalapl_eval_device+0, 6, base_stack.v2gammalapl_aa_a_eval_device, 1,
-      "v2gammalapl -> v2gammalapl_aa_a", backend);
-    interleave_kernel_input(npts, base_stack.v2gammalapl_eval_device+1, 6, base_stack.v2gammalapl_aa_b_eval_device, 1,
-      "v2gammalapl -> v2gammalapl_aa_b", backend);
-    interleave_kernel_input(npts, base_stack.v2gammalapl_eval_device+2, 6, base_stack.v2gammalapl_ab_a_eval_device, 1,
-      "v2gammalapl -> v2gammalapl_ab_a", backend);
-    interleave_kernel_input(npts, base_stack.v2gammalapl_eval_device+3, 6, base_stack.v2gammalapl_ab_b_eval_device, 1,
-      "v2gammalapl -> v2gammalapl_ab_b", backend);
-    interleave_kernel_input(npts, base_stack.v2gammalapl_eval_device+4, 6, base_stack.v2gammalapl_bb_a_eval_device, 1,
-      "v2gammalapl -> v2gammalapl_bb_a", backend);
-    interleave_kernel_input(npts, base_stack.v2gammalapl_eval_device+5, 6, base_stack.v2gammalapl_bb_b_eval_device, 1,
-      "v2gammalapl -> v2gammalapl_bb_b", backend);
-    interleave_kernel_input(npts, base_stack.v2lapl2_eval_device+0, 3, base_stack.v2lapl2_a_a_eval_device, 1,
-      "v2lapl2 -> v2lapl2_a_a", backend);
-    interleave_kernel_input(npts, base_stack.v2lapl2_eval_device+1, 3, base_stack.v2lapl2_a_b_eval_device, 1,
-      "v2lapl2 -> v2lapl2_a_b", backend);
-    interleave_kernel_input(npts, base_stack.v2lapl2_eval_device+2, 3, base_stack.v2lapl2_b_b_eval_device, 1,
-      "v2lapl2 -> v2lapl2_b_b", backend);
-    interleave_kernel_input(npts, base_stack.v2lapltau_eval_device+0, 4, base_stack.v2lapltau_a_a_eval_device, 1,
-      "v2lapltau -> v2lapltau_a_a", backend);
-    interleave_kernel_input(npts, base_stack.v2lapltau_eval_device+1, 4, base_stack.v2lapltau_a_b_eval_device, 1,
-      "v2lapltau -> v2lapltau_a_b", backend);
-    interleave_kernel_input(npts, base_stack.v2lapltau_eval_device+2, 4, base_stack.v2lapltau_b_a_eval_device, 1,
-      "v2lapltau -> v2lapltau_b_a", backend);
-    interleave_kernel_input(npts, base_stack.v2lapltau_eval_device+3, 4, base_stack.v2lapltau_b_b_eval_device, 1,
-      "v2lapltau -> v2lapltau_b_b", backend);
-  }
-}
-
-template <typename T>
-void scale_lda_output(size_t npts, T& base_stack, DeviceBackend* backend, bool is_pol) {
-  hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-    base_stack.eps_eval_device, 1); 
-  if(is_pol) {
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vrho_pos_eval_device, 1); 
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vrho_neg_eval_device, 1); 
-  } else {
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vrho_eval_device, 1); 
-  }
-}
-
-template <typename T>
-void scale_gga_output(size_t npts, T& base_stack, DeviceBackend* backend, bool is_pol) {
-  scale_lda_output(npts, base_stack, backend, is_pol);
-  if(is_pol) {
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vgamma_pp_eval_device, 1); 
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vgamma_pm_eval_device, 1); 
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vgamma_mm_eval_device, 1); 
-  } else {
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vgamma_eval_device, 1); 
-  }
-}
-
-template <typename T>
-void scale_mgga_output(size_t npts, T& base_stack, DeviceBackend* backend, bool need_lapl, bool is_pol) {
-  scale_gga_output(npts, base_stack, backend, is_pol);
-  if(is_pol) {
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vtau_pos_eval_device, 1); 
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vtau_neg_eval_device, 1); 
-    if(need_lapl) {
-      hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-        base_stack.vlapl_pos_eval_device, 1); 
-      hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-        base_stack.vlapl_neg_eval_device, 1); 
-    }
-  } else {
-    hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-      base_stack.vtau_eval_device, 1); 
-    if(need_lapl) {
-      hadamard_product(backend->master_blas_handle(), npts, 1, base_stack.weights_device, 1, 
-        base_stack.vlapl_eval_device, 1); 
-    }
-  }
-}
-
-
-void AoSScheme1Base::eval_kern_exc_vxc_lda( const functional_type& func, 
-  XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if( !func.is_lda() ) GAUXC_GENERIC_EXCEPTION("XC Kernel not LDA!");
-
-  auto base_stack    = data->base_stack;
-
-  const bool is_RKS = data->allocated_terms.ks_scheme == RKS;
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol = is_UKS or is_GKS;
-  const bool is_excgrad = data->allocated_terms.exc_grad;
-
-  const size_t npts = data->total_npts_task_batch ;
-  
-  auto* den_eval_ptr = base_stack.den_s_eval_device;
-
-  if ( is_pol ) {
-    den_eval_ptr = base_stack.den_interleaved_device;
-    interleave_lda_input(npts, base_stack, data->device_backend_);
-  }
-
-  GauXC::eval_kern_exc_vxc_lda( func, npts,
-    den_eval_ptr, base_stack.eps_eval_device, 
-    base_stack.vrho_eval_device, data->device_backend_->queue() );
-
-  if(is_pol) deinterleave_lda_output(npts, base_stack, data->device_backend_);
-  scale_lda_output(npts, base_stack, data->device_backend_, is_pol);
-  
-  data->device_backend_->check_error("exc_vxc lda" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::eval_kern_exc_vxc_gga( const functional_type& func, 
-  XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if( !func.is_gga() ) GAUXC_GENERIC_EXCEPTION("XC Kernel not GGA!");
-
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr = base_stack.den_s_eval_device;
-  
-  const bool is_RKS = data->allocated_terms.ks_scheme == RKS;
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-  const bool is_excgrad = data->allocated_terms.exc_grad;
-
-  const size_t npts = data->total_npts_task_batch ;
-  
-  if(is_pol) {
-    den_eval_ptr = base_stack.den_interleaved_device;
-    interleave_gga_input(npts, base_stack, data->device_backend_);
-  }
-
-  GauXC::eval_kern_exc_vxc_gga( func, data->total_npts_task_batch, 
-    den_eval_ptr, base_stack.gamma_eval_device, 
-    base_stack.eps_eval_device, base_stack.vrho_eval_device, 
-    base_stack.vgamma_eval_device, data->device_backend_->queue() );
-
-  if(is_pol) deinterleave_gga_output(npts, base_stack, data->device_backend_);
-  scale_gga_output(npts, base_stack, data->device_backend_, is_pol);
-
-  data->device_backend_->check_error("exc_vxc gga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::eval_kern_exc_vxc_mgga( const functional_type& func, 
-  XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if( !func.is_mgga() ) GAUXC_GENERIC_EXCEPTION("XC Kernel not MGGA!");
-
-  auto base_stack       = data->base_stack;
-  double* den_eval_ptr  = base_stack.den_s_eval_device;
-  double* tau_eval_ptr  = base_stack.tau_s_eval_device;
-  double* lapl_eval_ptr = base_stack.lapl_s_eval_device;
-  
-  const bool is_RKS = data->allocated_terms.ks_scheme == RKS;
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-  const bool is_excgrad = data->allocated_terms.exc_grad;
-
-  const size_t npts = data->total_npts_task_batch ;
-  
-  if(is_pol) {
-    den_eval_ptr = base_stack.den_interleaved_device;
-    tau_eval_ptr = base_stack.tau_interleaved_device;
-    lapl_eval_ptr = base_stack.lapl_interleaved_device;
-    interleave_mgga_input(npts, base_stack, data->device_backend_, func.needs_laplacian());
-  }
-
-  GauXC::eval_kern_exc_vxc_mgga( func, data->total_npts_task_batch, 
-    den_eval_ptr, base_stack.gamma_eval_device, 
-    tau_eval_ptr, lapl_eval_ptr,
-    base_stack.eps_eval_device, base_stack.vrho_eval_device, 
-    base_stack.vgamma_eval_device, base_stack.vtau_eval_device,
-    base_stack.vlapl_eval_device, data->device_backend_->queue() );
-
-  if(is_pol) deinterleave_mgga_output(npts, base_stack, data->device_backend_, func.needs_laplacian());
-  scale_mgga_output(npts, base_stack, data->device_backend_, func.needs_laplacian(), is_pol);
-  
-  data->device_backend_->check_error("exc_vxc mgga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::eval_kern_vxc_fxc_lda( const functional_type& func, 
-  XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if( !func.is_lda() ) GAUXC_GENERIC_EXCEPTION("XC Kernel not LDA!");
-
-  auto base_stack    = data->base_stack;
-
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol = is_UKS or is_GKS;
-
-  const size_t npts = data->total_npts_task_batch ;
-  
-  auto* den_eval_ptr = base_stack.den_s_eval_device;
-
-  if ( is_pol ) {
-    den_eval_ptr = base_stack.den_interleaved_device;
-    interleave_lda_input(npts, base_stack, data->device_backend_);
-  }
-
-  GauXC::eval_kern_vxc_fxc_lda( func, npts,
-    den_eval_ptr, base_stack.vrho_eval_device, 
-    base_stack.v2rho2_eval_device, data->device_backend_->queue() );
-
-  if(is_pol) deinterleave_vxc_fxc_lda(npts, base_stack, data->device_backend_);
-  // For 2nd derivative, we do not scale the output
-  // We will multiply it with the weights to the intermediate outputs A, B, C 
-  
-  data->device_backend_->check_error("exc_vxc_fxc lda" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::eval_kern_vxc_fxc_gga( const functional_type& func, 
-  XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if( !func.is_gga() ) GAUXC_GENERIC_EXCEPTION("XC Kernel not GGA!");
-
-  auto base_stack    = data->base_stack;
-  double* den_eval_ptr = base_stack.den_s_eval_device;
-  
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-
-  const size_t npts = data->total_npts_task_batch ;
-  
-  if(is_pol) {
-    den_eval_ptr = base_stack.den_interleaved_device;
-    interleave_gga_input(npts, base_stack, data->device_backend_);
-  }
-
-  GauXC::eval_kern_vxc_fxc_gga( func, npts, 
-    den_eval_ptr, base_stack.gamma_eval_device,
-    base_stack.vrho_eval_device, base_stack.vgamma_eval_device,
-    base_stack.v2rho2_eval_device, base_stack.v2rhogamma_eval_device, base_stack.v2gamma2_eval_device,
-    data->device_backend_->queue() );
-
-  if(is_pol) deinterleave_vxc_fxc_gga(npts, base_stack, data->device_backend_);
-  
-  // For 2nd derivative, we do not scale the output
-  // We will multiply it with the weights to the intermediate outputs A, B, C 
-
-  
-  data->device_backend_->check_error("exc_vxc_fxc gga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::eval_kern_vxc_fxc_mgga( const functional_type& func, 
-  XCDeviceData* _data ) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if( !func.is_mgga() ) GAUXC_GENERIC_EXCEPTION("XC Kernel not MGGA!");
-
-  auto base_stack       = data->base_stack;
-  double* den_eval_ptr  = base_stack.den_s_eval_device;
-  double* tau_eval_ptr  = base_stack.tau_s_eval_device;
-  double* lapl_eval_ptr = base_stack.lapl_s_eval_device;
-  
-  const bool is_UKS = data->allocated_terms.ks_scheme == UKS;
-  const bool is_GKS = data->allocated_terms.ks_scheme == GKS;
-  const bool is_pol  = is_UKS or is_GKS;
-
-  const size_t npts = data->total_npts_task_batch ;
-  
-  if(is_pol) {
-    den_eval_ptr = base_stack.den_interleaved_device;
-    tau_eval_ptr = base_stack.tau_interleaved_device;
-    lapl_eval_ptr = base_stack.lapl_interleaved_device;
-    interleave_mgga_input(npts, base_stack, data->device_backend_, func.needs_laplacian());
-  }
-
-  GauXC::eval_kern_vxc_fxc_mgga( func, npts, 
-    den_eval_ptr, base_stack.gamma_eval_device, 
-    lapl_eval_ptr, tau_eval_ptr, 
-    base_stack.vrho_eval_device, base_stack.vgamma_eval_device, 
-    base_stack.vlapl_eval_device, base_stack.vtau_eval_device,
-    base_stack.v2rho2_eval_device, base_stack.v2rhogamma_eval_device,
-    base_stack.v2rholapl_eval_device, base_stack.v2rhotau_eval_device,
-    base_stack.v2gamma2_eval_device, base_stack.v2gammalapl_eval_device,
-    base_stack.v2gammatau_eval_device, base_stack.v2lapl2_eval_device,
-    base_stack.v2lapltau_eval_device, base_stack.v2tau2_eval_device,
-    data->device_backend_->queue() );
-
-  if(is_pol) deinterleave_vxc_fxc_mgga(npts, base_stack, data->device_backend_, func.needs_laplacian());
-  
-  // For 2nd derivative, we do not scale the output
-  // We will multiply it with the weights to the intermediate outputs A, B, C 
-  
-  data->device_backend_->check_error("exc_vxc_fxc mgga" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-template<bool is_trial>
-void AoSScheme1Base::eval_xmat_impl( double fac, XCDeviceData* _data, bool do_grad, density_id den_select ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  // Set correct density matrix pointer on the stack
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  double * dmat_ptr;
-  if constexpr (is_trial) {
-    dmat_ptr = static_stack.tden_selector(den_select);
-    // now screened trial density matrix is stored in aos_stack.device_tasks[itask].nbe_scr
-  } else {
-    dmat_ptr = static_stack.den_selector(den_select);
-  }
-
-  // Pack density matrix 
-  sym_pack_submat( ntasks, aos_stack.device_tasks, dmat_ptr, 
-    nbf, submat_block_size, data->device_backend_->queue() );
-
-
-  // Sync blas streams with master stream
-  data->device_backend_->sync_blas_pool_with_master();
-
-  auto do_gemm = [&]( auto& handle, size_t npts, size_t nbe, auto* bf_ptr, auto* den_ptr, int ldden, auto* x_ptr ) {
-    gemm( handle, DeviceBlasOp::NoTrans, DeviceBlasOp::NoTrans, npts, nbe, nbe, fac, bf_ptr, npts,
-      den_ptr, ldden, 0., x_ptr, npts ); 
-  };
-
-  // Launch GEMM in round-robin
-  const auto n_blas_streams = data->device_backend_->blas_pool_size();
-  
-   
-
-  //size_t nsingle = 0;
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-    auto& task = tasks[iT];
-      auto den_ptr = task.bfn_screening.ncut > 1 ? task.nbe_scr : dmat_ptr + task.bfn_screening.ibf_begin*(nbf+1);
-      int  ldden   = task.bfn_screening.ncut > 1 ? task.bfn_screening.nbe : nbf;
-      auto handle = data->device_backend_->blas_pool_handle( iT % n_blas_streams );
-      do_gemm( handle, task.npts, task.bfn_screening.nbe, task.bf, den_ptr, ldden, task.zmat );
-      if( do_grad ) {
-        do_gemm( handle, task.npts, task.bfn_screening.nbe, task.dbfx, den_ptr, ldden, task.xmat_x );
-        do_gemm( handle, task.npts, task.bfn_screening.nbe, task.dbfy, den_ptr, ldden, task.xmat_y );
-        do_gemm( handle, task.npts, task.bfn_screening.nbe, task.dbfz, den_ptr, ldden, task.xmat_z );
-      }
-  }
-
-  
-  data->device_backend_->check_error("xmat impl" __FILE__ ": " + std::to_string(__LINE__));
-  // Record completion of BLAS ops on master stream
-  data->device_backend_->sync_master_with_blas_pool();
-
-}
-
-
-void AoSScheme1Base::eval_xmat( double fac, XCDeviceData* _data, bool do_grad, density_id den_select ){
-  eval_xmat_impl<false>(fac, _data, do_grad, den_select);
-}
-void AoSScheme1Base::eval_xmat_trial( double fac, XCDeviceData* _data, bool do_grad, density_id den_select ){
-  eval_xmat_impl<true>(fac, _data, do_grad, den_select);
-}
-
-void AoSScheme1Base::save_xmat( XCDeviceData* _data, bool do_grad, density_id den_select ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-  auto backend = data->device_backend_;
-
-  auto aos_stack     = data->aos_stack;
-  const auto sz = data->total_nbe_bfn_npts_task_batch;
-
-  switch(den_select) {
-    case DEN_S:
-      backend->copy_async(sz, aos_stack.zmat_vxc_device, aos_stack.xmatS_device, "xmatS copy");
-      if(do_grad) {
-        backend->copy_async(sz, aos_stack.xmat_dx_device, aos_stack.xmatS_dx_device, "xmatS_dx copy");
-        backend->copy_async(sz, aos_stack.xmat_dy_device, aos_stack.xmatS_dy_device, "xmatS_dy copy");
-        backend->copy_async(sz, aos_stack.xmat_dz_device, aos_stack.xmatS_dz_device, "xmatS_dz copy");
-      }
-      break;
-    case DEN_Z:
-      backend->copy_async(sz, aos_stack.zmat_vxc_device, aos_stack.xmatZ_device, "xmatZ copy");
-      if(do_grad) {
-        backend->copy_async(sz, aos_stack.xmat_dx_device, aos_stack.xmatZ_dx_device, "xmatZ_dx copy");
-        backend->copy_async(sz, aos_stack.xmat_dy_device, aos_stack.xmatZ_dy_device, "xmatZ_dy copy");
-        backend->copy_async(sz, aos_stack.xmat_dz_device, aos_stack.xmatZ_dz_device, "xmatZ_dz copy");
-      }
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION("Save XMat + GKS NYI");
-  }
-}
-
-
-
-
-
-template<bool is_fxc>
-void AoSScheme1Base::inc_potential_impl( XCDeviceData* _data, density_id den_selector, bool do_m ){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  // Sync blas streams with master stream
-  data->device_backend_->sync_blas_pool_with_master();
-
-  auto do_syr2k = [&]( auto& handle, size_t npts, size_t nbe, auto* bf_ptr, auto* zptr, double fac, auto* v_ptr ) {
-    syr2k( handle, DeviceBlasUplo::Lower, DeviceBlasOp::Trans, nbe, npts, 1.0, bf_ptr, npts,
-      zptr, npts, fac, v_ptr, nbe ); 
-  };
-
-  // Launch SYR2K in round robin
-  const auto n_blas_streams = data->device_backend_->blas_pool_size();
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-    auto& task = tasks[iT];
-    auto handle = data->device_backend_->blas_pool_handle( iT % n_blas_streams );
-    do_syr2k(handle, task.npts, task.bfn_screening.nbe, task.bf, task.zmat, 0.0, task.nbe_scr);
-    if(do_m) {
-      do_syr2k(handle, task.npts, task.bfn_screening.nbe, task.dbfx, task.xmat_x, 1.0, task.nbe_scr);
-      do_syr2k(handle, task.npts, task.bfn_screening.nbe, task.dbfy, task.xmat_y, 1.0, task.nbe_scr);
-      do_syr2k(handle, task.npts, task.bfn_screening.nbe, task.dbfz, task.xmat_z, 1.0, task.nbe_scr);
-    }
-  }
-
-  // Record completion of BLAS ops on master stream
-  data->device_backend_->sync_master_with_blas_pool();
-
-  // Increment global VXC
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  
-  double* potential_ptr;
-  if constexpr (is_fxc) {
-    potential_ptr = static_stack.fxc_selector(den_selector);
-    // cutlass_stack.vmat_array_device points to aos_stack.device_tasks[itask].nbe_scr
-  } else {
-    potential_ptr = static_stack.vxc_selector(den_selector);
-  }
-
-  auto vxc_ptr = static_stack.vxc_selector(den_selector);
-  sym_task_inc_potential( ntasks, aos_stack.device_tasks,
-    potential_ptr, nbf, submat_block_size,
-    data->device_backend_->queue() );
-  
-  data->device_backend_->check_error("inc_potential_ptr" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-void AoSScheme1Base::inc_vxc( XCDeviceData* _data, density_id den_selector, bool do_m ){
-  inc_potential_impl<false>(_data, den_selector, do_m);
-}
-
-void AoSScheme1Base::inc_fxc( XCDeviceData* _data, density_id den_selector, bool do_m ){
-  inc_potential_impl<true>(_data, den_selector, do_m);
-}
-
-
-
-
-
-
-
-
-
-
-
-void AoSScheme1Base::symmetrize_vxc( XCDeviceData* _data, density_id den_selector) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto nbf = data->global_dims.nbf;
-  auto static_stack  = data->static_stack;
-  switch ( den_selector ) {
-    case DEN_S:
-      symmetrize_matrix( nbf, static_stack.vxc_s_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    case DEN_Z:
-      symmetrize_matrix( nbf, static_stack.vxc_z_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    case DEN_Y:
-      symmetrize_matrix( nbf, static_stack.vxc_y_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    case DEN_X:
-      symmetrize_matrix( nbf, static_stack.vxc_x_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "symmetrize_vxc: invalid density selected" );
-  }
-  
-  data->device_backend_->check_error("symmetrize vxc" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-void AoSScheme1Base::symmetrize_fxc( XCDeviceData* _data, density_id den_selector) {
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto nbf = data->global_dims.nbf;
-  auto static_stack  = data->static_stack;
-  switch ( den_selector ) {
-    case DEN_S:
-      symmetrize_matrix( nbf, static_stack.fxc_s_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    case DEN_Z:
-      symmetrize_matrix( nbf, static_stack.fxc_z_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    case DEN_Y:
-      symmetrize_matrix( nbf, static_stack.fxc_y_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    case DEN_X:
-      symmetrize_matrix( nbf, static_stack.fxc_x_device, nbf, 
-            data->device_backend_->queue() ); 
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "symmetrize_fxc: invalid density selected" );
-  }
-  
-  data->device_backend_->check_error("symmetrize fxc" __FILE__ ": " + std::to_string(__LINE__));
-}
-
-
-
-
-void AoSScheme1Base::inc_exc_grad_lda( XCDeviceData* _data, integrator_ks_scheme ks_scheme, bool with_weight_derivatives ) {
-#ifdef GAUXC_HAS_HIP
-  GAUXC_GENERIC_EXCEPTION("LDA Grad NYI for HIP Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto nshell = data->global_dims.nshells;
-  increment_exc_grad_lda( ks_scheme, nshell, 
-    data->shell_to_task_stack.shell_to_task_device, 
-    data->aos_stack.device_tasks,
-    data->static_stack.exc_grad_device,
-    with_weight_derivatives,
-    data->device_backend_->queue() ); 
-#endif
-}
-
-void AoSScheme1Base::inc_exc_grad_gga( XCDeviceData* _data, integrator_ks_scheme ks_scheme, bool with_weight_derivatives ) {
-#ifdef GAUXC_HAS_HIP
-  GAUXC_GENERIC_EXCEPTION("GGA Grad NYI for HIP Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto nshell = data->global_dims.nshells;
-  increment_exc_grad_gga( ks_scheme, nshell, 
-    data->shell_to_task_stack.shell_to_task_device, 
-    data->aos_stack.device_tasks,
-    data->static_stack.exc_grad_device,
-    with_weight_derivatives,
-    data->device_backend_->queue() ); 
-#endif
-}
-
-void AoSScheme1Base::inc_exc_grad_mgga( XCDeviceData* _data, integrator_ks_scheme ks_scheme, bool need_lapl, bool with_weight_derivatives ) {
-#ifdef GAUXC_HAS_HIP
-  GAUXC_GENERIC_EXCEPTION("MGGA Grad NYI for HIP Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto nshell = data->global_dims.nshells;
-  increment_exc_grad_mgga( ks_scheme, nshell, need_lapl,
-    data->shell_to_task_stack.shell_to_task_device, 
-    data->aos_stack.device_tasks,
-    data->static_stack.exc_grad_device,
-    with_weight_derivatives,
-    data->device_backend_->queue() ); 
-#endif
-}
-
-
-void AoSScheme1Base::eval_exx_fmat( XCDeviceData* _data ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX F-Matrix NYI for non-CUDA Backends");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-  const auto nbf = data->global_dims.nbf;
-  auto static_stack  = data->static_stack;
-
-  // Pack the density matrix into (bfn, cou) shape
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto aos_stack     = data->aos_stack;
-  asym_pack_submat( ntasks, aos_stack.device_tasks, static_stack.dmat_s_device,
-    nbf, submat_block_size, data->device_backend_->queue() );
-
-  // Sync blas streams with master stream
-  data->device_backend_->sync_blas_pool_with_master();
-
-  // Launch GEMM in round-robin
-  const auto n_blas_streams = data->device_backend_->blas_pool_size();
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-    auto& task = tasks[iT];
-    auto handle = data->device_backend_->blas_pool_handle( iT % n_blas_streams );
-    auto npts = task.npts;
-    auto nbe_bfn = task.bfn_screening.nbe;
-    auto nbe_cou = task.cou_screening.nbe;
-    gemm( handle, DeviceBlasOp::NoTrans, DeviceBlasOp::NoTrans, 
-      npts, nbe_cou, nbe_bfn, 1., task.bf, npts, task.nbe_scr, nbe_bfn, 
-      0., task.fmat, npts );
-  }
-
-  // Record completion of BLAS ops on master stream
-  data->device_backend_->sync_master_with_blas_pool();
-#endif
-}
-
-void AoSScheme1Base::eval_exx_gmat( XCDeviceData* _data, 
-  const BasisSetMap& basis_map ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX G-Matrix NYI for non-CUDA Backends");
-#else
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  //const auto ntasks = tasks.size();
-  const size_t nshells = data->global_dims.nshells;
-  //auto static_stack  = data->static_stack;
-
-  // XXX: Need to add screening capabilities, packing etc
-  //const auto nbf = data->global_dims.nbf;
-
-
-  if( basis_map.max_l() > 2 ) {
-    GAUXC_GENERIC_EXCEPTION("GPU EXX + L>2 NYI");
-  }
-  
-  // Determine purity of shell types
-  std::vector<bool> sph_am(basis_map.max_l()+1);
-  for( auto i = 0ul; i < nshells; ++i ) {
-    sph_am[basis_map.shell_l(i)] =  sph_am[basis_map.shell_l(i)] | basis_map.shell_pure(i);
-  }
-
-  // Sanity Check
-  for( auto i = 0ul; i < nshells; ++i ) {
-    if(basis_map.shell_pure(i) != sph_am[basis_map.shell_l(i)])
-      GAUXC_GENERIC_EXCEPTION("GPU EXX requires all shells of the same angular momentum to have the same purity");
-  }
-  
-
-  // Zero out G
-  for( auto& task : tasks ) {
-    const size_t sz = task.npts*task.cou_screening.nbe;
-    data->device_backend_->set_zero_async_master_queue( 
-      sz, task.gmat, "Zero G" );
-  }
-
-  // Sync blas streams with master stream
-  data->device_backend_->sync_blas_pool_with_master();
-
-  // Launch Shell Pair Kernels in round-robin
-  //const auto n_streams = data->device_backend_->blas_pool_size();
-
-  auto& sp_to_task = data->shell_pair_to_task;
-  #if 1
-  constexpr bool do_batch = true;
-
-  if( do_batch ) { // start batched code
-
-    cudaStream_t stream = 
-      data->device_backend_->queue().queue_as<util::cuda_stream>();
-
-    XGPU::integral_0_task_batched(
-      tasks.size(), data->subtask.size(),
-      data->l_batch_diag_task_to_shell_pair_device[0].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_diag_task_to_shell_pair_device[0].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_0_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    if(basis_map.max_l() > 0) {
-    XGPU::integral_1_task_batched(
-      sph_am[1], tasks.size(), data->subtask.size(),
-      data->l_batch_diag_task_to_shell_pair_device[1].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_diag_task_to_shell_pair_device[1].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_1_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-    if(basis_map.max_l() > 1) {
-    XGPU::integral_2_task_batched(
-      sph_am[2], tasks.size(), data->subtask.size(),
-      data->l_batch_diag_task_to_shell_pair_device[2].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_diag_task_to_shell_pair_device[2].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_2_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-  #define SP_LBATCH_IDX(I,J) (I*(basis_map.max_l()+1) + J)
-
-    XGPU::integral_0_0_task_batched(
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[0].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[0].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_0_0_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-
-    if(basis_map.max_l() > 0) {
-    XGPU::integral_1_1_task_batched(
-      sph_am[1], tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(1,1)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(1,1)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_1_1_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 1) {
-    XGPU::integral_2_2_task_batched(
-      sph_am[2], tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(2,2)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(2,2)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_2_2_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 0) {
-    XGPU::integral_1_0_task_batched( true, sph_am[1],
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(0,1)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(0,1)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_1_0_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 0) {
-    XGPU::integral_1_0_task_batched( false, sph_am[1],
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(1,0)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(1,0)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_1_0_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 1) {
-    XGPU::integral_2_0_task_batched( true, sph_am[2],
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(0,2)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(0,2)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_2_0_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 1) {
-    XGPU::integral_2_0_task_batched( false, sph_am[2],
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(2,0)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(2,0)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_2_0_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 1) {
-    XGPU::integral_2_1_task_batched( true, sph_am[2], sph_am[1],
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(1,2)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(1,2)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_2_1_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-    if(basis_map.max_l() > 1) {
-    XGPU::integral_2_1_task_batched( false, sph_am[2], sph_am[1],
-      tasks.size(), data->subtask.size(),
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(2,1)].max_prim_pairs, 0,
-      data->aos_stack.device_tasks,
-      data->l_batch_task_to_shell_pair_device[SP_LBATCH_IDX(2,1)].task_to_shell_pair_device,
-      data->task_to_shell_pair_stack.subtask_device,
-      data->task_to_shell_pair_stack.nprim_pairs_device,
-      data->task_to_shell_pair_stack.pp_ptr_device,
-      data->task_to_shell_pair_stack.sp_X_AB_device,
-      data->task_to_shell_pair_stack.sp_Y_AB_device,
-      data->task_to_shell_pair_stack.sp_Z_AB_device,
-      dev_boys_table, stream
-    );
-    data->device_backend_->check_error("integral_2_1_task_batched" __FILE__ ": " + std::to_string(__LINE__));
-    }
-
-  } else { // end batched start unbatched
-
-    cudaStream_t stream = 
-      data->device_backend_->queue().queue_as<util::cuda_stream>();
-    for( auto& sptt : sp_to_task ) { 
-      size_t ntask_sp = sptt.task_idx.size();
-      auto ish = sptt.idx_bra;
-      auto jsh = sptt.idx_ket;
-      for( auto i = 0ul; i < ntask_sp; i++ ) {
-        const auto iT = sptt.task_idx[i];
-        const auto i_off = sptt.task_shell_off_row[i];
-        const auto j_off = sptt.task_shell_off_col[i];
-
-        const auto& task = tasks[iT];
-        //cudaStream_t stream = 
-          //data->device_backend_->blas_pool_queue(iT % n_streams)
-          //  .queue_as<util::cuda_stream>();
-
-        XGPU::compute_integral_shell_pair( ish == jsh,
-          task.npts,
-          task.points_x,
-          task.points_y,
-          task.points_z,
-          sptt.lA, sptt.lB,
-          sptt.rA, sptt.rB,
-          sptt.shell_pair_device,
-          task.fmat + i_off*task.npts,
-          task.fmat + j_off*task.npts,
-          task.npts,
-          task.gmat + i_off*task.npts,
-          task.gmat + j_off*task.npts,
-          task.npts,
-          task.weights,
-          dev_boys_table, stream ); 
-      } // Loop over tasks within a shell pair
-    } // Loop over shell pair maps
-  } // end unbatched
-  #else
-  size_t isptt = 0;
-  for( auto& sptt : sp_to_task ) {
-    size_t ntask_sp = sptt.task_idx.size();
-    auto ish = sptt.idx_bra;
-    auto jsh = sptt.idx_ket;
-    //std::cout << "SH " << ish << " " << jsh << std::endl;
-    if( true ) {
-
-      cudaStream_t stream = 
-        data->device_backend_->queue().queue_as<util::cuda_stream>();
-      const auto X_AB = sptt.rA.x - sptt.rB.x;
-      const auto Y_AB = sptt.rA.y - sptt.rB.y;
-      const auto Z_AB = sptt.rA.z - sptt.rB.z;
-      XGPU::compute_integral_shell_pair_batched( ish == jsh, ntask_sp, 
-        sptt.lA, sptt.lB, X_AB, Y_AB, Z_AB,
-        data->shell_pair_to_task_stack.shell_pair_to_task_device + isptt,
-        data->aos_stack.device_tasks, dev_boys_table, stream );
-
-    } else {
-
-      for( auto i = 0ul; i < ntask_sp; i++ ) {
-        const auto iT = sptt.task_idx[i];
-        const auto i_off = sptt.task_shell_off_row[i];
-        const auto j_off = sptt.task_shell_off_col[i];
-
-        const auto& task = tasks[iT];
-        cudaStream_t stream = 
-          data->device_backend_->queue().queue_as<util::cuda_stream>();
-          //data->device_backend_->blas_pool_queue(iT % n_streams)
-          //  .queue_as<util::cuda_stream>();
-
-        XGPU::compute_integral_shell_pair( ish == jsh,
-          task.npts,
-          task.points_x,
-          task.points_y,
-          task.points_z,
-          sptt.lA, sptt.lB,
-          sptt.rA, sptt.rB,
-          sptt.shell_pair_device,
-          task.fmat + i_off*task.npts,
-          task.fmat + j_off*task.npts,
-          task.npts,
-          task.gmat + i_off*task.npts,
-          task.gmat + j_off*task.npts,
-          task.npts,
-          task.weights,
-          dev_boys_table, stream ); 
-      
-      }
-
-    }
-    isptt++;
-  }
-  #endif
-
-
-  // Record completion of BLAS ops on master stream
-  data->device_backend_->sync_master_with_blas_pool();
-#endif
-}
-
-
-
-void AoSScheme1Base::inc_exx_k( XCDeviceData* _data ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX + non-CUDA NYI");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  // Sync blas streams with master stream
-  data->device_backend_->sync_blas_pool_with_master();
-
-  // Launch GEMM in round-robin
-  const auto n_blas_streams = data->device_backend_->blas_pool_size();
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-    auto& task = tasks[iT];
-    auto handle = data->device_backend_->blas_pool_handle( iT % n_blas_streams );
-    auto npts = task.npts;
-    auto nbe_bfn = task.bfn_screening.nbe;
-    auto nbe_cou = task.cou_screening.nbe;
-    gemm( handle, DeviceBlasOp::Trans, DeviceBlasOp::NoTrans, 
-      nbe_bfn, nbe_cou, npts, 1., task.bf, npts, task.gmat, npts, 0., 
-      task.nbe_scr, nbe_bfn );
-  }
-
-  // Record completion of BLAS ops on master stream
-  data->device_backend_->sync_master_with_blas_pool();
-
-  // Increment EXX_K
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  asym_task_inc_potential( ntasks, aos_stack.device_tasks, 
-    static_stack.exx_k_device, nbf, submat_block_size, 
-    data->device_backend_->queue() );
-#endif
-}
-
-void AoSScheme1Base::symmetrize_exx_k( XCDeviceData* _data ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX + non-CUDA NYI");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto nbf = data->global_dims.nbf;
-  auto static_stack  = data->static_stack;
-  symmetrize_matrix_inc( nbf, static_stack.exx_k_device, nbf, 
-    data->device_backend_->queue() ); 
-#endif
-}
-
-
-void AoSScheme1Base::eval_exx_ek_screening_bfn_stats( XCDeviceData* _data ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX + non-CUDA NYI");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto tasks = data->host_device_tasks;
-  const auto ntasks_ek = data->global_dims.ntask_ek;
-  const auto ntasks = tasks.size();
-  //const auto nbf = data->global_dims.nbf;
-  auto aos_stack    = data->aos_stack;
-  auto static_stack    = data->static_stack;
-  GauXC::exx_ek_screening_bfn_stats( ntasks, aos_stack.device_tasks,
-    static_stack.ek_max_bfn_sum_device, static_stack.ek_bfn_max_device, 
-    ntasks_ek, data->device_backend_->queue() );
-#endif
-}
-
-
-void AoSScheme1Base::exx_ek_shellpair_collision( double eps_E, double eps_K,
-  XCDeviceData* _data, host_task_iterator tb, host_task_iterator te,
-  const ShellPairCollection<double>& shpairs ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX + non-CUDA NYI");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  const auto ntasks = std::distance(tb, te);
-  if( ntasks > data->global_dims.ntask_ek ) 
-    GAUXC_GENERIC_EXCEPTION("EK - Too Many Tasks");
-
-  const auto nshells   = data->global_dims.nshells;
-  const auto nbf   = data->global_dims.nbf;
-  auto static_stack    = data->static_stack;
-
-  GauXC::exx_ek_shellpair_collision( ntasks, nshells, nbf,
-    static_stack.dmat_s_device, nbf,
-    static_stack.vshell_max_sparse_device, 
-    static_stack.shpair_row_ind_device,
-    static_stack.shpair_col_ind_device,
-    static_stack.ek_max_bfn_sum_device,
-    static_stack.ek_bfn_max_device, data->global_dims.ntask_ek, 
-    static_stack.shells_device, static_stack.shell_to_bf_device,
-    static_stack.shell_sizes_device, eps_E, eps_K,
-    data->dynmem_ptr, data->dynmem_sz,
-    tb, te, shpairs,
-    data->device_backend_->queue(),
-    data->device_backend_->master_blas_handle()
-   );
-#endif
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_base.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_base.hpp
deleted file mode 100644
index 5abac35..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_base.hpp
+++ /dev/null
@@ -1,101 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/local_device_work_driver_pimpl.hpp"
-#include "device/scheme1_data_base.hpp"
-
-namespace GauXC {
-
-struct AoSScheme1Base : public detail::LocalDeviceWorkDriverPIMPL {
-
-  // Device Common APIs (final overrides)
-  void eval_collocation( XCDeviceData* ) override final;
-  void eval_collocation_gradient( XCDeviceData* ) override final;
-  void eval_collocation_hessian( XCDeviceData* ) override final;
-  void eval_collocation_laplacian( XCDeviceData* ) override final;
-  void eval_collocation_lapgrad( XCDeviceData* ) override final;
-
-  void eval_uvars_lda( XCDeviceData*, integrator_ks_scheme ) override final;
-  void eval_uvars_gga( XCDeviceData*, integrator_ks_scheme ) override final;
-  void eval_uvars_mgga( XCDeviceData*, integrator_ks_scheme, bool ) override final;
-  void eval_vvars_lda ( XCDeviceData*, density_id ) override final;
-  void eval_vvars_gga ( XCDeviceData*, density_id ) override final;
-  void eval_vvars_mgga( XCDeviceData*, density_id, bool ) override final;
-
-  void eval_tmat_lda( XCDeviceData*, integrator_ks_scheme ) override final;
-  void eval_tmat_gga( XCDeviceData*, integrator_ks_scheme ) override final;
-  void eval_tmat_mgga( XCDeviceData*, integrator_ks_scheme, bool ) override final;
-  void eval_vvars_lda_trial ( XCDeviceData*, density_id ) override final;
-  void eval_vvars_gga_trial ( XCDeviceData*, density_id ) override final;
-  void eval_vvars_mgga_trial( XCDeviceData*, density_id, bool ) override final;
-
-  void eval_zmat_lda_vxc( XCDeviceData*, integrator_ks_scheme, density_id ) override final;
-  void eval_zmat_gga_vxc( XCDeviceData*, integrator_ks_scheme, density_id ) override final;
-  void eval_zmat_mgga_vxc( XCDeviceData*, integrator_ks_scheme, bool, density_id ) override final;
-  void eval_mmat_mgga_vxc( XCDeviceData*, integrator_ks_scheme, bool, density_id ) override final;
-
-  void eval_zmat_onedft( XCDeviceData*, integrator_term_tracker, density_id ) override final;
-  void sz_to_ab_onedft( XCDeviceData*, size_t ) override final;
-  
-  void eval_zmat_lda_fxc( XCDeviceData*, density_id ) override final;
-  void eval_zmat_gga_fxc( XCDeviceData*, density_id ) override final;
-  void eval_zmat_mgga_fxc( XCDeviceData*, bool, density_id ) override final;
-  void eval_mmat_mgga_fxc( XCDeviceData*, bool, density_id ) override final;
-
-  void eval_kern_exc_vxc_lda( const functional_type&, XCDeviceData* ) override final;
-  void eval_kern_exc_vxc_gga( const functional_type&, XCDeviceData* ) override final;
-  void eval_kern_exc_vxc_mgga( const functional_type&, XCDeviceData* ) override final;
-  void eval_kern_vxc_fxc_lda( const functional_type&, XCDeviceData* ) override final;
-  void eval_kern_vxc_fxc_gga( const functional_type&, XCDeviceData* ) override final;
-  void eval_kern_vxc_fxc_mgga( const functional_type&, XCDeviceData* ) override final;
-
-  void inc_exc( XCDeviceData* ) override final;
-  void inc_nel( XCDeviceData* ) override final;
-  void inc_exc_grad_lda( XCDeviceData*, integrator_ks_scheme, bool  ) override final;
-  void inc_exc_grad_gga( XCDeviceData*, integrator_ks_scheme, bool  ) override final;
-  void inc_exc_grad_mgga( XCDeviceData*, integrator_ks_scheme , bool, bool ) override final;
-  void symmetrize_vxc( XCDeviceData* , density_id) override final;
-  void symmetrize_fxc( XCDeviceData* , density_id) override final;
-  void symmetrize_exx_k( XCDeviceData* ) override final;
-  //void eval_exx_gmat( XCDeviceData* ) override final;
-  void eval_exx_gmat( XCDeviceData*, const BasisSetMap& ) override final;
-
-  void eval_exx_ek_screening_bfn_stats( XCDeviceData* ) override final;
-  void exx_ek_shellpair_collision( double eps_E, double eps_K, 
-    XCDeviceData*, host_task_iterator, host_task_iterator,
-    const ShellPairCollection<double>& ) override final;
-
-  void save_xmat( XCDeviceData*, bool do_grad, density_id den ) override final;
-
-  
-  // Overridable APIs
-  template<bool is_trial>
-  void eval_xmat_impl(double fac, XCDeviceData*, bool do_grad, density_id );
-  template<bool is_fxc>
-  void inc_potential_impl(XCDeviceData*, density_id, bool do_m);
-  virtual void eval_xmat( double fac, XCDeviceData*, bool , density_id ) override;
-  virtual void eval_xmat_trial( double fac, XCDeviceData*, bool , density_id ) override;
-  virtual void eval_exx_fmat( XCDeviceData* ) override;
-  virtual void inc_vxc( XCDeviceData*, density_id, bool ) override;
-  virtual void inc_fxc( XCDeviceData*, density_id, bool ) override;
-  virtual void inc_exx_k( XCDeviceData* ) override;
-
-
-  using Data = Scheme1DataBase;
-
-  AoSScheme1Base();
-  virtual ~AoSScheme1Base() noexcept;
-
-  double* dev_boys_table = nullptr;
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_data_base.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_data_base.cxx
deleted file mode 100644
index 93af5d6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_data_base.cxx
+++ /dev/null
@@ -1,878 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "scheme1_data_base.hpp"
-#include "buffer_adaptor.hpp"
-
-namespace GauXC {
-
-Scheme1DataBase::~Scheme1DataBase() noexcept = default;
-
-Scheme1DataBase::Scheme1DataBase(const DeviceRuntimeEnvironment& rt) : 
-  base_type(rt) {
-
-  if( device_backend_ ) 
-    device_backend_->create_blas_queue_pool(4);
-
-}
-
-void Scheme1DataBase::reset_allocations() {
-  base_type::reset_allocations();
-  scheme1_stack.reset();
-  collocation_stack.reset();
-  //coulomb_stack.reset();
-  shell_to_task_stack.reset();
-  shell_pair_to_task_stack.reset();
-  
-  l_batched_shell_to_task.clear();
-
-  task_to_shell_pair_stack.reset();
-  subtask.clear();
-  nprim_pairs_host.clear();
-  pp_ptr_host.clear();
-
-  sp_X_AB_host.clear();
-  sp_Y_AB_host.clear();
-  sp_Z_AB_host.clear();
-
-  task_to_shell_pair.clear();
-}
-
-size_t Scheme1DataBase::get_static_mem_requirement() {
-  size_t size = 0;
-
-  const size_t nsp = global_dims.nshell_pairs;
-  const size_t total_npts = global_dims.total_npts;
-  
-  size += 
-    // Shell Pair map
-    global_dims.nshells * sizeof(ShellToTaskDevice) +
-    nsp * sizeof(ShellPairToTaskDevice) +
-    // Task Map
-    nsp * sizeof(int32_t) +      // nprim_pairs
-    nsp * sizeof(shell_pair*) +  // shell_pair pointer
-    nsp * 3 * sizeof(double) +    // X_AB, Y_AB, Z_AB
-    total_npts * 24 * sizeof(double) +   // space for onedft features and results
-    1024 * 1024;                 // additional memory for alignment padding
-
-  return size;
-}
-
-
-
-
-
-
-
-
-
-size_t Scheme1DataBase::get_mem_req( integrator_term_tracker terms, 
-  const host_task_type& task ) {
-
-  // All local memory is weights related
-  size_t base_size = base_type::get_mem_req(terms, task);
-
-  required_term_storage reqt(terms);
-  const auto ldatoms = get_ldatoms();
-  const auto npts = task.npts;
-  const auto& shell_list_bfn = task.bfn_screening.shell_list;
-  const auto& shell_list_cou = task.cou_screening.shell_list;
-  const size_t nshells_bfn  = shell_list_bfn.size();
-  const size_t nshells_cou  = shell_list_cou.size();
-
-  const int max_l = global_dims.max_l;
-  const size_t n_sp_types = (max_l+1) * (max_l+1); 
-  const size_t n_sp_types_with_diag = n_sp_types + (max_l+1); 
-
-  base_size += 
-    // Weights specific memory
-    reqt.grid_to_center_dist_scr_size(ldatoms, npts) * sizeof(double)  +
-    reqt.grid_to_center_dist_nearest_size(npts)      * sizeof(double)  +
-    reqt.grid_to_parent_center_size(npts)            * sizeof(int32_t) +
-
-    // Shell / Shell Pair lists + indirection
-    reqt.task_shell_list_bfn_size(nshells_bfn)            * sizeof(size_t)  +
-    reqt.task_shell_offs_bfn_size(nshells_bfn)            * sizeof(size_t)  +
-    reqt.shell_to_task_idx_bfn_size(nshells_bfn)          * sizeof(int32_t) +
-    reqt.shell_to_task_off_bfn_size(nshells_bfn)          * sizeof(int32_t) +
-    reqt.shell_pair_to_task_idx_cou_size(nshells_cou)     * sizeof(int32_t) +
-    reqt.shell_pair_to_task_row_off_cou_size(nshells_cou) * sizeof(int32_t) +
-    reqt.shell_pair_to_task_col_off_cou_size(nshells_cou) * sizeof(int32_t) +
-
-    // Task to shell pair map
-    reqt.task_to_shell_pair_cou_size() * n_sp_types_with_diag * sizeof(TaskToShellPairDevice) +
-    reqt.task_to_shell_pair_col_off_cou_size(nshells_cou) * sizeof(int32_t) +
-    reqt.task_to_shell_pair_row_off_cou_size(nshells_cou) * sizeof(int32_t) +
-    reqt.task_to_shell_pair_idx_cou_size(nshells_cou) * sizeof(int32_t) + 
-    reqt.task_to_shell_pair_cou_subtask_size(npts, 256) * sizeof(std::array<int32_t, 4>);
-
-
-  //std::cout << "MEM REQ: " << base_size << std::endl;
-  return base_size;
-}
-
-
-
-
-
-
-
-
-
-
-Scheme1DataBase::device_buffer_t Scheme1DataBase::allocate_dynamic_stack( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end, 
-  device_buffer_t buf ){
-
-  // Allocate base info on the stack
-  buf = base_type::allocate_dynamic_stack( terms, task_begin, task_end,
-    buf );
-
-  // Allocate additional device memory 
-  auto [ ptr, sz ] = buf;
-  buffer_adaptor mem( ptr, sz );
-
-
-  required_term_storage reqt(terms);
-
-  // Weights related memory
-  if(reqt.grid_to_center_dist_scr) {
-    const auto ldatoms = get_ldatoms();
-    scheme1_stack.dist_scratch_device = mem.aligned_alloc<double>( 
-      ldatoms * total_npts_task_batch, alignof(double2), csl );
-  }
-  if(reqt.grid_to_center_dist_nearest) {
-    scheme1_stack.dist_nearest_device = 
-      mem.aligned_alloc<double>( total_npts_task_batch, csl );
-  }
-  if(reqt.grid_to_parent_center) {
-    scheme1_stack.iparent_device = 
-      mem.aligned_alloc<int32_t>( total_npts_task_batch, csl );
-  }
-
-  // Compute total dimensions for shell(pair) lists
-  total_nshells_bfn_task_batch       = 0; 
-  total_nshells_cou_sqlt_task_batch  = 0; 
-  size_t num_subtasks = 0;
-  const int points_per_subtask = get_points_per_subtask();
-  for( auto it = task_begin; it != task_end; ++it ) {
-    const auto& shell_list_bfn  = it->bfn_screening.shell_list;
-    const size_t nshells_bfn  = shell_list_bfn.size();
-    total_nshells_bfn_task_batch  += nshells_bfn;
-
-    const auto& shell_list_cou  = it->cou_screening.shell_list;
-    const size_t nshells_cou  = shell_list_cou.size();
-    const size_t nshells_cou_sqlt = (nshells_cou*(nshells_cou+1))/2;
-    total_nshells_cou_sqlt_task_batch  += nshells_cou_sqlt;
-
-    num_subtasks += util::div_ceil(it->npts, points_per_subtask);
-  }
-
-  // Shell lists and offs (bfn)
-  if(reqt.task_shell_list_bfn) {
-    collocation_stack.shell_list_device = 
-      mem.aligned_alloc<size_t>( total_nshells_bfn_task_batch , csl);
-  }
-  if(reqt.task_shell_offs_bfn) {
-    collocation_stack.shell_offs_device = 
-      mem.aligned_alloc<size_t>( total_nshells_bfn_task_batch , csl);
-  }
-
-  // Shell -> Task buffers
-  if(reqt.shell_to_task_bfn) {
-    shell_to_task_stack.shell_to_task_idx_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_bfn_task_batch, csl );
-    shell_to_task_stack.shell_to_task_off_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_bfn_task_batch, csl );
-    shell_to_task_stack.shell_to_task_device =
-      mem.aligned_alloc<ShellToTaskDevice>( global_dims.nshells, csl );
-  }
-
-  const size_t nsp = global_dims.nshell_pairs;
-
-  // ShellPair -> Task buffer (cou)
-  if(reqt.shell_pair_to_task_cou) {
-    throw std::runtime_error("SPARSE + SP2TASK NYI");
-    shell_pair_to_task_stack.shell_pair_to_task_idx_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_cou_sqlt_task_batch, csl );
-    shell_pair_to_task_stack.shell_pair_to_task_row_off_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_cou_sqlt_task_batch, csl );
-    shell_pair_to_task_stack.shell_pair_to_task_col_off_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_cou_sqlt_task_batch, csl );
-
-    shell_pair_to_task_stack.shell_pair_to_task_device =
-      mem.aligned_alloc<ShellPairToTaskDevice>( nsp, csl );
-  }
-
-  // Task -> ShellPair (cou)
-  if(reqt.task_to_shell_pair_cou) { 
-    const size_t ntasks = std::distance(task_begin, task_end);
-    const int max_l = global_dims.max_l;
-    const size_t n_sp_types = (max_l+1) * (max_l+1); 
-    const size_t n_sp_types_with_diag = n_sp_types + (max_l+1); 
-    task_to_shell_pair_stack.task_to_shell_pair_device = 
-      mem.aligned_alloc<TaskToShellPairDevice>( ntasks * n_sp_types_with_diag, csl );
-
-    task_to_shell_pair_stack.task_shell_linear_idx_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_cou_sqlt_task_batch, csl);
-    task_to_shell_pair_stack.task_shell_off_row_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_cou_sqlt_task_batch, csl);
-    task_to_shell_pair_stack.task_shell_off_col_device = 
-      mem.aligned_alloc<int32_t>( total_nshells_cou_sqlt_task_batch, csl);
-
-    task_to_shell_pair_stack.subtask_device = 
-      mem.aligned_alloc<std::array<int32_t, 4>>( num_subtasks, 16, csl );
-
-    task_to_shell_pair_stack.nprim_pairs_device = 
-      mem.aligned_alloc<int32_t>( nsp, 16, csl );
-    task_to_shell_pair_stack.pp_ptr_device = 
-      mem.aligned_alloc<GauXC::PrimitivePair<double>*>( nsp, 16, csl );
-    task_to_shell_pair_stack.sp_X_AB_device = 
-      mem.aligned_alloc<double>( nsp, 16, csl );
-    task_to_shell_pair_stack.sp_Y_AB_device = 
-      mem.aligned_alloc<double>( nsp, 16, csl );
-    task_to_shell_pair_stack.sp_Z_AB_device = 
-      mem.aligned_alloc<double>( nsp, 16, csl );
-
-  }
-
-
-
-  // Update dynmem data for derived impls
-  return device_buffer_t{ mem.stack(), mem.nleft() };
-}
-
-
-
-
-
-
-
-
-
-void Scheme1DataBase::pack_and_send( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end,
-  const BasisSetMap& basis_map ) {
-
-  // Pack and send base data
-  base_type::pack_and_send( terms, task_begin, task_end, basis_map );
-
-
-  required_term_storage reqt(terms);
-
-  // Host Packing Arrays
-  std::vector<int32_t> iparent_pack;
-  std::vector<double>  dist_nearest_pack;
-  std::vector<size_t> shell_list_bfn_pack, shell_offs_bfn_pack;
-  std::vector< std::vector<int32_t> > 
-    shell_to_task_idx_bfn, shell_to_task_off_bfn;
-  std::vector<int32_t>
-    concat_shell_to_task_idx_bfn, concat_shell_to_task_off_bfn,
-    concat_shell_pair_to_task_idx_cou, concat_shell_pair_to_task_off_row_cou, 
-    concat_shell_pair_to_task_off_col_cou;
-  std::vector<ShellToTaskDevice> host_shell_to_task_bfn;
-  std::vector<ShellPairToTaskDevice> host_shell_pair_to_task_cou;
-
-  // Contatenation utility
-  auto concat_iterable = []( auto& a, const auto& b ) {
-    a.insert( a.end(), b.begin(), b.end() );
-  };
-
-  using hrt_t = std::chrono::high_resolution_clock;
-  using dur_t = std::chrono::duration<double,std::milli>;
-
-  /*******************************************
-   *         WEIGHTS RELATED MEMORY          *
-   *******************************************/
-
-  auto w_mem_st = hrt_t::now();
-  // Nearest Distance Array
-  if(reqt.grid_to_center_dist_nearest) {
-
-    // Pack on host
-    dist_nearest_pack.reserve( total_npts_task_batch );
-    for( auto it = task_begin; it != task_end; ++it ) {
-      dist_nearest_pack.insert( dist_nearest_pack.end(), it->points.size(), 
-        it->dist_nearest );
-    }
-
-    // Send to device
-    device_backend_->copy_async( dist_nearest_pack.size(), 
-      dist_nearest_pack.data(), scheme1_stack.dist_nearest_device, 
-      "send dist_nearest" );
-
-  }
-
-  // IParent Array
-  if(reqt.grid_to_parent_center) {
-
-    // Pack on host
-    iparent_pack.reserve( total_npts_task_batch );
-    for( auto it = task_begin; it != task_end; ++it ) {
-      iparent_pack.insert( iparent_pack.end(), it->points.size(), it->iParent );
-    }
-
-    // Send to device
-    device_backend_->copy_async( iparent_pack.size(), iparent_pack.data(), 
-      scheme1_stack.iparent_device, "send iparent"  );
-
-  }
-  auto w_mem_en = hrt_t::now();
-
-  /************************************************
-   * SHELL LIST, OFFSET and TASK MAP MEMORY (bfn) *
-   ************************************************/
-
-  auto sl_mem_st = hrt_t::now();
-  // Resize host arrays for Shell -> Task
-  if(reqt.shell_to_task_bfn) {
-    shell_to_task_idx_bfn.resize( global_dims.nshells );
-    shell_to_task_off_bfn.resize( global_dims.nshells );
-  }
-
-  // Shell list, offsets + task map (bfn)
-  for( auto it = task_begin; it != task_end; ++it ) {
-    const auto& shell_list_bfn  = it->bfn_screening.shell_list;
-    const size_t nshells_bfn  = shell_list_bfn.size();
-
-    // Pack shell list (bfn)
-    if(reqt.task_shell_list_bfn) {
-      concat_iterable( shell_list_bfn_pack, shell_list_bfn );
-    }
-    
-    // Generate and pack shell offsets (bfn)
-    std::vector<size_t> shell_offs_bfn;
-    if(reqt.task_shell_offs_bfn) {
-      shell_offs_bfn = basis_map.shell_offs<size_t>( 
-        shell_list_bfn.begin(), shell_list_bfn.end() );
-      concat_iterable( shell_offs_bfn_pack, shell_offs_bfn );
-    }
-
-    // Setup meta data for Shell -> Task (bfn)
-    if(reqt.shell_to_task_bfn) {
-      const auto itask = std::distance( task_begin, it );
-      for( auto i = 0ul; i < nshells_bfn; ++i ) {
-        const auto sh_idx = shell_list_bfn.at(i);
-        shell_to_task_idx_bfn[sh_idx].emplace_back(itask);
-        shell_to_task_off_bfn[sh_idx].emplace_back(shell_offs_bfn.at(i));
-      }
-    }
-  }
-
-  // Send Shell list and offsets (bfn) to device
-  if(reqt.task_shell_list_bfn) {
-    device_backend_->copy_async( shell_list_bfn_pack.size(), 
-      shell_list_bfn_pack.data(), collocation_stack.shell_list_device, 
-      "send_shell_list_bfn" );
-  } 
-  if(reqt.task_shell_offs_bfn) {
-    device_backend_->copy_async( shell_offs_bfn_pack.size(), 
-      shell_offs_bfn_pack.data(), collocation_stack.shell_offs_device, 
-      "send_shell_offs_bfn" );
-  }
-
-  auto sl_mem_en = hrt_t::now();
-  /*****************************************
-   *     GENERATE SHELL -> TASK (bfn)      *
-   *****************************************/
-  auto s2t_mem_st = hrt_t::now();
-  if(reqt.shell_to_task_bfn) {
-      
-    // Set up buffer allocations from preallocated device segments
-    const size_t total_nshells_bfn = 
-      total_nshells_bfn_task_batch * sizeof(int32_t);
-    buffer_adaptor shell_idx_mem( shell_to_task_stack.shell_to_task_idx_device, 
-      total_nshells_bfn );
-    buffer_adaptor shell_off_mem( shell_to_task_stack.shell_to_task_off_device, 
-      total_nshells_bfn );
-
-    // Reserve memory 
-    host_shell_to_task_bfn.resize(global_dims.nshells);
-
-    for( auto ish = 0ul; ish < global_dims.nshells; ++ish ) {
-      const auto ntask = shell_to_task_idx_bfn[ish].size();
-      auto& bck = host_shell_to_task_bfn[ish];
-
-      // Unpack meta data
-      bck.ntask = ntask;
-      bck.center_idx = basis_map.shell_to_center( ish );
-      bck.true_idx   = ish;
-      bck.shell_device = static_stack.shells_device + ish;
-
-      // Allocate device memory 
-      bck.task_idx_device = 
-        shell_idx_mem.aligned_alloc<int32_t>( ntask, csl );
-      bck.task_shell_offs_device = 
-        shell_off_mem.aligned_alloc<int32_t>( ntask, csl );
-
-      // Pack host data
-      concat_iterable(concat_shell_to_task_idx_bfn, shell_to_task_idx_bfn[ish]);
-      concat_iterable(concat_shell_to_task_off_bfn, shell_to_task_off_bfn[ish]);
-    }
-
-    // Send data to device
-    device_backend_->copy_async( concat_shell_to_task_idx_bfn.size(),
-      concat_shell_to_task_idx_bfn.data(), 
-      shell_to_task_stack.shell_to_task_idx_device, "shell_to_task_idx_device" );
-    device_backend_->copy_async( concat_shell_to_task_off_bfn.size(),
-      concat_shell_to_task_off_bfn.data(), 
-      shell_to_task_stack.shell_to_task_off_device, "shell_to_task_off_device" );
-
-
-    // Sort shell indices by L
-    std::vector<uint32_t> shell_idx( global_dims.nshells );
-    std::iota( shell_idx.begin(), shell_idx.end(), 0 );
-    std::stable_sort( shell_idx.begin(), shell_idx.end(),
-      [&]( auto i, auto j ){ 
-        return basis_map.shell_l(i) < basis_map.shell_l(j); 
-      } );
-
-    {
-    std::vector<ShellToTaskDevice> shell_to_task_sorted( global_dims.nshells );
-    for( auto i = 0ul; i < global_dims.nshells; ++i ) 
-      shell_to_task_sorted[i] = host_shell_to_task_bfn[shell_idx[i]];
-    host_shell_to_task_bfn = std::move(shell_to_task_sorted);
-    }
-
-    // Send Shell -> Task (bfn) map to device
-    device_backend_->copy_async( global_dims.nshells, 
-      host_shell_to_task_bfn.data(), shell_to_task_stack.shell_to_task_device,
-      "shell_to_task_device" );
-
-
-    // Form angular momenta batches
-    auto max_l = basis_map.max_l();
-    l_batched_shell_to_task.resize(max_l + 1);
-    auto* p = shell_to_task_stack.shell_to_task_device;
-    auto* h = host_shell_to_task_bfn.data();
-    for( auto l = 0ul; l <= max_l; ++l ) {
-      auto nsh  = basis_map.nshells_with_l(l);
-      auto pure = basis_map.l_purity(l);
-      l_batched_shell_to_task[l].nshells_in_batch     = nsh;
-      l_batched_shell_to_task[l].pure                 = pure;
-      l_batched_shell_to_task[l].shell_to_task_device = p;
-                          
-      size_t max_ntask = std::max_element( h, h+nsh,
-        [](auto& a, auto& b){ return a.ntask < b.ntask; } )->ntask;
-
-      l_batched_shell_to_task[l].ntask_average = max_ntask;
-      l_batched_shell_to_task[l].npts_average  = 0;
-
-      p += nsh;
-      h += nsh;
-    }
-  
-  } // Generate Shell -> Task (bfn)
-  auto s2t_mem_en = hrt_t::now();
-
-  /*****************************************
-   *   GENERATE SHELLPAIR TO TASK (cou)    *
-   *****************************************/
-  auto sp2t_mem_st = hrt_t::now();
-  if(reqt.shell_pair_to_task_cou or reqt.task_to_shell_pair_cou) {
-
-    const size_t nsp = global_dims.nshell_pairs;
-
-  /*****************************************
-   *   GENERATE TASK TO SHELLPAIR (cou)    *
-   *****************************************/
-
-    auto t2sp_start = hrt_t::now();
-
-    hrt_t::time_point t2sp_1, t2sp_2, t2sp_3, t2sp_4, t2sp_5;
-
-    subtask.clear();
-    nprim_pairs_host.clear();
-    pp_ptr_host.clear();
-    sp_X_AB_host.clear();
-    sp_Y_AB_host.clear();
-    sp_Z_AB_host.clear();
-    task_to_shell_pair.clear();
-    l_batch_task_to_shell_pair.clear();
-    l_batch_diag_task_to_shell_pair.clear();
-
-    {
-      //using point = detail::cartesian_point;
-      const int max_l = basis_map.max_l();
-      const size_t ntasks = std::distance(task_begin, task_end);
-
-      // Set up task maps for the AM
-      for( auto l_i = 0, l_ij = 0; l_i <= max_l; ++l_i )
-      for( auto l_j = 0; l_j <= max_l; ++l_j, ++l_ij ) {
-        l_batch_task_to_shell_pair.emplace_back();
-        auto& batch = l_batch_task_to_shell_pair[l_ij];
-        batch.task_to_shell_pair.resize(ntasks);
-        batch.lA = l_i;
-        batch.lB = l_j;
-        batch.max_prim_pairs = 0;
-      }
-
-      // Diag terms
-      for( auto l_i = 0; l_i <= max_l; ++l_i ) {
-        l_batch_diag_task_to_shell_pair.emplace_back();
-        auto& batch = l_batch_diag_task_to_shell_pair[l_i];
-        batch.task_to_shell_pair.resize(ntasks);
-        batch.lA = l_i;
-        batch.lB = l_i;
-        batch.max_prim_pairs = 0;
-      }
-
-      // Generate shell pair device buffer
-      nprim_pairs_host = this->shell_pair_soa.shell_pair_nprim_pairs;
-      pp_ptr_host = this->shell_pair_soa.prim_pair_dev_ptr;
-      for( auto i = 0ul; i < nsp; ++i ) {
-        //nprim_pairs_host.push_back(
-        //  this->shell_pair_soa.shell_pair_nprim_pairs[i]
-        //);
-        //sp_ptr_host.push_back(
-        //  this->shell_pair_soa.shell_pair_dev_ptr[i]
-        //);
-        //point rA, rB;
-        const auto& [rA, rB] = this->shell_pair_soa.shell_pair_centers[i];
-
-        sp_X_AB_host.push_back(rA.x - rB.x);
-        sp_Y_AB_host.push_back(rA.y - rB.y);
-        sp_Z_AB_host.push_back(rA.z - rB.z);
-      }
-    }
-
-    t2sp_1 = hrt_t::now();
-
-    // Total length of the concatenated task map buffers
-    size_t task_map_aggregate_length = 0;
-
-    {
-    const int max_l = basis_map.max_l();
-
-    std::vector<int> sh_off_flat(nsp);
-    const size_t ntask = std::distance(task_begin,task_end);
-    for( size_t itask = 0; itask < ntask; ++itask ) {
-      auto it = task_begin + itask;
-
-      // Construct the subtasks
-      const int points_per_subtask = get_points_per_subtask();
-      for (int subtask_i = 0; subtask_i < it->npts; subtask_i += points_per_subtask) {
-        subtask.push_back({int(itask), subtask_i, std::min(it->npts, subtask_i+points_per_subtask), 0});
-      }
-
-      // Setup ShellPair offset data
-      const auto& shell_list_cou  = it->cou_screening.shell_list;
-      const size_t nshells_cou  = shell_list_cou.size();
-
-      // Compute shell offsets (cou)
-      auto shell_offs_cou = basis_map.shell_offs<size_t>( 
-        shell_list_cou.begin(), shell_list_cou.end() );
-
-      for( auto i = 0ul; i < nshells_cou; ++i )
-        sh_off_flat[shell_list_cou[i]] = shell_offs_cou[i];
-
-      // Count the number of shell pairs per task
-      const size_t task_nsp = it->cou_screening.shell_pair_list.size();
-      for(auto i = 0ul; i < task_nsp; ++i) {
-        auto [ish, jsh] = it->cou_screening.shell_pair_list[i];
-        const auto idx = it->cou_screening.shell_pair_idx_list[i];;
-
-        int32_t lA, lB;
-        std::tie(lA, lB) = this->shell_pair_soa.shell_pair_ls[idx];
-
-        // Filter out diag shell pairs
-        if (ish != jsh) {
-          const int type_index = lA * (max_l+1) + lB;
-          auto& ttsp = l_batch_task_to_shell_pair[type_index].task_to_shell_pair[itask];
-          ttsp.nsp++;
-          task_map_aggregate_length++;
-
-          l_batch_task_to_shell_pair[type_index].max_prim_pairs = std::max(
-            l_batch_task_to_shell_pair[type_index].max_prim_pairs,
-            nprim_pairs_host[idx]);
-
-        } else {
-          const int type_index = lA;
-          auto& ttsp = l_batch_diag_task_to_shell_pair[type_index].task_to_shell_pair[itask];
-          ttsp.nsp++;
-          task_map_aggregate_length++;
-
-          l_batch_diag_task_to_shell_pair[type_index].max_prim_pairs = std::max(
-            l_batch_diag_task_to_shell_pair[type_index].max_prim_pairs,
-            nprim_pairs_host[idx]);
-
-        }
-      }
-
-      // Allocate space for the shell pair data
-      for (auto& batch : l_batch_task_to_shell_pair) {
-        for (auto& ttsp : batch.task_to_shell_pair) {
-          ttsp.shell_pair_linear_idx.resize(ttsp.nsp);
-          ttsp.task_shell_off_row.resize(ttsp.nsp);
-          ttsp.task_shell_off_col.resize(ttsp.nsp);
-          ttsp.nsp_filled = 0;
-        }
-      }
-      for (auto& batch : l_batch_diag_task_to_shell_pair) {
-        for (auto& ttsp : batch.task_to_shell_pair) {
-          ttsp.shell_pair_linear_idx.resize(ttsp.nsp);
-          ttsp.task_shell_off_row.resize(ttsp.nsp);
-          ttsp.task_shell_off_col.resize(ttsp.nsp);
-          ttsp.nsp_filled = 0;
-        }
-      }
-
-      // Iterate over shell pairs adding to tasks
-      for(auto i = 0ul; i < task_nsp; ++i) {
-        auto [ish, jsh] = it->cou_screening.shell_pair_list[i];
-        const auto idx = it->cou_screening.shell_pair_idx_list[i];;
-
-        int32_t lA, lB;
-        std::tie(lA, lB) = this->shell_pair_soa.shell_pair_ls[idx];
-
-        // Filter out diag shell pairs
-        if (ish != jsh) {
-          const int type_index = lA * (max_l+1) + lB;
-          auto& ttsp = l_batch_task_to_shell_pair[type_index].task_to_shell_pair[itask];
-
-          const int index = ttsp.nsp_filled++;
-          ttsp.shell_pair_linear_idx[index] = idx;
-          ttsp.task_shell_off_row[index] = (sh_off_flat[ish] * it->npts);
-          ttsp.task_shell_off_col[index] = (sh_off_flat[jsh] * it->npts);
-        } else {
-          const int type_index = lA;
-          auto& ttsp = l_batch_diag_task_to_shell_pair[type_index].task_to_shell_pair[itask];
-
-          const int index = ttsp.nsp_filled++;
-          ttsp.shell_pair_linear_idx[index] = idx;
-          ttsp.task_shell_off_row[index] = (sh_off_flat[ish] * it->npts);
-        }
-      }
-    }
-
-    }
-
-    t2sp_2 = hrt_t::now();
-
-    // Concat host buffers and copy to device
-    buffer_adaptor task_sp_mem( 
-      task_to_shell_pair_stack.task_shell_linear_idx_device, 
-      total_nshells_cou_sqlt_task_batch * sizeof(int32_t) );
-    buffer_adaptor task_row_off_mem( 
-      task_to_shell_pair_stack.task_shell_off_row_device, 
-      total_nshells_cou_sqlt_task_batch * sizeof(int32_t) );
-    buffer_adaptor task_col_off_mem( 
-      task_to_shell_pair_stack.task_shell_off_col_device, 
-      total_nshells_cou_sqlt_task_batch  * sizeof(int32_t) );
-
-    {
-    const size_t ntasks = std::distance(task_begin, task_end);
-    const int max_l = basis_map.max_l();
-    const int num_sp_types = (max_l+1)*(max_l+1);
-    const int num_sp_types_with_diag = num_sp_types + (max_l+1);
-
-    std::vector<TaskToShellPairDevice> host_task_to_shell_pair_task(ntasks * num_sp_types_with_diag);
-
-    std::vector<int32_t> concat_task_to_shell_pair_idx;
-    std::vector<int32_t> concat_task_to_shell_pair_off_row;
-    std::vector<int32_t> concat_task_to_shell_pair_off_col;
-
-    concat_task_to_shell_pair_idx.reserve(task_map_aggregate_length);
-    concat_task_to_shell_pair_off_row.reserve(task_map_aggregate_length);
-    concat_task_to_shell_pair_off_col.reserve(task_map_aggregate_length);
-
-    t2sp_3 = hrt_t::now();
-
-    for( auto l_i = 0, l_ij = 0; l_i <= max_l; ++l_i )
-    for( auto l_j = 0; l_j <= max_l; ++l_j, ++l_ij ) {
-      for( auto itask = 0ul; itask < ntasks; ++itask ) {
-        auto& ttsp = l_batch_task_to_shell_pair[l_ij].task_to_shell_pair[itask];
-
-        auto& bck = host_task_to_shell_pair_task[l_ij * ntasks + itask];
-        bck.nsp = ttsp.nsp;
-
-        bck.shell_pair_linear_idx_device = task_sp_mem.aligned_alloc<int32_t>(ttsp.nsp, csl);
-        bck.task_shell_off_row_device = task_row_off_mem.aligned_alloc<int32_t>(ttsp.nsp, csl);
-        bck.task_shell_off_col_device = task_col_off_mem.aligned_alloc<int32_t>(ttsp.nsp, csl);
-
-        concat_iterable( concat_task_to_shell_pair_idx, ttsp.shell_pair_linear_idx );
-        concat_iterable( concat_task_to_shell_pair_off_row, ttsp.task_shell_off_row );
-        concat_iterable( concat_task_to_shell_pair_off_col, ttsp.task_shell_off_col );
-      }
-    }
-    for( auto l_i = 0; l_i <= max_l; ++l_i ) {
-      for( auto itask = 0ul; itask < ntasks; ++itask ) {
-        auto& ttsp = l_batch_diag_task_to_shell_pair[l_i].task_to_shell_pair[itask];
-
-        auto& bck = host_task_to_shell_pair_task[(num_sp_types + l_i) * ntasks + itask];
-        bck.nsp = ttsp.nsp;
-
-        bck.shell_pair_linear_idx_device = task_sp_mem.aligned_alloc<int32_t>(ttsp.nsp, csl);
-        bck.task_shell_off_row_device = task_row_off_mem.aligned_alloc<int32_t>(ttsp.nsp, csl);
-        bck.task_shell_off_col_device = task_col_off_mem.aligned_alloc<int32_t>(ttsp.nsp, csl);
-
-        concat_iterable( concat_task_to_shell_pair_idx, ttsp.shell_pair_linear_idx );
-        concat_iterable( concat_task_to_shell_pair_off_row, ttsp.task_shell_off_row );
-        concat_iterable( concat_task_to_shell_pair_off_col, ttsp.task_shell_off_col );
-      }
-    }
-    t2sp_4 = hrt_t::now();
-
-    device_backend_->copy_async( concat_task_to_shell_pair_idx.size(),
-      concat_task_to_shell_pair_idx.data(),
-      task_to_shell_pair_stack.task_shell_linear_idx_device,
-      "task_shell_linear_idx_device");
-    device_backend_->copy_async( concat_task_to_shell_pair_off_row.size(),
-      concat_task_to_shell_pair_off_row.data(),
-      task_to_shell_pair_stack.task_shell_off_row_device,
-      "task_shell_off_row_device");
-    device_backend_->copy_async( concat_task_to_shell_pair_off_col.size(),
-      concat_task_to_shell_pair_off_col.data(),
-      task_to_shell_pair_stack.task_shell_off_col_device,
-      "task_shell_off_col_device");
-
-    device_backend_->copy_async(host_task_to_shell_pair_task.size(),
-      host_task_to_shell_pair_task.data(),
-      task_to_shell_pair_stack.task_to_shell_pair_device,
-      "task_to_shell_pair_device");
-
-    device_backend_->copy_async(subtask.size(),
-      subtask.data(),
-      task_to_shell_pair_stack.subtask_device,
-      "subtask_device");
-
-    device_backend_->copy_async(nprim_pairs_host.size(),
-      nprim_pairs_host.data(),
-      task_to_shell_pair_stack.nprim_pairs_device,
-      "nprim_pairs_device");
-
-    device_backend_->copy_async(pp_ptr_host.size(),
-      pp_ptr_host.data(),
-      task_to_shell_pair_stack.pp_ptr_device,
-      "pp_ptr_device");
-      
-    device_backend_->copy_async(sp_X_AB_host.size(),
-      sp_X_AB_host.data(),
-      task_to_shell_pair_stack.sp_X_AB_device,
-      "sp_X_AB_device");
-
-    device_backend_->copy_async(sp_Y_AB_host.size(),
-      sp_Y_AB_host.data(),
-      task_to_shell_pair_stack.sp_Y_AB_device,
-      "sp_Y_AB_device");
-
-    device_backend_->copy_async(sp_Z_AB_host.size(),
-      sp_Z_AB_host.data(),
-      task_to_shell_pair_stack.sp_Z_AB_device,
-      "sp_Z_AB_device");
-
-    t2sp_5 = hrt_t::now();
-
-    l_batch_task_to_shell_pair_device.clear();
-    l_batch_task_to_shell_pair_device.resize(num_sp_types);
-    for( auto l_i = 0, l_ij = 0; l_i <= max_l; ++l_i )
-    for( auto l_j = 0; l_j <= max_l; ++l_j, ++l_ij ) {
-      auto& map = l_batch_task_to_shell_pair_device[l_ij];
-      map.task_to_shell_pair_device = task_to_shell_pair_stack.task_to_shell_pair_device + l_ij * ntasks;
-      map.lA = l_i;
-      map.lB = l_j;
-      map.max_prim_pairs = l_batch_task_to_shell_pair[l_ij].max_prim_pairs;
-    }
-
-    l_batch_diag_task_to_shell_pair_device.clear();
-    l_batch_diag_task_to_shell_pair_device.resize(max_l+1);
-    for( auto l_i = 0; l_i <= max_l; ++l_i ) {
-      auto& map = l_batch_diag_task_to_shell_pair_device[l_i];
-      const int offset = (l_i + num_sp_types) * ntasks;
-      map.task_to_shell_pair_device = task_to_shell_pair_stack.task_to_shell_pair_device + offset;
-      map.lA = l_i;
-      map.lB = l_i;
-      map.max_prim_pairs = l_batch_diag_task_to_shell_pair[l_i].max_prim_pairs;
-    }
-    }
-
-    auto t2sp_end = hrt_t::now();
-
-  dur_t t2sp_dur_total = t2sp_end - t2sp_start;
-  dur_t t2sp_dur_1 = t2sp_1 - t2sp_start;
-  dur_t t2sp_dur_2 = t2sp_2 - t2sp_1;
-  dur_t t2sp_dur_3 = t2sp_3 - t2sp_2;
-  dur_t t2sp_dur_4 = t2sp_4 - t2sp_3;
-  dur_t t2sp_dur_5 = t2sp_5 - t2sp_4;
-  dur_t t2sp_dur_6 = t2sp_end - t2sp_5;
-  //std::cout << "T2SP TOTAL  = " << t2sp_dur_total.count() << std::endl;
-  //std::cout << "T2SP 1 = " << t2sp_dur_1.count() << std::endl;
-  //std::cout << "T2SP 2 = " << t2sp_dur_2.count() << std::endl;
-  //std::cout << "T2SP 3 = " << t2sp_dur_3.count() << std::endl;
-  //std::cout << "T2SP 4 = " << t2sp_dur_4.count() << std::endl;
-  //std::cout << "T2SP 5 = " << t2sp_dur_5.count() << std::endl;
-  //std::cout << "T2SP 6 = " << t2sp_dur_6.count() << std::endl;
-  //std::cout << "INTERIM = " << interim_dur << std::endl;
-
-
-  } // Generate ShellPair -> Task (cou)
-  auto sp2t_mem_en = hrt_t::now();
-
-  dur_t w_mem_dur = w_mem_en - w_mem_st;
-  dur_t sl_mem_dur = sl_mem_en - sl_mem_st;
-  dur_t s2t_mem_dur = s2t_mem_en - s2t_mem_st;
-  dur_t sp2t_mem_dur = sp2t_mem_en - sp2t_mem_st;
-
-  //std::cout << "W DUR    = " << w_mem_dur.count() << std::endl;
-  //std::cout << "SL DUR   = " << sl_mem_dur.count() << std::endl;
-  //std::cout << "S2T DUR  = " << s2t_mem_dur.count() << std::endl;
-  //std::cout << "SP2T DUR = " << sp2t_mem_dur.count() << std::endl;
-
-  //auto snd_st = hrt_t::now();
-  device_backend_->master_queue_synchronize(); 
-  //auto snd_en = hrt_t::now();
-  //std::cout << "SND_WAIT = " << dur_t(snd_en-snd_st).count() << std::endl;
-}
-
-
-
-
-
-
-
-
-void Scheme1DataBase::add_extra_to_indirection( 
-  integrator_term_tracker terms, std::vector<XCDeviceTask>& tasks  ) {
-
-  // Weights Specific
-  if( terms.weights ) {
-    const auto ldatoms = get_ldatoms();
-    buffer_adaptor dist_scratch_mem( scheme1_stack.dist_scratch_device, 
-      ldatoms * total_npts_task_batch * sizeof(double) );
-
-    // Extra indirection for dist scratch
-    for( auto& task : tasks ) {
-      task.dist_scratch  = dist_scratch_mem.aligned_alloc<double>( 
-        ldatoms * task.npts, sizeof(double2), csl );
-    }
-  }
-
-  if( terms.exx or terms.exc_vxc or terms.exc_grad or terms.den or terms.exx_ek_screening or terms.fxc_contraction ) {
-    const size_t total_nshells_bfn = total_nshells_bfn_task_batch * sizeof(size_t);
-    buffer_adaptor 
-      shell_list_bfn_mem( collocation_stack.shell_list_device, total_nshells_bfn );
-    buffer_adaptor 
-      shell_offs_bfn_mem( collocation_stack.shell_offs_device, total_nshells_bfn );
-
-    for( auto& task : tasks ) {
-      const auto nshells_bfn = task.bfn_screening.nshells;
-      task.bfn_screening.shell_list = 
-        shell_list_bfn_mem.aligned_alloc<size_t>( nshells_bfn , csl); 
-      task.bfn_screening.shell_offs = 
-        shell_offs_bfn_mem.aligned_alloc<size_t>( nshells_bfn , csl); 
-    }
-  }
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_data_base.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_data_base.hpp
deleted file mode 100644
index 870cc6e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_data_base.hpp
+++ /dev/null
@@ -1,132 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "device/xc_device_aos_data.hpp"
-#include "device/common/shell_to_task.hpp"
-#include "device/common/shell_pair_to_task.hpp"
-
-namespace GauXC {
-
-struct Scheme1DataBase : public XCDeviceAoSData {
-
-  using base_type = XCDeviceAoSData;
-  using base_type::host_task_type;
-  using base_type::device_buffer_t;
-  using shell_pair = ShellPair<double>;
-
-  struct scheme1_data {
-    double*  dist_scratch_device = nullptr;
-    double*  dist_nearest_device = nullptr;
-    int32_t* iparent_device      = nullptr;
-    
-    inline void reset(){ std::memset(this,0,sizeof(scheme1_data)); }
-  };
-
-  struct collocation_data {
-    size_t*  shell_list_device   = nullptr;
-      ///< Contiguous batch local shell left for task batch
-    size_t*  shell_offs_device   = nullptr;
-      ///< Contiguous batch local shell offsets for task batch
-    inline void reset(){ std::memset(this,0,sizeof(collocation_data)); }
-  };
-
-  struct shell_to_task_data {
-    ShellToTaskDevice* shell_to_task_device;
-
-    int32_t* shell_to_task_idx_device = nullptr;
-    int32_t* shell_to_task_off_device = nullptr;
-
-    inline void reset(){ std::memset(this,0,sizeof(shell_to_task_data)); }
-  };
-
-  struct shell_pair_to_task_data {
-    ShellPairToTaskDevice* shell_pair_to_task_device;
-
-    int32_t* shell_pair_to_task_idx_device = nullptr;
-    int32_t* shell_pair_to_task_row_off_device = nullptr;
-    int32_t* shell_pair_to_task_col_off_device = nullptr;
-
-    inline void reset(){ std::memset(this,0,sizeof(shell_pair_to_task_data)); }
-  };
-
-  struct task_to_shell_pair_data {
-    TaskToShellPairDevice* task_to_shell_pair_device;
-
-    // Each task has their own copy
-    int32_t* task_shell_linear_idx_device = nullptr;
-    int32_t* task_shell_off_row_device = nullptr;
-    int32_t* task_shell_off_col_device = nullptr;
-
-    std::array<int32_t, 4>* subtask_device = nullptr;
-
-    // Reused for all tasks. Indexed by linear idx
-    int32_t* nprim_pairs_device = nullptr;
-    GauXC::PrimitivePair<double>** pp_ptr_device = nullptr;
-    double* sp_X_AB_device = nullptr;
-    double* sp_Y_AB_device = nullptr;
-    double* sp_Z_AB_device = nullptr;
-
-    inline void reset(){ std::memset(this,0,sizeof(task_to_shell_pair_device)); }
-  };
-
-  size_t total_nshells_bfn_task_batch  = 0; ///< Sum of nshells for task batch (bfn)
-  scheme1_data       scheme1_stack;
-  collocation_data   collocation_stack;
-  shell_to_task_data shell_to_task_stack;
-  std::vector<AngularMomentumShellToTaskBatch> l_batched_shell_to_task;
-
-  //size_t total_nshells_cou_task_batch  = 0; ///< Sum of nshells for task batch (cou)
-  size_t total_nshells_cou_sqlt_task_batch  = 0; ///< Sum of nshells for task batch (cou)
-  //collocation_data   coulomb_stack;
-  shell_pair_to_task_data shell_pair_to_task_stack;
-  std::vector<ShellPairToTaskHost> shell_pair_to_task;
-  std::vector<AngularMomentumShellPairToTaskBatch> 
-    l_batched_shell_pair_to_task_diag,
-    l_batched_shell_pair_to_task_off_diag;
-
-  std::vector<TaskToShellPairHost> task_to_shell_pair;
-  std::vector<AngularMomentumTaskToShellPairBatchHost> l_batch_task_to_shell_pair;
-  std::vector<AngularMomentumTaskToShellPairBatch> l_batch_task_to_shell_pair_device;
-
-  std::vector<AngularMomentumTaskToShellPairBatchHost> l_batch_diag_task_to_shell_pair;
-  std::vector<AngularMomentumTaskToShellPairBatch> l_batch_diag_task_to_shell_pair_device;
-  task_to_shell_pair_data task_to_shell_pair_stack;
-
-  std::vector<std::array<int32_t, 4>> subtask;
-  std::vector<int32_t> nprim_pairs_host;
-  std::vector<GauXC::PrimitivePair<double>*> pp_ptr_host;
-  std::vector<double> sp_X_AB_host;
-  std::vector<double> sp_Y_AB_host;
-  std::vector<double> sp_Z_AB_host;
-
-  virtual ~Scheme1DataBase() noexcept;
-  Scheme1DataBase(const DeviceRuntimeEnvironment& rt);
-
-  // Final overrides
-  void add_extra_to_indirection(integrator_term_tracker, 
-    std::vector<XCDeviceTask>& ) override final;
-
-  // Overrideable API's
-  virtual size_t get_mem_req( integrator_term_tracker, 
-    const host_task_type&) override;
-  virtual size_t get_static_mem_requirement() override; 
-  virtual void reset_allocations() override;
-  virtual device_buffer_t allocate_dynamic_stack( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, device_buffer_t buf )
-    override;
-  virtual void pack_and_send( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, 
-    const BasisSetMap& basis_map ) override;
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_base.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_base.cxx
deleted file mode 100644
index 095564f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_base.cxx
+++ /dev/null
@@ -1,200 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "scheme1_magma_base.hpp"
-#include "device/common/pack_submat.hpp"
-#include "device/common/inc_potential.hpp"
-#include "device/common/device_blas.hpp"
-
-#ifdef GAUXC_HAS_CUDA
-#define GAUXC_ENABLE_EXX
-#endif
-
-namespace GauXC {
-
-void AoSScheme1MAGMABase::eval_xmat( double fac, XCDeviceData* _data, bool do_grad, density_id den ){
-
-  if( do_grad ) GAUXC_GENERIC_EXCEPTION("MAGMA + X Gradient NYI");
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  // Pack density matrix 
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  auto master_queue = data->device_backend_->master_magma_queue();
-  auto magma_stack = data->magma_stack;
-  double* dmat_ptr   = nullptr;
-  switch( den ) {
-    case DEN_S:
-      dmat_ptr = static_stack.dmat_s_device;
-      break;
-    case DEN_Z:
-      dmat_ptr = static_stack.dmat_z_device;
-      break;
-    case DEN_Y:
-      dmat_ptr = static_stack.dmat_y_device;
-      break;
-    case DEN_X:
-      dmat_ptr = static_stack.dmat_x_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "eval_xmat called with invalid density specifier" );
-  }
-  sym_pack_submat( ntasks, aos_stack.device_tasks, dmat_ptr,
-    nbf, submat_block_size, data->device_backend_->queue() );
-  
-  // Update dmat on magma_stack 
-  std::vector<double*> dmat_host( ntasks );
-
-  for( auto i = 0; i < ntasks; i++ ) {
-    auto& task = tasks[i];
-    if( task.bfn_screening.ncut > 1 ) {
-      dmat_host[i]  = task.nbe_scr;
-    } else {
-      dmat_host[i]  = dmat_ptr + task.bfn_screening.ibf_begin*(nbf+1);
-    }
-  }
-  data->device_backend_->copy_async( ntasks, dmat_host.data(), 
-      magma_stack.xdmat_array_device, "send xdmat array");
-
-  magmablas_dgemm_vbatched( MagmaNoTrans, MagmaNoTrans,
-    magma_stack.xmat_m_array_device, magma_stack.xmat_n_array_device, 
-    magma_stack.xmat_k_array_device, 
-    fac, magma_stack.bf_array_device,    magma_stack.ld_bf_array_device,
-        magma_stack.xdmat_array_device, magma_stack.ld_xdmat_array_device,
-    0., magma_stack.zmat_array_device,  magma_stack.ld_zmat_array_device,
-    ntasks, *master_queue );
-
-}
-
-void AoSScheme1MAGMABase::eval_exx_fmat( XCDeviceData* _data ) {
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX + non-CUDA NYI");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  // Pack the density matrix into (bfn, cou) shape
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  asym_pack_submat( ntasks, aos_stack.device_tasks, static_stack.dmat_s_device,
-    nbf, submat_block_size, data->device_backend_->queue() );
-
-
-  auto master_queue = data->device_backend_->master_magma_queue();
-  auto magma_stack = data->magma_stack;
-  magmablas_dgemm_vbatched( MagmaNoTrans, MagmaNoTrans,
-    magma_stack.fmat_m_array_device, magma_stack.fmat_n_array_device, 
-    magma_stack.fmat_k_array_device, 
-    1., magma_stack.bf_array_device,    magma_stack.ld_bf_array_device,
-        magma_stack.fdmat_array_device, magma_stack.ld_fdmat_array_device,
-    0., magma_stack.fmat_array_device,  magma_stack.ld_fmat_array_device,
-    ntasks, *master_queue );
-#endif
-}
-
-void AoSScheme1MAGMABase::inc_vxc( XCDeviceData* _data, density_id den, bool do_m){
-
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  if(do_m) GAUXC_GENERIC_EXCEPTION("MAGMA + MGGA NYI");
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  auto master_queue = data->device_backend_->master_magma_queue();
-  auto magma_stack = data->magma_stack;
-  magmablas_dsyr2k_vbatched( MagmaLower, MagmaTrans, 
-    magma_stack.xmat_n_array_device, magma_stack.xmat_m_array_device,
-    1., magma_stack.bf_array_device,   magma_stack.ld_bf_array_device, 
-        magma_stack.zmat_array_device, magma_stack.ld_zmat_array_device,
-    0., magma_stack.vmat_array_device, magma_stack.ld_vmat_array_device, 
-    ntasks, *master_queue );
-
-  // Increment global VXC
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  double* vxc_ptr    = nullptr;
-  switch (den) {
-    case DEN_S:
-      vxc_ptr = static_stack.vxc_s_device;
-      break;
-    case DEN_Z:
-      vxc_ptr = static_stack.vxc_z_device;
-      break;
-    case DEN_Y:
-      vxc_ptr = static_stack.vxc_y_device;
-      break;
-    case DEN_X:
-      vxc_ptr = static_stack.vxc_x_device;
-      break;
-    default:
-      GAUXC_GENERIC_EXCEPTION( "Inc_vxc called with invalid density specifier" );
-  }
-  sym_task_inc_potential( ntasks, aos_stack.device_tasks, 
-    vxc_ptr,  nbf, submat_block_size, 
-    data->device_backend_->queue() );
-}
-
-void AoSScheme1MAGMABase::inc_exx_k( XCDeviceData* _data){
-#ifndef GAUXC_ENABLE_EXX
-  GAUXC_GENERIC_EXCEPTION("EXX + non-CUDA NYI");
-#else
-  auto* data = dynamic_cast<Data*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-
-  auto& tasks = data->host_device_tasks;
-  const auto ntasks = tasks.size();
-
-  auto master_queue = data->device_backend_->master_magma_queue();
-  auto magma_stack = data->magma_stack;
-  magmablas_dgemm_vbatched( MagmaTrans, MagmaNoTrans,
-    magma_stack.fmat_k_array_device, magma_stack.fmat_n_array_device, 
-    magma_stack.fmat_m_array_device, 
-    1., magma_stack.bf_array_device,   magma_stack.ld_bf_array_device,
-        magma_stack.gmat_array_device, magma_stack.ld_fmat_array_device,
-    0., magma_stack.kmat_array_device, magma_stack.ld_fdmat_array_device,
-    ntasks, *master_queue );
-
-  // Increment EXX_K
-  const auto nbf = data->global_dims.nbf;
-  const auto submat_block_size = data->get_submat_chunk_size( nbf, 0 );
-  auto static_stack  = data->static_stack;
-  auto aos_stack     = data->aos_stack;
-  asym_task_inc_potential( ntasks, aos_stack.device_tasks, 
-    static_stack.exx_k_device, nbf, submat_block_size, 
-    data->device_backend_->queue() );
-#endif
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_base.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_base.hpp
deleted file mode 100644
index 21242a4..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_base.hpp
+++ /dev/null
@@ -1,86 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "scheme1_base.hpp"
-
-namespace GauXC {
-
-struct AoSScheme1MAGMABase : public AoSScheme1Base {
-
-  void eval_xmat( double fac, XCDeviceData*, bool do_grad, density_id den ) override final;
-  void eval_exx_fmat( XCDeviceData* ) override final;
-  void inc_vxc( XCDeviceData*, density_id den, bool ) override final;
-  void inc_exx_k( XCDeviceData* ) override final;
-
-  struct Data;
-
-  virtual ~AoSScheme1MAGMABase() = default;
-};
-
-struct AoSScheme1MAGMABase::Data : public AoSScheme1Base::Data {
-
-  using base_type = AoSScheme1Base::Data;
-  using base_type::host_task_type;
-  using base_type::device_buffer_t;
-
-  struct magma_data {
-    double** xdmat_array_device = nullptr;
-    double** fdmat_array_device = nullptr;
-    double** vmat_array_device  = nullptr;
-    double** kmat_array_device  = nullptr;
-    double** zmat_array_device  = nullptr;
-    double** fmat_array_device  = nullptr;
-    double** gmat_array_device  = nullptr;
-    double** bf_array_device    = nullptr;
-
-    int32_t* xmat_m_array_device   = nullptr;
-    int32_t* xmat_n_array_device   = nullptr;
-    int32_t* xmat_k_array_device   = nullptr;
-    int32_t* ld_xdmat_array_device = nullptr;
-
-    int32_t* fmat_m_array_device   = nullptr;
-    int32_t* fmat_n_array_device   = nullptr;
-    int32_t* fmat_k_array_device   = nullptr;
-    int32_t* ld_fdmat_array_device = nullptr;
-
-    int32_t* ld_vmat_array_device  = nullptr;
-    int32_t* ld_zmat_array_device  = nullptr;
-    int32_t* ld_fmat_array_device  = nullptr;
-    int32_t* ld_bf_array_device    = nullptr;
-
-    inline void reset(){ std::memset(this,0,sizeof(magma_data)); }
-  };
-
-  magma_data magma_stack;
-
-  template <typename... Args>
-  Data( Args&&... args ) : base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~Data() = default;
-
-  size_t get_mem_req( integrator_term_tracker, 
-    const host_task_type&) override final;
-  size_t get_static_mem_requirement() override final; 
-  void reset_allocations() override final;
-  device_buffer_t allocate_dynamic_stack( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, device_buffer_t buf )
-    override final;
-  void pack_and_send( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, 
-    const BasisSetMap& basis_map ) override final;
-
-
-  void pack_and_send_xmat( host_task_iterator, host_task_iterator ); 
-  void pack_and_send_fmat( host_task_iterator, host_task_iterator );
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_data_base.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_data_base.cxx
deleted file mode 100644
index af48b43..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/device/scheme1_magma_data_base.cxx
+++ /dev/null
@@ -1,233 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "scheme1_magma_base.hpp"
-#include "buffer_adaptor.hpp"
-
-namespace GauXC {
-
-
-void AoSScheme1MAGMABase::Data::reset_allocations() {
-  base_type::reset_allocations();
-  magma_stack.reset();
-}
-
-size_t AoSScheme1MAGMABase::Data::get_static_mem_requirement() {
-  return base_type::get_static_mem_requirement() + 8 * sizeof(int32_t); 
-    // Extra elements in MAGMA dimension arrays
-}
-
-size_t AoSScheme1MAGMABase::Data::get_mem_req( integrator_term_tracker terms, 
-  const host_task_type& task ) {
-
-  
-  size_t base_size = base_type::get_mem_req(terms, task);
-
-  required_term_storage reqt(terms);
-  if( reqt.task_xmat or reqt.task_fmat ) {
-    base_size += 
-      8*sizeof(double*) + // batch device pointers
-      8*sizeof(int32_t);  // Dimensions + leading dimensions 
-                          // (extra handled by get_static_mem_requirement)
-  }
-  return base_size;
-
-}
-AoSScheme1MAGMABase::Data::device_buffer_t 
-  AoSScheme1MAGMABase::Data::allocate_dynamic_stack( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end, 
-  device_buffer_t buf ){
-
-  // Allocate base info on the stack
-  buf = base_type::allocate_dynamic_stack( terms, task_begin, task_end,
-    buf );
-
-  required_term_storage reqt(terms);
-  //if( not reqt.task_xmat ) return buf;
-
-  // Allocate additional device memory 
-  auto [ ptr, sz ] = buf;
-  buffer_adaptor mem( ptr, sz );
-
-  const auto ntask = std::distance( task_begin, task_end );
-  auto& s = magma_stack;
-  if(reqt.task_xmat) {
-    s.xdmat_array_device = mem.aligned_alloc<double*>(ntask,csl);
-    s.vmat_array_device  = mem.aligned_alloc<double*>(ntask,csl);
-    s.zmat_array_device  = mem.aligned_alloc<double*>(ntask,csl);
-    s.bf_array_device    = mem.aligned_alloc<double*>(ntask,csl);
-
-    s.xmat_m_array_device   = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.xmat_n_array_device   = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.xmat_k_array_device   = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_xdmat_array_device = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_zmat_array_device  = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_vmat_array_device  = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_bf_array_device    = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-  }
-
-  if(reqt.task_fmat) {
-    s.fdmat_array_device = mem.aligned_alloc<double*>(ntask,csl);
-    s.fmat_array_device  = mem.aligned_alloc<double*>(ntask,csl);
-    s.gmat_array_device  = mem.aligned_alloc<double*>(ntask,csl);
-    s.kmat_array_device  = mem.aligned_alloc<double*>(ntask,csl);
-    s.bf_array_device    = mem.aligned_alloc<double*>(ntask,csl);
-
-    s.fmat_m_array_device   = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.fmat_n_array_device   = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.fmat_k_array_device   = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_fdmat_array_device = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_fmat_array_device  = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-    s.ld_bf_array_device    = mem.aligned_alloc<int32_t>(ntask + 1,csl);
-  }
-
-  // Update dynmem data for derived impls
-  return device_buffer_t{ mem.stack(), mem.nleft() };
-}
-
-void AoSScheme1MAGMABase::Data::pack_and_send( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end,
-  const BasisSetMap& basis_map ) {
-
-
-  base_type::pack_and_send( terms, task_begin, task_end, basis_map );
-  required_term_storage reqt(terms);
-
-  if(reqt.task_xmat) pack_and_send_xmat(task_begin, task_end); 
-  if(reqt.task_fmat) pack_and_send_fmat(task_begin, task_end); 
-
-}
-
-
-void AoSScheme1MAGMABase::Data::pack_and_send_xmat( 
-  host_task_iterator task_begin, host_task_iterator task_end 
-) {
-
-  const auto ntask = std::distance( task_begin, task_end );
-  std::vector<double*> dmat_host( ntask ), zmat_host( ntask ), bf_host( ntask ),
-                       vmat_host( ntask );
-  std::vector<int32_t> m_host( ntask ), n_host( ntask ), k_host( ntask ),
-                       ld_dmat_host( ntask ), ld_zmat_host( ntask ), 
-                       ld_vmat_host( ntask ), ld_bf_host( ntask );
-
-  double* static_dmat = static_stack.dmat_s_device;
-  const auto nbf = global_dims.nbf;
-
-  // host_device_tasks should be populated by parent impl called at top
-  for( auto i = 0; i < ntask; ++i ) {
-    auto& task = host_device_tasks[i];
-    zmat_host[i] = task.zmat;    ld_zmat_host[i] = task.npts;
-    bf_host[i]   = task.bf;      ld_bf_host[i]   = task.npts;
-    vmat_host[i] = task.nbe_scr; ld_vmat_host[i] = task.bfn_screening.nbe;
-    if( task.bfn_screening.ncut > 1 ) {
-      dmat_host[i]    = task.nbe_scr;
-      ld_dmat_host[i] = task.bfn_screening.nbe;
-    } else {
-      dmat_host[i]    = static_dmat + task.bfn_screening.ibf_begin*(nbf+1);
-      ld_dmat_host[i] = nbf;
-    }
-
-    m_host[i] = task.npts;
-    n_host[i] = task.bfn_screening.nbe;
-    k_host[i] = task.bfn_screening.nbe;
-  }
-
-  // Send to device
-  device_backend_->copy_async( ntask, dmat_host.data(), 
-    magma_stack.xdmat_array_device, "send xdmat array" );
-  device_backend_->copy_async( ntask, zmat_host.data(), 
-    magma_stack.zmat_array_device, "send zmat array" );
-  device_backend_->copy_async( ntask, vmat_host.data(), 
-    magma_stack.vmat_array_device, "send vmat array" );
-  device_backend_->copy_async( ntask, bf_host.data(), 
-    magma_stack.bf_array_device, "send bf array" );
-
-  device_backend_->copy_async( ntask, m_host.data(), magma_stack.xmat_m_array_device,
-    "send m array (xmat)" );
-  device_backend_->copy_async( ntask, n_host.data(), magma_stack.xmat_n_array_device,
-    "send n array (xmat)" );
-  device_backend_->copy_async( ntask, k_host.data(), magma_stack.xmat_k_array_device,
-    "send k array (xmat)" );
-  device_backend_->copy_async( ntask, ld_dmat_host.data(), 
-    magma_stack.ld_xdmat_array_device, "send ld dmat array (xmat)" );
-  device_backend_->copy_async( ntask, ld_zmat_host.data(), 
-    magma_stack.ld_zmat_array_device, "send ld zmat array" );
-  device_backend_->copy_async( ntask, ld_vmat_host.data(), 
-    magma_stack.ld_vmat_array_device, "send ld vmat array" );
-  device_backend_->copy_async( ntask, ld_bf_host.data(), 
-    magma_stack.ld_bf_array_device, "send ld bf array" );
-  device_backend_->master_queue_synchronize(); 
-
-}
-
-
-
-void AoSScheme1MAGMABase::Data::pack_and_send_fmat( 
-  host_task_iterator task_begin, host_task_iterator task_end 
-) {
-
-  const auto ntask = std::distance( task_begin, task_end );
-  std::vector<double*> dmat_host( ntask ), fmat_host( ntask ), bf_host( ntask ),
-                       kmat_host( ntask ), gmat_host( ntask );
-  std::vector<int32_t> m_host( ntask ), n_host( ntask ), k_host( ntask ),
-                       ld_dmat_host( ntask ), ld_fmat_host( ntask ), 
-                       ld_bf_host( ntask );
-
-  //double* static_dmat = static_stack.dmat_device;
-  //const auto nbf = global_dims.nbf;
-
-  // host_device_tasks should be populated by parent impl called at top
-  for( auto i = 0; i < ntask; ++i ) {
-    auto& task = host_device_tasks[i];
-    fmat_host[i] = task.fmat;    ld_fmat_host[i] = task.npts;
-    gmat_host[i] = task.gmat;
-    bf_host[i]   = task.bf;      ld_bf_host[i]   = task.npts;
-    kmat_host[i] = task.nbe_scr;
-
-    dmat_host[i]    = task.nbe_scr; 
-    ld_dmat_host[i] = task.bfn_screening.nbe;
-
-    m_host[i] = task.npts;
-    n_host[i] = task.cou_screening.nbe;
-    k_host[i] = task.bfn_screening.nbe;
-  }
-
-  // Send to device
-  device_backend_->copy_async( ntask, dmat_host.data(), 
-    magma_stack.fdmat_array_device, "send fdmat array" );
-  device_backend_->copy_async( ntask, fmat_host.data(), 
-    magma_stack.fmat_array_device, "send fmat array" );
-  device_backend_->copy_async( ntask, gmat_host.data(), 
-    magma_stack.gmat_array_device, "send gmat array" );
-  device_backend_->copy_async( ntask, kmat_host.data(), 
-    magma_stack.kmat_array_device, "send kmat array" );
-  device_backend_->copy_async( ntask, bf_host.data(), 
-    magma_stack.bf_array_device, "send bf array" );
-
-  device_backend_->copy_async( ntask, m_host.data(), magma_stack.fmat_m_array_device,
-    "send m array (fmat)" );
-  device_backend_->copy_async( ntask, n_host.data(), magma_stack.fmat_n_array_device,
-    "send n array (fmat)" );
-  device_backend_->copy_async( ntask, k_host.data(), magma_stack.fmat_k_array_device,
-    "send k array (fmat)" );
-  device_backend_->copy_async( ntask, ld_dmat_host.data(), 
-    magma_stack.ld_fdmat_array_device, "send ld dmat array (fmat)" );
-  device_backend_->copy_async( ntask, ld_fmat_host.data(), 
-    magma_stack.ld_fmat_array_device, "send ld fmat array" );
-  device_backend_->copy_async( ntask, ld_bf_host.data(), 
-    magma_stack.ld_bf_array_device, "send ld bf array" );
-
-  device_backend_->master_queue_synchronize(); 
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/factory.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/factory.cxx
deleted file mode 100644
index fd6b86a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/factory.cxx
+++ /dev/null
@@ -1,83 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-#include "host/reference_local_host_work_driver.hpp"
-#ifdef GAUXC_HAS_DEVICE
-#include "device/cuda/cuda_aos_scheme1.hpp"
-#include "device/hip/hip_aos_scheme1.hpp"
-#endif
-
-namespace GauXC {
-
-LocalWorkDriverFactory::ptr_return_t
-  LocalWorkDriverFactory::make_local_work_driver( ExecutionSpace ex, 
-    std::string name, LocalWorkSettings settings ) {
-
-  std::transform( name.begin(), name.end(), name.begin(), ::toupper );
-  (void)(settings);
-
-  switch(ex) {
-
-  case ExecutionSpace::Host:
-    if( name == "DEFAULT" ) name = "REFERENCE";
-
-    if( name == "REFERENCE" )
-      return std::make_unique<LocalHostWorkDriver>(
-        std::make_unique<ReferenceLocalHostWorkDriver>()
-      );
-    else
-      GAUXC_GENERIC_EXCEPTION("LWD Not Recognized: " + name);
-
-  case ExecutionSpace::Device:
-    if( name == "DEFAULT" ) name = "SCHEME1";
-
-#ifdef GAUXC_HAS_CUDA
-    using scheme1_default = CudaAoSScheme1<>;
-#ifdef GAUXC_HAS_MAGMA
-    using scheme1_magma   = CudaAoSScheme1<AoSScheme1MAGMABase>;
-#endif
-#ifdef GAUXC_HAS_CUTLASS
-    using scheme1_cutlass   = CudaAoSScheme1<AoSScheme1CUTLASSBase>;
-#endif
-#elif defined(GAUXC_HAS_HIP)
-    using scheme1_default = HipAoSScheme1<>;
-#ifdef GAUXC_HAS_MAGMA
-    using scheme1_magma   = HipAoSScheme1<AoSScheme1MAGMABase>;
-#endif
-#endif
-
-#ifdef GAUXC_HAS_DEVICE
-    if( name == "SCHEME1" )
-      return std::make_unique<LocalDeviceWorkDriver>( std::make_unique<scheme1_default>() );
-#ifdef GAUXC_HAS_MAGMA
-    else if( name == "SCHEME1-MAGMA" )
-      return std::make_unique<LocalDeviceWorkDriver>( std::make_unique<scheme1_magma>() );
-#endif
-#ifdef GAUXC_HAS_CUTLASS
-    else if( name == "SCHEME1-CUTLASS" )
-      return std::make_unique<LocalDeviceWorkDriver>( std::make_unique<scheme1_cutlass>() );
-#endif
-    else
-#endif
-      GAUXC_GENERIC_EXCEPTION("LWD Not Recognized: " + name);
-
-
-  default:
-    GAUXC_GENERIC_EXCEPTION("Execution Space Not Recognized");
-
-  }
-
-  return nullptr;
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/host/CMakeLists.txt
deleted file mode 100644
index aa68ae2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/CMakeLists.txt
+++ /dev/null
@@ -1,49 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-if(GAUXC_BLAS_PREFER_ILP64)
-  find_package( BLAS REQUIRED OPTIONAL_COMPONENTS ilp64 )
-else()
-  find_package( BLAS REQUIRED )
-endif()
-include( gauxc-gau2grid     )
-
-target_sources( gauxc PRIVATE 
-  local_host_work_driver.cxx
-  local_host_work_driver_pimpl.cxx
-  reference_local_host_work_driver.cxx
-
-  reference/weights.cxx
-  reference/gau2grid_collocation.cxx
-
-  blas.cxx
-)
-
-if(BLAS_IS_LP64) 
-  message(STATUS "Discovered BLAS is LP64")
-  set_target_properties(gauxc PROPERTIES COMPILE_DEFINITIONS BLAS_IS_LP64=1)
-else()
-  message(STATUS "Discovered BLAS is ILP64")
-  set_target_properties(gauxc PROPERTIES COMPILE_DEFINITIONS BLAS_IS_LP64=0)
-endif()
-set(GAUXC_BLAS_IS_LP64 ${BLAS_IS_LP64} CACHE BOOL "BLAS used in GauXC is LP64" FORCE)
-
-
-target_link_libraries( gauxc PUBLIC BLAS::BLAS )
-
-# XXX: Be careful, I once knew why this logic was here, now no one does... 
-#      It's needed, change it and suffer the consequences
-if( GAUXC_ENABLE_GAU2GRID AND TARGET gau2grid::gg )
-  target_link_libraries( gauxc PUBLIC gau2grid::gg )
-endif()
-
-add_subdirectory(rys)
-add_subdirectory(obara_saika)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/blas.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/blas.cxx
deleted file mode 100644
index d0b7459..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/blas.cxx
+++ /dev/null
@@ -1,253 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "host/blas.hpp"
-#include <type_traits>
-#include <gauxc/exceptions.hpp>
-
-#if BLAS_IS_LP64
-  #define blas_int int32_t
-#else
-  #define blas_int int64_t
-#endif
-
-extern "C" {
-
-//void dlacpy_( const char* UPLO, const int* M, const int* N, const double* A, 
-//              const int* LDA, double* B, const int* LDB );
-//void slacpy_( const char* UPLO, const int* M, const int* N, const float* A, 
-//              const int* LDA, float* B, const int* LDB );
-
-void dgemm_( const char* TA, const char* TB, const blas_int* M, const blas_int* N, 
-             const blas_int* K, const double* ALPHA, const double* A, 
-             const blas_int* LDA, const double* B, const blas_int* LDB, 
-             const double* BETA, double* C, const blas_int* LDC );
-void sgemm_( const char* TA, const char* TB, const blas_int* M, const blas_int* N, 
-             const blas_int* K, const float* ALPHA, const float* A, 
-             const blas_int* LDA, const float* B, const blas_int* LDB, 
-             const float* BETA, float* C, const blas_int* LDC );
-
-void dsyr2k_( const char* UPLO, const char* TRANS, const blas_int* N, const blas_int* K, 
-              const double* ALPHA, const double* A, const blas_int* LDA, const double* B, 
-              const blas_int* LDB, const double* BETA, double* C, const blas_int* LDC ); 
-void ssyr2k_( const char* UPLO, const char* TRANS, const blas_int* N, const blas_int* K, 
-              const float* ALPHA, const float* A, const blas_int* LDA, const float* B, 
-              const blas_int* LDB, const float* BETA, float* C, const blas_int* LDC ); 
-
-double ddot_( const blas_int* N, const double* X, const blas_int* INCX, const double* Y, 
-              const blas_int* INCY );
-float sdot_( const blas_int* N, const float* X, const blas_int* INCX, const float* Y, 
-              const blas_int* INCY );
-
-
-void daxpy_( const blas_int* N, const double* ALPHA, const double* A, const blas_int* INCX, 
-             double* Y, const blas_int* INCY );
-void saxpy_( const blas_int* N, const float* ALPHA, const float* A, const blas_int* INCX, 
-             float* Y, const blas_int* INCY );
-
-void dscal_( const blas_int* N, const double* ALPHA, const double* X, const blas_int* INCX );
-void sscal_( const blas_int* N, const float* ALPHA, const float* X, const blas_int* INCX ); 
-}
-
-namespace GauXC::blas {
-
-template <typename T>
-void lacpy( char UPLO, int M, int N, const T* A, int LDA, T* B,
-            int LDB ) {
-
-/*
-  if constexpr ( std::is_same_v<T,float> )
-    slacpy_( &UPLO, &M, &N, A, &LDA, B, &LDB );
-  else if constexpr ( std::is_same_v<T,double> )
-    dlacpy_( &UPLO, &M, &N, A, &LDA, B, &LDB );
-  else GAUXC_GENERIC_EXCEPTION("LACPY NYI");
-*/
-
-  if( UPLO == 'L' ) {
-
-    for( int j = 0; j < N; ++j )
-    for( int i = j; i < M; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  } else if( UPLO == 'U' ) {
-
-    for( int j = 0; j <  N; ++j )
-    for( int i = 0; i <= j; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  } else {
-
-    for( int j = 0; j < N; ++j )
-    for( int i = 0; i < M; ++i )
-      B[i + j*LDB] = A[i + j*LDA];
-
-  }
-
-}
-
-template void lacpy( char UPLO, int M, int N, const float* A, int LDA, 
-                     float* B, int LDB );
-template void lacpy( char UPLO, int M, int N, const double* A, int LDA, 
-                     double* B, int LDB );
-
-
-
-
-
-
-
-
-
-template <typename T>
-void gemm( char TA, char TB, int _M, int _N, int _K, T ALPHA, 
-           const T* A, int _LDA, const T* B, int _LDB, T BETA,
-           T* C, int _LDC ) {
-
-  blas_int M   = _M;
-  blas_int N   = _N;
-  blas_int K   = _K;
-  blas_int LDA = _LDA;
-  blas_int LDB = _LDB;
-  blas_int LDC = _LDC;
-
-  if constexpr ( std::is_same_v<T,float> )
-    sgemm_( &TA, &TB, &M, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else if constexpr ( std::is_same_v<T,double> )
-    dgemm_( &TA, &TB, &M, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else GAUXC_GENERIC_EXCEPTION("GEMM NYI");
-
-
-}
-template
-void gemm( char floatA, char floatB, int M, int N, int K, float ALPHA, 
-           const float* A, int LDA, const float* B, int LDB, float BETA,
-           float* C, int LDC );
-template
-void gemm( char doubleA, char doubleB, int M, int N, int K, double ALPHA, 
-           const double* A, int LDA, const double* B, int LDB, double BETA,
-           double* C, int LDC );
-
-
-
-
-
-
-
-template <typename T>
-void syr2k( char UPLO, char TRANS, int _N, int _K, T ALPHA,
-            const T* A, int _LDA, const T* B, int _LDB, T BETA, 
-            T* C, int _LDC ) {
-
-  blas_int N   = _N;
-  blas_int K   = _K;
-  blas_int LDA = _LDA;
-  blas_int LDB = _LDB;
-  blas_int LDC = _LDC;
-
-  if constexpr ( std::is_same_v<T,float> )
-    ssyr2k_( &UPLO, &TRANS, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else if constexpr ( std::is_same_v<T,double> )
-    dsyr2k_( &UPLO, &TRANS, &N, &K, &ALPHA, A, &LDA, B, &LDB, &BETA, C, &LDC );
-  else GAUXC_GENERIC_EXCEPTION("SYR2K NYI");
-
-
-}
-
-template
-void syr2k( char UPLO, char floatRANS, int N, int K, float ALPHA,
-            const float* A, int LDA, const float* B, int LDB, float BETA, 
-            float* C, int LDC );
-template
-void syr2k( char UPLO, char doubleRANS, int N, int K, double ALPHA,
-            const double* A, int LDA, const double* B, int LDB, double BETA, 
-            double* C, int LDC );
-            
-
-
-
-
-
-
-template <typename T>
-T dot( int _N, const T* X, int _INCX, const T* Y, int _INCY ) {
-
-  blas_int N    = _N;
-  blas_int INCX = _INCX;
-  blas_int INCY = _INCY;
-
-  if constexpr ( std::is_same_v<T,float> )
-    return sdot_(&N, X, &INCX, Y, &INCY);
-  else if constexpr ( std::is_same_v<T,double> )
-    return ddot_(&N, X, &INCX, Y, &INCY);
-  else GAUXC_GENERIC_EXCEPTION("DOT NYI");
-
-  return 0.;
-}
-
-template
-float dot( int N, const float* X, int INCX, const float* Y, int INCY );
-template
-double dot( int N, const double* X, int INCX, const double* Y, int INCY );
-
-
-
-
-
-
-template <typename T>
-void axpy( int _N, T ALPHA, const T* X, int _INCX, T* Y, int _INCY ) {
-
-  blas_int N    = _N;
-  blas_int INCX = _INCX;
-  blas_int INCY = _INCY;
-
-  if constexpr ( std::is_same_v<T,float> )
-    saxpy_(&N, &ALPHA, X, &INCX, Y, &INCY );
-  else if constexpr ( std::is_same_v<T,double> )
-    daxpy_(&N, &ALPHA, X, &INCX, Y, &INCY );
-  else GAUXC_GENERIC_EXCEPTION("AXPY NYI");
-
-}
-
-template
-void axpy( int N, float ALPHA, const float* A, int INCX, float* Y, 
-           int INCY );
-template
-void axpy( int N, double ALPHA, const double* A, int INCX, double* Y, 
-           int INCY );
-            
-
-
-
-
-
-template <typename T>
-void scal( int _N, T ALPHA, T* X, int _INCX ) {
-
-  blas_int N    = _N;
-  blas_int INCX = _INCX;
-
-  if constexpr ( std::is_same_v<T,float> )
-    sscal_(&N, &ALPHA, X, &INCX );
-  else if constexpr ( std::is_same_v<T,double> )
-    dscal_(&N, &ALPHA, X, &INCX );
-  else GAUXC_GENERIC_EXCEPTION("SCAL NYI");
-
-}
-
-template
-void scal( int N, float ALPHA, float* X, int INCX ); 
-template
-void scal( int N, double ALPHA, double* X, int INCX );
-
-}
-
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/blas.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/blas.hpp
deleted file mode 100644
index 54a279b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/blas.hpp
+++ /dev/null
@@ -1,41 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cstdint>
-
-namespace GauXC::blas {
-
-template <typename T>
-void lacpy( char UPLO, int M, int N, const T* A, int LDA, T* B,
-            int LDB );
-
-template <typename T>
-void gemm( char TA, char TB, int M, int N, int K, T ALPHA, 
-           const T* A, int LDA, const T* B, int LDB, T BETA,
-           T* C, int LDC );
-
-template <typename T>
-void syr2k( char UPLO, char TRANS, int N, int K, T ALPHA,
-            const T* A, int LDA, const T* B, int LDB, T BETA, 
-            T* C, int LDC ); 
-            
-
-template <typename T>
-T dot( int N, const T* X, int INCX, const T* Y, int INCY );
-
-template <typename T>
-void axpy( int N, T ALPHA, const T* X, int INCX, T* Y, int INCY );
-            
-template <typename T>
-void scal( int N, T ALPHA,  T* X, int INCX );
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver.cxx
deleted file mode 100644
index 0fa970b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver.cxx
+++ /dev/null
@@ -1,570 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "local_host_work_driver_pimpl.hpp"
-#include <stdexcept>
-
-namespace GauXC {
-
-LocalHostWorkDriver::LocalHostWorkDriver() : 
-  pimpl_(nullptr) { }
-LocalHostWorkDriver::LocalHostWorkDriver(pimpl_type&& ptr) :
-  pimpl_( std::move(ptr) ){ }
-
-LocalHostWorkDriver::~LocalHostWorkDriver() noexcept = default;
-
-LocalHostWorkDriver::LocalHostWorkDriver( LocalHostWorkDriver&& other ) noexcept :
-  pimpl_(std::move(other.pimpl_)) { }
-
-#define throw_if_invalid_pimpl(ptr) \
-  if(not ptr) GAUXC_PIMPL_NOT_INITIALIZED()
-
-
-
-
-
-// Partition weights
-void LocalHostWorkDriver::partition_weights( XCWeightAlg weight_alg, 
-  const Molecule& mol, const MolMeta& meta, task_iterator task_begin, 
-  task_iterator task_end ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->partition_weights(weight_alg, mol, meta, task_begin, task_end);
-
-}
-
-void LocalHostWorkDriver::eval_weight_1st_deriv_contracted( 
-  XCWeightAlg weight_alg, const Molecule& mol, const MolMeta& meta, 
-  const XCTask& task, const double* w_times_f, double* exc_grad_w ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_weight_1st_deriv_contracted(weight_alg, mol, meta, task, 
-    w_times_f, exc_grad_w);
-
-}
-
-
-// Collocation
-void LocalHostWorkDriver::eval_collocation( size_t npts, size_t nshells, size_t nbe, 
-  const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-  double* basis_eval ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_collocation(npts, nshells, nbe, pts, basis, shell_list, basis_eval);
-
-}
-
-
-// Collocation Gradient
-void LocalHostWorkDriver::eval_collocation_gradient( size_t npts, size_t nshells, 
-  size_t nbe, const double* pts, const BasisSet<double>& basis, 
-  const int32_t* shell_list, double* basis_eval, double* dbasis_x_eval, 
-  double* dbasis_y_eval, double* dbasis_z_eval) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_collocation_gradient(npts, nshells, nbe, pts, basis, shell_list, basis_eval,
-    dbasis_x_eval, dbasis_y_eval, dbasis_z_eval);
-
-}
-
-
-// Collocation Hessian
-void LocalHostWorkDriver::eval_collocation_hessian( size_t npts, size_t nshells, 
-    size_t nbe, const double* pts, const BasisSet<double>& basis, 
-    const int32_t* shell_list, double* basis_eval, double* dbasis_x_eval, 
-    double* dbasis_y_eval, double* dbasis_z_eval, double* d2basis_xx_eval, 
-    double* d2basis_xy_eval, double* d2basis_xz_eval, double* d2basis_yy_eval, 
-    double* d2basis_yz_eval, double* d2basis_zz_eval ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_collocation_hessian(npts, nshells, nbe, pts, basis, shell_list, basis_eval,
-    dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval, d2basis_xy_eval,
-    d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval, d2basis_zz_eval);
-
-}
-
-// Collocation 3rd
-void LocalHostWorkDriver::eval_collocation_der3( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval, double* d3basis_xxx_eval, double* d3basis_xxy_eval,
-    double* d3basis_xxz_eval, double* d3basis_xyy_eval, double* d3basis_xyz_eval,
-    double* d3basis_xzz_eval, double* d3basis_yyy_eval, double* d3basis_yyz_eval,
-    double* d3basis_yzz_eval, double* d3basis_zzz_eval) {
-
-   throw_if_invalid_pimpl(pimpl_);
-   pimpl_->eval_collocation_der3(npts, nshells, nbe, pts, basis, shell_list, basis_eval,
-    dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval, d2basis_xy_eval,
-    d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval, d2basis_zz_eval,
-    d3basis_xxx_eval, d3basis_xxy_eval, d3basis_xxz_eval, d3basis_xyy_eval, 
-    d3basis_xyz_eval, d3basis_xzz_eval, d3basis_yyy_eval, d3basis_yyz_eval,
-    d3basis_yzz_eval, d3basis_zzz_eval);
-       
-}
-
-
-// X matrix (fac * P * B)
-void LocalHostWorkDriver::eval_xmat( size_t npts, size_t nbf, size_t nbe, 
-  const submat_map_t& submat_map, double fac, const double* P, size_t ldp, 
-  const double* basis_eval, size_t ldb, double* X, size_t ldx, double* scr ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_xmat(npts, nbf, nbe, submat_map, fac, P, ldp, basis_eval, ldb, X, 
-    ldx, scr);
-
-}
-
-void LocalHostWorkDriver::eval_exx_fmat( size_t npts, size_t nbf, size_t nbe_bra,
-  size_t nbe_ket, const submat_map_t& submat_map_bra,
-  const submat_map_t& submat_map_ket, const double* P, size_t ldp,
-  const double* basis_eval, size_t ldb, double* F, size_t ldf,
-  double* scr ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_exx_fmat(npts, nbf, nbe_bra, nbe_ket, submat_map_bra,
-    submat_map_ket, P, ldp, basis_eval, ldb, F, ldf, scr ); 
-
-}
-
-
-// G Matrix G(mu,i) = w(i) * A(mu,nu,i) * X(mu,i)
-void LocalHostWorkDriver::eval_exx_gmat( size_t npts, size_t nshells, 
-  size_t nshell_pairs, size_t nbe, const double* points, const double* weights, 
-  const BasisSet<double>& basis, const ShellPairCollection<double>& shpairs, 
-  const BasisSetMap& basis_map, const int32_t* shell_list, 
-  const std::pair<int32_t,int32_t>* shell_pair_list, 
-  const double* X, size_t ldx, double* G, size_t ldg ) {;
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_exx_gmat(npts, nshells, nshell_pairs, nbe, points, weights, 
-    basis, shpairs, basis_map, shell_list, shell_pair_list, X, ldx, G, ldg );
-
-}
-
-void LocalHostWorkDriver::inc_exx_k( size_t npts, size_t nbf, size_t nbe_bra, 
-  size_t nbe_ket, const double* basis_eval, const submat_map_t& submat_map_bra, 
-  const submat_map_t& submat_map_ket, const double* G, size_t ldg, double* K, 
-  size_t ldk, double* scr ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->inc_exx_k(npts, nbf, nbe_bra, nbe_ket, basis_eval, submat_map_bra,
-    submat_map_ket, G, ldg, K, ldk, scr );
-}
-
-
-
-// U/VVar LDA (density)
-void LocalHostWorkDriver::eval_uvvar_lda_rks( size_t npts, size_t nbe, 
- const double* basis_eval, const double* X, size_t ldx, double* den_eval) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_lda_rks(npts, nbe, basis_eval, X, ldx, den_eval);
-
-}
-
-void LocalHostWorkDriver::eval_uvvar_lda_uks( size_t npts, size_t nbe,
- const double* basis_eval, const double* Xs, size_t ldxs, const double* Xz,
- size_t ldxz, double* den_eval) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_lda_uks(npts, nbe, basis_eval, Xs, ldxs, Xz, ldxz, den_eval);
-
-}
-
-void LocalHostWorkDriver::eval_uvvar_lda_gks( size_t npts, size_t nbe,
- const double* basis_eval, const double* Xs, size_t ldxs, const double* Xz,
- size_t ldxz, const double* Xx, size_t ldxx, const double* Xy, size_t ldxy,
- double* den_eval, double* K, const double dtol) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_lda_gks(npts, nbe, basis_eval, Xs, ldxs, Xz, ldxz, Xx, ldxx, Xy, ldxy, den_eval, K, dtol);
-
-}
-
-
-// U/VVar GGA (density + grad, gamma)
-void LocalHostWorkDriver::eval_uvvar_gga_rks( size_t npts, size_t nbe, 
-  const double* basis_eval, const double* dbasis_x_eval, 
-  const double *dbasis_y_eval, const double* dbasis_z_eval, const double* X, 
-  size_t ldx, double* den_eval, double* dden_x_eval, double* dden_y_eval, 
-  double* dden_z_eval, double* gamma ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_gga_rks(npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-    dbasis_z_eval, X, ldx, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    gamma);
-
-}
-
-
-void LocalHostWorkDriver::eval_uvvar_gga_uks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval,
-  const double *dbasis_y_eval, const double* dbasis_z_eval, const double* Xs,
-  size_t ldxs, const double* Xz, size_t ldxz, double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_gga_uks(npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-    dbasis_z_eval, Xs, ldxs, Xz, ldxz, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    gamma);
-
-}
-
-void LocalHostWorkDriver::eval_uvvar_gga_gks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval,
-  const double *dbasis_y_eval, const double* dbasis_z_eval, const double* Xs,
-  size_t ldxs, const double* Xz, size_t ldxz, const double* Xx, size_t ldxx,
-  const double* Xy, size_t ldxy, double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma, double* K, double* H, const double dtol ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_gga_gks(npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-    dbasis_z_eval, Xs, ldxs, Xz, ldxz, Xx, ldxx, Xy, ldxy, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    gamma, K, H, dtol);
-
-}
-
-
-// U/VVar MGGA(density, grad, gamma, tau, lapl)
-void LocalHostWorkDriver::eval_uvvar_mgga_rks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval, 
-  const double* dbasis_y_eval, const double* dbasis_z_eval, const double* lbasis_eval,
-  const double* X, size_t ldx, const double* mmat_x, const double* mmat_y, const double* mmat_z,
-  size_t ldm, double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma, double* tau, double* lapl ) {
-  
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_mgga_rks(npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-    dbasis_z_eval, lbasis_eval, X, ldx, mmat_x, mmat_y, mmat_z, ldm, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    gamma, tau, lapl);
-  
-}
-
-
-// U/VVar MGGA(density, grad, gamma, tau, lapl)
-void LocalHostWorkDriver::eval_uvvar_mgga_uks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval, 
-  const double* dbasis_y_eval, const double* dbasis_z_eval, const double* lbasis_eval,
-  const double* Xs, size_t ldxs, const double* Xz, size_t ldxz, 
-  const double* mmat_xs, const double* mmat_ys, const double* mmat_zs, size_t ldms,
-  const double* mmat_xz, const double* mmat_yz, const double* mmat_zz, size_t ldmz,
-  double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma, double* tau, double* lapl ) {
-  
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_uvvar_mgga_uks(npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-    dbasis_z_eval, lbasis_eval, Xs, ldxs, Xz, ldxz, mmat_xs, mmat_ys, mmat_zs, ldms, 
-    mmat_xz, mmat_yz, mmat_zz, ldmz, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    gamma, tau, lapl);
-  
-}
-
-// Eval Z Matrix LDA VXC
-void LocalHostWorkDriver::eval_zmat_lda_vxc_rks( size_t npts, size_t nbe, 
-  const double* vrho, const double* basis_eval, double* Z, size_t ldz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_lda_vxc_rks(npts, nbe, vrho, basis_eval, Z, ldz);
-
-}
-
-void LocalHostWorkDriver::eval_zmat_lda_vxc_uks( size_t npts, size_t nbe,
-  const double* vrho, const double* basis_eval, double* Zs, size_t ldzs,
-  double* Zz, size_t ldzz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_lda_vxc_uks(npts, nbe, vrho, basis_eval, Zs, ldzs,
-    Zz, ldzz);
-
-}
-
-void LocalHostWorkDriver::eval_zmat_lda_vxc_gks( size_t npts, size_t nbe,
-  const double* vrho, const double* basis_eval, double* Zs, size_t ldzs,
-  double* Zz, size_t ldzz,double* Zx, size_t ldzx, double* Zy, size_t ldzy, double* K ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_lda_vxc_gks(npts, nbe, vrho, basis_eval, Zs, ldzs,
-    Zz, ldzz, Zx, ldzx, Zy, ldzy, K);
-
-
-}
-
-
-// Eval Z Matrix GGA VXC
-void LocalHostWorkDriver::eval_zmat_gga_vxc_rks( size_t npts, size_t nbe, 
-  const double* vrho, const double* vgamma, const double* basis_eval, 
-  const double* dbasis_x_eval, const double* dbasis_y_eval, 
-  const double* dbasis_z_eval, const double* dden_x_eval, 
-  const double* dden_y_eval, const double* dden_z_eval, double* Z, size_t ldz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_gga_vxc_rks(npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Z, ldz);
-
-}
-
-void LocalHostWorkDriver::eval_zmat_gga_vxc_uks( size_t npts, size_t nbe,
-  const double* vrho, const double* vgamma, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval,
-  const double* dbasis_z_eval, const double* dden_x_eval,
-  const double* dden_y_eval, const double* dden_z_eval, double* Zs, size_t ldzs,
-  double* Zz, size_t ldzz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_gga_vxc_uks(npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Zs, ldzs, Zz, ldzz);
-
-}
-
-void LocalHostWorkDriver::eval_zmat_gga_vxc_gks( size_t npts, size_t nbe,
-  const double* vrho, const double* vgamma, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval,
-  const double* dbasis_z_eval, const double* dden_x_eval,
-  const double* dden_y_eval, const double* dden_z_eval, double* Zs, size_t ldzs,
-  double* Zz, size_t ldzz, double* Zx, size_t ldzx,double* Zy, size_t ldzy, double* K, double* H ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_gga_vxc_gks(npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Zs, ldzs, Zz, ldzz, Zx, ldzx, Zy, ldzy, K, H);
-
-}
-
-// Eval Z Matrix MGGA VXC
-void LocalHostWorkDriver::eval_zmat_mgga_vxc_rks( size_t npts, size_t nbe, 
-  const double* vrho, const double* vgamma, const double* vlapl,
-  const double* basis_eval, 
-  const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  const double* lbasis_eval, const double* dden_x_eval, 
-  const double* dden_y_eval, const double* dden_z_eval, double* Z, size_t ldz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_mgga_vxc_rks(npts, nbe, vrho, vgamma, vlapl, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, lbasis_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Z, ldz);
-
-}
-
-
-// Eval Z Matrix MGGA VXC
-void LocalHostWorkDriver::eval_zmat_mgga_vxc_uks( size_t npts, size_t nbe, 
-  const double* vrho, const double* vgamma, const double* vlapl,
-  const double* basis_eval, 
-  const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  const double* lbasis_eval, const double* dden_x_eval, 
-  const double* dden_y_eval, const double* dden_z_eval, double* Zs, size_t ldzs,
-  double* Zz, size_t ldzz) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_mgga_vxc_uks(npts, nbe, vrho, vgamma, vlapl, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, lbasis_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Zs, ldzs, Zz, ldzz);
-
-}
-
-
-// Eval M Matrix MGGA VXC
-void LocalHostWorkDriver::eval_mmat_mgga_vxc_rks( size_t npts, size_t nbe, 
-  const double* vtau, const double* vlapl,
-  const double* dbasis_x_eval, const double* dbasis_y_eval, 
-  const double* dbasis_z_eval, double* mmat_x, double* mmat_y, double* mmat_z, size_t ldm ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_mmat_mgga_vxc_rks(npts, nbe, vtau, vlapl, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, mmat_x, mmat_y, mmat_z, ldm);
-
-}
-
-
-// Eval M Matrix MGGA VXC
-void LocalHostWorkDriver::eval_mmat_mgga_vxc_uks( size_t npts, size_t nbe, 
-  const double* vtau, const double* vlapl,
-  const double* dbasis_x_eval, const double* dbasis_y_eval, 
-  const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs, size_t ldms,
-  double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_mmat_mgga_vxc_uks(npts, nbe, vtau, vlapl, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, mmat_xs, mmat_ys, mmat_zs, ldms, mmat_xz, mmat_yz,
-    mmat_zz, ldmz );
-
-}
-
-// Increment VXC by Z
-void LocalHostWorkDriver::inc_vxc( size_t npts, size_t nbf, size_t nbe, 
-  const double* basis_eval, const submat_map_t& submat_map, const double* Z, 
-  size_t ldz, double* VXC, size_t ldvxc, double* scr ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->inc_vxc(npts, nbf, nbe, basis_eval, submat_map, Z, ldz, VXC, ldvxc, scr);
-
-}
-
-
-// eval_tmat LDA RKS
-void LocalHostWorkDriver::eval_tmat_lda_vxc_rks( size_t npts, const double* v2rho2, const double* trho, double* A) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_tmat_lda_vxc_rks(npts, v2rho2, trho, A);
-
-}
-
-// eval_tmat GGA RKS
-void LocalHostWorkDriver::eval_tmat_gga_vxc_rks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-  const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_tmat_gga_vxc_rks(npts, vgamma, v2rho2, v2rhogamma, v2gamma2,
-    tden_eval, tdden_x_eval, tdden_y_eval, tdden_z_eval, dden_x_eval, dden_y_eval,
-    dden_z_eval, A, B);
-
-}
-
-// eval_tmat MGGA RKS
-void LocalHostWorkDriver::eval_tmat_mgga_vxc_rks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-  const double* v2gamma2, const double* v2gammalapl, const double* v2gammatau,
-  const double* v2lapl2, const double* v2lapltau, const double* v2tau2, 
-  const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_tmat_mgga_vxc_rks(npts, vgamma, v2rho2, v2rhogamma, v2rholapl, v2rhotau,
-    v2gamma2, v2gammalapl, v2gammatau, v2lapl2, v2lapltau, v2tau2,
-    tden_eval, tdden_x_eval, tdden_y_eval, tdden_z_eval, ttau, dden_x_eval,
-    dden_y_eval, dden_z_eval, A, B, C);
-
-}
-
-void LocalHostWorkDriver::eval_tmat_lda_vxc_uks( size_t npts, const double* v2rho2, const double* trho, double* A) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_tmat_lda_vxc_uks(npts, v2rho2, trho, A);
-
-}
-void LocalHostWorkDriver::eval_tmat_gga_vxc_uks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-  const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_tmat_gga_vxc_uks(npts, vgamma, v2rho2, v2rhogamma, v2gamma2,
-    trho, tdden_x_eval, tdden_y_eval, tdden_z_eval, dden_x_eval, dden_y_eval,
-    dden_z_eval, A, B);
-
-}
-void LocalHostWorkDriver::eval_tmat_mgga_vxc_uks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-  const double* v2gamma2, const double* v2gammalapl, const double* v2gamma_tau,
-  const double* v2lapl2, const double* v2tau_lapl, const double* v2tau2, 
-  const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_tmat_mgga_vxc_uks(npts, vgamma, v2rho2, v2rhogamma, v2rholapl, v2rhotau,
-    v2gamma2, v2gammalapl, v2gamma_tau, v2lapl2, v2tau_lapl, v2tau2,
-    trho, tdden_x_eval, tdden_y_eval, tdden_z_eval, ttau, dden_x_eval,
-    dden_y_eval, dden_z_eval, A, B, C);
-
-}
-
-void LocalHostWorkDriver::eval_zmat_lda_vxc_uks_ts( size_t npts, size_t nbe,
-  const double* vrho, const double* basis_eval, double* Za, size_t ldza,
-  double* Zb, size_t ldzb ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_lda_vxc_uks_ts(npts, nbe, vrho, basis_eval, Za, ldza,
-    Zb, ldzb);
-
-}
-
-void LocalHostWorkDriver::eval_Bvec_gga_vxc_rks_ts( size_t npts, const double* vgamma, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_Bvec_gga_vxc_rks_ts(npts, vgamma, dden_x_eval, dden_y_eval,
-    dden_z_eval, B);
-}
-
-void LocalHostWorkDriver::eval_Bvec_gga_vxc_uks_ts( size_t npts, const double* vgamma, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_Bvec_gga_vxc_uks_ts(npts, vgamma, dden_x_eval, dden_y_eval,
-    dden_z_eval, B);
-}
-void LocalHostWorkDriver::eval_zmat_gga_vxc_rks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  double* Z, size_t ldz ){
-
-    throw_if_invalid_pimpl(pimpl_);
-    pimpl_->eval_zmat_gga_vxc_rks_ts(npts, nbf, A, B, basis_eval, dbasis_x_eval,
-      dbasis_y_eval, dbasis_z_eval, Z, ldz);
-}
-
-void LocalHostWorkDriver::eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  double* Za, size_t ldza, double* Zb, size_t ldzb ){
-
-    throw_if_invalid_pimpl(pimpl_);
-    pimpl_->eval_zmat_gga_vxc_uks_ts(npts, nbf, A, B, basis_eval, dbasis_x_eval,
-      dbasis_y_eval, dbasis_z_eval, Za, ldza, Zb, ldzb);
-}
-
-void LocalHostWorkDriver::eval_zmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, 
-  const double* vrho, const double* vgamma, const double* vlapl,
-  const double* basis_eval, 
-  const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  const double* lbasis_eval, const double* dden_x_eval, 
-  const double* dden_y_eval, const double* dden_z_eval, double* Za, size_t ldza,
-  double* Zb, size_t ldzb) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_mgga_vxc_uks_ts(npts, nbe, vrho, vgamma, vlapl, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, lbasis_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Za, ldza, Zb, ldzb);
-}
-
-void LocalHostWorkDriver::eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbe,
-  const double* vrho, const double* vgamma, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval,
-  const double* dbasis_z_eval, const double* dden_x_eval,
-  const double* dden_y_eval, const double* dden_z_eval, double* Za, size_t ldza,
-  double* Zb, size_t ldzb ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_zmat_gga_vxc_uks_ts(npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-    Za, ldza, Zb, ldzb);
-
-}
-void LocalHostWorkDriver::eval_mmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, 
-  const double* vtau, const double* vlapl,
-  const double* dbasis_x_eval, const double* dbasis_y_eval, 
-  const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs, size_t ldms,
-  double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz ) {
-
-  throw_if_invalid_pimpl(pimpl_);
-  pimpl_->eval_mmat_mgga_vxc_uks_ts(npts, nbe, vtau, vlapl, dbasis_x_eval,
-    dbasis_y_eval, dbasis_z_eval, mmat_xs, mmat_ys, mmat_zs, ldms, mmat_xz, mmat_yz,
-    mmat_zz, ldmz );
-
-}
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver.hpp
deleted file mode 100644
index 41cf430..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver.hpp
+++ /dev/null
@@ -1,603 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-
-#include <memory>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/shell_pair.hpp>
-#include <gauxc/basisset_map.hpp>
-#include <gauxc/xc_task.hpp>
-
-
-namespace GauXC {
-namespace detail {
-
-struct LocalHostWorkDriverPIMPL;
-
-}
-
-/// Base class for local work drivers in Host execution spaces 
-class LocalHostWorkDriver : public LocalWorkDriver {
-
-  using pimpl_type = std::unique_ptr<detail::LocalHostWorkDriverPIMPL>;
-
-public:
-
-  using submat_map_t = std::vector< std::array<int32_t,3> >;
-  using task_container = std::vector<XCTask>;
-  using task_iterator  = typename task_container::iterator;
-
-  /// Construct LocalHostWorkDriver instance in invalid state
-  LocalHostWorkDriver();
-
-  /** Construct LocalHostWorkDriver instance given implementation pointer
-   *  @param[in] ptr Pointer to implementation
-   */
-  LocalHostWorkDriver( pimpl_type&& ptr );
-
-  /// Destructor (default)
-  ~LocalHostWorkDriver() noexcept;
-
-  // Remove copy ctor
-  LocalHostWorkDriver( const LocalHostWorkDriver& ) = delete;
-
-  /** Construct LocalHostWorkDriver by transferring ownership
-   *  @param[in] other LocalHostWorkDriver instance to take ownership
-   */
-  LocalHostWorkDriver( LocalHostWorkDriver&& other ) noexcept;
-
-
-  // Public APIs
-
-  /** Evaluate the molecular partition weights
-   *
-   *  Overwrites the weights of passed XC Tasks to include molecular
-   *  partition weights.
-   *
-   *  @param[in] weight_alg Molecular partitioning scheme
-   *  @param[in] mol        Molecule being partitioned
-   *  @param[in] molmeta    Metadata associated with mol
-   *
-   *  @param[in/out] task_begin Start iterator for task container to be modified
-   *  @param[in/out] task_end   End iterator for task container to be modified
-   */
-  void partition_weights( XCWeightAlg weight_alg, const Molecule& mol, 
-    const MolMeta& meta, task_iterator task_begin, task_iterator task_end );
-
-  /** Evaluate the weight first derivative contracted with a function
-   *
-   *  @param[in] weight_alg Molecular partitioning scheme
-   *  @param[in] mol        Molecule being partitioned
-   *  @param[in] molmeta    Metadata associated with mol
-   *  @param[in] task       Task Data
-   *  @param[in] w_times_f  Weight times function evaluation
-   * 
-   *  @param[in/out] exc_grad_w  Weight first derivative times function evaluation (added to this array)
-   *                              Assumed to have length 3*natoms. Example: exc_grad
-   */
-  void eval_weight_1st_deriv_contracted( XCWeightAlg weight_alg, const Molecule& mol, 
-    const MolMeta& meta, const XCTask& task, const double* w_times_f, double* exc_grad_w );
-
-
-  /** Evaluation the collocation matrix
-   *
-   *  @param[in] npts     Number of points on which to evaluate the basis
-   *  @param[in] nshells  Number of shells to evaluate (length of shell_list)
-   *  @param[in] nbe      Total number of basis functions to evaluate (sum over shell_list)
-   *  @param[in] pts      Grid points (AoS)
-   *  @param[in] basis    Full basis set
-   *  @param[in] shell_list List of indices (0-based) to evaulate from basis
-   *
-   *  @param[out] basis_eval Collocation matrix in col major (bfn,pts). 
-   *                         Assumed to have leading dimension of nbe.
-   */
-  void eval_collocation( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval );
-
-
-  /** Evaluation the collocation matrix + gradient
-   *
-   *  @param[in] npts     Same as `eval_collocation`
-   *  @param[in] nshells  Same as `eval_collocation`
-   *  @param[in] nbe      Same as `eval_collocation`
-   *  @param[in] pts      Same as `eval_collocation`
-   *  @param[in] basis    Same as `eval_collocation`
-   *  @param[in] shell_list Same as `eval_collocation`
-   *
-   *  @param[out] basis_eval    Same as `eval_collocation`
-   *  @param[out] dbasis_x_eval Derivative of `basis_eval` wrt x (same dimensions)
-   *  @param[out] dbasis_y_eval Derivative of `basis_eval` wrt y (same dimensions)
-   *  @param[out] dbasis_z_eval Derivative of `basis_eval` wrt z (same dimensions)
-   */
-  void eval_collocation_gradient( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval);
-
-
-  /** Evaluation the collocation matrix + gradient + hessian
-   *
-   *  @param[in] npts     Same as `eval_collocation`
-   *  @param[in] nshells  Same as `eval_collocation`
-   *  @param[in] nbe      Same as `eval_collocation`
-   *  @param[in] pts      Same as `eval_collocation`
-   *  @param[in] basis    Same as `eval_collocation`
-   *  @param[in] shell_list Same as `eval_collocation`
-   *
-   *  @param[out] basis_eval    Same as `eval_collocation`
-   *  @param[out] dbasis_x_eval Same as `eval_collocation_gradient`
-   *  @param[out] dbasis_y_eval Same as `eval_collocation_gradient`
-   *  @param[out] dbasis_z_eval Same as `eval_collocation_gradient`
-   *  @param[out] d2basis_xx_eval Derivative of `basis_eval` wrt x+x (same dimensions)
-   *  @param[out] d2basis_xy_eval Derivative of `basis_eval` wrt x+y (same dimensions)
-   *  @param[out] d2basis_xz_eval Derivative of `basis_eval` wrt x+z (same dimensions)
-   *  @param[out] d2basis_yy_eval Derivative of `basis_eval` wrt y+y (same dimensions)
-   *  @param[out] d2basis_yz_eval Derivative of `basis_eval` wrt y+z (same dimensions)
-   *  @param[out] d2basis_zz_eval Derivative of `basis_eval` wrt z+z (same dimensions)
-   */
-  void eval_collocation_hessian( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval );
-
-  /** Evaluation the collocation matrix + gradient + hessian + 3rd derivatives
-   *
-   *  @param[in] npts     Same as `eval_collocation`
-   *  @param[in] nshells  Same as `eval_collocation`
-   *  @param[in] nbe      Same as `eval_collocation`
-   *  @param[in] pts      Same as `eval_collocation`
-   *  @param[in] basis    Same as `eval_collocation`
-   *  @param[in] shell_list Same as `eval_collocation`
-   *
-   *  @param[out] basis_eval    Same as `eval_collocation`
-   *  @param[out] dbasis_x_eval Same as `eval_collocation_gradient`
-   *  @param[out] dbasis_y_eval Same as `eval_collocation_gradient`
-   *  @param[out] dbasis_z_eval Same as `eval_collocation_gradient`
-   *  @param[out] d2basis_xx_eval Derivative of `basis_eval` wrt x+x (same dimensions)
-   *  @param[out] d2basis_xy_eval Derivative of `basis_eval` wrt x+y (same dimensions)
-   *  @param[out] d2basis_xz_eval Derivative of `basis_eval` wrt x+z (same dimensions)
-   *  @param[out] d2basis_yy_eval Derivative of `basis_eval` wrt y+y (same dimensions)
-   *  @param[out] d2basis_yz_eval Derivative of `basis_eval` wrt y+z (same dimensions)
-   *  @param[out] d2basis_zz_eval Derivative of `basis_eval` wrt z+z (same dimensions)
-   *  @param[out] d3basis_xxx_eval Derivative of `basis_eval` wrt x+x+x (same dimensions)
-   *  @param[out] d3basis_xxy_eval Derivative of `basis_eval` wrt x+x+y (same dimensions)
-   *  @param[out] d3basis_xxz_eval Derivative of `basis_eval` wrt x+x+z (same dimensions)
-   *  @param[out] d3basis_xyy_eval Derivative of `basis_eval` wrt x+y+y (same dimensions)
-   *  @param[out] d3basis_xyz_eval Derivative of `basis_eval` wrt x+y+z (same dimensions)
-   *  @param[out] d3basis_xzz_eval Derivative of `basis_eval` wrt x+z+z (same dimensions)
-   *  @param[out] d3basis_yyy_eval Derivative of `basis_eval` wrt y+y+y (same dimensions)
-   *  @param[out] d3basis_yyz_eval Derivative of `basis_eval` wrt y+y+z (same dimensions)
-   *  @param[out] d3basis_yzz_eval Derivative of `basis_eval` wrt y+z+z (same dimensions)
-   *  @param[out] d3basis_zzz_eval Derivative of `basis_eval` wrt z+z+z (same dimensions)
-   */
-  void eval_collocation_der3( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval, double* d3basis_xxx_eval, double* d3basis_xxy_eval,
-    double* d3basis_xxz_eval, double* d3basis_xyy_eval, double* d3basis_xyz_eval,
-    double* d3basis_xzz_eval, double* d3basis_yyy_eval, double* d3basis_yyz_eval,
-    double* d3basis_yzz_eval, double* d3basis_zzz_eval);
-
-  /** Evaluate the compressed "X" matrix = fac * P * B
-   *
-   *  @param[in]  npts        The number of points in the collocation matrix 
-   *  @param[in]  nbf         The total number of bfns
-   *  @param[in]  nbe         The number of non-negligible bfns
-   *  @param[in]  submat_map  Map from the full matrix to non-negligible submatrices
-   *  @param[in]  fac         Scaling factor in front of matrix multiplication
-   *  @param[in]  P           The alpha density matrix ( (nbf,nbf) col major)
-   *  @param[in]  ldp         The leading dimension of P
-   *  @param[in]  basis_eval  The collocation matrix ( (nbe,npts) col major)
-   *  @param[in]  ldb         The leading dimension of basis_eval
-   *  @param[out] X           The X matrix ( (nbe,npts) col major)
-   *  @param[in]  ldx         The leading dimension of X
-   *  @param[in/out] scr      Scratch space of at least nbe*nbe
-   */
-  void eval_xmat( size_t npts, size_t nbf, size_t nbe, 
-    const submat_map_t& submat_map, double fac, const double* P, size_t ldp,
-    const double* basis_eval, size_t ldb, double* X, size_t ldx, 
-    double* scr );
-
-  void eval_exx_fmat( size_t npts, size_t nbf, size_t nbe_bra,
-    size_t nbe_ket, const submat_map_t& submat_map_bra,
-    const submat_map_t& submat_map_ket, const double* P, size_t ldp,
-    const double* basis_eval, size_t ldb, double* F, size_t ldf,
-    double* scr );
-
-  void eval_exx_gmat( size_t npts, size_t nshells, size_t nshell_pairs,
-    size_t nbe, const double* points, const double* weights, 
-    const BasisSet<double>& basis, const ShellPairCollection<double>& shpairs, 
-    const BasisSetMap& basis_map, const int32_t* shell_list, 
-    const std::pair<int32_t,int32_t>* shell_pair_list, 
-    const double* X, size_t ldx, double* G, size_t ldg );
-
-  void inc_exx_k( size_t npts, size_t nbf, size_t nbe_bra, size_t nbe_ket, 
-    const double* basis_eval, const submat_map_t& submat_map_bra, 
-    const submat_map_t& submat_map_ket, const double* G, size_t ldg, double* K, 
-    size_t ldk, double* scr );
-    
-  /** Evaluate the U and V variavles for RKS LDA
-   *
-   *  U = V = rho (total density)
-   *
-   *  @param[in] npts       The number of points to evaluate the U/V variables
-   *  @param[in] nbe        The number of basis functions in collocation matrix
-   *  @param[in] basis_eval The collocation matrix ( (nbe,npts), col major, lb=nbe)
-   *  @param[in] X          The X matrix (P*B, (nbe,npts) col major)
-   *  @param[in] ldx        The leading dimension of X
-   *  @param[out] den_eval  The total density evaluated on the grid (npts)
-   *
-   */
-  void eval_uvvar_lda_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* X, size_t ldx, double* den_eval);
-
-  /** Evaluate the U and V variavles for RKS LDA
-   *
-   *  U = rho_+ / rho_- (alpha and beta densities)
-   *  V = rho_s / rho_z (scalar and spin densities)
-   *
-   *  @param[in] npts       The number of points to evaluate the U/V variables
-   *  @param[in] nbe        The number of basis functions in collocation matrix
-   *  @param[in] basis_eval The collocation matrix ( (nbe,npts), col major, lb=nbe)
-   *  @param[in] Xs         The Xs matrix (Ps*B, (nbe,npts) col major)
-   *  @param[in] Xz         The Xz matrix (Pz*B, (nbe,npts) col major)
-   *  @param[in] ldx        The leading dimension of X
-   *  @param[out] den_eval  The total density evaluated on the grid (npts)
-   *
-   */
-  void eval_uvvar_lda_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz,
-    double* den_eval);
-
-  void eval_uvvar_lda_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz,
-    const double* Xx, size_t ldxx, const double* Xy, size_t ldxy, double* den_eval, double* K, const double dtol);
-
-
-  /** Evaluate the U and V variavles for RKS GGA
-   *
-   *  U = rho + gradient
-   *  V = rho + gamma
-   *
-   *  @param[in] npts          Same as `eval_uvvar_lda`
-   *  @param[in] nbe           Same as `eval_uvvar_lda`
-   *  @param[in] basis_eval    Same as `eval_uvvar_lda`
-   *  @param[in] dbasis_x_eval Derivative of `basis_eval` wrt x (same dims)
-   *  @param[in] dbasis_y_eval Derivative of `basis_eval` wrt y (same dims)
-   *  @param[in] dbasis_z_eval Derivative of `basis_eval` wrt z (same dims)
-   *  @param[in] X             Same as `eval_uvvar_lda`
-   *  @param[in] ldx           Same as `eval_uvvar_lda`
-   *  @param[out] den_eval     Same as `eval_uvvar_lda`
-   *  @param[out] dden_x_eval  Derivative of `den_eval` wrt x (npts)
-   *  @param[out] dden_y_eval  Derivative of `den_eval` wrt y (npts)
-   *  @param[out] dden_z_eval  Derivative of `den_eval` wrt z (npts)
-   *  @param[out] gamma        |grad rho|^2 (npts)
-   *                        
-   */
-  void eval_uvvar_gga_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double *dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* X, size_t ldx, double* den_eval, 
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma );
-
-  void eval_uvvar_gga_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs, 
-    const double* Xz, size_t ldxz, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma );
-
-  void eval_uvvar_gga_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs,
-    const double* Xz, size_t ldxz, const double* Xx, size_t ldxx,
-    const double* Xy, size_t ldxy, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma, double* K, double* H, const double dtol );
-  
-  /** Evaluate the U and V variavles for RKS MGGA
-   *
-   *  U = rho + gradient + tau + lapl
-   *  V = rho + gamma + tau + lapl
-   *
-   *  @param[in] npts          Same as `eval_uvvar_lda`
-   *  @param[in] nbe           Same as `eval_uvvar_lda`
-   *  @param[in] basis_eval    Same as `eval_uvvar_lda`
-   *  @param[in] dbasis_x_eval Derivative of `basis_eval` wrt x (same dims)
-   *  @param[in] dbasis_y_eval Derivative of `basis_eval` wrt y (same dims)
-   *  @param[in] dbasis_z_eval Derivative of `basis_eval` wrt z (same dims)
-   *  @param[in] lbasis_eval   Laplacian of `basis_eval` (same dims)
-   *  @param[in] X             Same as `eval_uvvar_lda`
-   *  @param[in] ldx           Same as `eval_uvvar_lda`
-   *  @param[in] mmat_x
-   *  @param[in] mmat_y
-   *  @param[in] mmat_z
-   *  @param[in] ldm
-   *  @param[out] den_eval     Same as `eval_uvvar_lda`
-   *  @param[out] dden_x_eval  Derivative of `den_eval` wrt x (npts)
-   *  @param[out] dden_y_eval  Derivative of `den_eval` wrt y (npts)
-   *  @param[out] dden_z_eval  Derivative of `den_eval` wrt z (npts)
-   *  @param[out] gamma        |grad rho|^2 (npts)
-   *  @param[out] tau
-   *  @param[out] lapl
-   *                        
-   */
-  void eval_uvvar_mgga_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* lbasis_eval,
-    const double* X, size_t ldx, const double* mmat_x,
-    const double* mmat_y, const double* mmat_z, size_t ldm, double* den_eval, 
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma,
-    double* tau, double* lapl);
-  void eval_uvvar_mgga_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* lbasis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz, 
-    const double* mmat_xs, const double* mmat_ys, const double* mmat_zs, size_t ldms, 
-    const double* mmat_xz, const double* mmat_yz, const double* mmat_zz, size_t ldmz, 
-    double* den_eval, double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, 
-    double* gamma, double* tau, double* lapl);
-
-    /** Evaluate the VXC Z Matrix for RKS LDA
-   *
-   *  Z(mu,i) = 0.5 * vrho(i) * B(mu, i)
-   *
-   *  TODO: Need to add an API for UKS/GKS
-   *
-   *  @param[in] npts        Number of grid points
-   *  @param[in] nbe         Number of non-negligible bfns
-   *  @param[in] vrho        Derivative of XC functional wrt rho scaled by quad weight (npts)
-   *  @param[in] basis_eval  Collocation matrix ((nbe,npts), col major, ld=nbe)
-   *  @param[out] Z          The Z Matrix ((nbe,npts), col major)
-   *  @param[in]  ldz        Leading dimension of Z
-   *
-   */
-  void eval_zmat_lda_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* basis_eval, double* Z, size_t ldz );
-
-  void eval_zmat_lda_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz,
-    size_t ldzz );
-
-  void eval_zmat_lda_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz,
-    double* Zx, size_t ldzx,double* Zy, size_t ldzy, double *K );
-
-  /** Evaluate the VXC Z Matrix for RKS LDA
-   *
-   *  Z(mu,i) = 0.5 * vrho(i)   * B(mu, i) +
-   *            2.0 * vgamma(i) * (grad B(mu,i)) . (grad rho(i))
-   *
-   *  TODO: Need to add an API for UKS/GKS
-   *
-   *  @param[in] npts           Same as `eval_zmat_lda_vxc`
-   *  @param[in] nbe            Same as `eval_zmat_lda_vxc`
-   *  @param[in] vrho           Same as `eval_zmat_lda_vxc`
-   *  @param[in] vgamma         Derivative of the XC functional wrt gamma scaled by quad weights (npts)
-   *  @param[in] basis_eval     Same as `eval_zmat_lda_vxc`
-   *  @param[in] dbasis_x_eval  Derivative of `basis_eval` wrt x (same dims)
-   *  @param[in] dbasis_y_eval  Derivative of `basis_eval` wrt y (same dims)
-   *  @param[in] dbasis_z_eval  Derivative of `basis_eval` wrt z (same dims)
-   *  @param[in] dden_x_eval    Derivative of rho wrt x (npts)
-   *  @param[in] dden_y_eval    Derivative of rho wrt y (npts)
-   *  @param[in] dden_z_eval    Derivative of rho wrt z (npts)
-   *  @param[out] Z             Same as `eval_zmat_lda_vxc`
-   *  @param[in]  ldz           Same as `eval_zmat_lda_vxc`
-   *
-   */
-  void eval_zmat_gga_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Z, size_t ldz );
-
-  void eval_zmat_gga_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz );
-
-  void eval_zmat_gga_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz, double* Zx, size_t ldzx, 
-    double* Zy, size_t ldzy, double* K, double* H );
-
-  /** Evaluate the VXC Z Matrix for RKS MGGA
-   *
-   *  Z(mu,i) = 0.5 * vrho(i)   * B(mu, i) +
-   *            2.0 * vgamma(i) * (grad B(mu,i)) . (grad rho(i)) +
-   *            0.5 * vlapl(i) * lapl B(mu, i)
-   *
-   *  TODO: Need to add an API for UKS/GKS
-   *
-   *  @param[in] npts           Same as `eval_zmat_lda_vxc`
-   *  @param[in] nbe            Same as `eval_zmat_lda_vxc`
-   *  @param[in] vrho           Same as `eval_zmat_lda_vxc`
-   *  @param[in] vgamma         Derivative of the XC functional wrt gamma scaled by quad weights (npts)
-   *  @param[in] basis_eval     Same as `eval_zmat_lda_vxc`
-   *  @param[in] dbasis_x_eval  Derivative of `basis_eval` wrt x (same dims)
-   *  @param[in] dbasis_y_eval  Derivative of `basis_eval` wrt y (same dims)
-   *  @param[in] dbasis_z_eval  Derivative of `basis_eval` wrt z (same dims)
-   *  @param[in] lbasis_eval    Laplacian of `basis_eval` (same dims)
-   *  @param[in] dden_x_eval    Derivative of rho wrt x (npts)
-   *  @param[in] dden_y_eval    Derivative of rho wrt y (npts)
-   *  @param[in] dden_z_eval    Derivative of rho wrt z (npts)
-   *  @param[out] Z             Same as `eval_zmat_lda_vxc`
-   *  @param[in]  ldz           Same as `eval_zmat_lda_vxc`
-   *
-   */
-  void eval_zmat_mgga_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* vlapl, const double* basis_eval, 
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    const double* lbasis_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Z, size_t ldz );
-  void eval_zmat_mgga_vxc_uks( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* vlapl, const double* basis_eval, 
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    const double* lbasis_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz );
-  void eval_mmat_mgga_vxc_rks( size_t npts, size_t nbe, const double* vtau,
-      const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, double* mmat_x, double* mmat_y, double* mmat_z,
-      size_t ldm);
-  void eval_mmat_mgga_vxc_uks( size_t npts, size_t nbe, const double* vtau,
-      const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs,
-      size_t ldms, double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz);
-
-
-
-  /** Increment VXC integrand given Z / Collocation (RKS LDA+GGA)
-   *
-   *  VXC += Z**H * B + h.c.
-   *  VXC += M**H . dB + h.c.
-   *
-   *  Only updates lower triangle
-   *
-   *  @param[in] npts        Number of grid points
-   *  @param[in] nbf         Number of bfns in full basis
-   *  @param[in] nbe         Number of non-negligible bfns
-   *  @paran[in] basis_eval  Compressed collocation matrix ((nbe,npts), col major, ld=nbe)
-   *  @param[in] submat_map  Map between non-negilgible bfns to full basis
-   *  @param[in] Z           Compressed Z Matrix ((nbe,npts), col major)
-   *  @param[in] ldz         Leading dimension of Z
-   *  @param[in/out] VXC     VXC integrand ((nbf,nbf), col major)
-   *  @param[in]  ldvxc      Leading dimension of VXC
-   *  @param[out] scr        Scratch space at least nbe*nbe
-   *
-   */
-  void inc_vxc( size_t npts, size_t nbf, size_t nbe, const double* basis_eval,
-    const submat_map_t& submat_map, const double* Z, size_t ldz, 
-    double* VXC, size_t ldvxc, double* scr );
-
-  /** Evaluate the intermediate vector variables tmat for Fxc contraction of LDA 
-   *
-   *  See Jiashu's notes for details
-   *
-   *  @param[in] npts       The number of points to evaluate the U/V variables
-   *  @param[in] v2rho2     the second derivative of the XC functional wrt rho
-   *  @param[in] trho       The trial density calculated from the trial density matrix
-   *  @param[out] A         intermediate output to form zmat (npts, 1) for RKS, (npts, 2) for UKS
-   *
-   */
-  void eval_tmat_lda_vxc_rks( size_t npts, const double* v2rho2, const double* trho, double* A);
-  void eval_tmat_lda_vxc_uks( size_t npts, const double* v2rho2, const double* trho, double* A);
-  
-  /**
-   * Evaluate the intermediate vector variables tmat for Fxc contraction of GGA
-   * 
-   * See Jiashu's notes for details
-   * 
-   * @param[in] npts       The number of points to evaluate the U/V variables
-   * @param[in] vgamma     the derivative of the XC functional wrt gamma
-   * @param[in] v2rho2 the second derivative of the XC functional wrt rho twice
-   * @param[in] v2rhogamma the second derivative of the XC functional wrt rho and gamma
-   * @param[in] v2gamma2 the second derivative of the XC functional wrt gamma twice
-   * @param[in] tden_eval  The trial density calculated from the trial density matrix
-   * @param[in] tdden_x_eval the gradient of the trial density calculated from the trial density matrix, similar for y and z
-   * @param[in] dden_x_eval the gradient of the density (npts) calculated from the density matrix, similar for y and z
-   * @param[out] A      intermediate output to form zmat (npts, 1) for RKS, (npts, 2) for UKS
-   * @param[out] B      intermediate output to form zmat (npts, 3) for RKS, (npts, 6) for UKS
-   */
-  void eval_tmat_gga_vxc_rks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-    const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B );
-  void eval_tmat_gga_vxc_uks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-    const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B );
-  
-  /**
-   *  Evaluate the intermediate vector variables tmat for Fxc contraction of MGGA
-   * 
-   * See Jiashu's notes for details
-   * 
-   * @param[in] npts       The number of points to evaluate the U/V variables
-   * @param[in] vgamma     the derivative of the XC functional wrt gamma
-   * @param[in] v2rho2   the second derivative of the XC functional wrt rho twice
-   * @param[in] v2rhogamma the second derivative of the XC functional wrt rho and gamma
-   * @param[in] v2rholapl the second derivative of the XC functional wrt rho and laplacian
-   * @param[in] v2rhotau  the second derivative of the XC functional wrt rho and tau
-   * @param[in] v2gamma2 the second derivative of the XC functional wrt gamma twice
-   * @param[in] v2gammalapl the second derivative of the XC functional wrt gamma and laplacian
-   * @param[in] v2gammatau the second derivative of the XC functional wrt gamma and tau
-   * @param[in] v2lapl2 the second derivative of the XC functional wrt laplacian twice
-   * @param[in] v2lapltau the second derivative of the XC functional wrt laplacian and tau
-   * @param[in] v2tau2 the second derivative of the XC functional wrt tau twice
-   * @param[in] tden_eval  The trial density calculated from the trial density matrix
-   * @param[in] tdden_x_eval the gradient of the trial density calculated from the trial density matrix, similar for y and z
-   * @param[in] dden_x_eval the gradient of the density (npts) calculated from the density matrix, similar for y and z
-   * @param[in] ttau      the kinetic energy density calculated from the trial density matrix
-   * @param[out] A     intermediate output to form zmat (npts, 1) for RKS, (npts, 2) for UKS
-   * @param[out] B     intermediate output to form zmat (npts, 3) for RKS, (npts, 6) for UKS
-   * @param[out] C     intermediate output to form mmat (npts, 1) for RKS, (npts, 2) for UKS
-   */
-  void eval_tmat_mgga_vxc_rks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-    const double* v2gamma2, const double* v2gammalapl, const double* v2gammatau,
-    const double* v2lapl2, const double* v2lapltau, const double* v2tau2, 
-    const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C);
-  void eval_tmat_mgga_vxc_uks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-    const double* v2gamma2, const double* v2gammalapl, const double* v2gamma_tau,
-    const double* v2lapl2, const double* v2tau_lapl, const double* v2tau2, 
-    const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C);
-
-  
-  void eval_zmat_lda_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Za, size_t ldza, double* Zb,
-    size_t ldzb );
-  void eval_Bvec_gga_vxc_uks_ts( size_t npts, const double* vgamma, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B );
-  void eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-    double* Za, size_t ldza, double* Zb, size_t ldzb );
-  void eval_Bvec_gga_vxc_rks_ts( size_t npts, const double* vgamma, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B );
-  void eval_zmat_gga_vxc_rks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    double* Z, size_t ldz );
-
-  void eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Za, size_t ldza, double* Zb, size_t ldzb );
-  void eval_zmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* vlapl, const double* basis_eval, 
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    const double* lbasis_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Za, size_t ldza, double* Zb, size_t ldzb );
-  void eval_mmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, const double* vtau,
-      const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs,
-      size_t ldms, double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz);
-
-private: 
-
-  pimpl_type pimpl_; ///< Implementation
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver_pimpl.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver_pimpl.cxx
deleted file mode 100644
index aac879e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver_pimpl.cxx
+++ /dev/null
@@ -1,19 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "local_host_work_driver_pimpl.hpp"
-
-namespace GauXC::detail {
-
-LocalHostWorkDriverPIMPL::LocalHostWorkDriverPIMPL() = default; 
-LocalHostWorkDriverPIMPL::~LocalHostWorkDriverPIMPL() noexcept = default;
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver_pimpl.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver_pimpl.hpp
deleted file mode 100644
index c5e4182..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/local_host_work_driver_pimpl.hpp
+++ /dev/null
@@ -1,240 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "local_host_work_driver.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-struct LocalHostWorkDriverPIMPL {
-
-  using submat_map_t   = LocalHostWorkDriver::submat_map_t;
-  using task_container = LocalHostWorkDriver::task_container;
-  using task_iterator  = LocalHostWorkDriver::task_iterator;
-
-  LocalHostWorkDriverPIMPL();
-
-  virtual ~LocalHostWorkDriverPIMPL() noexcept;
-
-  LocalHostWorkDriverPIMPL( const LocalHostWorkDriverPIMPL& )     = delete;
-  LocalHostWorkDriverPIMPL( LocalHostWorkDriverPIMPL&& ) noexcept = delete;
-
-
-  // Public APIs
-
-  virtual void partition_weights( XCWeightAlg weight_alg, const Molecule& mol, 
-    const MolMeta& meta, task_iterator task_begin, task_iterator task_end ) = 0;
-    
-  virtual void eval_weight_1st_deriv_contracted( XCWeightAlg weight_alg, const Molecule& mol, 
-    const MolMeta& meta, const XCTask& task, const double* w_times_f, double* exc_grad_w ) = 0;
-
-  virtual void eval_collocation( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval ) = 0;
-  virtual void eval_collocation_gradient( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval) = 0;
-  virtual void eval_collocation_hessian( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval ) = 0;
-  virtual void eval_collocation_der3( size_t npts, size_t nshells, size_t nbe,
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval, double* d3basis_xxx_eval, double* d3basis_xxy_eval,
-    double* d3basis_xxz_eval, double* d3basis_xyy_eval, double* d3basis_xyz_eval,
-    double* d3basis_xzz_eval, double* d3basis_yyy_eval, double* d3basis_yyz_eval,
-    double* d3basis_yzz_eval, double* d3basis_zzz_eval) = 0;
-
-  virtual void eval_xmat( size_t npts, size_t nbf, size_t nbe, 
-    const submat_map_t& submat_map, double fac, const double* P, size_t ldp, 
-    const double* basis_eval, size_t ldb, double* X, size_t ldx, double* scr ) = 0;
-
-  virtual void eval_exx_fmat( size_t npts, size_t nbf, size_t nbe_bra,
-    size_t nbe_ket, const submat_map_t& submat_map_bra,
-    const submat_map_t& submat_map_ket, const double* P, size_t ldp,
-    const double* basis_eval, size_t ldb, double* F, size_t ldf,
-    double* scr ) = 0;
-
-  virtual void eval_exx_gmat( size_t npts, size_t nshells, size_t nshell_pairs,
-    size_t nbe, const double* points, const double* weights, 
-    const BasisSet<double>& basis, const ShellPairCollection<double>& shpairs, 
-    const BasisSetMap& basis_map, const int32_t* shell_list, 
-    const std::pair<int32_t,int32_t>* shell_pair_list, 
-    const double* X, size_t ldx, double* G, size_t ldg ) = 0;
-
-  virtual void inc_exx_k( size_t npts, size_t nbf, size_t nbe_bra, size_t nbe_ket, 
-    const double* basis_eval, const submat_map_t& submat_map_bra, 
-    const submat_map_t& submat_map_ket, const double* G, size_t ldg, double* K, 
-    size_t ldk, double* scr ) = 0;
-    
-  virtual void eval_uvvar_lda_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* X, size_t ldx, double* den_eval) = 0;
-  virtual void eval_uvvar_lda_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz, 
-    double* den_eval) = 0;
-  virtual void eval_uvvar_lda_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz,
-    const double* Xx, size_t ldxx, const double* Xy, size_t ldxy, double* den_eval, double* K, const double dtol) = 0;
-
-  virtual void eval_uvvar_gga_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double *dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* X, size_t ldx, double* den_eval, 
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, 
-    double* gamma ) = 0;
-  virtual void eval_uvvar_gga_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs, 
-    const double* Xz, size_t ldxz, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval,
-    double* gamma ) = 0;
-  virtual void eval_uvvar_gga_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs,
-    const double* Xz, size_t ldxz, const double* Xx, size_t ldxx,
-    const double* Xy, size_t ldxy, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma, double* K, double* H, const double dtol) = 0; 
-
-  virtual void eval_uvvar_mgga_rks( size_t npts, size_t nbe, const double* basis_eval,
-      const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, const double* lbasis_eval, 
-      const double* X, size_t ldx,
-      const double* mmat_x, const double* mmat_y, const double* mmat_z,
-      size_t ldm, double* den_eval, double* dden_x_eval, double* dden_y_eval,
-      double* dden_z_eval, double* gamma, double* tau, double* lapl) = 0;
-  virtual void eval_uvvar_mgga_uks( size_t npts, size_t nbe, const double* basis_eval,
-      const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, const double* lbasis_eval, 
-      const double* Xs, size_t ldxs,
-      const double* Xz, size_t ldxz,
-      const double* mmat_xs, const double* mmat_ys, const double* mmat_zs,
-      size_t ldms, const double* mmat_xz, const double* mmat_yz, const double* mmat_zz,
-      size_t ldmz, double* den_eval, double* dden_x_eval, double* dden_y_eval,
-      double* dden_z_eval, double* gamma, double* tau, double* lapl) = 0;
-
-
-  virtual void eval_zmat_lda_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* basis_eval, double* Z, size_t ldz ) = 0;
-  virtual void eval_zmat_lda_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz ) = 0;
-  virtual void eval_zmat_lda_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz,
-    double* Zx, size_t ldzx,double* Zy, size_t ldzy, double *K ) = 0;
-
-  virtual void eval_zmat_gga_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Z, size_t ldz ) = 0;
-  virtual void eval_zmat_gga_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz ) = 0;
-  virtual void eval_zmat_gga_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz, double* Zx, size_t ldzx,
-    double* Zy, size_t ldzy, double* K, double* H ) = 0;
-
-  virtual void eval_zmat_mgga_vxc_rks( size_t npts, size_t nbe, const double* vrho,
-      const double* vgamma, const double* vlapl, const double* basis_eval,
-      const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-      const double* lbasis_eval,
-      const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-      double* Z, size_t ldz) = 0;
-  virtual void eval_zmat_mgga_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-      const double* vgamma, const double* vlapl, const double* basis_eval,
-      const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-      const double* lbasis_eval,
-      const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-      double* Zs, size_t ldzs, double* Zz, size_t ldzz ) = 0;
-  virtual void eval_mmat_mgga_vxc_rks( size_t npts, size_t nbe, const double* vtau,
-      const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, double* mmat_x, double* mmat_y, double* mmat_z,
-      size_t ldm) = 0;
-  virtual void eval_mmat_mgga_vxc_uks( size_t npts, size_t nbe, const double* vtau,
-      const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval,
-      const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs,
-      size_t ldms, double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz ) = 0;
-
-  virtual void inc_vxc( size_t npts, size_t nbf, size_t nbe, 
-    const double* basis_eval, const submat_map_t& submat_map, const double* Z, 
-    size_t ldz, double* VXC, size_t ldvxc, double* scr ) = 0;
-
-  virtual void eval_tmat_lda_vxc_rks( size_t npts, const double* v2rho2, const double* tden_eval, double* A) = 0;
-  virtual void eval_tmat_lda_vxc_uks( size_t npts, const double* v2rho2, const double* trho, double* A) = 0;
-  
-  virtual void eval_tmat_gga_vxc_rks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-    const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ) = 0;
-  virtual void eval_tmat_gga_vxc_uks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-    const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ) = 0;
-
-  virtual void eval_tmat_mgga_vxc_rks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-    const double* v2gamma2, const double* v2gammalapl, const double* v2gammatau,
-    const double* v2lapl2, const double* v2lapltau, const double* v2tau2, 
-    const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C) = 0;
-  virtual void eval_tmat_mgga_vxc_uks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-    const double* v2gamma2, const double* v2gammalapl, const double* v2gamma_tau,
-    const double* v2lapl2, const double* v2tau_lapl, const double* v2tau2, 
-    const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C) = 0;
-
-  virtual void eval_zmat_lda_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Za, size_t ldza, double* Zb, size_t ldzb ) = 0;
-    
-  virtual void eval_Bvec_gga_vxc_uks_ts( size_t npts, const double* vgamma, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ) = 0;
-  virtual void eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    double* Za, size_t ldza, double* Zb, size_t ldzb ) = 0;
-  virtual void eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Za, size_t ldza, double* Zb, size_t ldzb ) = 0;
-
-  virtual void eval_Bvec_gga_vxc_rks_ts( size_t npts, const double* vgamma, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ) = 0;
-  virtual void eval_zmat_gga_vxc_rks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    double* Z, size_t ldz ) = 0;
-
-  virtual void eval_zmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-      const double* vgamma, const double* vlapl, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-      const double* lbasis_eval,
-      const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-      double* Za, size_t ldza, double* Zb, size_t ldzb ) = 0;
-  virtual void eval_mmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, const double* vtau, 
-    const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval,
-const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs,
-      size_t ldms, double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz ) = 0;
-
-};
-
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/CMakeLists.txt
deleted file mode 100644
index ffa52ff..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/CMakeLists.txt
+++ /dev/null
@@ -1,39 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-set( GAUXC_OBARA_SAIKA_HOST_SRC
-     src/integral_0.cxx
-     src/integral_1.cxx
-     src/integral_2.cxx
-     src/integral_3.cxx
-     src/integral_4.cxx
-     src/integral_0_0.cxx
-     src/integral_1_0.cxx
-     src/integral_1_1.cxx
-     src/integral_2_0.cxx
-     src/integral_2_1.cxx
-     src/integral_2_2.cxx
-     src/integral_3_0.cxx
-     src/integral_3_1.cxx
-     src/integral_3_2.cxx
-     src/integral_3_3.cxx
-     src/integral_4_0.cxx
-     src/integral_4_1.cxx
-     src/integral_4_2.cxx
-     src/integral_4_3.cxx
-     src/integral_4_4.cxx
-     src/obara_saika_integrals.cxx
-     src/chebyshev_boys_computation.cxx
-)
-target_sources( gauxc PRIVATE ${GAUXC_OBARA_SAIKA_HOST_SRC} )
-target_include_directories( gauxc PUBLIC
-  $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}/include>
-)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/Makefile
deleted file mode 100644
index f49074e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/Makefile
+++ /dev/null
@@ -1,47 +0,0 @@
-AR = ar
-ARFLGAS = -rc
-
-CC = g++
-
-SRC = ./src
-INCLUDE = ./include
-TEST = ./test
-
-BOYS_FUNCTION = -DX86_AVX -I../../../../../include/
-
-CFLAGS = -Wall -O2 -lm -mavx -mfma -std=c++1z -I$(INCLUDE)
-
-#DEBUG=
-DEBUG = -DDEBUG
-
-compile:
-	$(CC) -c $(SRC)/chebyshev_boys_computation.cxx -o $(SRC)/chebyshev_boys_computation.o $(CFLAGS) $(BOYS_FUNCTION) -I$(INCLUDE)
-
-	$(CC) -c $(SRC)/integral_0.cxx -o $(SRC)/integral_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_1.cxx -o $(SRC)/integral_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2.cxx -o $(SRC)/integral_2.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_3.cxx -o $(SRC)/integral_3.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_4.cxx -o $(SRC)/integral_4.o $(CFLAGS) $(BOYS_FUNCTION)
-
-	$(CC) -c $(SRC)/integral_0_0.cxx -o $(SRC)/integral_0_0.o $(CFLAGS) $(BOYS_FUNCTION) 
-	$(CC) -c $(SRC)/integral_1_0.cxx -o $(SRC)/integral_1_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_1_1.cxx -o $(SRC)/integral_1_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2_0.cxx -o $(SRC)/integral_2_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2_1.cxx -o $(SRC)/integral_2_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_2_2.cxx -o $(SRC)/integral_2_2.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_3_0.cxx -o $(SRC)/integral_3_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_3_1.cxx -o $(SRC)/integral_3_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_3_2.cxx -o $(SRC)/integral_3_2.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_3_3.cxx -o $(SRC)/integral_3_3.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_4_0.cxx -o $(SRC)/integral_4_0.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_4_1.cxx -o $(SRC)/integral_4_1.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_4_2.cxx -o $(SRC)/integral_4_2.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_4_3.cxx -o $(SRC)/integral_4_3.o $(CFLAGS) $(BOYS_FUNCTION)
-	$(CC) -c $(SRC)/integral_4_4.cxx -o $(SRC)/integral_4_4.o $(CFLAGS) $(BOYS_FUNCTION)
-
-	$(CC) -c $(SRC)/obara_saika_integrals.cxx -o $(SRC)/obara_saika_integrals.o $(CFLAGS)
-
-	$(AR) $(ARFLAGS) ./obara_saika.a $(SRC)/*.o
-
-clean:
-	rm -rf ./*.a $(SRC)/*.o
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/Makefile
deleted file mode 100644
index 99187d3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/Makefile
+++ /dev/null
@@ -1,3 +0,0 @@
-compile:
-	gcc -Wall -o generate_cpu_code.x generate_cpu_code.c -O2
-#	gcc -Wall -o generate_gpu_code.x generate_gpu_code.c -O2
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/generate_cpu_code.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/generate_cpu_code.c
deleted file mode 100755
index c3c256b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/generate_cpu_code.c
+++ /dev/null
@@ -1,1382 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <string.h>
-
-#define USE_SIMD_BOYS 1
-#define USE_CONSTEXPR_BOYS 1
-
-struct node {
-  int iA, jA, kA;
-  int iB, jB, kB;
-  
-  int level;
-  int vars;
-
-  int valid;
-  int offset;
-
-  char var_pa[5];
-  char var_pc[5];
-  
-  int nr_children;
-  struct node *children[3];
-};
-
-void traverseX_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-void traverseY_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-void traverseZ_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-
-void traverseX_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "X_PA");
-  sprintf(node_list[offset].var_pc, "X_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 3;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseX_init_dfs(iA + 1, jA, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[2] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverseY_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "Y_PA");
-  sprintf(node_list[offset].var_pc, "Y_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 2;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverseZ_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "Z_PA");
-  sprintf(node_list[offset].var_pc, "Z_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 1;
- 
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverse_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 3;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseX_init_dfs(iA + 1, jA, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[2] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void initialize_tree_structure(int type, int lA, int lB, int size, struct node *node_list) {
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-  
-  int *offset_list = (int*) malloc((lA + lB + 1) * sizeof(int));
-
-  int offset = 0;
-  for(int i = 0; i < lA + lB + 1; ++i) {
-    offset_list[i] = offset;
-    offset += (i + 1) * (i + 2) / 2;
-  }
-
-  // initialization part
-  traverse_init_dfs(0, 0, 0, lA, lB, partial_size, node_list, offset_list);
-  
-  free(offset_list);
-}
-
-void traverse_dfs_vrr(FILE *f, int lA, int lB, struct node *root_node, char *prefix, char *prefix_lsa, char *prefix_lsu) {
-  if(root_node != NULL) {
-    if(root_node -> level == 0) {
-      for(int v = 0; v < root_node -> vars; ++v) {
-	fprintf(f, "            t%d%d = %s_MUL(%s_DUPLICATE(&(eval)), t%d%d);\n", root_node -> level, v, prefix, prefix, root_node -> level, v);
-      }
-    } else if (root_node -> level == 1) {
-      for(int v = 0; v < root_node -> vars; ++v) {
-	fprintf(f, "            t%d%d = %s_MUL(%s_DUPLICATE(&(%s)), t%d%d);\n", root_node -> level, v, prefix, prefix, root_node -> var_pa, root_node -> level - 1, v);
-	fprintf(f, "            t%d%d = %s_FNMA(%s, t%d%d, t%d%d);\n", root_node -> level, v, prefix, root_node -> var_pc, root_node -> level - 1, v + 1, root_node -> level, v);
-      }
-    } else {
-      int iteration = 0;
-      if(strcmp(root_node -> var_pa, "X_PA") == 0) {
-	iteration = root_node -> iA - 1;
-      } else if(strcmp(root_node -> var_pa, "Y_PA") == 0) {
-	iteration = root_node -> jA - 1;
-      } else {
-	iteration = root_node -> kA - 1;
-      }
-
-      if(iteration == 0) {
-	for(int v = 0; v < root_node -> vars; ++v) {
-	  fprintf(f, "            t%d%d = %s_MUL(%s_DUPLICATE(&(%s)), t%d%d);\n", root_node -> level, v, prefix, prefix, root_node -> var_pa, root_node -> level - 1, v);
-	  fprintf(f, "            t%d%d = %s_FNMA(%s, t%d%d, t%d%d);\n", root_node -> level, v, prefix, root_node -> var_pc, root_node -> level - 1, v + 1, root_node -> level, v);
-	}
-      } else {
-	for(int v = 0; v < root_node -> vars; ++v) {
-	  fprintf(f, "            t%d%d = %s_MUL(%s_DUPLICATE(&(%s)), t%d%d);\n", root_node -> level, v, prefix, prefix, root_node -> var_pa, root_node -> level - 1, v);
-	  fprintf(f, "            t%d%d = %s_FNMA(%s, t%d%d, t%d%d);\n", root_node -> level, v, prefix, root_node -> var_pc, root_node -> level - 1, v + 1, root_node -> level, v);
-	  fprintf(f, "            tx = %s_SUB(t%d%d, t%d%d);\n", prefix, root_node -> level - 2, v, root_node ->level - 2, v + 1);
-	  fprintf(f, "            ty = %s_SET1(0.5 * %d);\n", prefix, iteration);
-	  fprintf(f, "            ty = %s_MUL(ty, %s_DUPLICATE(&(RHO_INV)));\n", prefix, prefix);
-	  fprintf(f, "            t%d%d = %s_FMA(tx, ty, t%d%d);\n", root_node -> level, v, prefix, root_node -> level, v);
-	}
-      }
-    }
-
-    if(root_node -> valid) {
-      fprintf(f, "            tx = %s_LOAD((temp + %d * NPTS_LOCAL + p_inner));\n", prefix_lsa, root_node -> offset);
-      fprintf(f, "            tx = %s_ADD(tx, t%d%d);\n", prefix, root_node -> level, 0);
-      fprintf(f, "            %s_STORE((temp + %d * NPTS_LOCAL + p_inner), tx);\n", prefix_lsa, root_node -> offset);
-    }
-    
-    for(int i = 0; i < root_node -> nr_children; ++i) {
-      traverse_dfs_vrr(f, lA, lB, root_node -> children[i], prefix, prefix_lsa, prefix_lsu);
-    }
-  }
-}
-
-int index_calculation(int i, int j, int L) {
-  return (L - i) * (L - i + 1) / 2 + j;
-}
-
-void generate_part_0(FILE *f, char*variable, char *prefix, char *prefix_lsa, char *prefix_lsu) {
-  fprintf(f, "            %s_TYPE xC = %s_LOAD((_point_outer + p_inner + 0 * npts));\n", prefix, prefix_lsu);
-  fprintf(f, "            %s_TYPE yC = %s_LOAD((_point_outer + p_inner + 1 * npts));\n", prefix, prefix_lsu);
-  fprintf(f, "            %s_TYPE zC = %s_LOAD((_point_outer + p_inner + 2 * npts));\n", prefix, prefix_lsu);
-  fprintf(f, "\n");
-  fprintf(f, "            %s_TYPE X_PC = %s_SUB(%s_DUPLICATE(&(x%s)), xC);\n", prefix, prefix, prefix, variable);
-  fprintf(f, "            %s_TYPE Y_PC = %s_SUB(%s_DUPLICATE(&(y%s)), yC);\n", prefix, prefix, prefix, variable);
-  fprintf(f, "            %s_TYPE Z_PC = %s_SUB(%s_DUPLICATE(&(z%s)), zC);\n", prefix, prefix, prefix, variable);
-  fprintf(f, "\n");
-  fprintf(f, "            X_PC = %s_MUL(X_PC, X_PC);\n", prefix);
-  fprintf(f, "            X_PC = %s_FMA(Y_PC, Y_PC, X_PC);\n", prefix);
-  fprintf(f, "            X_PC = %s_FMA(Z_PC, Z_PC, X_PC);\n", prefix);
-  fprintf(f, "            X_PC = %s_MUL(%s_DUPLICATE(&(RHO)), X_PC);\n", prefix, prefix);
-  fprintf(f, "            %s_STORE((Tval + p_inner), X_PC);\n", prefix_lsa);
-}
-
-void generate_part_1(FILE *f, int lA, int lB, struct node *root_node, char *variable, char *prefix, char *prefix_lsa, char *prefix_lsu) {
-  if(lA != 0) {
-    fprintf(f, "            %s_TYPE xC = %s_LOAD((_point_outer + p_inner + 0 * npts));\n", prefix, prefix_lsu);
-    fprintf(f, "            %s_TYPE yC = %s_LOAD((_point_outer + p_inner + 1 * npts));\n", prefix, prefix_lsu);
-    fprintf(f, "            %s_TYPE zC = %s_LOAD((_point_outer + p_inner + 2 * npts));\n", prefix, prefix_lsu);
-    fprintf(f, "\n");
-    fprintf(f, "            %s_TYPE X_PC = %s_SUB(%s_DUPLICATE(&(x%s)), xC);\n", prefix, prefix, prefix, variable);
-    fprintf(f, "            %s_TYPE Y_PC = %s_SUB(%s_DUPLICATE(&(y%s)), yC);\n", prefix, prefix, prefix, variable);
-    fprintf(f, "            %s_TYPE Z_PC = %s_SUB(%s_DUPLICATE(&(z%s)), zC);\n", prefix, prefix, prefix, variable);
-    fprintf(f, "\n");
-  }
-
-  if((lA + lB) == 0) {
-    fprintf(f, "            %s_TYPE ", prefix);
-  } else {
-    fprintf(f, "            %s_TYPE tval, tval_inv_e, ", prefix);
-  }
-  if((lA + lB) <= 1) {
-    fprintf(f, "tx, ");
-  } else {
-    fprintf(f, "tx, ty, ");
-  }
-  for(int l = 0; l < (lA + lB); ++l) {
-    for(int k = 0; k < (lA + lB + 1) - l; ++k) {
-      fprintf(f, "t%d%d, ", l, k);
-    }
-  }
-  fprintf(f, "t%d%d;\n", (lA + lB), 0);
-  fprintf(f, "\n");
-
-  if((lA + lB) != 0) {
-    fprintf(f, "            tval = %s_LOAD((Tval + p_inner));\n", prefix_lsa);
-    fprintf(f, "            tval_inv_e = %s_LOAD((Tval_inv_e + p_inner));\n", prefix_lsa);
-    fprintf(f, "\n");
-  }
-  
-  fprintf(f, "            t0%d = %s_LOAD((FmT + p_inner));\n", lA + lB, prefix_lsa);
-  
-  for(int l = lA + lB - 1; l >= 0; --l) {
-    fprintf(f, "            t0%d = %s_MUL(%s_ADD(%s_MUL(tval, t0%d), tval_inv_e), %s_SET1(%.20f));\n", l, prefix, prefix, prefix, l + 1, prefix, 2.0 / (1.0 * (2 * l + 1)));
-  }
-  fprintf(f, "\n");
-  
-  traverse_dfs_vrr(f, lA, lB, root_node, prefix, prefix_lsa, prefix_lsu);
-}
-
-void generate_diagonal_part_2(FILE *f, int lA, int type, char *prefix, char *prefix_lsa, char *prefix_lsu) {
-  fprintf(f, "         double *Xik = (Xi + p_outer + p_inner);\n");
-  fprintf(f, "         double *Gik = (Gi + p_outer + p_inner);\n");
-  fprintf(f, "\n");
-
-  if(type == 0) {
-    fprintf(f, "         for(int c0 = 0; c0 <= %d; ++c0) {\n", lA);
-    fprintf(f, "            for(int c1 = 0; c1 <= c0; ++c1) {\n");
-    fprintf(f, "               int m = %d - c0;\n", lA);
-    fprintf(f, "               int p = c1;\n");
-    fprintf(f, "\n");
-    fprintf(f, "               int idxB = (((%d - m) * (%d - m + 1)) >> 1) + p;\n", lA, lA);
-    fprintf(f, "\n");
-    fprintf(f, "               int mv, pv;\n");
-    fprintf(f, "\n");
-
-    fprintf(f, "               %s_TYPE tx, wg, xik, gik;\n", prefix);
-    
-    int count = 0;
-    for(int r0 = 0; r0 <= lA; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	int a = lA - r0;
-	int c = r1;
-
-	int idxA = index_calculation(a, c, lA);
-	fprintf(f, "               mv = %d + m; pv = %d + p;\n", a, c);
-	
-	fprintf(f, "               tx  = %s_LOAD((temp + (%d + (((%d - mv) * (%d - mv + 1)) >> 1) + pv) * NPTS_LOCAL + p_inner));\n", prefix_lsa, (2 * lA * (2 * lA + 1) * (2 * lA + 2) - lA * (lA + 1) * (lA + 2)) / 6, 2 * lA, 2 * lA);
-	fprintf(f, "               wg  = %s_LOAD((weights + p_outer + p_inner));\n\n", prefix_lsu);
-	fprintf(f, "               xik = %s_LOAD((Xik + idxB * ldX));\n", prefix_lsu);
-	fprintf(f, "               gik = %s_LOAD((Gik + %d * ldG));\n\n", prefix_lsu, idxA);
-
-	fprintf(f, "               tx = %s_MUL(tx, wg);\n", prefix);
-	fprintf(f, "               gik = %s_FMA(tx, xik, gik);\n", prefix);
-	fprintf(f, "               %s_STORE((Gik + %d * ldG), gik);\n", prefix_lsu, idxA);
-
-	count++;		
-      }
-    }
-    fprintf(f, "            }\n");
-    fprintf(f, "         }\n");
-  } else if(type == 1) {
-    fprintf(f, "         %s_TYPE tx, wg, xik, gik;\n", prefix);
-    
-    for(int c0 = 0; c0 <= lA; ++c0) {
-      for(int c1 = 0; c1 <= c0; ++c1) {
-	int m = lA - c0;
-	int p = c1;
-
-	int idxB = index_calculation(m, p, lA);
-	
-	int count = 0;
-	for(int r0 = 0; r0 <= lA; ++r0) {
-	  for(int r1 = 0; r1 <= r0; ++r1) {
-	    int a = lA - r0;
-	    int c = r1;
-
-	    int idxA = index_calculation(a, c, lA);
-
-	    int idx = index_calculation(a + m - 0, c + p - 0, lA + lA - 0 - 0 - 0);
-
-	    int offset = (2 * lA * (2 * lA + 1) * (2 * lA + 2) - lA * (lA + 1) * (lA + 2)) / 6;
-
-	    fprintf(f, "         tx  = %s_LOAD((temp + %d * NPTS_LOCAL + p_inner));\n", prefix_lsa, offset + idx);
-	    fprintf(f, "         wg  = %s_LOAD((weights + p_outer + p_inner));\n\n", prefix_lsu);
-	    fprintf(f, "         xik = %s_LOAD((Xik + %d * ldX));\n", prefix_lsu, idxB);
-	    fprintf(f, "         gik = %s_LOAD((Gik + %d * ldG));\n\n", prefix_lsu, idxA);
-
-	    fprintf(f, "         tx = %s_MUL(tx, wg);\n", prefix);
-	    fprintf(f, "         gik = %s_FMA(tx, xik, gik);\n", prefix);
-	    fprintf(f, "         %s_STORE((Gik + %d * ldG), gik);\n", prefix_lsu, idxA);
-      
-	    count++;		
-	  }
-	}
-      }
-    }
-  } else {
-    printf("Type not defined\n");
-  }
-}
-
-void generate_off_diagonal_part_2(FILE *f, int lA, int lB, int type, char *prefix, char *prefix_lsa, char *prefix_lsu) {
-  fprintf(f, "         double *Xik = (Xi + p_outer + p_inner);\n");
-  fprintf(f, "         double *Xjk = (Xj + p_outer + p_inner);\n");
-  fprintf(f, "         double *Gik = (Gi + p_outer + p_inner);\n");
-  fprintf(f, "         double *Gjk = (Gj + p_outer + p_inner);\n");
-  fprintf(f, "\n");
-  fprintf(f, "         %s_TYPE const_value_v = %s_LOAD((weights + p_outer + p_inner));\n\n", prefix, prefix_lsu);
-  
-  if(type == 0) {
-    fprintf(f, "         for(int c0 = 0; c0 <= %d; ++c0) {\n", lB);
-    fprintf(f, "            for(int c1 = 0; c1 <= c0; ++c1) {\n");
-    fprintf(f, "               int m = %d - c0;\n", lB);
-    fprintf(f, "               int n = c0 - c1;\n");
-    fprintf(f, "               int p = c1;\n");
-    fprintf(f, "\n");
-    fprintf(f, "               int idxB = (((%d - m) * (%d - m + 1)) >> 1) + p;\n", lB, lB);
-    fprintf(f, "\n");
-    fprintf(f, "               double X_ABp = 1.0, comb_m_i = 1.0;\n");
-    fprintf(f, "               for(int i = 0; i <= m; ++i) {\n");
-    fprintf(f, "                  double rcp_i;\n");
-    fprintf(f, "\n");
-    fprintf(f, "                  double Y_ABp = 1.0, comb_n_j = 1.0;\n");
-    fprintf(f, "                  for(int j = 0; j <= n; ++j) {\n");
-    fprintf(f, "                     double rcp_j;\n");
-    fprintf(f, "\n");
-    fprintf(f, "                     double Z_ABp = 1.0, comb_p_k = 1.0;\n");
-    fprintf(f, "                     for(int k = 0; k <= p; ++k) {\n");
-    fprintf(f, "                        double rcp_k;\n");
-    fprintf(f, "                        int mv, pv, Lv = %d - i - j - k;\n", lA + lB);
-    fprintf(f, "\n");
-    fprintf(f, "                        int offset = (Lv * (Lv + 1) * (Lv + 2) - %d) / 6;\n", lA * (lA + 1) * (lA + 2));
-    fprintf(f, "                        double const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;\n");
-    fprintf(f, "                        %s_TYPE tx, ty, tz, tw;\n", prefix);
-    fprintf(f, "                        %s_TYPE const_value_w = %s_MUL(const_value_v, %s_DUPLICATE(&(const_value)));\n\n", prefix, prefix, prefix);
-
-    int count = 0;
-    for(int r0 = 0; r0 <= lA; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	int a = lA - r0;
-	int c = r1;
-
-	int idxA = index_calculation(a, c, lA);
-	fprintf(f, "                        mv = %d + m - i; pv = %d + p - k;\n", a, c);
-	fprintf(f, "                        tx = %s_LOAD((Xik + %d * ldX));\n", prefix_lsu, idxA);
-	fprintf(f, "                        ty = %s_LOAD((Xjk + idxB * ldX));\n", prefix_lsu);
-	fprintf(f, "                        tz = %s_LOAD((Gik + %d * ldG));\n", prefix_lsu, idxA);
-	fprintf(f, "                        tw = %s_LOAD((Gjk + idxB * ldG));\n", prefix_lsu);
-	fprintf(f, "                        %s_TYPE t%d = %s_LOAD((temp + (offset + (((Lv - mv) * (Lv - mv + 1)) >> 1) + pv) * NPTS_LOCAL + p_inner));\n", prefix, count, prefix_lsa);
-	fprintf(f, "                        t%d = %s_MUL(t%d, const_value_w);\n", count, prefix, count);
-	fprintf(f, "                        tz = %s_FMA(ty, t%d, tz);\n", prefix, count);
-	fprintf(f, "                        tw = %s_FMA(tx, t%d, tw);\n", prefix, count);
-	fprintf(f, "                        %s_STORE((Gik + %d * ldG), tz);\n", prefix_lsu, idxA);
-	fprintf(f, "                        %s_STORE((Gjk + idxB * ldG), tw);\n", prefix_lsu);
-	count++;		
-      }
-    }
-    fprintf(f, "\n");
-    fprintf(f, "                        Z_ABp = SCALAR_MUL(Z_ABp, Z_AB);\n");
-    fprintf(f, "                        rcp_k = SCALAR_RECIPROCAL(k + 1);\n");
-    fprintf(f, "                        comb_p_k = SCALAR_MUL(comb_p_k, p - k);\n");
-    fprintf(f, "                        comb_p_k = SCALAR_MUL(comb_p_k, rcp_k);\n");
-    fprintf(f, "                     }\n");
-    fprintf(f, "\n");
-    fprintf(f, "                     Y_ABp = SCALAR_MUL(Y_ABp, Y_AB);\n");
-    fprintf(f, "                     rcp_j = SCALAR_RECIPROCAL(j + 1);\n");
-    fprintf(f, "                     comb_n_j = SCALAR_MUL(comb_n_j, n - j);\n");
-    fprintf(f, "                     comb_n_j = SCALAR_MUL(comb_n_j, rcp_j);\n");
-    fprintf(f, "                  }\n");
-    fprintf(f, "\n");
-    fprintf(f, "                  X_ABp = SCALAR_MUL(X_ABp, X_AB);\n");
-    fprintf(f, "                  rcp_i = SCALAR_RECIPROCAL(i + 1);\n");
-    fprintf(f, "                  comb_m_i = SCALAR_MUL(comb_m_i, m - i);\n");
-    fprintf(f, "                  comb_m_i = SCALAR_MUL(comb_m_i, rcp_i);\n");
-    fprintf(f, "               }\n");
-    fprintf(f, "            }\n");
-    fprintf(f, "         }\n");
-  } else if (type == 1) {
-    fprintf(f, "         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;\n");
-    fprintf(f, "         %s_TYPE const_value_w;\n", prefix);
-
-    int count = 0;
-    fprintf(f, "         %s_TYPE tx, ty, tz, tw, ", prefix);
-    for(int r0 = 0; r0 <= lA - 1; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	fprintf(f, "t%d, ", count);
-	count++;
-      }
-    }
-    
-    for(int r1 = 0; r1 <= lA - 1; ++r1) {
-      fprintf(f, "t%d, ", count);
-      count++;
-    }
-
-    fprintf(f, "t%d;\n", count);
-    
-    fprintf(f, "\n");
-
-    for(int c0 = 0; c0 <= lB; ++c0) {
-      for(int c1 = 0; c1 <= c0; ++c1) {
-	int m = lB - c0;
-	int n = c0 - c1;
-	int p = c1;
-
-	int idxB = index_calculation(m, p, lB);
-
-	fprintf(f, "         X_ABp = 1.0; comb_m_i = 1.0;\n");
-	for(int i = 0; i <= m; ++i) {
-	  fprintf(f, "         Y_ABp = 1.0; comb_n_j = 1.0;\n");
-	  for(int j = 0; j <= n; ++j) {
-	    fprintf(f, "         Z_ABp = 1.0; comb_p_k = 1.0;\n");
-	    for(int k = 0; k <= p; ++k) {
-	      fprintf(f, "         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;\n");
-	      fprintf(f, "         const_value_w = %s_MUL(const_value_v, %s_DUPLICATE(&(const_value)));\n", prefix, prefix);
-
-	      int count = 0;
-	      for(int r0 = 0; r0 <= lA; ++r0) {
-		for(int r1 = 0; r1 <= r0; ++r1) {
-		  int a = lA - r0;
-		  int c = r1;
-
-		  int idxA = index_calculation(a, c, lA);
-
-		  int idx = index_calculation(a + m - i, c + p - k, lA + lB - i - j - k);
-
-		  int LAB = lA + lB - i - j - k;
-		  int offset = (LAB * (LAB + 1) * (LAB + 2) - lA * (lA + 1) * (lA + 2)) / 6;
-		  
-		  fprintf(f, "         tx = %s_LOAD((Xik + %d * ldX));\n", prefix_lsu, idxA);
-		  fprintf(f, "         ty = %s_LOAD((Xjk + %d * ldX));\n", prefix_lsu, idxB);
-		  fprintf(f, "         tz = %s_LOAD((Gik + %d * ldG));\n", prefix_lsu, idxA);
-		  fprintf(f, "         tw = %s_LOAD((Gjk + %d * ldG));\n", prefix_lsu, idxB);
-		  fprintf(f, "         t%d = %s_LOAD((temp + %d * NPTS_LOCAL + p_inner));\n", count, prefix_lsa, offset + idx);
-		  fprintf(f, "         t%d = %s_MUL(t%d, const_value_w);\n", count, prefix, count);
-		  fprintf(f, "         tz = %s_FMA(ty, t%d, tz);\n", prefix, count);
-		  fprintf(f, "         tw = %s_FMA(tx, t%d, tw);\n", prefix, count);
-		  fprintf(f, "         %s_STORE((Gik + %d * ldG), tz);\n", prefix_lsu, idxA);
-		  fprintf(f, "         %s_STORE((Gjk + %d * ldG), tw);\n", prefix_lsu, idxB);
-      
-		  count++;		
-		}
-	      }
-	      
-	      if(k < p) {
-		fprintf(f, "         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * %d, SCALAR_RECIPROCAL(%d));\n", p - k, k + 1);
-	      }
-	    }
-
-	    if(j < n) {
-	      fprintf(f, "         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * %d, SCALAR_RECIPROCAL(%d));\n", n - j, j + 1);
-	    }
-	  }
-
-	  if(i < m) {
-	    fprintf(f, "         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * %d, SCALAR_RECIPROCAL(%d));\n", m - i, i + 1);
-	  }
-	}
-      }
-    }
-  } else {
-    printf("Type not defined\n");
-  }  
-}
-
-void generate_diagonal_files(FILE *f, int lA, int size, struct node *root_node, int type) {
-  fprintf(f, "#include <math.h>\n");
-  fprintf(f, "#include \"../include/chebyshev_boys_computation.hpp\"\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "#include \"config_obara_saika.hpp\"\n");
-  fprintf(f, "#include \"integral_%d.hpp\"\n", lA);
-  fprintf(f, "\n");
-  fprintf(f, "#define PI 3.14159265358979323846\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define MIN(a,b)			\\\n"); 
-  fprintf(f, "  ({ __typeof__ (a) _a = (a);	        \\\n");
-  fprintf(f, "  __typeof__ (b) _b = (b);		\\\n");
-  fprintf(f, "  _a < _b ? _a : _b; })\n");
-  fprintf(f, "\n");
-  fprintf(f, "namespace XCPU {\n");
-  fprintf(f, "void integral_%d(size_t npts,\n", lA);
-  fprintf(f, "               double *_points,\n");
-  fprintf(f, "               point rA,\n");
-  fprintf(f, "               point rB,\n");
-  fprintf(f, "               int nprim_pairs,\n");
-  fprintf(f, "               prim_pair *prim_pairs,\n");  
-  fprintf(f, "               double *Xi,\n");
-  fprintf(f, "               int ldX,\n");
-  fprintf(f, "               double *Gi,\n");
-  fprintf(f, "               int ldG, \n");
-  fprintf(f, "               double *weights,\n");
-  fprintf(f, "               double *boys_table) {\n");	 
-
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-
-  fprintf(f, "   __attribute__((__aligned__(64))) double buffer[%d * NPTS_LOCAL + 3 * NPTS_LOCAL];\n\n",  size - partial_size);
-  
-  fprintf(f, "   double *temp       = (buffer + 0);\n");
-  fprintf(f, "   double *Tval       = (buffer + %d * NPTS_LOCAL + 0 * NPTS_LOCAL);\n", size - partial_size);
-  fprintf(f, "   double *Tval_inv_e = (buffer + %d * NPTS_LOCAL + 1 * NPTS_LOCAL);\n", size - partial_size); 
-  fprintf(f, "   double *FmT        = (buffer + %d * NPTS_LOCAL + 2 * NPTS_LOCAL);\n\n", size - partial_size);
-  
-  char variable[1024];
-  char prefix[1024];
-  char prefix_lsa[1024];
-  char prefix_lsu[1024];
-
-  sprintf(variable, "A");
-
-  fprintf(f, "   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);\n");
-  fprintf(f, "   size_t p_outer = 0;\n");
-  fprintf(f, "   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {\n");
-  fprintf(f, "      double *_point_outer = (_points + p_outer);\n\n");
-  fprintf(f, "      double xA = rA.x;\n");
-  fprintf(f, "      double yA = rA.y;\n");
-  fprintf(f, "      double zA = rA.z;\n");
-  fprintf(f, "\n");
-  fprintf(f, "      for(int i = 0; i < %d * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());\n", size - partial_size);
-  fprintf(f, "\n");
-  fprintf(f, "      for(int ij = 0; ij < nprim_pairs; ++ij) {\n");
-  fprintf(f, "         double RHO = prim_pairs[ij].gamma;\n");
-  if(lA > 0) {
-    fprintf(f, "         double RHO_INV = 1.0 / RHO;\n");
-  }
-  fprintf(f, "\n");
-  if(lA != 0) {
-    fprintf(f, "         constexpr double X_PA = 0.0;\n");
-    fprintf(f, "         constexpr double Y_PA = 0.0;\n");
-    fprintf(f, "         constexpr double Z_PA = 0.0;\n");
-    fprintf(f, "\n");
-  }
-  //fprintf(f, "         double eval = prim_pairs[ij].coeff_prod * prim_pairs[ij].K;\n");
-  fprintf(f, "         double eval = prim_pairs[ij].K_coeff_prod;\n");
-  fprintf(f, "\n");
-  
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-
-  fprintf(f, "         // Evaluate T Values\n");
-  fprintf(f, "         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += %s_LENGTH) {\n", prefix);
-  
-  generate_part_0(f, variable, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "         }\n\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-
-  fprintf(f, "         // Evaluate Boys function\n");
-  fprintf(f, "         boys_elements<%d>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);\n", 2 * lA);
-  fprintf(f, "\n");
-  fprintf(f, "         // Evaluate VRR Buffer\n");
-  fprintf(f, "         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_1(f, lA, lA, root_node, variable, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "         }\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_diagonal_part_2(f, lA, type, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "      }\n");
-  fprintf(f, "   }\n\n");
-
-  fprintf(f, "   // cleanup code\n");
-  fprintf(f, "   for(; p_outer < npts; p_outer += NPTS_LOCAL) {\n");
-  fprintf(f, "      size_t npts_inner = MIN((size_t) NPTS_LOCAL, npts - p_outer);\n");
-  fprintf(f, "      double *_point_outer = (_points + p_outer);\n\n");
-  fprintf(f, "      double xA = rA.x;\n");
-  fprintf(f, "      double yA = rA.y;\n");
-  fprintf(f, "      double zA = rA.z;\n");
-  fprintf(f, "\n");
-  fprintf(f, "      for(int i = 0; i < %d * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());\n", size - partial_size);
-  fprintf(f, "\n");
-  fprintf(f, "      for(int ij = 0; ij < nprim_pairs; ++ij) {\n");
-  fprintf(f, "         double RHO = prim_pairs[ij].gamma;\n");
-  if(lA > 0) {
-    fprintf(f, "         double RHO_INV = 1.0 / RHO;\n");
-  }
-  fprintf(f, "\n");
-  if(lA != 0) {
-    fprintf(f, "         constexpr double X_PA = 0.0;\n");
-    fprintf(f, "         constexpr double Y_PA = 0.0;\n");
-    fprintf(f, "         constexpr double Z_PA = 0.0;\n");
-    fprintf(f, "\n");
-  }
-  //fprintf(f, "         double eval = prim_pairs[ij].coeff_prod * prim_pairs[ij].K;\n");
-  fprintf(f, "         double eval = prim_pairs[ij].K_coeff_prod;\n");
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "         // Evaluate T Values\n");
-  fprintf(f, "         size_t npts_inner_upper = %s_LENGTH * (npts_inner / %s_LENGTH);\n", prefix, prefix);
-  fprintf(f, "         size_t p_inner = 0;\n");
-  fprintf(f, "         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_0(f, variable, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "         }\n\n");
-
-  sprintf(prefix, "SCALAR");
-  sprintf(prefix_lsa, "SCALAR");
-  sprintf(prefix_lsu, "SCALAR");  
-  
-  fprintf(f, "         for(; p_inner < npts_inner; p_inner += %s_LENGTH) {\n", prefix);
-  
-  generate_part_0(f, variable, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "         }\n\n");
-  
-  fprintf(f, "         // Evaluate Boys function\n");
-  fprintf(f, "         boys_elements<%d>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);\n", 2 * lA);
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "         // Evaluate VRR Buffer\n");
-  fprintf(f, "         p_inner = 0;\n");  
-  fprintf(f, "         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_1(f, lA, lA, root_node, variable, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "         }\n\n");
-
-  sprintf(prefix, "SCALAR");
-  sprintf(prefix_lsa, "SCALAR");
-  sprintf(prefix_lsu, "SCALAR");
-  
-  fprintf(f, "         for(; p_inner < npts_inner; p_inner += %s_LENGTH) {\n", prefix);
-  
-  generate_part_1(f, lA, lA, root_node, variable, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "         }\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-  
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "      size_t npts_inner_upper = %s_LENGTH * (npts_inner / %s_LENGTH);\n", prefix, prefix);
-  fprintf(f, "      size_t p_inner = 0;\n");
-  fprintf(f, "      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_diagonal_part_2(f, lA, type, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "      }\n\n");
-  
-  sprintf(prefix, "SCALAR");
-  sprintf(prefix_lsa, "SCALAR");
-  sprintf(prefix_lsu, "SCALAR");
-  
-  fprintf(f, "      for(; p_inner < npts_inner; p_inner += %s_LENGTH) {\n", prefix);
-  
-  generate_diagonal_part_2(f, lA, type, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "      }\n");
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-  fprintf(f, "}\n");
-}
-
-void generate_off_diagonal_files(FILE *f, int lA, int lB, int size, struct node *root_node, int type) {
-  fprintf(f, "#include <math.h>\n");
-  fprintf(f, "#include \"../include/chebyshev_boys_computation.hpp\"\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "#include \"config_obara_saika.hpp\"\n");
-  fprintf(f, "#include \"integral_%d_%d.hpp\"\n", lA, lB);
-  fprintf(f, "\n");
-  fprintf(f, "#define PI 3.14159265358979323846\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define MIN(a,b)			\\\n"); 
-  fprintf(f, "  ({ __typeof__ (a) _a = (a);	        \\\n");
-  fprintf(f, "  __typeof__ (b) _b = (b);		\\\n");
-  fprintf(f, "  _a < _b ? _a : _b; })\n");
-  fprintf(f, "\n");
-  fprintf(f, "namespace XCPU {\n");
-  fprintf(f, "void integral_%d_%d(size_t npts,\n", lA, lB);
-  fprintf(f, "                  double *_points,\n");
-  fprintf(f, "                  point rA,\n");
-  fprintf(f, "                  point rB,\n");
-  fprintf(f, "                  int nprim_pairs,\n");
-  fprintf(f, "                  prim_pair *prim_pairs,\n");  
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int ldX,\n");
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights,\n");
-  fprintf(f, "                  double *boys_table) {\n");	 
-
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-
-  fprintf(f, "   __attribute__((__aligned__(64))) double buffer[%d * NPTS_LOCAL + 3 * NPTS_LOCAL];\n\n",  size - partial_size);
-  
-  fprintf(f, "   double *temp       = (buffer + 0);\n");
-  fprintf(f, "   double *Tval       = (buffer + %d * NPTS_LOCAL + 0 * NPTS_LOCAL);\n", size - partial_size);
-  fprintf(f, "   double *Tval_inv_e = (buffer + %d * NPTS_LOCAL + 1 * NPTS_LOCAL);\n", size - partial_size); 
-  fprintf(f, "   double *FmT        = (buffer + %d * NPTS_LOCAL + 2 * NPTS_LOCAL);\n\n", size - partial_size);
-
-  char variable[1024];
-  char prefix[1024];
-  char prefix_lsa[1024];
-  char prefix_lsu[1024];
-
-  sprintf(variable, "P");
-
-  fprintf(f, "   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);\n");
-  fprintf(f, "   size_t p_outer = 0;\n");
-  fprintf(f, "   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {\n");
-  fprintf(f, "      double *_point_outer = (_points + p_outer);\n\n");
-  if(lB != 0) {
-    fprintf(f, "      double X_AB = rA.x - rB.x;\n");
-    fprintf(f, "      double Y_AB = rA.y - rB.y;\n");
-    fprintf(f, "      double Z_AB = rA.z - rB.z;\n");
-    fprintf(f, "\n");
-  }
-  fprintf(f, "      for(int i = 0; i < %d * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());\n", size - partial_size);
-  fprintf(f, "\n");
-  fprintf(f, "      for(int ij = 0; ij < nprim_pairs; ++ij) {\n");
-  fprintf(f, "         double RHO = prim_pairs[ij].gamma;\n");
-  if(lA + lB > 1) {
-    fprintf(f, "         double RHO_INV = prim_pairs[ij].gamma_inv;\n");
-  }
-  if(lA != 0) {
-    fprintf(f, "         double X_PA = prim_pairs[ij].PA.x;\n");
-    fprintf(f, "         double Y_PA = prim_pairs[ij].PA.y;\n");
-    fprintf(f, "         double Z_PA = prim_pairs[ij].PA.z;\n");
-  }
-  fprintf(f, "\n");
-  fprintf(f, "         double xP = prim_pairs[ij].P.x;\n");
-  fprintf(f, "         double yP = prim_pairs[ij].P.y;\n");
-  fprintf(f, "         double zP = prim_pairs[ij].P.z;\n");
-  fprintf(f, "\n");
-  //fprintf(f, "         double eval = prim_pairs[ij].coeff_prod * prim_pairs[ij].K;\n");
-  fprintf(f, "         double eval = prim_pairs[ij].K_coeff_prod;\n");
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "         // Evaluate T Values\n");
-  fprintf(f, "         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_0(f, variable, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "         }\n\n");
-  
-  fprintf(f, "         // Evaluate Boys function\n");
-  fprintf(f, "         boys_elements<%d>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);\n", lA + lB);
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "         // Evaluate VRR Buffer\n");
-  fprintf(f, "         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_1(f, lA, lB, root_node, variable, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "         }\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_off_diagonal_part_2(f, lA, lB, type, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "      }\n");
-  
-  fprintf(f, "   }\n\n");
-
-  fprintf(f, "   for(; p_outer < npts; p_outer += NPTS_LOCAL) {\n");
-  fprintf(f, "      size_t npts_inner = MIN((size_t) NPTS_LOCAL, npts - p_outer);\n");
-  fprintf(f, "      double *_point_outer = (_points + p_outer);\n\n");
-  if(lB != 0) {
-    fprintf(f, "      double X_AB = rA.x - rB.x;\n");
-    fprintf(f, "      double Y_AB = rA.y - rB.y;\n");
-    fprintf(f, "      double Z_AB = rA.z - rB.z;\n");
-    fprintf(f, "\n");
-  }
-  fprintf(f, "      for(int i = 0; i < %d * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());\n", size - partial_size);
-  fprintf(f, "\n");
-  fprintf(f, "      for(int ij = 0; ij < nprim_pairs; ++ij) {\n");
-  fprintf(f, "         double RHO = prim_pairs[ij].gamma;\n");
-  if(lA + lB > 1) {
-    fprintf(f, "         double RHO_INV = prim_pairs[ij].gamma_inv;\n");
-  }
-  if(lA != 0) {
-    fprintf(f, "         double X_PA = prim_pairs[ij].PA.x;\n");
-    fprintf(f, "         double Y_PA = prim_pairs[ij].PA.y;\n");
-    fprintf(f, "         double Z_PA = prim_pairs[ij].PA.z;\n");
-  }
-  fprintf(f, "\n");
-  fprintf(f, "         double xP = prim_pairs[ij].P.x;\n");
-  fprintf(f, "         double yP = prim_pairs[ij].P.y;\n");
-  fprintf(f, "         double zP = prim_pairs[ij].P.z;\n");
-  fprintf(f, "\n");
-  //fprintf(f, "         double eval = prim_pairs[ij].coeff_prod * prim_pairs[ij].K;\n");
-  fprintf(f, "         double eval = prim_pairs[ij].K_coeff_prod;\n");
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "         // Evaluate T Values\n");
-  fprintf(f, "         size_t npts_inner_upper = %s_LENGTH * (npts_inner / %s_LENGTH);\n", prefix, prefix);
-  fprintf(f, "         size_t p_inner = 0;\n");
-  fprintf(f, "         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_0(f, variable, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "         }\n\n");
-
-  sprintf(prefix, "SCALAR");
-  sprintf(prefix_lsa, "SCALAR");
-  sprintf(prefix_lsu, "SCALAR");
-  
-  fprintf(f, "         for(; p_inner < npts_inner; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_0(f, variable, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "         }\n\n");
-  
-  fprintf(f, "         // Evaluate Boys function\n");
-  fprintf(f, "         boys_elements<%d>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);\n", lA + lB);
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-  
-  fprintf(f, "         // Evaluate VRR Buffer\n");
-  fprintf(f, "         p_inner = 0;\n");
-  fprintf(f, "         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_1(f, lA, lB, root_node, variable, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "         }\n\n");
-  
-  sprintf(prefix, "SCALAR");
-  sprintf(prefix_lsa, "SCALAR");
-  sprintf(prefix_lsu, "SCALAR");
-  fprintf(f, "         for(; p_inner < npts_inner; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_part_1(f, lA, lB, root_node, variable, prefix, prefix_lsa, prefix_lsu);
-  
-  fprintf(f, "         }\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-
-  sprintf(prefix, "SIMD");
-  sprintf(prefix_lsa, "SIMD_ALIGNED");
-  sprintf(prefix_lsu, "SIMD_UNALIGNED");
-
-  fprintf(f, "      size_t npts_inner_upper = %s_LENGTH * (npts_inner / %s_LENGTH);\n", prefix, prefix);
-  fprintf(f, "      size_t p_inner = 0;\n");
-  fprintf(f, "      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_off_diagonal_part_2(f, lA, lB, type, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "      }\n\n");
-
-  sprintf(prefix, "SCALAR");
-  sprintf(prefix_lsa, "SCALAR");
-  sprintf(prefix_lsu, "SCALAR");
-  fprintf(f, "      for(; p_inner < npts_inner; p_inner += %s_LENGTH) {\n", prefix);
-
-  generate_off_diagonal_part_2(f, lA, lB, type, prefix, prefix_lsa, prefix_lsu);
-
-  fprintf(f, "      }\n");
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-  fprintf(f, "}\n");
-}
-
-void generate_diagonal_header_files(int lA) {
-  char filename[512];
-      
-  sprintf(filename, "integral_%d.hpp", lA);
-      
-  FILE *f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_%d\n", lA);
-  fprintf(f, "#define __MY_INTEGRAL_%d\n", lA);
-  fprintf(f, "\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "namespace XCPU {\n");
-  fprintf(f, "void integral_%d(size_t npts,\n", lA);
-  fprintf(f, "               double *points,\n");
-  fprintf(f, "               point rA,\n");
-  fprintf(f, "               point rB,\n");
-  fprintf(f, "               int nprim_pairs,\n");
-  fprintf(f, "               prim_pair *prim_pairs,\n");  
-  fprintf(f, "               double *Xi,\n");
-  fprintf(f, "               int ldX,\n");	 
-  fprintf(f, "               double *Gi,\n");
-  fprintf(f, "               int ldG, \n");
-  fprintf(f, "               double *weights, \n");
-  fprintf(f, "               double *boys_table);\n");
-  fprintf(f, "}\n");
-  fprintf(f, "\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);
-}
-
-void generate_off_diagonal_header_files(int lA, int lB) {
-  char filename[512];
-      
-  sprintf(filename, "integral_%d_%d.hpp", lA, lB);
-      
-  FILE *f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_%d_%d\n", lA, lB);
-  fprintf(f, "#define __MY_INTEGRAL_%d_%d\n", lA, lB);
-  fprintf(f, "\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "namespace XCPU {\n");
-  fprintf(f, "void integral_%d_%d(size_t npts,\n", lA, lB);
-  fprintf(f, "                  double *points,\n");
-  fprintf(f, "                  point rA,\n");
-  fprintf(f, "                  point rB,\n");
-  fprintf(f, "                  int nprim_pairs,\n");
-  fprintf(f, "                  prim_pair *prim_pairs,\n");  
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights, \n");
-  fprintf(f, "                  double *boys_table);\n");
-  fprintf(f, "}\n");
-  fprintf(f, "\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);
-}
-
-void generate_main_files(int lA) {
-  char filename[512];
-
-  FILE *f;
-  
-  sprintf(filename, "obara_saika_integrals.hpp");
-      
-  f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_OBARA_SAIKA\n");
-  fprintf(f, "#define __MY_INTEGRAL_OBARA_SAIKA\n");
-  fprintf(f, "\n");
-  fprintf(f, "namespace XCPU {\n");
-  fprintf(f, "void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs);\n");
-  fprintf(f, "void compute_integral_shell_pair(int is_diag,\n");
-  fprintf(f, "                  size_t npts,\n");
-  fprintf(f, "                  double *points,\n");
-  fprintf(f, "                  int lA,\n");
-  fprintf(f, "                  int lB,\n");
-  fprintf(f, "                  point rA,\n");
-  fprintf(f, "                  point rB,\n");
-  fprintf(f, "                  int nprim_pairs,\n");
-  fprintf(f, "                  prim_pair *prim_pairs,\n");  
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights, \n");
-  fprintf(f, "                  double *boys_table);\n");
-  fprintf(f, "}\n");
-  fprintf(f, "\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);  
-
-  sprintf(filename, "obara_saika_integrals.cxx");
-      
-  f = fopen(filename, "w");
-
-  fprintf(f, "#include <stdio.h>\n");
-  fprintf(f, "#include <stdlib.h>\n");
-  fprintf(f, "#include \"../include/integral_data_types.hpp\"\n");
-  fprintf(f, "#include \"../include/obara_saika_integrals.hpp\"\n");
-  for(int i = 0; i <= lA; ++i) {
-    fprintf(f, "#include \"integral_%d.hpp\"\n", i);
-  }
-
-  for(int i = 0; i <= lA; ++i) {
-    for(int j = 0; j <= i; ++j) {
-      fprintf(f, "#include \"integral_%d_%d.hpp\"\n", i, j);
-    }
-  }
-
-  fprintf(f, "namespace XCPU {\n");
-  fprintf(f, "void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs) {\n");
-  fprintf(f, "   // L Values\n");
-  fprintf(f, "   const auto xA = A.origin.x;\n");
-  fprintf(f, "   const auto yA = A.origin.y;\n");
-  fprintf(f, "   const auto zA = A.origin.z;\n\n");
-
-  fprintf(f, "   const auto xB = B.origin.x;\n");
-  fprintf(f, "   const auto yB = B.origin.y;\n");
-  fprintf(f, "   const auto zB = B.origin.z;\n\n");
-
-  fprintf(f, "   double rABx = xA - xB;\n");
-  fprintf(f, "   double rABy = yA - yB;\n");
-  fprintf(f, "   double rABz = zA - zB;\n\n");
-
-  fprintf(f, "   const double dAB = rABx*rABx + rABy*rABy + rABz*rABz;\n\n");
-
-  fprintf(f, "   const int nprim_A = A.m;\n");
-  fprintf(f, "   const int nprim_B = B.m;\n");
-
-  fprintf(f, "   for(int i = 0, ij = 0; i < nprim_A; ++i       )\n");
-  fprintf(f, "   for(int j = 0        ; j < nprim_B; ++j, ++ij ) {\n");
-  fprintf(f, "      auto& pair = prim_pairs[ij];\n");
-
-  fprintf(f, "      const auto alpha_A = A.coeff[i].alpha;\n");
-  fprintf(f, "      const auto alpha_B = B.coeff[j].alpha;\n\n");
-
-  fprintf(f, "      pair.gamma = alpha_A + alpha_B;\n");
-  fprintf(f, "      pair.gamma_inv = 1. / pair.gamma;\n\n");
-
-  fprintf(f, "      pair.P.x = (alpha_A * xA + alpha_B * xB) * pair.gamma_inv;\n");
-  fprintf(f, "      pair.P.y = (alpha_A * yA + alpha_B * yB) * pair.gamma_inv;\n");
-  fprintf(f, "      pair.P.z = (alpha_A * zA + alpha_B * zB) * pair.gamma_inv;\n\n");
-
-  fprintf(f, "      pair.PA.x = pair.P.x - xA;\n");
-  fprintf(f, "      pair.PA.y = pair.P.y - yA;\n");
-  fprintf(f, "      pair.PA.z = pair.P.z - zA;\n\n");
-
-  fprintf(f, "      pair.PB.x = pair.P.x - xB;\n");
-  fprintf(f, "      pair.PB.y = pair.P.y - yB;\n");
-  fprintf(f, "      pair.PB.z = pair.P.z - zB;\n\n");
-  fprintf(f, "      pair.K_coeff_prod = 2 * M_PI * pair.gamma_inv * std::exp( - alpha_A * alpha_B * dAB * pair.gamma_inv ) * A.coeff[i].coeff * B.coeff[j].coeff;\n");
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-  
-  fprintf(f, "\n");
-  fprintf(f, "void compute_integral_shell_pair(int is_diag,\n");
-  fprintf(f, "                  size_t npts,\n");
-  fprintf(f, "                  double *points,\n");
-  fprintf(f, "                  int lA,\n");
-  fprintf(f, "                  int lB,\n");
-  fprintf(f, "                  point rA,\n");
-  fprintf(f, "                  point rB,\n");
-  fprintf(f, "                  int nprim_pairs,\n");
-  fprintf(f, "                  prim_pair *prim_pairs,\n");  
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights, \n");
-  fprintf(f, "                  double *boys_table) {\n");	   
-  fprintf(f, "   if (is_diag) {\n");
-  fprintf(f, "      if(lA == %d) {\n", 0);
-  fprintf(f, "         integral_%d(npts,\n", 0);
-  fprintf(f, "                    points,\n");
-  fprintf(f, "                    rA,\n");
-  fprintf(f, "                    rB,\n");
-  fprintf(f, "                    nprim_pairs,\n");
-  fprintf(f, "                    prim_pairs,\n");
-  fprintf(f, "                    Xi,\n");
-  fprintf(f, "                    ldX,\n");
-  fprintf(f, "                    Gi,\n");
-  fprintf(f, "                    ldG, \n");
-  fprintf(f, "                    weights, \n");
-  fprintf(f, "                    boys_table);\n");	   
-  fprintf(f, "      } else ");
-
-  for(int i = 1; i <= lA; ++i) {
-    fprintf(f, "if(lA == %d) {\n", i);
-    fprintf(f, "        integral_%d(npts,\n", i);
-    fprintf(f, "                    points,\n");
-    fprintf(f, "                   rA,\n");
-    fprintf(f, "                   rB,\n");
-    fprintf(f, "                   nprim_pairs,\n");
-    fprintf(f, "                   prim_pairs,\n");
-    fprintf(f, "                   Xi,\n");
-    fprintf(f, "                   ldX,\n");
-    fprintf(f, "                   Gi,\n");
-    fprintf(f, "                   ldG, \n");
-    fprintf(f, "                   weights, \n");
-    fprintf(f, "                   boys_table);\n");	   
-    fprintf(f, "      } else ");
-  }
-
-  fprintf(f, "{\n");
-  fprintf(f, "         printf(\"Type not defined!\\n\");\n");
-  fprintf(f, "      }\n");  
-  fprintf(f, "   } else {\n");
-  fprintf(f, "      if((lA == %d) && (lB == %d)) {\n", 0, 0);
-  fprintf(f, "         integral_%d_%d(npts,\n", 0, 0);
-  fprintf(f, "                      points,\n");
-  fprintf(f, "                      rA,\n");
-  fprintf(f, "                      rB,\n");
-  fprintf(f, "                      nprim_pairs,\n");
-  fprintf(f, "                      prim_pairs,\n");
-  fprintf(f, "                      Xi,\n");
-  fprintf(f, "                      Xj,\n");
-  fprintf(f, "                      ldX,\n");
-  fprintf(f, "                      Gi,\n");
-  fprintf(f, "                      Gj,\n");
-  fprintf(f, "                      ldG, \n");
-  fprintf(f, "                      weights, \n");
-  fprintf(f, "                      boys_table);\n");	   
-  fprintf(f, "      } else ");
-
-  for(int i = 1; i <= lA; ++i) {
-    for(int j = 0; j < i; ++j) {
-      fprintf(f, "if((lA == %d) && (lB == %d)) {\n", i, j);
-      fprintf(f, "            integral_%d_%d(npts,\n", i, j);
-      fprintf(f, "                         points,\n");
-      fprintf(f, "                         rA,\n");
-      fprintf(f, "                         rB,\n");
-      fprintf(f, "                         nprim_pairs,\n");
-      fprintf(f, "                         prim_pairs,\n");
-      fprintf(f, "                         Xi,\n");
-      fprintf(f, "                         Xj,\n");
-      fprintf(f, "                         ldX,\n");
-      fprintf(f, "                         Gi,\n");
-      fprintf(f, "                         Gj,\n");
-      fprintf(f, "                         ldG, \n");
-      fprintf(f, "                         weights, \n");
-      fprintf(f, "                         boys_table);\n");	   
-      fprintf(f, "      } else if((lA == %d) && (lB == %d)) {\n", j, i);
-      fprintf(f, "         integral_%d_%d(npts,\n", i, j);
-      fprintf(f, "                      points,\n");
-      fprintf(f, "                      rB,\n");
-      fprintf(f, "                      rA,\n");
-      fprintf(f, "                      nprim_pairs,\n");
-      fprintf(f, "                      prim_pairs,\n");
-      fprintf(f, "                      Xj,\n");
-      fprintf(f, "                      Xi,\n");
-      fprintf(f, "                      ldX,\n");
-      fprintf(f, "                      Gj,\n");
-      fprintf(f, "                      Gi,\n");
-      fprintf(f, "                      ldG, \n");
-      fprintf(f, "                      weights, \n");
-      fprintf(f, "                      boys_table);\n");	   
-      fprintf(f, "      } else ");
-    }
-
-    fprintf(f, "if((lA == %d) && (lB == %d)) {\n", i, i);
-    fprintf(f, "        integral_%d_%d(npts,\n", i, i);
-    fprintf(f, "                     points,\n");
-    fprintf(f, "                     rA,\n");
-    fprintf(f, "                     rB,\n");
-    fprintf(f, "                     nprim_pairs,\n");
-    fprintf(f, "                     prim_pairs,\n");
-    fprintf(f, "                     Xi,\n");
-    fprintf(f, "                     Xj,\n");
-    fprintf(f, "                     ldX,\n");
-    fprintf(f, "                     Gi,\n");
-    fprintf(f, "                     Gj,\n");
-    fprintf(f, "                     ldG, \n");
-    fprintf(f, "                     weights, \n");
-    fprintf(f, "                     boys_table);\n");	   
-    fprintf(f, "      } else ");
-  }
-
-  fprintf(f, "{\n");
-  fprintf(f, "         printf(\"Type not defined!\\n\");\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "   }\n");  
-  fprintf(f, "}\n");
-  
-  fprintf(f, "}\n");
-  
-  fclose(f);  
-}
-
-int main(int argc, char **argv) {
-  int lA = atoi(argv[1]);
-  int tV = atoi(argv[2]);
-
-  generate_main_files(lA);
-  
-  for(int i = 0; i <= lA; ++i) {
-    for(int j = 0; j <= i; ++j) {
-      int size = 0;
-      for(int l = 0; l < (i + j + 1); ++l) {
-	size += (l + 1) * (l + 2) / 2;
-      }
-  
-      struct node *node_list = (struct node *) malloc(size * sizeof(struct node));
-
-      for(int i = 0; i < size; ++i) {
-	node_list[i].iA = 0;
-	node_list[i].jA = 0;
-	node_list[i].kA = 0;
-    
-	node_list[i].iB = 0;
-	node_list[i].jB = 0;
-	node_list[i].kB = 0;
-    
-	node_list[i].level = 0;
-	node_list[i].vars = 0;
-
-	node_list[i].valid = 0;
-	node_list[i].offset = 0;
-    
-	node_list[i].nr_children = 0;;
-      }
-
-      if(i == j) {
-	generate_diagonal_header_files(i);
-      }
-      
-      generate_off_diagonal_header_files(i, j);
-      
-      int type = ((i + j) <= tV) ? 1 : 0;
-      
-      // initialization part
-      initialize_tree_structure(type, i, j, size, node_list);
-      
-      // vrr construction
-      if(i == j) {
-	char filename[512];
-      
-	sprintf(filename, "integral_%d.cxx", i);
-      
-	FILE *f = fopen(filename, "w");
-
-	generate_diagonal_files(f, i, size, node_list, type);
-
-	fclose(f);
-      }
-
-      char filename[512];
-      
-      sprintf(filename, "integral_%d_%d.cxx", i, j);
-      
-      FILE *f = fopen(filename, "w");
-
-      generate_off_diagonal_files(f, i, j, size, node_list, type);
-
-      fclose(f);
-      
-      free(node_list);
-    }
-  }
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/generate_cpu_code.c.bk b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/generate_cpu_code.c.bk
deleted file mode 100755
index 2d616e8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/generator/generate_cpu_code.c.bk
+++ /dev/null
@@ -1,1001 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <string.h>
-
-struct node {
-  int iA, jA, kA;
-  int iB, jB, kB;
-  
-  int level;
-  int vars;
-
-  int valid;
-  int offset;
-
-  char var_pa[5];
-  char var_pc[5];
-  
-  int nr_children;
-  struct node *children[3];
-};
-
-void traverseX_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-void traverseY_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-void traverseZ_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list);
-
-void traverseX_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "X_PA");
-  sprintf(node_list[offset].var_pc, "X_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 3;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseX_init_dfs(iA + 1, jA, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[2] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverseY_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "Y_PA");
-  sprintf(node_list[offset].var_pc, "Y_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 2;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverseZ_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-
-  sprintf(node_list[offset].var_pa, "Z_PA");
-  sprintf(node_list[offset].var_pc, "Z_PC");
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 1;
- 
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void traverse_init_dfs(int iA, int jA, int kA, int lA, int lB, int partial_size, struct node *node_list, int *offset_list) {
-  int level = iA + jA + kA;
-  int offset = offset_list[level];
-  int vars = lA + lB - level;
-  
-  node_list[offset].iA = iA;
-  node_list[offset].jA = jA;
-  node_list[offset].kA = kA;
-
-  node_list[offset].iB = 0;
-  node_list[offset].jB = 0;
-  node_list[offset].kB = 0;
-
-  node_list[offset].level = level;
-  node_list[offset].vars = vars + 1;
-
-  node_list[offset].valid = (level >= lA) ? 1 : 0;
-  node_list[offset].offset = offset - partial_size;
-
-  node_list[offset].nr_children = 0;
-  node_list[offset].children[0] = NULL;
-  node_list[offset].children[1] = NULL;
-  node_list[offset].children[2] = NULL;
-  
-  offset_list[level]++;
-  
-  if(vars > 0) {
-    node_list[offset].nr_children = 3;
-    
-    node_list[offset].children[0] = &(node_list[offset_list[level + 1]]);
-    traverseX_init_dfs(iA + 1, jA, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[1] = &(node_list[offset_list[level + 1]]);
-    traverseY_init_dfs(iA, jA + 1, kA, lA, lB, partial_size, node_list, offset_list);
-
-    node_list[offset].children[2] = &(node_list[offset_list[level + 1]]); 
-    traverseZ_init_dfs(iA, jA, kA + 1, lA, lB, partial_size, node_list, offset_list);
-  }
-}
-
-void initialize_tree_structure(int type, int lA, int lB, int size, struct node *node_list) {
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-  
-  int *offset_list = (int*) malloc((lA + lB + 1) * sizeof(int));
-
-  int offset = 0;
-  for(int i = 0; i < lA + lB + 1; ++i) {
-    offset_list[i] = offset;
-    offset += (i + 1) * (i + 2) / 2;
-  }
-
-  // initialization part
-  traverse_init_dfs(0, 0, 0, lA, lB, partial_size, node_list, offset_list);
-  
-  free(offset_list);
-}
-
-void traverse_dfs_vrr(FILE *f, int lA, int lB, struct node *root_node) {
-  if(root_node != NULL) {
-    if(root_node -> level == 0) {
-      for(int v = 0; v < root_node -> vars; ++v) {
-	fprintf(f, "            t%d%d = eval * boys_function(%d, tval);\n", root_node -> level, v, v);
-      }
-    } else if (root_node -> level == 1) {
-      for(int v = 0; v < root_node -> vars; ++v) {
-	fprintf(f, "            t%d%d = %s * t%d%d - %s * t%d%d;\n", root_node -> level, v, root_node -> var_pa, root_node -> level - 1, v, root_node -> var_pc, root_node -> level - 1, v + 1);
-      }
-    } else {
-      int iteration = 0;
-      if(strcmp(root_node -> var_pa, "X_PA") == 0) {
-	iteration = root_node -> iA - 1;
-      } else if(strcmp(root_node -> var_pa, "Y_PA") == 0) {
-	iteration = root_node -> jA - 1;
-      } else {
-	iteration = root_node -> kA - 1;
-      }
-
-      if(iteration == 0) {
-	for(int v = 0; v < root_node -> vars; ++v) {
-	  fprintf(f, "            t%d%d = %s * t%d%d - %s * t%d%d;\n", root_node -> level, v, root_node -> var_pa, root_node -> level - 1, v, root_node -> var_pc, root_node -> level - 1, v + 1);
-	}
-      } else {
-	for(int v = 0; v < root_node -> vars; ++v) {
-	  fprintf(f, "            t%d%d = %s * t%d%d - %s * t%d%d + 0.5 * RHO_INV * %d * (t%d%d - t%d%d);\n", root_node -> level, v, root_node -> var_pa, root_node -> level - 1, v, root_node -> var_pc, root_node -> level - 1, v + 1, iteration, root_node -> level - 2, v, root_node ->level - 2, v + 1);
-	}
-      }
-    }
-
-    if(root_node -> valid) {
-      fprintf(f, "            *(temp + %d * NPTS_LOCAL + p_inner) += t%d%d;\n", root_node -> offset, root_node -> level, 0);
-    }
-    
-    for(int i = 0; i < root_node -> nr_children; ++i) {
-      traverse_dfs_vrr(f, lA, lB, root_node -> children[i]);
-    }
-  }
-}
-
-int index_calculation(int i, int j, int L) {
-  return (L - i) * (L - i + 1) / 2 + j;
-}
-
-void generate_diagonal_files(FILE *f, int lA, int size, struct node *root_node, int type) {
-  fprintf(f, "#include <math.h>\n");
-  fprintf(f, "#include \"boys_computation.h\"\n");
-  fprintf(f, "#include \"integral_data_types.h\"\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define PI 3.14159265358979323846\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define MIN(a,b)			\\\n"); 
-  fprintf(f, "  ({ __typeof__ (a) _a = (a);	        \\\n");
-  fprintf(f, "  __typeof__ (b) _b = (b);		\\\n");
-  fprintf(f, "  _a < _b ? _a : _b; })\n");
-  fprintf(f, "\n");
-  fprintf(f, "void integral_%d(size_t npts,\n", lA);
-//fprintf(f, "               shells shellA,\n");
-  fprintf(f, "               shell_pair shpair,\n");
-  fprintf(f, "               point *_points,\n");
-  fprintf(f, "               double *Xi,\n");
-  fprintf(f, "               int stX,\n");
-  fprintf(f, "               int ldX,\n");
-  fprintf(f, "               double *Gi,\n");
-  fprintf(f, "               int stG, \n");
-  fprintf(f, "               int ldG, \n");
-  fprintf(f, "               double *weights) {\n");	 
-
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-
-  fprintf(f, "   double temp[%d * NPTS_LOCAL];\n\n", size - partial_size);
-  fprintf(f, "   for(int i = 0; i < %d * NPTS_LOCAL; ++i) {\n", size - partial_size);
-  fprintf(f, "      temp[i] = 0.0;\n");
-  fprintf(f, "   }\n\n");
-  
-  fprintf(f, "   for(size_t p_outer = 0; p_outer < npts; p_outer += NPTS_LOCAL) {\n");
-  fprintf(f, "      size_t npts_inner = MIN(NPTS_LOCAL, npts - p_outer);\n");
-  fprintf(f, "      point *_point_outer = (_points + p_outer);\n\n");
-
-//fprintf(f, "      double xA = shellA.origin.x;\n");
-//fprintf(f, "      double yA = shellA.origin.y;\n");
-//fprintf(f, "      double zA = shellA.origin.z;\n");
-  fprintf(f, "      double xA = shpair.rA.x;\n");
-  fprintf(f, "      double yA = shpair.rA.y;\n");
-  fprintf(f, "      double zA = shpair.rA.z;\n");
-  fprintf(f, "\n");
-//fprintf(f, "      double beta_in = 0.0;\n");
-//fprintf(f, "      for(int i = 0; i < shellA.m; ++i) {\n");
-//fprintf(f, "         for(int j = 0; j < shellA.m; ++j) {\n");
-  fprintf(f, "      for( int ij = 0; ij < shpair.nprim_pair; ++ij ) {\n");
-//fprintf(f, "         double aA = shellA.coeff[i].alpha;\n");
-//fprintf(f, "         double cA = shellA.coeff[i].coeff;\n");
-//fprintf(f, "\n");
-//fprintf(f, "         double aB = shellA.coeff[j].alpha;\n");
-//fprintf(f, "         double cB = shellA.coeff[j].coeff;\n");
-//fprintf(f, "\n");
-//fprintf(f, "         double RHO = aA + aB;\n");
-  fprintf(f, "         double RHO = shpair.prim_pairs[ij].gamma;\n");
-  fprintf(f, "         double RHO_INV = 1.0 / RHO;\n");
-  fprintf(f, "\n");  
-  fprintf(f, "         constexpr double X_PA = 0.0;\n");
-  fprintf(f, "         constexpr double Y_PA = 0.0;\n");
-  fprintf(f, "         constexpr double Z_PA = 0.0;\n");
-  fprintf(f, "\n");
-  fprintf(f, "         double eval = shpair.prim_pairs[ij].coeff_prod * 2 * PI * RHO_INV;\n");
-  fprintf(f, "\n");
-  fprintf(f, "         for(size_t p_inner = 0; p_inner < npts_inner; ++p_inner) {\n");
-  fprintf(f, "            point C = *(_point_outer + p_inner);\n");
-  fprintf(f, "\n");  
-  fprintf(f, "            double xC = C.x;\n");
-  fprintf(f, "            double yC = C.y;\n");
-  fprintf(f, "            double zC = C.z;\n");
-  fprintf(f, "\n");
-  fprintf(f, "            double X_PC = (xA - xC);\n");
-  fprintf(f, "            double Y_PC = (yA - yC);\n");
-  fprintf(f, "            double Z_PC = (zA - zC);\n");
-  fprintf(f, "\n");
-  fprintf(f, "            double ");
-  for(int l = 0; l < (lA + lA); ++l) {
-    for(int k = 0; k < (lA + lA + 1) - l; ++k) {
-      fprintf(f, "t%d%d, ", l, k);
-    }
-  }
-  fprintf(f, "t%d%d;\n", (lA + lA), 0);
-  fprintf(f, "\n");
-  fprintf(f, "            double tval = RHO * (X_PC * X_PC + Y_PC * Y_PC + Z_PC * Z_PC);\n");
-  fprintf(f, "\n");
-  traverse_dfs_vrr(f, lA, lA, root_node);
-//fprintf(f, "            beta_in = 1.0;\n");
-  fprintf(f, "         }\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-  fprintf(f, "      for(size_t p_inner = 0; p_inner < npts_inner; ++p_inner) {;\n");
-  fprintf(f, "         double *Xik = (Xi + (NPTS_LOCAL * p_outer + p_inner) * stX);\n");
-  fprintf(f, "         double *Gik = (Gi + (NPTS_LOCAL * p_outer + p_inner) * stG);\n");
-  fprintf(f, "\n");
-
-  if(type == 0) {
-    fprintf(f, "         for(int c0 = 0; c0 <= %d; ++c0) {\n", lA);
-    fprintf(f, "            for(int c1 = 0; c1 <= c0; ++c1) {\n");
-    fprintf(f, "               int m = %d - c0;\n", lA);
-    fprintf(f, "               int p = c1;\n");
-    fprintf(f, "\n");
-    fprintf(f, "               int idxB = (((%d - m) * (%d - m + 1)) >> 1) + p;\n", lA, lA);
-    fprintf(f, "\n");
-    fprintf(f, "               int mv, pv;\n");
-    fprintf(f, "\n");
-    
-    int count = 0;
-    for(int r0 = 0; r0 <= lA; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	int a = lA - r0;
-	int c = r1;
-
-	int idxA = index_calculation(a, c, lA);
-	fprintf(f, "               mv = %d + m; pv = %d + p;\n", a, c);
-	fprintf(f, "               *(Gik + %d * ldG) += *(Xik + idxB * ldX) * (*(temp + (%d + (((%d - mv) * (%d - mv + 1)) >> 1) + pv) * NPTS_LOCAL + p_inner)) * (*(weights + (NPTS_LOCAL * p_outer + p_inner)));\n", idxA, (2 * lA * (2 * lA + 1) * (2 * lA + 2) - lA * (lA + 1) * (lA + 2)) / 6, 2 * lA, 2 * lA);
-      
-	//if (idxA != ((lA + 1) * (lA + 2) / 2 - 1)) fprintf(f, "\n");
-	count++;		
-      }
-    }
-    fprintf(f, "            }\n");
-    fprintf(f, "         }\n");
-    fprintf(f, "      }\n");
-  } else if(type == 1) {   
-    for(int c0 = 0; c0 <= lA; ++c0) {
-      for(int c1 = 0; c1 <= c0; ++c1) {
-	int m = lA - c0;
-	int p = c1;
-
-	int idxB = index_calculation(m, p, lA);
-
-	int count = 0;
-	for(int r0 = 0; r0 <= lA; ++r0) {
-	  for(int r1 = 0; r1 <= r0; ++r1) {
-	    int a = lA - r0;
-	    int c = r1;
-
-	    int idxA = index_calculation(a, c, lA);
-
-	    int idx = index_calculation(a + m - 0, c + p - 0, lA + lA - 0 - 0 - 0);
-
-	    int offset = (2 * lA * (2 * lA + 1) * (2 * lA + 2) - lA * (lA + 1) * (lA + 2)) / 6;
-		  
-	    fprintf(f, "         *(Gik + %d * ldG) += *(Xik + %d * ldX) * (*(temp + %d * NPTS_LOCAL + p_inner)) * (*(weights + (NPTS_LOCAL * p_outer + p_inner)));\n", idxA, idxB, offset + idx);
-      
-	    count++;		
-	  }
-	}
-
-	//if(idxB != ((lA + 1) * (lA + 2) / 2 - 1)) fprintf(f, "\n");
-      }
-    }
-    fprintf(f, "      }\n");
-  } else {
-    fprintf(f, "Type not defined\n");
-  }  
-
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-}
-
-void generate_off_diagonal_files(FILE *f, int lA, int lB, int size, struct node *root_node, int type) {
-  fprintf(f, "#include <math.h>\n");
-  fprintf(f, "#include \"boys_computation.h\"\n");
-  fprintf(f, "#include \"integral_data_types.h\"\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define PI 3.14159265358979323846\n");
-  fprintf(f, "\n");
-  fprintf(f, "#define MIN(a,b)			\\\n"); 
-  fprintf(f, "  ({ __typeof__ (a) _a = (a);	        \\\n");
-  fprintf(f, "  __typeof__ (b) _b = (b);		\\\n");
-  fprintf(f, "  _a < _b ? _a : _b; })\n");
-  fprintf(f, "\n");
-  fprintf(f, "void integral_%d_%d(size_t npts,\n", lA, lB);
-//fprintf(f, "                  shells shellA,\n");
-//fprintf(f, "                  shells shellB,\n");
-  fprintf(f, "                  shell_pair shpair,\n");
-  fprintf(f, "                  point *_points,\n");
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int stX,\n");
-  fprintf(f, "                  int ldX,\n");
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int stG, \n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights) {\n");	 
-
-  int partial_size = 0;
-  for(int i = 0; i < lA; ++i) {
-    partial_size += (i + 1) * (i + 2) / 2;
-  }
-
-  fprintf(f, "   double temp[%d * NPTS_LOCAL];\n\n", size - partial_size);
-  fprintf(f, "   for(int i = 0; i < %d * NPTS_LOCAL; ++i) {\n", size - partial_size);
-  fprintf(f, "      temp[i] = 0.0;\n");
-  fprintf(f, "   }\n\n");
-
-  fprintf(f, "   double X_AB = shpair.rAB.x;\n");
-  fprintf(f, "   double Y_AB = shpair.rAB.y;\n");
-  fprintf(f, "   double Z_AB = shpair.rAB.z;\n");
-  fprintf(f, "\n");
-
-  fprintf(f, "   for(size_t p_outer = 0; p_outer < npts; p_outer += NPTS_LOCAL) {\n");
-  fprintf(f, "      size_t npts_inner = MIN(NPTS_LOCAL, npts - p_outer);\n");
-  fprintf(f, "      point *_point_outer = (_points + p_outer);\n\n");
-//fprintf(f, "      double xA = shellA.origin.x;\n");
-//fprintf(f, "      double yA = shellA.origin.y;\n");
-//fprintf(f, "      double zA = shellA.origin.z;\n\n");
-//fprintf(f, "      double xA = shpair.rA.x;\n");
-//fprintf(f, "      double yA = shpair.rA.y;\n");
-//fprintf(f, "      double zA = shpair.rA.z;\n\n");
-
-//fprintf(f, "      double xB = shellB.origin.x;\n");
-//fprintf(f, "      double yB = shellB.origin.y;\n");
-//fprintf(f, "      double zB = shellB.origin.z;\n");
-//fprintf(f, "      double xB = shpair.rB.x;\n");
-//fprintf(f, "      double yB = shpair.rB.y;\n");
-//fprintf(f, "      double zB = shpair.rB.z;\n");
-//fprintf(f, "\n");
-//fprintf(f, "      double X_AB = (xA - xB);\n");
-//fprintf(f, "      double Y_AB = (yA - yB);\n");
-//fprintf(f, "      double Z_AB = (zA - zB);\n");
-//fprintf(f, "      double beta_in = 0.0;\n");
-//fprintf(f, "      for(int i = 0; i < shellA.m; ++i) {\n");
-//fprintf(f, "         for(int j = 0; j < shellB.m; ++j) {\n");
-  fprintf(f, "      for(int ij = 0; ij < shpair.nprim_pair; ++ij ) {\n");
-//fprintf(f, "         double aA = shellA.coeff[i].alpha;\n");
-//fprintf(f, "         double cA = shellA.coeff[i].coeff;\n");
-//fprintf(f, "\n");
-//fprintf(f, "         double aB = shellB.coeff[j].alpha;\n");
-//fprintf(f, "         double cB = shellB.coeff[j].coeff;\n");
-//fprintf(f, "\n");
-//fprintf(f, "         double RHO = aA + aB;\n");
-  fprintf(f, "         double RHO = shpair.prim_pairs[ij].gamma;\n");
-  fprintf(f, "         double RHO_INV = 1.0 / RHO;\n");
-  fprintf(f, "\n");
-//fprintf(f, "         double xP = (aA * xA + aB * xB) * RHO_INV;\n");
-//fprintf(f, "         double yP = (aA * yA + aB * yB) * RHO_INV;\n");
-//fprintf(f, "         double zP = (aA * zA + aB * zB) * RHO_INV;\n");
-  fprintf(f, "         double xP = shpair.prim_pairs[ij].P.x;\n");
-  fprintf(f, "         double yP = shpair.prim_pairs[ij].P.y;\n");
-  fprintf(f, "         double zP = shpair.prim_pairs[ij].P.z;\n");
-  fprintf(f, "\n");  
-//fprintf(f, "         double X_PA = (xP - xA);\n");
-//fprintf(f, "         double Y_PA = (yP - yA);\n");
-//fprintf(f, "         double Z_PA = (zP - zA);\n");
-  fprintf(f, "         double X_PA = shpair.prim_pairs[ij].PA.x;\n");
-  fprintf(f, "         double Y_PA = shpair.prim_pairs[ij].PA.y;\n");
-  fprintf(f, "         double Z_PA = shpair.prim_pairs[ij].PA.z;\n");
-  fprintf(f, "\n");
-//fprintf(f, "         double eval = cA * cB * 2 * PI * RHO_INV * exp(-1.0 * (X_AB * X_AB + Y_AB * Y_AB + Z_AB * Z_AB) * aA * aB * RHO_INV);\n");
-  fprintf(f, "         double eval = shpair.prim_pairs[ij].coeff_prod * shpair.prim_pairs[ij].K;\n");
-  fprintf(f, "\n");
-  fprintf(f, "         for(int p_inner = 0; p_inner < npts_inner; ++p_inner) {\n");
-  fprintf(f, "            point C = *(_point_outer + p_inner);\n");
-  fprintf(f, "\n");
-  fprintf(f, "            double xC = C.x;\n");
-  fprintf(f, "            double yC = C.y;\n");
-  fprintf(f, "            double zC = C.z;\n");
-  fprintf(f, "\n");
-  fprintf(f, "            double X_PC = (xP - xC);\n");
-  fprintf(f, "            double Y_PC = (yP - yC);\n");
-  fprintf(f, "            double Z_PC = (zP - zC);\n");
-  fprintf(f, "\n");
-  fprintf(f, "            double ");
-  for(int l = 0; l < (lA + lB); ++l) {
-    for(int k = 0; k < (lA + lB + 1) - l; ++k) {
-      fprintf(f, "t%d%d, ", l, k);
-    }
-  }
-  fprintf(f, "t%d%d;\n", (lA + lB), 0);
-  fprintf(f, "\n");
-  fprintf(f, "            double tval = RHO * (X_PC * X_PC + Y_PC * Y_PC + Z_PC * Z_PC);\n");
-  fprintf(f, "\n");
-  traverse_dfs_vrr(f, lA, lB, root_node);
-//fprintf(f, "            beta_in = 1.0;\n");
-  fprintf(f, "         }\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "\n");
-  fprintf(f, "      for(int p_inner = 0; p_inner < npts_inner; ++p_inner) {\n");
-  fprintf(f, "         double *Xik = (Xi + (NPTS_LOCAL * p_outer + p_inner) * stX);\n");
-  fprintf(f, "         double *Xjk = (Xj + (NPTS_LOCAL * p_outer + p_inner) * stX);\n");
-  fprintf(f, "         double *Gik = (Gi + (NPTS_LOCAL * p_outer + p_inner) * stG);\n");
-  fprintf(f, "         double *Gjk = (Gj + (NPTS_LOCAL * p_outer + p_inner) * stG);\n");
-  fprintf(f, "\n");
-  
-  if(type == 0) {
-    fprintf(f, "         for(int c0 = 0; c0 <= %d; ++c0) {\n", lB);
-    fprintf(f, "            for(int c1 = 0; c1 <= c0; ++c1) {\n");
-    fprintf(f, "               int m = %d - c0;\n", lB);
-    fprintf(f, "               int n = c0 - c1;\n");
-    fprintf(f, "               int p = c1;\n");
-    fprintf(f, "\n");
-    fprintf(f, "               int idxB = (((%d - m) * (%d - m + 1)) >> 1) + p;\n", lB, lB);
-    fprintf(f, "\n");
-    fprintf(f, "               double X_ABp = 1.0, comb_m_i = 1.0;\n");
-    fprintf(f, "               for(int i = 0; i <= m; ++i) {\n");
-    fprintf(f, "                  double rcp_i;\n");
-    fprintf(f, "\n");
-    fprintf(f, "                  double Y_ABp = 1.0, comb_n_j = 1.0;\n");
-    fprintf(f, "                  for(int j = 0; j <= n; ++j) {\n");
-    fprintf(f, "                     double rcp_j;\n");
-    fprintf(f, "\n");
-    fprintf(f, "                     double Z_ABp = 1.0, comb_p_k = 1.0;\n");
-    fprintf(f, "                     for(int k = 0; k <= p; ++k) {\n");
-    fprintf(f, "                        double rcp_k;\n");
-    fprintf(f, "                        int mv, pv, Lv = %d - i - j - k;\n", lA + lB);
-    fprintf(f, "\n");
-    fprintf(f, "                        int offset = (Lv * (Lv + 1) * (Lv + 2) - %d) / 6;\n", lA * (lA + 1) * (lA + 2));
-    fprintf(f, "                        double const_value = *(weights + NPTS_LOCAL * p_outer + p_inner) * comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;\n");
-    
-    int count = 0;
-    for(int r0 = 0; r0 <= lA; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	int a = lA - r0;
-	int c = r1;
-
-	int idxA = index_calculation(a, c, lA);
-	fprintf(f, "                        mv = %d + m - i; pv = %d + p - k;\n", a, c);
-	fprintf(f, "                        double t%d = *(temp + (offset + (((Lv - mv) * (Lv - mv + 1)) >> 1) + pv) * NPTS_LOCAL + p_inner) * const_value;\n", count);
-	fprintf(f, "                        *(Gik + %d * ldG) += *(Xjk + idxB * ldX) * t%d;\n", idxA, count);
-	fprintf(f, "                        *(Gjk + idxB * ldG) += *(Xik + %d * ldX) * t%d;\n", idxA, count);
-      
-	//if (idxA != ((lA + 1) * (lA + 2) / 2 - 1)) fprintf(f, "\n");
-	count++;		
-      }
-    }
-    fprintf(f, "\n");
-    fprintf(f, "                        Z_ABp *= Z_AB; rcp_k = 1.0 / (1.0 * (k + 1)); comb_p_k = (comb_p_k * (p - k)) * rcp_k;\n");
-    fprintf(f, "                     }\n");
-    fprintf(f, "\n");
-    fprintf(f, "                     Y_ABp *= Y_AB; rcp_j = 1.0 / (1.0 * (j + 1)); comb_n_j = (comb_n_j * (n - j)) * rcp_j;\n");
-    fprintf(f, "                  }\n");
-    fprintf(f, "\n");
-    fprintf(f, "                  X_ABp *= X_AB; rcp_i = 1.0 / (1.0 * (i + 1)); comb_m_i = (comb_m_i * (m - i)) * rcp_i;\n");
-    fprintf(f, "               }\n");
-    fprintf(f, "            }\n");
-    fprintf(f, "         }\n");
-    fprintf(f, "      }\n");
-  } else if (type == 1) {
-    fprintf(f, "         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k, rcp_i, rcp_j, rcp_k;\n");
-    
-
-    int count = 0;
-    fprintf(f, "         double ");
-    for(int r0 = 0; r0 <= lA - 1; ++r0) {
-      for(int r1 = 0; r1 <= r0; ++r1) {
-	fprintf(f, "t%d, ", count);
-	count++;
-      }
-    }
-    
-    for(int r1 = 0; r1 <= lA - 1; ++r1) {
-      fprintf(f, "t%d, ", count);
-      count++;
-    }
-
-    fprintf(f, "t%d;\n", count);
-    
-    fprintf(f, "\n");
-    
-    for(int c0 = 0; c0 <= lB; ++c0) {
-      for(int c1 = 0; c1 <= c0; ++c1) {
-	int m = lB - c0;
-	int n = c0 - c1;
-	int p = c1;
-
-	int idxB = index_calculation(m, p, lB);
-
-	fprintf(f, "         X_ABp = 1.0; comb_m_i = 1.0;\n");
-	for(int i = 0; i <= m; ++i) {
-	  fprintf(f, "         Y_ABp = 1.0; comb_n_j = 1.0;\n");
-	  for(int j = 0; j <= n; ++j) {
-	    fprintf(f, "         Z_ABp = 1.0; comb_p_k = 1.0;\n");
-	    for(int k = 0; k <= p; ++k) {
-	      fprintf(f, "         const_value = *(weights + p_outer * NPTS_LOCAL + p_inner) * comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;\n");
-
-	      int count = 0;
-	      for(int r0 = 0; r0 <= lA; ++r0) {
-		for(int r1 = 0; r1 <= r0; ++r1) {
-		  int a = lA - r0;
-		  int c = r1;
-
-		  int idxA = index_calculation(a, c, lA);
-
-		  int idx = index_calculation(a + m - i, c + p - k, lA + lB - i - j - k);
-
-		  int LAB = lA + lB - i - j - k;
-		  int offset = (LAB * (LAB + 1) * (LAB + 2) - lA * (lA + 1) * (lA + 2)) / 6;
-		  
-		  fprintf(f, "         t%d = *(temp + %d * NPTS_LOCAL + p_inner) * const_value;\n", count, offset + idx);
-		  fprintf(f, "         *(Gik + %d * ldG) += *(Xjk + %d * ldX) * t%d;\n", idxA, idxB, count);
-		  fprintf(f, "         *(Gjk + %d * ldG) += *(Xik + %d * ldX) * t%d;\n", idxB, idxA, count);
-      
-		  count++;		
-		}
-	      }
-	      
-	      if(k < p) {
-		fprintf(f, "         Z_ABp *= Z_AB; rcp_k = 1.0 / (1.0 * %d); comb_p_k = (comb_p_k * %d) * rcp_k;\n", k + 1, p - k);
-	      }
-	    }
-
-	    if(j < n) {
-	      fprintf(f, "         Y_ABp *= Y_AB; rcp_j = 1.0 / (1.0 * %d); comb_n_j = (comb_n_j * %d) * rcp_j;\n", j + 1, n - j);
-	    }
-	  }
-
-	  if(i < m) {
-	    fprintf(f, "         X_ABp *= X_AB; rcp_i = 1.0 / (1.0 * %d); comb_m_i = (comb_m_i * %d) * rcp_i;\n", i + 1, m - i);
-	  }
-	}
-	//if(idxB != ((lB + 1) * (lB + 2) / 2 - 1)) fprintf(f, "\n");
-      }
-    }
-    fprintf(f, "      }\n");
-  } else {
-    fprintf(f, "Type not defined\n");
-  }  
-  
-  fprintf(f, "   }\n");
-  fprintf(f, "}\n");
-}
-
-void generate_diagonal_header_files(int lA) {
-  char filename[512];
-      
-  sprintf(filename, "integral_%d.h", lA);
-      
-  FILE *f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_%d\n", lA);
-  fprintf(f, "#define __MY_INTEGRAL_%d\n", lA);
-  fprintf(f, "\n");
-  fprintf(f, "#include \"integral_%d.h\"\n", lA);
-  fprintf(f, "\n");
-  fprintf(f, "void integral_%d(size_t npts,\n", lA);
-//fprintf(f, "               shells shellA,\n");
-  fprintf(f, "               shell_pair shpair,\n");
-  fprintf(f, "               point *points,\n");
-  fprintf(f, "               double *Xi,\n");
-  fprintf(f, "               int stX,\n");
-  fprintf(f, "               int ldX,\n");	 
-  fprintf(f, "               double *Gi,\n");
-  fprintf(f, "               int stG, \n");
-  fprintf(f, "               int ldG, \n");
-  fprintf(f, "               double *weights);\n");	   
-  fprintf(f, "\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);
-}
-
-void generate_off_diagonal_header_files(int lA, int lB) {
-  char filename[512];
-      
-  sprintf(filename, "integral_%d_%d.h", lA, lB);
-      
-  FILE *f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_%d_%d\n", lA, lB);
-  fprintf(f, "#define __MY_INTEGRAL_%d_%d\n", lA, lB);
-  fprintf(f, "\n");
-  fprintf(f, "#include \"integral_%d_%d.h\"\n", lA, lB);
-  fprintf(f, "\n");
-  fprintf(f, "void integral_%d_%d(size_t npts,\n", lA, lB);
-//fprintf(f, "                  shells shellA,\n");
-//fprintf(f, "                  shells shellB,\n");
-  fprintf(f, "                  shell_pair shpair,\n");
-  fprintf(f, "                  point *points,\n");
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int stX,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int stG, \n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights);\n");	   
-  fprintf(f, "\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);
-}
-
-void generate_main_files(int lA) {
-  char filename[512];
-
-  FILE *f;
-  
-  sprintf(filename, "obara_saika_integrals.h");
-      
-  f = fopen(filename, "w");
-
-  fprintf(f, "#ifndef __MY_INTEGRAL_OBARA_SAIKA\n");
-  fprintf(f, "#define __MY_INTEGRAL_OBARA_SAIKA\n");
-  fprintf(f, "\n");
-  fprintf(f, "void compute_integral_shell_pair(size_t npts,\n");
-  fprintf(f, "                  int i,\n");
-  fprintf(f, "                  int j,\n");
-  fprintf(f, "                  shells *shell_list,\n");
-  fprintf(f, "                  point *points,\n");
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int stX,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int stG, \n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights);\n");	   
-  fprintf(f, "\n");
-  fprintf(f, "#endif\n");
-  
-  fclose(f);  
-
-  sprintf(filename, "obara_saika_integrals.cxx");
-      
-  f = fopen(filename, "w");
-
-  fprintf(f, "#include <stdio.h>\n");
-  fprintf(f, "#include <stdlib.h>\n");
-  fprintf(f, "#include \"integral_data_types.h\"\n");
-  fprintf(f, "#include \"obara_saika_integrals.h\"\n");
-  for(int i = 0; i <= lA; ++i) {
-    fprintf(f, "#include \"integral_%d.h\"\n", i);
-  }
-
-  for(int i = 0; i <= lA; ++i) {
-    for(int j = 0; j <= i; ++j) {
-      fprintf(f, "#include \"integral_%d_%d.h\"\n", i, j);
-    }
-  }
-  
-  fprintf(f, "\n");
-  fprintf(f, "void compute_integral_shell_pair(size_t npts,\n");
-  fprintf(f, "                  int i,\n");
-  fprintf(f, "                  int j,\n");
-  fprintf(f, "                  shells *shell_list,\n");
-  fprintf(f, "                  point *points,\n");
-  fprintf(f, "                  double *Xi,\n");
-  fprintf(f, "                  double *Xj,\n");
-  fprintf(f, "                  int stX,\n");
-  fprintf(f, "                  int ldX,\n");	 
-  fprintf(f, "                  double *Gi,\n");
-  fprintf(f, "                  double *Gj,\n");
-  fprintf(f, "                  int stG, \n");
-  fprintf(f, "                  int ldG, \n");
-  fprintf(f, "                  double *weights) {\n");
-
-  fprintf(f, "   shell_pair shpair;\n");
-  fprintf(f, "   // Account for permutational symmetry in kernels\n");
-  fprintf(f, "   if( shell_list[i].L >= shell_list[j].L )\n");
-  fprintf(f, "     generate_shell_pair(shell_list[i], shell_list[j], shpair);\n");
-  fprintf(f, "   else\n");
-  fprintf(f, "     generate_shell_pair(shell_list[j], shell_list[i], shpair);\n\n");
-  fprintf(f, "   if (i == j) {\n");
-  fprintf(f, "      int lA = shell_list[i].L;\n");
-  fprintf(f, "\n");
-  fprintf(f, "      if(lA == %d) {\n", 0);
-  fprintf(f, "         integral_%d(npts,\n", 0);
-//fprintf(f, "                    shell_list[i],\n");
-  fprintf(f, "                    shpair,\n");
-  fprintf(f, "                    points,\n");
-  fprintf(f, "                    Xi,\n");
-  fprintf(f, "                    stX,\n");
-  fprintf(f, "                    ldX,\n");
-  fprintf(f, "                    Gi,\n");
-  fprintf(f, "                    stG, \n");
-  fprintf(f, "                    ldG, \n");
-  fprintf(f, "                    weights);\n");	   
-  fprintf(f, "      } else ");
-
-  for(int i = 1; i <= lA; ++i) {
-    fprintf(f, "if(lA == %d) {\n", i);
-    fprintf(f, "        integral_%d(npts,\n", i);
-//  fprintf(f, "                   shell_list[i],\n");
-    fprintf(f, "                   shpair,\n");
-    fprintf(f, "                   points,\n");
-    fprintf(f, "                   Xi,\n");
-    fprintf(f, "                   stX,\n");
-    fprintf(f, "                   ldX,\n");
-    fprintf(f, "                   Gi,\n");
-    fprintf(f, "                   stG, \n");
-    fprintf(f, "                   ldG, \n");
-    fprintf(f, "                   weights);\n");
-    fprintf(f, "      } else ");
-  }
-
-  fprintf(f, "{\n");
-  fprintf(f, "         printf(\"Type not defined!\\n\");\n");
-  fprintf(f, "      }\n");  
-  fprintf(f, "   } else {\n");
-  fprintf(f, "      int lA = shell_list[i].L;\n");
-  fprintf(f, "      int lB = shell_list[j].L;\n");
-  fprintf(f, "\n");
-  fprintf(f, "      if((lA == %d) && (lB == %d)) {\n", 0, 0);
-  fprintf(f, "         integral_%d_%d(npts,\n", 0, 0);
-//fprintf(f, "                      shell_list[i],\n");
-//fprintf(f, "                      shell_list[j],\n");
-  fprintf(f, "                      shpair,\n");
-  fprintf(f, "                      points,\n");
-  fprintf(f, "                      Xi,\n");
-  fprintf(f, "                      Xj,\n");
-  fprintf(f, "                      stX,\n");
-  fprintf(f, "                      ldX,\n");
-  fprintf(f, "                      Gi,\n");
-  fprintf(f, "                      Gj,\n");
-  fprintf(f, "                      stG, \n");
-  fprintf(f, "                      ldG, \n");
-  fprintf(f, "                      weights);\n");	   
-  fprintf(f, "      } else ");
-
-  for(int i = 1; i <= lA; ++i) {
-    for(int j = 0; j < i; ++j) {
-      fprintf(f, "if((lA == %d) && (lB == %d)) {\n", i, j);
-      fprintf(f, "            integral_%d_%d(npts,\n", i, j);
-    //fprintf(f, "                         shell_list[i],\n");
-    //fprintf(f, "                         shell_list[j],\n");
-      fprintf(f, "                         shpair,\n");
-      fprintf(f, "                         points,\n");
-      fprintf(f, "                         Xi,\n");
-      fprintf(f, "                         Xj,\n");
-      fprintf(f, "                         stX,\n");
-      fprintf(f, "                         ldX,\n");
-      fprintf(f, "                         Gi,\n");
-      fprintf(f, "                         Gj,\n");
-      fprintf(f, "                         stG, \n");
-      fprintf(f, "                         ldG, \n");
-      fprintf(f, "                         weights);\n");
-      fprintf(f, "      } else if((lA == %d) && (lB == %d)) {\n", j, i);
-      fprintf(f, "         integral_%d_%d(npts,\n", i, j);
-    //fprintf(f, "                      shell_list[j],\n");
-    //fprintf(f, "                      shell_list[i],\n");
-      fprintf(f, "                      shpair,\n");
-      fprintf(f, "                      points,\n");
-      fprintf(f, "                      Xj,\n");
-      fprintf(f, "                      Xi,\n");
-      fprintf(f, "                      stX,\n");
-      fprintf(f, "                      ldX,\n");
-      fprintf(f, "                      Gj,\n");
-      fprintf(f, "                      Gi,\n");
-      fprintf(f, "                      stG, \n");
-      fprintf(f, "                      ldG, \n");
-      fprintf(f, "                      weights);\n");
-      fprintf(f, "      } else ");
-    }
-
-    fprintf(f, "if((lA == %d) && (lB == %d)) {\n", i, i);
-    fprintf(f, "        integral_%d_%d(npts,\n", i, i);
-  //fprintf(f, "                     shell_list[i],\n");
-  //fprintf(f, "                     shell_list[j],\n");
-    fprintf(f, "                     shpair,\n");
-    fprintf(f, "                     points,\n");
-    fprintf(f, "                     Xi,\n");
-    fprintf(f, "                     Xj,\n");
-    fprintf(f, "                     stX,\n");
-    fprintf(f, "                     ldX,\n");
-    fprintf(f, "                     Gi,\n");
-    fprintf(f, "                     Gj,\n");
-    fprintf(f, "                     stG, \n");
-    fprintf(f, "                     ldG, \n");
-    fprintf(f, "                     weights);\n");
-    fprintf(f, "      } else ");
-  }
-
-  fprintf(f, "{\n");
-  fprintf(f, "         printf(\"Type not defined!\\n\");\n");
-  fprintf(f, "      }\n");
-  fprintf(f, "   }\n");  
-  fprintf(f, "  delete shpair.prim_pairs;\n" );
-  fprintf(f, "}\n");
-  
-  fclose(f);  
-}
-
-int main(int argc, char **argv) {
-  int lA = atoi(argv[1]);
-  int tV = atoi(argv[2]);
-
-  generate_main_files(lA);
-  
-  for(int i = 0; i <= lA; ++i) {
-    for(int j = 0; j <= i; ++j) {
-      int size = 0;
-      for(int l = 0; l < (i + j + 1); ++l) {
-	size += (l + 1) * (l + 2) / 2;
-      }
-  
-      struct node *node_list = (struct node *) malloc(size * sizeof(struct node));
-
-      for(int i = 0; i < size; ++i) {
-	node_list[i].iA = 0;
-	node_list[i].jA = 0;
-	node_list[i].kA = 0;
-    
-	node_list[i].iB = 0;
-	node_list[i].jB = 0;
-	node_list[i].kB = 0;
-    
-	node_list[i].level = 0;
-	node_list[i].vars = 0;
-
-	node_list[i].valid = 0;
-	node_list[i].offset = 0;
-    
-	node_list[i].nr_children = 0;;
-      }
-
-      if(i == j) {
-	generate_diagonal_header_files(i);
-      }
-      
-      generate_off_diagonal_header_files(i, j);
-      
-      int type = ((i + j) <= tV) ? 1 : 0;
-      
-      // initialization part
-      initialize_tree_structure(type, i, j, size, node_list);
-      
-      // vrr construction
-      if(i == j) {
-	char filename[512];
-      
-	sprintf(filename, "integral_%d.cxx", i);
-      
-	FILE *f = fopen(filename, "w");
-
-	generate_diagonal_files(f, i, size, node_list, type);
-
-	fclose(f);
-      }
-
-      char filename[512];
-      
-      sprintf(filename, "integral_%d_%d.cxx", i, j);
-      
-      FILE *f = fopen(filename, "w");
-
-      generate_off_diagonal_files(f, i, j, size, node_list, type);
-
-      fclose(f);
-  
-      free(node_list);
-    }
-  }
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/chebyshev_boys_computation.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/chebyshev_boys_computation.hpp
deleted file mode 100644
index bcafebe..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/chebyshev_boys_computation.hpp
+++ /dev/null
@@ -1,28 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <iostream>
-
-#define DEFAULT_NCHEB  7
-#define DEFAULT_MAX_M  8
-#define DEFAULT_MAX_T 30
-
-#define DEFAULT_NSEGMENT ((DEFAULT_MAX_T * DEFAULT_NCHEB) / 2)
-#define DEFAULT_LD_TABLE (DEFAULT_NCHEB + 1)
-
-namespace XCPU {
-  // create tables  
-  double *boys_init();
-  void boys_finalize(double *boys_table);
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/integral_data_types.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/integral_data_types.hpp
deleted file mode 100644
index bbb5c45..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/integral_data_types.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <cmath>
-#include <gauxc/shell_pair.hpp>
-
-namespace XCPU {
-
-  typedef struct {
-    double x, y, z;
-  } point;
-
-  typedef struct {
-    double alpha, coeff;
-  } coefficients;
-
-  typedef struct {
-    point origin;
-    coefficients *coeff;
-    int m, L;
-  } shells;
-
-#if 0
-  typedef struct {
-    point P;
-    point PA;
-    point PB;
-
-    double K_coeff_prod;
-    double gamma;
-    double gamma_inv;
-  } prim_pair;
-#else
-  using prim_pair = GauXC::PrimitivePair<double>;
-#endif
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/obara_saika_integrals.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/obara_saika_integrals.hpp
deleted file mode 100644
index d056b81..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/include/cpu/obara_saika_integrals.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace XCPU {
-void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs);
-void compute_integral_shell_pair(int is_diag,
-                  size_t npts,
-                  double *points,
-                  int lA,
-                  int lB,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/chebyshev_boys_computation.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/chebyshev_boys_computation.cxx
deleted file mode 100644
index 02b4f76..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/chebyshev_boys_computation.cxx
+++ /dev/null
@@ -1,123 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "cpu/chebyshev_boys_computation.hpp"
-
-#include <gauxc/util/constexpr_math.hpp>
-#include <iostream>
-#include <cmath>
-#include <algorithm>
-#include <numeric>
-#include <limits>
-#include <memory>
-#include <vector>
-
-
-namespace XCPU {
-  double boys_reference(int m, double T) {
-    double denom = m + 0.5;
-    double term  = std::exp(-T) / (2 * denom);
-    double old_term = term;
-    double sum = old_term;
-
-    double eps = std::numeric_limits<double>::epsilon();
-    double eps_10 = eps / 10;
-
-    while( term > sum * eps_10 || old_term < term ) {
-      denom = denom + 1;
-      old_term = term;
-      term = old_term * T / denom;
-      sum = sum + term;
-    }
-
-    return sum;
-  }
-  
-  // create table - so this should be done on the host
-  void cheby_coeff(int m, int ncheb, double a, double b, double* c) {
-    const int n = ncheb+1;
-    const double pi_ov_2n = M_PI / (2 * n);
-    
-    std::vector<double> f_table(n);
-    for( int i = 0; i < n; ++i ) {
-      double x = std::cos( (2.*(i+1)-1) * pi_ov_2n );
-      x = 0.5 * ( a+b + (b-a)*x );
-      f_table[i] = boys_reference(m, x);
-    }
-
-    c[0] = std::accumulate( f_table.begin(), f_table.end(),0. ) / n;
-    for( int i = 1; i < n; ++i ) {
-      double _val = 0.;
-      for( int j = 0; j < n; ++j ) {
-	_val += f_table[j] * std::cos( i * (2*(j+1)-1) * pi_ov_2n );
-      }
-      c[i] = 2.0 * _val / n;
-    }
-  }
-
-  void cheby_to_monomial_coeff( int ncheb, double *coeff ) {
-    const int n = ncheb+1;
-    int64_t i_fact = 1;
-    int64_t t_fact = 1;
-    for(int i = 0; i < n; ++i) {
-      if(i)     i_fact *= i;
-      if(i > 1) t_fact *= 2;
-
-      double _val = 0;
-      if(!i) {
-	int m1_fact = 1;
-	for( int j = i; j < n; j += 2 ) {
-	  _val += m1_fact * coeff[j];
-	  m1_fact *= -1;
-	}
-      } else {
-	int m1_term = 1;
-	for( int j = i; j < n; j += 2 ) {
-	  const int f_up = (i+j)/2 - 1;
-	  const int f_lo = (j-i)/2;
-	  int f_term = 1;
-	  for( int k = f_lo+1; k <= f_up; ++k ) f_term *= k;
-	  _val += t_fact * j * m1_term * double(f_term) / double(i_fact) * coeff[j];
-	  m1_term *= -1;
-	}
-
-      }
-      coeff[i] = _val;
-    }
-  }
-  
-  void generate_boys_table(int ncheb, int maxM, double maxT, int nseg, double* cheb_coeff_table, int ld) {
-    const double deltaT = maxT / nseg;
-    for( int m = 0; m <= maxM; ++m ) {
-      double* coeff_m = cheb_coeff_table + m * ld * nseg; // table offset for current m
-      for( int iseg = 0; iseg < nseg; ++iseg ) {
-	double* coeff_seg = coeff_m + iseg * ld;
-
-	const double a = iseg * deltaT;
-	const double b = a + deltaT;
-
-	cheby_coeff( m, ncheb, a, b, coeff_seg ); // Generate coeff in Chebyshev basis
-	cheby_to_monomial_coeff( ncheb, coeff_seg );   // Convert to monomial basis
-      }
-    }
-  }
-
-  double *boys_init() {
-    double *boys_table = (double*) malloc(DEFAULT_LD_TABLE * DEFAULT_NSEGMENT * (DEFAULT_MAX_M + 1) * sizeof(double));
-    generate_boys_table(DEFAULT_NCHEB, DEFAULT_MAX_M, DEFAULT_MAX_T, DEFAULT_NSEGMENT, boys_table, DEFAULT_LD_TABLE);
-
-    return boys_table;
-  }
-  
-  void boys_finalize(double *boys_table) {
-    free(boys_table);
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/config_obara_saika.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/config_obara_saika.hpp
deleted file mode 100644
index 8b7cee2..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/config_obara_saika.hpp
+++ /dev/null
@@ -1,292 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/util/constexpr_math.hpp>
-
-#define NPTS_LOCAL 64
-
-#define DEFAULT_NCHEB  7
-#define DEFAULT_MAX_M  8
-#define DEFAULT_MAX_T 30
-
-#define DEFAULT_NSEGMENT ((DEFAULT_MAX_T * DEFAULT_NCHEB) / 2)
-#define DEFAULT_LD_TABLE (DEFAULT_NCHEB + 1)
-
-namespace XCPU {
-
-  constexpr double shpair_screen_tol = 1e-12;
-
-  template <int M>
-  inline void boys_element(double *T, double *T_inv_e, double *eval, double *boys_table) {
-    if((*T) < DEFAULT_MAX_T) {
-      if constexpr (M == 0) {
-	const double sqrt_t = std::sqrt((*T));
-	const double inv_sqrt_t = 1./sqrt_t;
-	*(T_inv_e) = 0.0;
-	*(eval) = GauXC::constants::sqrt_pi_ov_2<> * std::erf(sqrt_t) * inv_sqrt_t;
-      } else {
-	const double* boys_m = (boys_table + M * DEFAULT_LD_TABLE * DEFAULT_NSEGMENT);
-	constexpr double deltaT = double(DEFAULT_MAX_T) / DEFAULT_NSEGMENT;
-	constexpr double one_over_deltaT = 1 / deltaT;
-	
-	int iseg = std::floor((*T) * one_over_deltaT);
-	const double* boys_seg = boys_m + iseg * DEFAULT_LD_TABLE;
-	
-	const double ratio = (2 * iseg + 1);
-	const double fact  = 2.0 / deltaT;
-	
-	double xt = (*T) * fact - ratio;
-
-	double _rec = 1.0;
-	double _val = boys_seg[0];
-	
-	for(int i = 1; i < DEFAULT_NCHEB + 1; ++i) {
-	  _rec = _rec * xt;
-	  _val += _rec * boys_seg[i];
-	}
-
-	*(T_inv_e) = 0.5 * std::exp(-(*T));
-	*(eval) = _val;
-      }
-    } else {
-      const double t_inv = 1./(*T);
-      //double _val = GauXC::constants::sqrt_pi_ov_2<> * std::sqrt(t_inv);
-      double _val = GauXC::constants::sqrt_pi_ov_2<> * GauXC::rsqrt(*T);
-    
-      for(int i = 1; i < M + 1; ++i) {
-	_val *= ((i - 0.5) * t_inv);
-      }
-
-      *(T_inv_e) = 0.0;
-      *(eval) = _val;
-    }
-  }
-
-  template <int M>
-  inline void boys_elements(size_t npts, double* T, double *T_inv_e, double* eval, double *boys_table) {    
-    for(size_t i = 0; i < npts; ++i) {
-      if(T[i] < DEFAULT_MAX_T) {
-	if constexpr (M == 0) {
-	  const double sqrt_t = std::sqrt(T[i]);
-	  const double inv_sqrt_t = 1./sqrt_t;
-	  
-	  T_inv_e[i] = 0.0;
-	  eval[i] = GauXC::constants::sqrt_pi_ov_2<> * std::erf(sqrt_t) * inv_sqrt_t;
-	} else {
-	  const double* boys_m = (boys_table + M * DEFAULT_LD_TABLE * DEFAULT_NSEGMENT);
-	  constexpr double deltaT = double(DEFAULT_MAX_T) / DEFAULT_NSEGMENT;
-	  constexpr double one_over_deltaT = 1 / deltaT;
-
-	  int iseg = std::floor(T[i] * one_over_deltaT);
-	  const double* boys_seg = boys_m + iseg * DEFAULT_LD_TABLE;
-	  
-	  const double ratio = (2 * iseg + 1);
-	  const double fact  = 2.0 / deltaT;
-	  
-	  double xt = fact * T[i] - ratio;
-	  double _rec = 1.0;
-	  double _val = boys_seg[0];
-	  for(int j = 1; j < DEFAULT_NCHEB + 1; ++j) {
-	    _rec = _rec * xt;
-	    _val += _rec * boys_seg[j];
-	  }
-
-	  T_inv_e[i] = 0.5 * std::exp(-T[i]);
-	  eval[i] = _val;
-	}
-      } else {
-	const double t_inv = 1./T[i];
-	//double _val = GauXC::constants::sqrt_pi_ov_2<> * std::sqrt(t_inv);
-    double _val = GauXC::constants::sqrt_pi_ov_2<> * GauXC::rsqrt(T[i]);
-      
-	for(int j = 1; j < M + 1; ++j) {
-	  _val *= ((j - 0.5) * t_inv);
-	}
-
-	T_inv_e[i] = 0.0;
-	eval[i] = _val;
-      }
-    }
-  }
-
-
-  inline double boys_element_0( double T ) {
-    if( T > 26.0 ) {
-      return 0.88622692545275801364 * GauXC::rsqrt(T);
-    } else if( T < 13.0 ) {
-      const auto exp_t = exp( - T * 0.33333333333333333333 );
-
-      double b =  4.014103057876808e-23;
-      b = fma( T, b, -5.822235306869006e-21 );
-      b = fma( T, b,  4.093796011592500e-19 );
-      b = fma( T, b, -1.869382772172656e-17 );
-      b = fma( T, b,  6.338163538927402e-16 );
-      b = fma( T, b, -1.721896819094452e-14 );
-      b = fma( T, b,  3.984232174194261e-13 );
-      b = fma( T, b, -8.072677948936458e-12 );
-      b = fma( T, b,  1.489767929273334e-10 );
-      b = fma( T, b, -2.441928489146782e-09 );
-      b = fma( T, b,  3.780445468547986e-08 );
-      b = fma( T, b, -4.872128794416657e-07 );
-      b = fma( T, b,  6.455920003140367e-06 );
-      b = fma( T, b, -5.700739807688489e-05 );
-      b = fma( T, b,  7.054673174084430e-04 );
-      b = fma( T, b, -2.821869460954601e-03 );
-      b = fma( T, b,  4.444444443709288e-02 );
-      b = fma( T, b,  7.778049953252520e-13 );
-      b = fma( T, b,  9.999999999999863e-01 );
-      return b * exp_t;
-
-    } else {
-      const auto exp_t = exp( - T * 0.33333333333333333333 );
-
-      double b = 1.153599464241947e-26;
-      b = fma( T, b, -4.025061230220665e-24);
-      b = fma( T, b,  6.845330692919496e-22);
-      b = fma( T, b, -7.455104439417363e-20);
-      b = fma( T, b,  5.806227138295288e-18);
-      b = fma( T, b, -3.426510194853584e-16);
-      b = fma( T, b,  1.587043680665803e-14);
-      b = fma( T, b, -5.898342915599428e-13);
-      b = fma( T, b,  1.785040325720807e-11);
-      b = fma( T, b, -4.437916159483046e-10);
-      b = fma( T, b,  9.111870867088944e-09);
-      b = fma( T, b, -1.546337818112499e-07);
-      b = fma( T, b,  2.167268088592726e-06);
-      b = fma( T, b, -2.490299656562666e-05);
-      b = fma( T, b,  2.335812755969758e-04);
-      b = fma( T, b, -1.744532113923084e-03);
-      b = fma( T, b,  1.048354410615184e-02);
-      b = fma( T, b, -4.539934464926983e-02);
-      b = fma( T, b,  1.754968961724573e-01);
-      b = fma( T, b, -2.542050397037139e-01);
-      b = fma( T, b,  1.233675832421592e+00);
-      return b * exp_t;
-    }
-  }
-  inline void boys_elements_0( int npts, const double* T, double* FmT ) {
-    for(int i = 0; i < npts; ++i) FmT[i] = boys_element_0(T[i]);
-  }
-
-}
-
-// Scalar types
-#define SCALAR_TYPE double
-#define SCALAR_LENGTH 1
-
-#define SCALAR_SET1(x) (x)
-
-#define SCALAR_LOAD(x) *(x)
-#define SCALAR_STORE(x, y) *(x) = y
-
-#define SCALAR_ADD(x, y) (x + y)
-#define SCALAR_SUB(x, y) (x - y)
-
-#define SCALAR_MUL(x, y) (x * y)
-#define SCALAR_FMA(x, y, z) (z + x * y)
-#define SCALAR_FNMA(x, y, z) (z - x * y)
-
-#define SCALAR_RECIPROCAL(x) (1.0 / (1.0 * x))
-
-#define SCALAR_DUPLICATE(x) (*(x))
-
-// AVX-512 SIMD Types
-#if __AVX512F__ && __has_include(<zmmintrin.h>)
-
-  #include <zmmintrin.h>
-  
-  #define SIMD_TYPE __m512d
-  
-  #define SIMD_LENGTH 8
-  
-  #define SIMD_ZERO() _mm512_setzero_pd()
-  #define SIMD_SET1(x) _mm512_set1_pd(x)
-  
-  #define SIMD_ALIGNED_LOAD(x) _mm512_load_pd(x)
-  #define SIMD_UNALIGNED_LOAD(x) _mm512_loadu_pd(x)
-  
-  #define SIMD_ALIGNED_STORE(x, y) _mm512_store_pd(x, y)
-  #define SIMD_UNALIGNED_STORE(x, y) _mm512_storeu_pd(x, y)
-  
-  #define SIMD_ADD(x, y) _mm512_add_pd(x, y)
-  #define SIMD_SUB(x, y) _mm512_sub_pd(x, y)
-  
-  #define SIMD_MUL(x, y) _mm512_mul_pd(x, y)
-  #define SIMD_FMA(x, y, z) _mm512_fmadd_pd(x, y, z)
-  #define SIMD_FNMA(x, y, z) _mm512_fnmadd_pd(x, y, z)
-  
-  #define SIMD_DUPLICATE(x) _mm512_broadcast_f64x4(_mm256_broadcast_sd(x))
-
-// AVX-256 SIMD Types
-#elif __AVX__ || __AVX2__
-
-  #include <immintrin.h>
-  
-  #define SIMD_TYPE __m256d
-  
-  #define SIMD_LENGTH 4
-  
-  #define SIMD_ZERO() _mm256_setzero_pd()
-  #define SIMD_SET1(x) _mm256_set1_pd(x)
-  
-  #define SIMD_ALIGNED_LOAD(x) _mm256_load_pd(x)
-  #define SIMD_UNALIGNED_LOAD(x) _mm256_loadu_pd(x)
-  
-  #define SIMD_ALIGNED_STORE(x, y) _mm256_store_pd(x, y)
-  #define SIMD_UNALIGNED_STORE(x, y) _mm256_storeu_pd(x, y)
-  
-  #define SIMD_ADD(x, y) _mm256_add_pd(x, y)
-  #define SIMD_SUB(x, y) _mm256_sub_pd(x, y)
-  
-  #define SIMD_MUL(x, y) _mm256_mul_pd(x, y)
-  #define SIMD_FMA(x, y, z) _mm256_fmadd_pd(x, y, z)
-  #define SIMD_FNMA(x, y, z) _mm256_fnmadd_pd(x, y, z)
-  
-  #define SIMD_DUPLICATE(x) _mm256_broadcast_sd(x)
-
-// Scalar SIMD Emulation
-#else
-  #define SIMD_TYPE double
-  
-  #define SIMD_LENGTH 1
-  
-  #define SIMD_ZERO() 0.0
-  #define SIMD_SET1(x) SCALAR_SET1(x)
-  
-  #define SIMD_ALIGNED_LOAD(x) SCALAR_LOAD(x)
-  #define SIMD_UNALIGNED_LOAD(x) SCALAR_LOAD(x)
-  
-  #define SIMD_ALIGNED_STORE(x, y) SCALAR_STORE(x, y)
-  #define SIMD_UNALIGNED_STORE(x, y) SCALAR_STORE(x, y)
-  
-  #define SIMD_ADD(x, y) SCALAR_ADD(x, y)
-  #define SIMD_SUB(x, y) SCALAR_SUB(x, y)
-  
-  #define SIMD_MUL(x, y) SCALAR_MUL(x, y)
-  #define SIMD_FMA(x, y, z) SCALAR_FMA(x, y, z)
-  #define SIMD_FNMA(x, y, z) SCALAR_FNMA(x, y, z)
-  
-  #define SIMD_DUPLICATE(x) SCALAR_DUPLICATE(x)
-
-#endif
-
-#if 0
-#ifdef X86_SCALAR
-#elif defined(X86_SSE)
-#elif defined(X86_AVX)
-#elif defined(X86_AVX512)
-#else
-  #error "That ISA is not recognized!!!\n"
-#endif
-#endif
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0.cxx
deleted file mode 100644
index c64d2d5..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0.cxx
+++ /dev/null
@@ -1,220 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_0.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_0(size_t npts,
-               double *_points,
-               point rA,
-               point /*rB*/,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights,
-               double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[1 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 1 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 1 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 1 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 1 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<0>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE tx, t00;
-
-            t00 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t00);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-      }
-   }
-
-   // cleanup code
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 1 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<0>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE tx, t00;
-
-            t00 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t00);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE tx, t00;
-
-            t00 = SCALAR_LOAD((FmT + p_inner));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t00);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SCALAR_TYPE tx, wg, xik, gik;
-         tx  = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0.hpp
deleted file mode 100644
index 5db799b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0.hpp
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_0
-#define __MY_INTEGRAL_0
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_0(size_t npts,
-               double *points,
-               point rA,
-               point rB,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights, 
-               double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0_0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0_0.cxx
deleted file mode 100644
index 6971c1a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0_0.cxx
+++ /dev/null
@@ -1,264 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_0_0.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_0_0(size_t npts,
-                  double *_points,
-                  point /*rA*/,
-                  point /*rB*/,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double * /*boys_table*/) {
-   __attribute__((__aligned__(64))) double buffer[1 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 1 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-  // double *Tval_inv_e = (buffer + 1 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 1 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 1 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         //boys_elements<0>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-         boys_elements_0(NPTS_LOCAL,Tval,FmT); 
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE tx, t00;
-
-            t00 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t00);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 1 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         //boys_elements<0>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-         boys_elements_0(NPTS_LOCAL,Tval,FmT); 
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE tx, t00;
-
-            t00 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t00);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE tx, t00;
-
-            t00 = SCALAR_LOAD((FmT + p_inner));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t00);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0_0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0_0.hpp
deleted file mode 100644
index 95f3db8..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_0_0.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_0_0
-#define __MY_INTEGRAL_0_0
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_0_0(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1.cxx
deleted file mode 100644
index 3638d86..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1.cxx
+++ /dev/null
@@ -1,671 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_1.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_1(size_t npts,
-               double *_points,
-               point rA,
-               point /*rB*/,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights,
-               double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[9 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 9 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 9 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 9 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 9 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<2>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-      }
-   }
-
-   // cleanup code
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 9 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<2>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SCALAR_LOAD((FmT + p_inner));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SCALAR_TYPE tx, wg, xik, gik;
-         tx  = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1.hpp
deleted file mode 100644
index 2650881..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1.hpp
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_1
-#define __MY_INTEGRAL_1
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_1(size_t npts,
-               double *points,
-               point rA,
-               point rB,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights, 
-               double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_0.cxx
deleted file mode 100644
index d0e6554..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_0.cxx
+++ /dev/null
@@ -1,403 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_1_0.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_1_0(size_t npts,
-                  double *_points,
-                  point /*rA*/,
-                  point /*rB*/,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[3 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double * __restrict__ temp       = (buffer + 0);
-   double * __restrict__ Tval       = (buffer + 3 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double * __restrict__ Tval_inv_e = (buffer + 3 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double * __restrict__ FmT        = (buffer + 3 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 3 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<1>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, t00, t01, t10;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t01 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 3 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<1>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, t00, t01, t10;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t01 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, t00, t01, t10;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t01 = SCALAR_LOAD((FmT + p_inner));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_0.hpp
deleted file mode 100644
index 5e6df7c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_0.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_1_0
-#define __MY_INTEGRAL_1_0
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_1_0(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_1.cxx
deleted file mode 100644
index ee58d18..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_1.cxx
+++ /dev/null
@@ -1,1079 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_1_1.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_1_1(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[9 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 9 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 9 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 9 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 9 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<2>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 9 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<2>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t10);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SCALAR_LOAD((FmT + p_inner));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t10);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_1.hpp
deleted file mode 100644
index 3f06119..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_1_1.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_1_1
-#define __MY_INTEGRAL_1_1
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_1_1(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2.cxx
deleted file mode 100644
index 035be5b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2.cxx
+++ /dev/null
@@ -1,2264 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_2(size_t npts,
-               double *_points,
-               point rA,
-               point /*rB*/,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights,
-               double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[31 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 31 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 31 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 31 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 31 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-      }
-   }
-
-   // cleanup code
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 31 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SCALAR_LOAD((FmT + p_inner));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SCALAR_TYPE tx, wg, xik, gik;
-         tx  = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2.hpp
deleted file mode 100644
index 187e166..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2.hpp
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_2
-#define __MY_INTEGRAL_2
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_2(size_t npts,
-               double *points,
-               point rA,
-               point rB,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights, 
-               double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_0.cxx
deleted file mode 100644
index 0343e66..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_0.cxx
+++ /dev/null
@@ -1,618 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2_0.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_2_0(size_t npts,
-                  double *_points,
-                  point /*rA*/,
-                  point /*rB*/,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[6 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 6 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 6 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 6 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 6 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<2>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 6 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<2>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t10, t11, t20;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t02 = SCALAR_LOAD((FmT + p_inner));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_0.hpp
deleted file mode 100644
index a641b32..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_0.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_2_0
-#define __MY_INTEGRAL_2_0
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_2_0(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_1.cxx
deleted file mode 100644
index 6904c15..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_1.cxx
+++ /dev/null
@@ -1,1910 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2_1.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_2_1(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[16 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 16 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 16 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 16 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 16 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<3>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t10, t11, t12, t20, t21, t30;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t03 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 16 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<3>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t10, t11, t12, t20, t21, t30;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t03 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t10, t11, t12, t20, t21, t30;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t03 = SCALAR_LOAD((FmT + p_inner));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_1.hpp
deleted file mode 100644
index 6d7beb1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_1.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_2_1
-#define __MY_INTEGRAL_2_1
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_2_1(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_2.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_2.cxx
deleted file mode 100644
index dbd9f50..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_2.cxx
+++ /dev/null
@@ -1,5366 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_2_2.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_2_2(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[31 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 31 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 31 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 31 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 31 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 31 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-         if(std::abs(eval) < shpair_screen_tol) continue;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t20);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SCALAR_LOAD((FmT + p_inner));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t20);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_2.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_2.hpp
deleted file mode 100644
index faf5b12..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_2_2.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_2_2
-#define __MY_INTEGRAL_2_2
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_2_2(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3.cxx
deleted file mode 100644
index c3faf7f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3.cxx
+++ /dev/null
@@ -1,6287 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_3.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_3(size_t npts,
-               double *_points,
-               point rA,
-               point /*rB*/,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights,
-               double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[74 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 74 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 74 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 74 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 74 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<6>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-      }
-   }
-
-   // cleanup code
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 74 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<6>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SCALAR_LOAD((FmT + p_inner));
-            t05 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t06), tval_inv_e), SCALAR_SET1(0.18181818181818182323));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t06 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t06);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t05);
-            t15 = SCALAR_FNMA(X_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t14);
-            t24 = SCALAR_FNMA(X_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t23);
-            t33 = SCALAR_FNMA(X_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t32);
-            t42 = SCALAR_FNMA(X_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t41);
-            t51 = SCALAR_FNMA(X_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t50);
-            t60 = SCALAR_FNMA(X_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t05);
-            t15 = SCALAR_FNMA(Y_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t05);
-            t15 = SCALAR_FNMA(Z_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SCALAR_TYPE tx, wg, xik, gik;
-         tx  = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3.hpp
deleted file mode 100644
index 3e8cb07..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3.hpp
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_3
-#define __MY_INTEGRAL_3
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_3(size_t npts,
-               double *points,
-               point rA,
-               point rB,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights, 
-               double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_0.cxx
deleted file mode 100644
index 44c3542..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_0.cxx
+++ /dev/null
@@ -1,1000 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_3_0.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_3_0(size_t npts,
-                  double *_points,
-                  point /*rA*/,
-                  point /*rB*/,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[10 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 10 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 10 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 10 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 10 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<3>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t10, t11, t12, t20, t21, t30;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t03 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 10 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<3>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t10, t11, t12, t20, t21, t30;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t03 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t10, t11, t12, t20, t21, t30;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t03 = SCALAR_LOAD((FmT + p_inner));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_0.hpp
deleted file mode 100644
index 7211ec7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_0.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_3_0
-#define __MY_INTEGRAL_3_0
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_3_0(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_1.cxx
deleted file mode 100644
index 197e948..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_1.cxx
+++ /dev/null
@@ -1,3147 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_3_1.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_3_1(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[25 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 25 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 25 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 25 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 25 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 25 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SCALAR_LOAD((FmT + p_inner));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_1.hpp
deleted file mode 100644
index 106a4f1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_1.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_3_1
-#define __MY_INTEGRAL_3_1
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_3_1(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_2.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_2.cxx
deleted file mode 100644
index 7c4a2ec..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_2.cxx
+++ /dev/null
@@ -1,8763 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_3_2.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_3_2(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[46 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 46 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 46 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 46 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 46 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<5>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t10, t11, t12, t13, t14, t20, t21, t22, t23, t30, t31, t32, t40, t41, t50;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t05 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 46 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<5>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t10, t11, t12, t13, t14, t20, t21, t22, t23, t30, t31, t32, t40, t41, t50;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t05 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t10, t11, t12, t13, t14, t20, t21, t22, t23, t30, t31, t32, t40, t41, t50;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t05 = SCALAR_LOAD((FmT + p_inner));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_2.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_2.hpp
deleted file mode 100644
index a69ba83..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_2.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_3_2
-#define __MY_INTEGRAL_3_2
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_3_2(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_3.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_3.cxx
deleted file mode 100644
index 251de89..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_3.cxx
+++ /dev/null
@@ -1,21084 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_3_3.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_3_3(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[74 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 74 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 74 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 74 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 74 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<6>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 74 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<6>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t30);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SCALAR_LOAD((FmT + p_inner));
-            t05 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t06), tval_inv_e), SCALAR_SET1(0.18181818181818182323));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t06 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t06);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t05);
-            t15 = SCALAR_FNMA(X_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t14);
-            t24 = SCALAR_FNMA(X_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t23);
-            t33 = SCALAR_FNMA(X_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t32);
-            t42 = SCALAR_FNMA(X_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t41);
-            t51 = SCALAR_FNMA(X_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t50);
-            t60 = SCALAR_FNMA(X_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t05);
-            t15 = SCALAR_FNMA(Y_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t05);
-            t15 = SCALAR_FNMA(Z_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t30);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_3.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_3.hpp
deleted file mode 100644
index 0fc00c9..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_3_3.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_3_3
-#define __MY_INTEGRAL_3_3
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_3_3(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4.cxx
deleted file mode 100644
index 67a9cac..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4.cxx
+++ /dev/null
@@ -1,14435 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_4.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_4(size_t npts,
-               double *_points,
-               point rA,
-               point /*rB*/,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights,
-               double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[145 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 145 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 145 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 145 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 145 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<8>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t08, t10, t11, t12, t13, t14, t15, t16, t17, t20, t21, t22, t23, t24, t25, t26, t30, t31, t32, t33, t34, t35, t40, t41, t42, t43, t44, t50, t51, t52, t53, t60, t61, t62, t70, t71, t80;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t08 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t07 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t08), tval_inv_e), SIMD_SET1(0.13333333333333333148));
-            t06 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t07), tval_inv_e), SIMD_SET1(0.15384615384615385469));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t07 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t07);
-            t08 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t08);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t06);
-            t16 = SIMD_FNMA(X_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t07);
-            t17 = SIMD_FNMA(X_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t15);
-            t25 = SIMD_FNMA(X_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t16);
-            t26 = SIMD_FNMA(X_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t24);
-            t34 = SIMD_FNMA(X_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t25);
-            t35 = SIMD_FNMA(X_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t33);
-            t43 = SIMD_FNMA(X_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t34);
-            t44 = SIMD_FNMA(X_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t42);
-            t52 = SIMD_FNMA(X_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t43);
-            t53 = SIMD_FNMA(X_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t51);
-            t61 = SIMD_FNMA(X_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t52);
-            t62 = SIMD_FNMA(X_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t60);
-            t70 = SIMD_FNMA(X_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t61);
-            t71 = SIMD_FNMA(X_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t70);
-            t80 = SIMD_FNMA(X_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 100 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 101 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 102 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 103 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 104 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 105 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 106 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 107 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 108 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 109 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 110 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 111 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 112 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 113 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 114 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 115 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 116 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 117 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 118 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 119 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 120 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 121 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 122 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 123 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 124 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 125 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 126 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 127 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 128 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 129 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 130 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 131 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 132 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 133 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 134 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 135 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t06);
-            t16 = SIMD_FNMA(Y_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t07);
-            t17 = SIMD_FNMA(Y_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 136 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 137 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 138 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 139 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 140 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 141 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 142 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 143 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t06);
-            t16 = SIMD_FNMA(Z_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t07);
-            t17 = SIMD_FNMA(Z_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 144 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-      }
-   }
-
-   // cleanup code
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double xA = rA.x;
-      double yA = rA.y;
-      double zA = rA.z;
-
-      for(int i = 0; i < 145 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = 1.0 / RHO;
-
-         constexpr double X_PA = 0.0;
-         constexpr double Y_PA = 0.0;
-         constexpr double Z_PA = 0.0;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<8>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xA)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yA)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zA)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t08, t10, t11, t12, t13, t14, t15, t16, t17, t20, t21, t22, t23, t24, t25, t26, t30, t31, t32, t33, t34, t35, t40, t41, t42, t43, t44, t50, t51, t52, t53, t60, t61, t62, t70, t71, t80;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t08 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t07 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t08), tval_inv_e), SIMD_SET1(0.13333333333333333148));
-            t06 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t07), tval_inv_e), SIMD_SET1(0.15384615384615385469));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t07 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t07);
-            t08 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t08);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t06);
-            t16 = SIMD_FNMA(X_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t07);
-            t17 = SIMD_FNMA(X_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t15);
-            t25 = SIMD_FNMA(X_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t16);
-            t26 = SIMD_FNMA(X_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t24);
-            t34 = SIMD_FNMA(X_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t25);
-            t35 = SIMD_FNMA(X_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t33);
-            t43 = SIMD_FNMA(X_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t34);
-            t44 = SIMD_FNMA(X_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t42);
-            t52 = SIMD_FNMA(X_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t43);
-            t53 = SIMD_FNMA(X_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t51);
-            t61 = SIMD_FNMA(X_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t52);
-            t62 = SIMD_FNMA(X_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t60);
-            t70 = SIMD_FNMA(X_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t61);
-            t71 = SIMD_FNMA(X_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t70);
-            t80 = SIMD_FNMA(X_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 100 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 101 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 102 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 103 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 104 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 105 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 106 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 107 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 108 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 109 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 110 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 111 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 112 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 113 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 114 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 115 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 116 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 117 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 118 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 119 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 120 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 121 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 122 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 123 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 124 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 125 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 126 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 127 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 128 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 129 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 130 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 131 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 132 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 133 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 134 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 135 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t06);
-            t16 = SIMD_FNMA(Y_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t07);
-            t17 = SIMD_FNMA(Y_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 136 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 137 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 138 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 139 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 140 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 141 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 142 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 143 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t06);
-            t16 = SIMD_FNMA(Z_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t07);
-            t17 = SIMD_FNMA(Z_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 144 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xA)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yA)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zA)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t08, t10, t11, t12, t13, t14, t15, t16, t17, t20, t21, t22, t23, t24, t25, t26, t30, t31, t32, t33, t34, t35, t40, t41, t42, t43, t44, t50, t51, t52, t53, t60, t61, t62, t70, t71, t80;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t08 = SCALAR_LOAD((FmT + p_inner));
-            t07 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t08), tval_inv_e), SCALAR_SET1(0.13333333333333333148));
-            t06 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t07), tval_inv_e), SCALAR_SET1(0.15384615384615385469));
-            t05 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t06), tval_inv_e), SCALAR_SET1(0.18181818181818182323));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t06 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t06);
-            t07 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t07);
-            t08 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t08);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t05);
-            t15 = SCALAR_FNMA(X_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t06);
-            t16 = SCALAR_FNMA(X_PC, t07, t16);
-            t17 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t07);
-            t17 = SCALAR_FNMA(X_PC, t08, t17);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t14);
-            t24 = SCALAR_FNMA(X_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t15);
-            t25 = SCALAR_FNMA(X_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t16);
-            t26 = SCALAR_FNMA(X_PC, t17, t26);
-            tx = SCALAR_SUB(t06, t07);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t26 = SCALAR_FMA(tx, ty, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t23);
-            t33 = SCALAR_FNMA(X_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t24);
-            t34 = SCALAR_FNMA(X_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t25);
-            t35 = SCALAR_FNMA(X_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t32);
-            t42 = SCALAR_FNMA(X_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t33);
-            t43 = SCALAR_FNMA(X_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t34);
-            t44 = SCALAR_FNMA(X_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t41);
-            t51 = SCALAR_FNMA(X_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t42);
-            t52 = SCALAR_FNMA(X_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t43);
-            t53 = SCALAR_FNMA(X_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t50);
-            t60 = SCALAR_FNMA(X_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t51);
-            t61 = SCALAR_FNMA(X_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t52);
-            t62 = SCALAR_FNMA(X_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t60);
-            t70 = SCALAR_FNMA(X_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t61);
-            t71 = SCALAR_FNMA(X_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t70);
-            t80 = SCALAR_FNMA(X_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 7);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 100 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 101 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 102 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 103 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 104 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 105 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 106 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 107 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 108 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 109 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 110 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 111 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 112 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 113 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 114 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 115 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 116 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 117 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 118 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 119 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 120 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t25);
-            t35 = SCALAR_FNMA(Y_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 121 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 122 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 123 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 124 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 125 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 126 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 127 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t15);
-            t25 = SCALAR_FNMA(Y_PC, t16, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t16);
-            t26 = SCALAR_FNMA(Y_PC, t17, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t25);
-            t35 = SCALAR_FNMA(Y_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 128 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 129 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 130 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 131 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 132 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 133 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 134 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t16);
-            t26 = SCALAR_FNMA(Z_PC, t17, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 135 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t05);
-            t15 = SCALAR_FNMA(Y_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t06);
-            t16 = SCALAR_FNMA(Y_PC, t07, t16);
-            t17 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t07);
-            t17 = SCALAR_FNMA(Y_PC, t08, t17);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t15);
-            t25 = SCALAR_FNMA(Y_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t16);
-            t26 = SCALAR_FNMA(Y_PC, t17, t26);
-            tx = SCALAR_SUB(t06, t07);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t26 = SCALAR_FMA(tx, ty, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t25);
-            t35 = SCALAR_FNMA(Y_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 7);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 136 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 137 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 138 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 139 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 140 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 141 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 142 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t16);
-            t26 = SCALAR_FNMA(Z_PC, t17, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 143 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t05);
-            t15 = SCALAR_FNMA(Z_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t06);
-            t16 = SCALAR_FNMA(Z_PC, t07, t16);
-            t17 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t07);
-            t17 = SCALAR_FNMA(Z_PC, t08, t17);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t16);
-            t26 = SCALAR_FNMA(Z_PC, t17, t26);
-            tx = SCALAR_SUB(t06, t07);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t26 = SCALAR_FMA(tx, ty, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 7);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 144 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SIMD_TYPE tx, wg, xik, gik;
-         tx  = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), gik);
-         tx  = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-         wg  = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         xik = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         gik = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-
-         tx = SIMD_MUL(tx, wg);
-         gik = SIMD_FMA(tx, xik, gik);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), gik);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-
-         SCALAR_TYPE tx, wg, xik, gik;
-         tx  = SCALAR_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 0 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 1 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 2 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 3 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 4 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 5 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 6 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 7 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 8 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 9 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 10 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 11 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 12 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 13 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 0 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 0 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 1 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 1 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 2 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 2 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 3 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 3 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 4 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 4 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 5 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 5 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 6 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 6 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 7 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 7 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 8 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 8 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 9 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 9 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 10 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 10 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 11 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 11 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 12 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 12 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 13 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 13 * ldG), gik);
-         tx  = SCALAR_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-         wg  = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         xik = SCALAR_LOAD((Xik + 14 * ldX));
-         gik = SCALAR_LOAD((Gik + 14 * ldG));
-
-         tx = SCALAR_MUL(tx, wg);
-         gik = SCALAR_FMA(tx, xik, gik);
-         SCALAR_STORE((Gik + 14 * ldG), gik);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4.hpp
deleted file mode 100644
index abb9a2b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4.hpp
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_4
-#define __MY_INTEGRAL_4
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_4(size_t npts,
-               double *points,
-               point rA,
-               point rB,
-               int nprim_pairs,
-               prim_pair *prim_pairs,
-               double *Xi,
-               int ldX,
-               double *Gi,
-               int ldG, 
-               double *weights, 
-               double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_0.cxx
deleted file mode 100644
index 1b2f57f..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_0.cxx
+++ /dev/null
@@ -1,1633 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_4_0.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_4_0(size_t npts,
-                  double *_points,
-                  point /*rA*/,
-                  point /*rB*/,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[15 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 15 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 15 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 15 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 15 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-     size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      for(int i = 0; i < 15 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<4>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t10, t11, t12, t13, t20, t21, t22, t30, t31, t40;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t04 = SCALAR_LOAD((FmT + p_inner));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_0.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_0.hpp
deleted file mode 100644
index 590062b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_0.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_4_0
-#define __MY_INTEGRAL_4_0
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_4_0(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_1.cxx
deleted file mode 100644
index 6fefd78..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_1.cxx
+++ /dev/null
@@ -1,4890 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_4_1.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_4_1(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[36 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 36 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 36 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 36 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 36 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<5>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t10, t11, t12, t13, t14, t20, t21, t22, t23, t30, t31, t32, t40, t41, t50;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t05 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 36 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<5>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t10, t11, t12, t13, t14, t20, t21, t22, t23, t30, t31, t32, t40, t41, t50;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t05 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t10, t11, t12, t13, t14, t20, t21, t22, t23, t30, t31, t32, t40, t41, t50;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t05 = SCALAR_LOAD((FmT + p_inner));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_1.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_1.hpp
deleted file mode 100644
index 4f4e71d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_1.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_4_1
-#define __MY_INTEGRAL_4_1
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_4_1(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_2.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_2.cxx
deleted file mode 100644
index 0a88c5d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_2.cxx
+++ /dev/null
@@ -1,13239 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_4_2.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_4_2(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[64 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 64 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 64 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 64 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 64 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<6>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 64 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<6>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t10, t11, t12, t13, t14, t15, t20, t21, t22, t23, t24, t30, t31, t32, t33, t40, t41, t42, t50, t51, t60;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t06 = SCALAR_LOAD((FmT + p_inner));
-            t05 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t06), tval_inv_e), SCALAR_SET1(0.18181818181818182323));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t06 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t06);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t05);
-            t15 = SCALAR_FNMA(X_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t14);
-            t24 = SCALAR_FNMA(X_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t23);
-            t33 = SCALAR_FNMA(X_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t32);
-            t42 = SCALAR_FNMA(X_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t41);
-            t51 = SCALAR_FNMA(X_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t50);
-            t60 = SCALAR_FNMA(X_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t05);
-            t15 = SCALAR_FNMA(Y_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t05);
-            t15 = SCALAR_FNMA(Z_PC, t06, t15);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            tx = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_2.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_2.hpp
deleted file mode 100644
index 2cc5737..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_2.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_4_2
-#define __MY_INTEGRAL_4_2
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_4_2(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_3.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_3.cxx
deleted file mode 100644
index e318e86..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_3.cxx
+++ /dev/null
@@ -1,31434 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_4_3.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_4_3(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[100 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 100 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 100 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 100 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 100 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<7>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t10, t11, t12, t13, t14, t15, t16, t20, t21, t22, t23, t24, t25, t30, t31, t32, t33, t34, t40, t41, t42, t43, t50, t51, t52, t60, t61, t70;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t07 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t06 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t07), tval_inv_e), SIMD_SET1(0.15384615384615385469));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t07 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t07);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t06);
-            t16 = SIMD_FNMA(X_PC, t07, t16);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t15);
-            t25 = SIMD_FNMA(X_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t24);
-            t34 = SIMD_FNMA(X_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t33);
-            t43 = SIMD_FNMA(X_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t42);
-            t52 = SIMD_FNMA(X_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t51);
-            t61 = SIMD_FNMA(X_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t60);
-            t70 = SIMD_FNMA(X_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t06);
-            t16 = SIMD_FNMA(Y_PC, t07, t16);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t06);
-            t16 = SIMD_FNMA(Z_PC, t07, t16);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 100 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<7>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t10, t11, t12, t13, t14, t15, t16, t20, t21, t22, t23, t24, t25, t30, t31, t32, t33, t34, t40, t41, t42, t43, t50, t51, t52, t60, t61, t70;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t07 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t06 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t07), tval_inv_e), SIMD_SET1(0.15384615384615385469));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t07 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t07);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t06);
-            t16 = SIMD_FNMA(X_PC, t07, t16);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t15);
-            t25 = SIMD_FNMA(X_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t24);
-            t34 = SIMD_FNMA(X_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t33);
-            t43 = SIMD_FNMA(X_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t42);
-            t52 = SIMD_FNMA(X_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t51);
-            t61 = SIMD_FNMA(X_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t60);
-            t70 = SIMD_FNMA(X_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t06);
-            t16 = SIMD_FNMA(Y_PC, t07, t16);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t06);
-            t16 = SIMD_FNMA(Z_PC, t07, t16);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            tx = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t10, t11, t12, t13, t14, t15, t16, t20, t21, t22, t23, t24, t25, t30, t31, t32, t33, t34, t40, t41, t42, t43, t50, t51, t52, t60, t61, t70;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t07 = SCALAR_LOAD((FmT + p_inner));
-            t06 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t07), tval_inv_e), SCALAR_SET1(0.15384615384615385469));
-            t05 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t06), tval_inv_e), SCALAR_SET1(0.18181818181818182323));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t06 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t06);
-            t07 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t07);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t05);
-            t15 = SCALAR_FNMA(X_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t06);
-            t16 = SCALAR_FNMA(X_PC, t07, t16);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t14);
-            t24 = SCALAR_FNMA(X_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t15);
-            t25 = SCALAR_FNMA(X_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t23);
-            t33 = SCALAR_FNMA(X_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t24);
-            t34 = SCALAR_FNMA(X_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t32);
-            t42 = SCALAR_FNMA(X_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t33);
-            t43 = SCALAR_FNMA(X_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t41);
-            t51 = SCALAR_FNMA(X_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t42);
-            t52 = SCALAR_FNMA(X_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t50);
-            t60 = SCALAR_FNMA(X_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t51);
-            t61 = SCALAR_FNMA(X_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t60);
-            t70 = SCALAR_FNMA(X_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t15);
-            t25 = SCALAR_FNMA(Y_PC, t16, t25);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t05);
-            t15 = SCALAR_FNMA(Y_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t06);
-            t16 = SCALAR_FNMA(Y_PC, t07, t16);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t15);
-            t25 = SCALAR_FNMA(Y_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t05);
-            t15 = SCALAR_FNMA(Z_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t06);
-            t16 = SCALAR_FNMA(Z_PC, t07, t16);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            tx = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            tx = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_3.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_3.hpp
deleted file mode 100644
index e750cc9..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_3.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_4_3
-#define __MY_INTEGRAL_4_3
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_4_3(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_4.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_4.cxx
deleted file mode 100644
index 5aca482..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_4.cxx
+++ /dev/null
@@ -1,66537 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <math.h>
-#include "../include/cpu/chebyshev_boys_computation.hpp"
-#include "../include/cpu/integral_data_types.hpp"
-#include "config_obara_saika.hpp"
-#include "integral_4_4.hpp"
-
-#define PI 3.14159265358979323846
-
-namespace XCPU {
-void integral_4_4(size_t npts,
-                  double *_points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights,
-                  double *boys_table) {
-   __attribute__((__aligned__(64))) double buffer[145 * NPTS_LOCAL + 3 * NPTS_LOCAL];
-
-   double *temp       = (buffer + 0);
-   double *Tval       = (buffer + 145 * NPTS_LOCAL + 0 * NPTS_LOCAL);
-   double *Tval_inv_e = (buffer + 145 * NPTS_LOCAL + 1 * NPTS_LOCAL);
-   double *FmT        = (buffer + 145 * NPTS_LOCAL + 2 * NPTS_LOCAL);
-
-   size_t npts_upper = NPTS_LOCAL * (npts / NPTS_LOCAL);
-   size_t p_outer = 0;
-   for(p_outer = 0; p_outer < npts_upper; p_outer += NPTS_LOCAL) {
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 145 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<8>(NPTS_LOCAL, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t08, t10, t11, t12, t13, t14, t15, t16, t17, t20, t21, t22, t23, t24, t25, t26, t30, t31, t32, t33, t34, t35, t40, t41, t42, t43, t44, t50, t51, t52, t53, t60, t61, t62, t70, t71, t80;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t08 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t07 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t08), tval_inv_e), SIMD_SET1(0.13333333333333333148));
-            t06 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t07), tval_inv_e), SIMD_SET1(0.15384615384615385469));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t07 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t07);
-            t08 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t08);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t06);
-            t16 = SIMD_FNMA(X_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t07);
-            t17 = SIMD_FNMA(X_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t15);
-            t25 = SIMD_FNMA(X_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t16);
-            t26 = SIMD_FNMA(X_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t24);
-            t34 = SIMD_FNMA(X_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t25);
-            t35 = SIMD_FNMA(X_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t33);
-            t43 = SIMD_FNMA(X_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t34);
-            t44 = SIMD_FNMA(X_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t42);
-            t52 = SIMD_FNMA(X_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t43);
-            t53 = SIMD_FNMA(X_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t51);
-            t61 = SIMD_FNMA(X_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t52);
-            t62 = SIMD_FNMA(X_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t60);
-            t70 = SIMD_FNMA(X_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t61);
-            t71 = SIMD_FNMA(X_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t70);
-            t80 = SIMD_FNMA(X_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 100 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 101 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 102 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 103 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 104 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 105 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 106 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 107 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 108 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 109 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 110 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 111 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 112 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 113 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 114 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 115 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 116 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 117 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 118 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 119 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 120 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 121 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 122 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 123 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 124 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 125 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 126 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 127 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 128 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 129 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 130 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 131 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 132 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 133 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 134 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 135 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t06);
-            t16 = SIMD_FNMA(Y_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t07);
-            t17 = SIMD_FNMA(Y_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 136 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 137 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 138 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 139 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 140 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 141 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 142 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 143 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t06);
-            t16 = SIMD_FNMA(Z_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t07);
-            t17 = SIMD_FNMA(Z_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 144 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      for(size_t p_inner = 0; p_inner < NPTS_LOCAL; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 4, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(4));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 4, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(4));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 4, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(4));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-      }
-   }
-
-   for(; p_outer < npts; p_outer += NPTS_LOCAL) {
-      size_t npts_inner = std::min((size_t) NPTS_LOCAL, npts - p_outer);
-      double *_point_outer = (_points + p_outer);
-
-      double X_AB = rA.x - rB.x;
-      double Y_AB = rA.y - rB.y;
-      double Z_AB = rA.z - rB.z;
-
-      for(int i = 0; i < 145 * NPTS_LOCAL; i += SIMD_LENGTH) SIMD_ALIGNED_STORE((temp + i), SIMD_ZERO());
-
-      for(int ij = 0; ij < nprim_pairs; ++ij) {
-         double RHO = prim_pairs[ij].gamma;
-         double RHO_INV = prim_pairs[ij].gamma_inv;
-         double X_PA = prim_pairs[ij].PA.x;
-         double Y_PA = prim_pairs[ij].PA.y;
-         double Z_PA = prim_pairs[ij].PA.z;
-
-         double xP = prim_pairs[ij].P.x;
-         double yP = prim_pairs[ij].P.y;
-         double zP = prim_pairs[ij].P.z;
-
-         double eval = prim_pairs[ij].K_coeff_prod;
-
-         // Evaluate T Values
-         size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-         size_t p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            X_PC = SIMD_MUL(X_PC, X_PC);
-            X_PC = SIMD_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SIMD_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SIMD_MUL(SIMD_DUPLICATE(&(RHO)), X_PC);
-            SIMD_ALIGNED_STORE((Tval + p_inner), X_PC);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            X_PC = SCALAR_MUL(X_PC, X_PC);
-            X_PC = SCALAR_FMA(Y_PC, Y_PC, X_PC);
-            X_PC = SCALAR_FMA(Z_PC, Z_PC, X_PC);
-            X_PC = SCALAR_MUL(SCALAR_DUPLICATE(&(RHO)), X_PC);
-            SCALAR_STORE((Tval + p_inner), X_PC);
-         }
-
-         // Evaluate Boys function
-         boys_elements<8>(npts_inner, Tval, Tval_inv_e, FmT, boys_table);
-
-         // Evaluate VRR Buffer
-         p_inner = 0;
-         for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-            SIMD_TYPE xC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 0 * npts));
-            SIMD_TYPE yC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 1 * npts));
-            SIMD_TYPE zC = SIMD_UNALIGNED_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SIMD_TYPE X_PC = SIMD_SUB(SIMD_DUPLICATE(&(xP)), xC);
-            SIMD_TYPE Y_PC = SIMD_SUB(SIMD_DUPLICATE(&(yP)), yC);
-            SIMD_TYPE Z_PC = SIMD_SUB(SIMD_DUPLICATE(&(zP)), zC);
-
-            SIMD_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t08, t10, t11, t12, t13, t14, t15, t16, t17, t20, t21, t22, t23, t24, t25, t26, t30, t31, t32, t33, t34, t35, t40, t41, t42, t43, t44, t50, t51, t52, t53, t60, t61, t62, t70, t71, t80;
-
-            tval = SIMD_ALIGNED_LOAD((Tval + p_inner));
-            tval_inv_e = SIMD_ALIGNED_LOAD((Tval_inv_e + p_inner));
-
-            t08 = SIMD_ALIGNED_LOAD((FmT + p_inner));
-            t07 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t08), tval_inv_e), SIMD_SET1(0.13333333333333333148));
-            t06 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t07), tval_inv_e), SIMD_SET1(0.15384615384615385469));
-            t05 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t06), tval_inv_e), SIMD_SET1(0.18181818181818182323));
-            t04 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t05), tval_inv_e), SIMD_SET1(0.22222222222222220989));
-            t03 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t04), tval_inv_e), SIMD_SET1(0.28571428571428569843));
-            t02 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t03), tval_inv_e), SIMD_SET1(0.40000000000000002220));
-            t01 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t02), tval_inv_e), SIMD_SET1(0.66666666666666662966));
-            t00 = SIMD_MUL(SIMD_ADD(SIMD_MUL(tval, t01), tval_inv_e), SIMD_SET1(2.00000000000000000000));
-
-            t00 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t00);
-            t01 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t01);
-            t02 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t02);
-            t03 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t03);
-            t04 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t04);
-            t05 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t05);
-            t06 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t06);
-            t07 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t07);
-            t08 = SIMD_MUL(SIMD_DUPLICATE(&(eval)), t08);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t00);
-            t10 = SIMD_FNMA(X_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t01);
-            t11 = SIMD_FNMA(X_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t02);
-            t12 = SIMD_FNMA(X_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t03);
-            t13 = SIMD_FNMA(X_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t04);
-            t14 = SIMD_FNMA(X_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t05);
-            t15 = SIMD_FNMA(X_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t06);
-            t16 = SIMD_FNMA(X_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t07);
-            t17 = SIMD_FNMA(X_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t10);
-            t20 = SIMD_FNMA(X_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t11);
-            t21 = SIMD_FNMA(X_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t12);
-            t22 = SIMD_FNMA(X_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t13);
-            t23 = SIMD_FNMA(X_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t14);
-            t24 = SIMD_FNMA(X_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t15);
-            t25 = SIMD_FNMA(X_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t16);
-            t26 = SIMD_FNMA(X_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t20);
-            t30 = SIMD_FNMA(X_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t21);
-            t31 = SIMD_FNMA(X_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t22);
-            t32 = SIMD_FNMA(X_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t23);
-            t33 = SIMD_FNMA(X_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t24);
-            t34 = SIMD_FNMA(X_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t25);
-            t35 = SIMD_FNMA(X_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t30);
-            t40 = SIMD_FNMA(X_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t31);
-            t41 = SIMD_FNMA(X_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t32);
-            t42 = SIMD_FNMA(X_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t33);
-            t43 = SIMD_FNMA(X_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t34);
-            t44 = SIMD_FNMA(X_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t40);
-            t50 = SIMD_FNMA(X_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t41);
-            t51 = SIMD_FNMA(X_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t42);
-            t52 = SIMD_FNMA(X_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t43);
-            t53 = SIMD_FNMA(X_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t50);
-            t60 = SIMD_FNMA(X_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t51);
-            t61 = SIMD_FNMA(X_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t52);
-            t62 = SIMD_FNMA(X_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t60);
-            t70 = SIMD_FNMA(X_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t61);
-            t71 = SIMD_FNMA(X_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(X_PA)), t70);
-            t80 = SIMD_FNMA(X_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 100 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 101 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 102 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 103 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 104 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 105 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 106 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 107 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 108 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 109 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 110 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 111 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 112 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 113 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 114 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 115 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 116 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 117 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 118 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 119 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 120 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 121 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 122 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 123 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 124 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 125 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 126 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 127 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 128 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 129 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 130 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 131 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 132 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 133 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 134 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 135 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t00);
-            t10 = SIMD_FNMA(Y_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t01);
-            t11 = SIMD_FNMA(Y_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t02);
-            t12 = SIMD_FNMA(Y_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t03);
-            t13 = SIMD_FNMA(Y_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t04);
-            t14 = SIMD_FNMA(Y_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t05);
-            t15 = SIMD_FNMA(Y_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t06);
-            t16 = SIMD_FNMA(Y_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t07);
-            t17 = SIMD_FNMA(Y_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t10);
-            t20 = SIMD_FNMA(Y_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t11);
-            t21 = SIMD_FNMA(Y_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t12);
-            t22 = SIMD_FNMA(Y_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t13);
-            t23 = SIMD_FNMA(Y_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t14);
-            t24 = SIMD_FNMA(Y_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t15);
-            t25 = SIMD_FNMA(Y_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t16);
-            t26 = SIMD_FNMA(Y_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t20);
-            t30 = SIMD_FNMA(Y_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t21);
-            t31 = SIMD_FNMA(Y_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t22);
-            t32 = SIMD_FNMA(Y_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t23);
-            t33 = SIMD_FNMA(Y_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t24);
-            t34 = SIMD_FNMA(Y_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t25);
-            t35 = SIMD_FNMA(Y_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t30);
-            t40 = SIMD_FNMA(Y_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t31);
-            t41 = SIMD_FNMA(Y_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t32);
-            t42 = SIMD_FNMA(Y_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t33);
-            t43 = SIMD_FNMA(Y_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t34);
-            t44 = SIMD_FNMA(Y_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t40);
-            t50 = SIMD_FNMA(Y_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t41);
-            t51 = SIMD_FNMA(Y_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t42);
-            t52 = SIMD_FNMA(Y_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t43);
-            t53 = SIMD_FNMA(Y_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t50);
-            t60 = SIMD_FNMA(Y_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t51);
-            t61 = SIMD_FNMA(Y_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t52);
-            t62 = SIMD_FNMA(Y_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t60);
-            t70 = SIMD_FNMA(Y_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t61);
-            t71 = SIMD_FNMA(Y_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Y_PA)), t70);
-            t80 = SIMD_FNMA(Y_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 136 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 137 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 138 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 139 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 140 * NPTS_LOCAL + p_inner), tx);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 141 * NPTS_LOCAL + p_inner), tx);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 142 * NPTS_LOCAL + p_inner), tx);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 143 * NPTS_LOCAL + p_inner), tx);
-            t10 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t00);
-            t10 = SIMD_FNMA(Z_PC, t01, t10);
-            t11 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t01);
-            t11 = SIMD_FNMA(Z_PC, t02, t11);
-            t12 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t02);
-            t12 = SIMD_FNMA(Z_PC, t03, t12);
-            t13 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t03);
-            t13 = SIMD_FNMA(Z_PC, t04, t13);
-            t14 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t04);
-            t14 = SIMD_FNMA(Z_PC, t05, t14);
-            t15 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t05);
-            t15 = SIMD_FNMA(Z_PC, t06, t15);
-            t16 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t06);
-            t16 = SIMD_FNMA(Z_PC, t07, t16);
-            t17 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t07);
-            t17 = SIMD_FNMA(Z_PC, t08, t17);
-            t20 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t10);
-            t20 = SIMD_FNMA(Z_PC, t11, t20);
-            tx = SIMD_SUB(t00, t01);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t20 = SIMD_FMA(tx, ty, t20);
-            t21 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t11);
-            t21 = SIMD_FNMA(Z_PC, t12, t21);
-            tx = SIMD_SUB(t01, t02);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t21 = SIMD_FMA(tx, ty, t21);
-            t22 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t12);
-            t22 = SIMD_FNMA(Z_PC, t13, t22);
-            tx = SIMD_SUB(t02, t03);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t22 = SIMD_FMA(tx, ty, t22);
-            t23 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t13);
-            t23 = SIMD_FNMA(Z_PC, t14, t23);
-            tx = SIMD_SUB(t03, t04);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t23 = SIMD_FMA(tx, ty, t23);
-            t24 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t14);
-            t24 = SIMD_FNMA(Z_PC, t15, t24);
-            tx = SIMD_SUB(t04, t05);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t24 = SIMD_FMA(tx, ty, t24);
-            t25 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t15);
-            t25 = SIMD_FNMA(Z_PC, t16, t25);
-            tx = SIMD_SUB(t05, t06);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t25 = SIMD_FMA(tx, ty, t25);
-            t26 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t16);
-            t26 = SIMD_FNMA(Z_PC, t17, t26);
-            tx = SIMD_SUB(t06, t07);
-            ty = SIMD_SET1(0.5 * 1);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t26 = SIMD_FMA(tx, ty, t26);
-            t30 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t20);
-            t30 = SIMD_FNMA(Z_PC, t21, t30);
-            tx = SIMD_SUB(t10, t11);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t30 = SIMD_FMA(tx, ty, t30);
-            t31 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t21);
-            t31 = SIMD_FNMA(Z_PC, t22, t31);
-            tx = SIMD_SUB(t11, t12);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t31 = SIMD_FMA(tx, ty, t31);
-            t32 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t22);
-            t32 = SIMD_FNMA(Z_PC, t23, t32);
-            tx = SIMD_SUB(t12, t13);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t32 = SIMD_FMA(tx, ty, t32);
-            t33 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t23);
-            t33 = SIMD_FNMA(Z_PC, t24, t33);
-            tx = SIMD_SUB(t13, t14);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t33 = SIMD_FMA(tx, ty, t33);
-            t34 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t24);
-            t34 = SIMD_FNMA(Z_PC, t25, t34);
-            tx = SIMD_SUB(t14, t15);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t34 = SIMD_FMA(tx, ty, t34);
-            t35 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t25);
-            t35 = SIMD_FNMA(Z_PC, t26, t35);
-            tx = SIMD_SUB(t15, t16);
-            ty = SIMD_SET1(0.5 * 2);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t35 = SIMD_FMA(tx, ty, t35);
-            t40 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t30);
-            t40 = SIMD_FNMA(Z_PC, t31, t40);
-            tx = SIMD_SUB(t20, t21);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t40 = SIMD_FMA(tx, ty, t40);
-            t41 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t31);
-            t41 = SIMD_FNMA(Z_PC, t32, t41);
-            tx = SIMD_SUB(t21, t22);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t41 = SIMD_FMA(tx, ty, t41);
-            t42 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t32);
-            t42 = SIMD_FNMA(Z_PC, t33, t42);
-            tx = SIMD_SUB(t22, t23);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t42 = SIMD_FMA(tx, ty, t42);
-            t43 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t33);
-            t43 = SIMD_FNMA(Z_PC, t34, t43);
-            tx = SIMD_SUB(t23, t24);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t43 = SIMD_FMA(tx, ty, t43);
-            t44 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t34);
-            t44 = SIMD_FNMA(Z_PC, t35, t44);
-            tx = SIMD_SUB(t24, t25);
-            ty = SIMD_SET1(0.5 * 3);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t44 = SIMD_FMA(tx, ty, t44);
-            tx = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t40);
-            SIMD_ALIGNED_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t40);
-            t50 = SIMD_FNMA(Z_PC, t41, t50);
-            tx = SIMD_SUB(t30, t31);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t50 = SIMD_FMA(tx, ty, t50);
-            t51 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t41);
-            t51 = SIMD_FNMA(Z_PC, t42, t51);
-            tx = SIMD_SUB(t31, t32);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t51 = SIMD_FMA(tx, ty, t51);
-            t52 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t42);
-            t52 = SIMD_FNMA(Z_PC, t43, t52);
-            tx = SIMD_SUB(t32, t33);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t52 = SIMD_FMA(tx, ty, t52);
-            t53 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t43);
-            t53 = SIMD_FNMA(Z_PC, t44, t53);
-            tx = SIMD_SUB(t33, t34);
-            ty = SIMD_SET1(0.5 * 4);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t53 = SIMD_FMA(tx, ty, t53);
-            tx = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t50);
-            SIMD_ALIGNED_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t50);
-            t60 = SIMD_FNMA(Z_PC, t51, t60);
-            tx = SIMD_SUB(t40, t41);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t60 = SIMD_FMA(tx, ty, t60);
-            t61 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t51);
-            t61 = SIMD_FNMA(Z_PC, t52, t61);
-            tx = SIMD_SUB(t41, t42);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t61 = SIMD_FMA(tx, ty, t61);
-            t62 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t52);
-            t62 = SIMD_FNMA(Z_PC, t53, t62);
-            tx = SIMD_SUB(t42, t43);
-            ty = SIMD_SET1(0.5 * 5);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t62 = SIMD_FMA(tx, ty, t62);
-            tx = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t60);
-            SIMD_ALIGNED_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t60);
-            t70 = SIMD_FNMA(Z_PC, t61, t70);
-            tx = SIMD_SUB(t50, t51);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t70 = SIMD_FMA(tx, ty, t70);
-            t71 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t61);
-            t71 = SIMD_FNMA(Z_PC, t62, t71);
-            tx = SIMD_SUB(t51, t52);
-            ty = SIMD_SET1(0.5 * 6);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t71 = SIMD_FMA(tx, ty, t71);
-            tx = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t70);
-            SIMD_ALIGNED_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-            t80 = SIMD_MUL(SIMD_DUPLICATE(&(Z_PA)), t70);
-            t80 = SIMD_FNMA(Z_PC, t71, t80);
-            tx = SIMD_SUB(t60, t61);
-            ty = SIMD_SET1(0.5 * 7);
-            ty = SIMD_MUL(ty, SIMD_DUPLICATE(&(RHO_INV)));
-            t80 = SIMD_FMA(tx, ty, t80);
-            tx = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-            tx = SIMD_ADD(tx, t80);
-            SIMD_ALIGNED_STORE((temp + 144 * NPTS_LOCAL + p_inner), tx);
-         }
-
-         for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-            SCALAR_TYPE xC = SCALAR_LOAD((_point_outer + p_inner + 0 * npts));
-            SCALAR_TYPE yC = SCALAR_LOAD((_point_outer + p_inner + 1 * npts));
-            SCALAR_TYPE zC = SCALAR_LOAD((_point_outer + p_inner + 2 * npts));
-
-            SCALAR_TYPE X_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(xP)), xC);
-            SCALAR_TYPE Y_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(yP)), yC);
-            SCALAR_TYPE Z_PC = SCALAR_SUB(SCALAR_DUPLICATE(&(zP)), zC);
-
-            SCALAR_TYPE tval, tval_inv_e, tx, ty, t00, t01, t02, t03, t04, t05, t06, t07, t08, t10, t11, t12, t13, t14, t15, t16, t17, t20, t21, t22, t23, t24, t25, t26, t30, t31, t32, t33, t34, t35, t40, t41, t42, t43, t44, t50, t51, t52, t53, t60, t61, t62, t70, t71, t80;
-
-            tval = SCALAR_LOAD((Tval + p_inner));
-            tval_inv_e = SCALAR_LOAD((Tval_inv_e + p_inner));
-
-            t08 = SCALAR_LOAD((FmT + p_inner));
-            t07 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t08), tval_inv_e), SCALAR_SET1(0.13333333333333333148));
-            t06 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t07), tval_inv_e), SCALAR_SET1(0.15384615384615385469));
-            t05 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t06), tval_inv_e), SCALAR_SET1(0.18181818181818182323));
-            t04 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t05), tval_inv_e), SCALAR_SET1(0.22222222222222220989));
-            t03 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t04), tval_inv_e), SCALAR_SET1(0.28571428571428569843));
-            t02 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t03), tval_inv_e), SCALAR_SET1(0.40000000000000002220));
-            t01 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t02), tval_inv_e), SCALAR_SET1(0.66666666666666662966));
-            t00 = SCALAR_MUL(SCALAR_ADD(SCALAR_MUL(tval, t01), tval_inv_e), SCALAR_SET1(2.00000000000000000000));
-
-            t00 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t00);
-            t01 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t01);
-            t02 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t02);
-            t03 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t03);
-            t04 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t04);
-            t05 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t05);
-            t06 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t06);
-            t07 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t07);
-            t08 = SCALAR_MUL(SCALAR_DUPLICATE(&(eval)), t08);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t00);
-            t10 = SCALAR_FNMA(X_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t01);
-            t11 = SCALAR_FNMA(X_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t02);
-            t12 = SCALAR_FNMA(X_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t03);
-            t13 = SCALAR_FNMA(X_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t04);
-            t14 = SCALAR_FNMA(X_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t05);
-            t15 = SCALAR_FNMA(X_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t06);
-            t16 = SCALAR_FNMA(X_PC, t07, t16);
-            t17 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t07);
-            t17 = SCALAR_FNMA(X_PC, t08, t17);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t10);
-            t20 = SCALAR_FNMA(X_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t11);
-            t21 = SCALAR_FNMA(X_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t12);
-            t22 = SCALAR_FNMA(X_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t13);
-            t23 = SCALAR_FNMA(X_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t14);
-            t24 = SCALAR_FNMA(X_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t15);
-            t25 = SCALAR_FNMA(X_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t16);
-            t26 = SCALAR_FNMA(X_PC, t17, t26);
-            tx = SCALAR_SUB(t06, t07);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t26 = SCALAR_FMA(tx, ty, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t20);
-            t30 = SCALAR_FNMA(X_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t21);
-            t31 = SCALAR_FNMA(X_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t22);
-            t32 = SCALAR_FNMA(X_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t23);
-            t33 = SCALAR_FNMA(X_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t24);
-            t34 = SCALAR_FNMA(X_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t25);
-            t35 = SCALAR_FNMA(X_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t30);
-            t40 = SCALAR_FNMA(X_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t31);
-            t41 = SCALAR_FNMA(X_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t32);
-            t42 = SCALAR_FNMA(X_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t33);
-            t43 = SCALAR_FNMA(X_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t34);
-            t44 = SCALAR_FNMA(X_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 0 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t40);
-            t50 = SCALAR_FNMA(X_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t41);
-            t51 = SCALAR_FNMA(X_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t42);
-            t52 = SCALAR_FNMA(X_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t43);
-            t53 = SCALAR_FNMA(X_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 15 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t50);
-            t60 = SCALAR_FNMA(X_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t51);
-            t61 = SCALAR_FNMA(X_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t52);
-            t62 = SCALAR_FNMA(X_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 36 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t60);
-            t70 = SCALAR_FNMA(X_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t61);
-            t71 = SCALAR_FNMA(X_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 64 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(X_PA)), t70);
-            t80 = SCALAR_FNMA(X_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 7);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 100 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 101 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 102 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 65 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 103 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 104 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 66 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 105 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 37 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 67 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 106 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 107 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 68 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 108 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 38 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 69 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 109 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 16 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 39 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 70 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 110 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 111 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 71 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 112 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 40 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 72 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 113 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 17 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 41 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 73 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 114 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 1 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 18 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 42 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 74 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 115 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 116 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 75 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 117 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 43 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 76 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 118 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 19 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 44 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 77 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 119 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 2 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 20 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 45 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 78 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 120 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t25);
-            t35 = SCALAR_FNMA(Y_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 3 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 21 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 46 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 79 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 121 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 122 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 80 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 123 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 47 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 81 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 124 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 22 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 48 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 82 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 125 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 4 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 23 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 49 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 83 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 126 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 5 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 24 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 50 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 84 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 127 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t15);
-            t25 = SCALAR_FNMA(Y_PC, t16, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t16);
-            t26 = SCALAR_FNMA(Y_PC, t17, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t25);
-            t35 = SCALAR_FNMA(Y_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 6 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 25 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 51 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 85 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 128 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 129 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 86 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 130 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 52 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 87 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 131 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 26 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 53 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 88 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 132 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 7 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 27 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 54 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 89 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 133 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 8 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 28 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 55 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 90 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 134 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t16);
-            t26 = SCALAR_FNMA(Z_PC, t17, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 9 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 29 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 56 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 91 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 135 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t00);
-            t10 = SCALAR_FNMA(Y_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t01);
-            t11 = SCALAR_FNMA(Y_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t02);
-            t12 = SCALAR_FNMA(Y_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t03);
-            t13 = SCALAR_FNMA(Y_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t04);
-            t14 = SCALAR_FNMA(Y_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t05);
-            t15 = SCALAR_FNMA(Y_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t06);
-            t16 = SCALAR_FNMA(Y_PC, t07, t16);
-            t17 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t07);
-            t17 = SCALAR_FNMA(Y_PC, t08, t17);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t10);
-            t20 = SCALAR_FNMA(Y_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t11);
-            t21 = SCALAR_FNMA(Y_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t12);
-            t22 = SCALAR_FNMA(Y_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t13);
-            t23 = SCALAR_FNMA(Y_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t14);
-            t24 = SCALAR_FNMA(Y_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t15);
-            t25 = SCALAR_FNMA(Y_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t16);
-            t26 = SCALAR_FNMA(Y_PC, t17, t26);
-            tx = SCALAR_SUB(t06, t07);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t26 = SCALAR_FMA(tx, ty, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t20);
-            t30 = SCALAR_FNMA(Y_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t21);
-            t31 = SCALAR_FNMA(Y_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t22);
-            t32 = SCALAR_FNMA(Y_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t23);
-            t33 = SCALAR_FNMA(Y_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t24);
-            t34 = SCALAR_FNMA(Y_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t25);
-            t35 = SCALAR_FNMA(Y_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t30);
-            t40 = SCALAR_FNMA(Y_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t31);
-            t41 = SCALAR_FNMA(Y_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t32);
-            t42 = SCALAR_FNMA(Y_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t33);
-            t43 = SCALAR_FNMA(Y_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t34);
-            t44 = SCALAR_FNMA(Y_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 10 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t40);
-            t50 = SCALAR_FNMA(Y_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t41);
-            t51 = SCALAR_FNMA(Y_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t42);
-            t52 = SCALAR_FNMA(Y_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t43);
-            t53 = SCALAR_FNMA(Y_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 30 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t50);
-            t60 = SCALAR_FNMA(Y_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t51);
-            t61 = SCALAR_FNMA(Y_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t52);
-            t62 = SCALAR_FNMA(Y_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 57 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t60);
-            t70 = SCALAR_FNMA(Y_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t61);
-            t71 = SCALAR_FNMA(Y_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 92 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Y_PA)), t70);
-            t80 = SCALAR_FNMA(Y_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 7);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 136 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 137 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 93 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 138 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 58 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 94 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 139 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 31 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 59 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 95 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 140 * NPTS_LOCAL + p_inner), tx);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 11 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 32 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 60 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 96 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 141 * NPTS_LOCAL + p_inner), tx);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 12 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 33 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 61 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 97 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 142 * NPTS_LOCAL + p_inner), tx);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t16);
-            t26 = SCALAR_FNMA(Z_PC, t17, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 13 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 34 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 62 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 98 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 143 * NPTS_LOCAL + p_inner), tx);
-            t10 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t00);
-            t10 = SCALAR_FNMA(Z_PC, t01, t10);
-            t11 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t01);
-            t11 = SCALAR_FNMA(Z_PC, t02, t11);
-            t12 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t02);
-            t12 = SCALAR_FNMA(Z_PC, t03, t12);
-            t13 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t03);
-            t13 = SCALAR_FNMA(Z_PC, t04, t13);
-            t14 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t04);
-            t14 = SCALAR_FNMA(Z_PC, t05, t14);
-            t15 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t05);
-            t15 = SCALAR_FNMA(Z_PC, t06, t15);
-            t16 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t06);
-            t16 = SCALAR_FNMA(Z_PC, t07, t16);
-            t17 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t07);
-            t17 = SCALAR_FNMA(Z_PC, t08, t17);
-            t20 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t10);
-            t20 = SCALAR_FNMA(Z_PC, t11, t20);
-            tx = SCALAR_SUB(t00, t01);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t20 = SCALAR_FMA(tx, ty, t20);
-            t21 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t11);
-            t21 = SCALAR_FNMA(Z_PC, t12, t21);
-            tx = SCALAR_SUB(t01, t02);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t21 = SCALAR_FMA(tx, ty, t21);
-            t22 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t12);
-            t22 = SCALAR_FNMA(Z_PC, t13, t22);
-            tx = SCALAR_SUB(t02, t03);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t22 = SCALAR_FMA(tx, ty, t22);
-            t23 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t13);
-            t23 = SCALAR_FNMA(Z_PC, t14, t23);
-            tx = SCALAR_SUB(t03, t04);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t23 = SCALAR_FMA(tx, ty, t23);
-            t24 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t14);
-            t24 = SCALAR_FNMA(Z_PC, t15, t24);
-            tx = SCALAR_SUB(t04, t05);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t24 = SCALAR_FMA(tx, ty, t24);
-            t25 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t15);
-            t25 = SCALAR_FNMA(Z_PC, t16, t25);
-            tx = SCALAR_SUB(t05, t06);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t25 = SCALAR_FMA(tx, ty, t25);
-            t26 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t16);
-            t26 = SCALAR_FNMA(Z_PC, t17, t26);
-            tx = SCALAR_SUB(t06, t07);
-            ty = SCALAR_SET1(0.5 * 1);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t26 = SCALAR_FMA(tx, ty, t26);
-            t30 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t20);
-            t30 = SCALAR_FNMA(Z_PC, t21, t30);
-            tx = SCALAR_SUB(t10, t11);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t30 = SCALAR_FMA(tx, ty, t30);
-            t31 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t21);
-            t31 = SCALAR_FNMA(Z_PC, t22, t31);
-            tx = SCALAR_SUB(t11, t12);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t31 = SCALAR_FMA(tx, ty, t31);
-            t32 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t22);
-            t32 = SCALAR_FNMA(Z_PC, t23, t32);
-            tx = SCALAR_SUB(t12, t13);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t32 = SCALAR_FMA(tx, ty, t32);
-            t33 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t23);
-            t33 = SCALAR_FNMA(Z_PC, t24, t33);
-            tx = SCALAR_SUB(t13, t14);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t33 = SCALAR_FMA(tx, ty, t33);
-            t34 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t24);
-            t34 = SCALAR_FNMA(Z_PC, t25, t34);
-            tx = SCALAR_SUB(t14, t15);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t34 = SCALAR_FMA(tx, ty, t34);
-            t35 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t25);
-            t35 = SCALAR_FNMA(Z_PC, t26, t35);
-            tx = SCALAR_SUB(t15, t16);
-            ty = SCALAR_SET1(0.5 * 2);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t35 = SCALAR_FMA(tx, ty, t35);
-            t40 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t30);
-            t40 = SCALAR_FNMA(Z_PC, t31, t40);
-            tx = SCALAR_SUB(t20, t21);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t40 = SCALAR_FMA(tx, ty, t40);
-            t41 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t31);
-            t41 = SCALAR_FNMA(Z_PC, t32, t41);
-            tx = SCALAR_SUB(t21, t22);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t41 = SCALAR_FMA(tx, ty, t41);
-            t42 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t32);
-            t42 = SCALAR_FNMA(Z_PC, t33, t42);
-            tx = SCALAR_SUB(t22, t23);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t42 = SCALAR_FMA(tx, ty, t42);
-            t43 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t33);
-            t43 = SCALAR_FNMA(Z_PC, t34, t43);
-            tx = SCALAR_SUB(t23, t24);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t43 = SCALAR_FMA(tx, ty, t43);
-            t44 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t34);
-            t44 = SCALAR_FNMA(Z_PC, t35, t44);
-            tx = SCALAR_SUB(t24, t25);
-            ty = SCALAR_SET1(0.5 * 3);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t44 = SCALAR_FMA(tx, ty, t44);
-            tx = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t40);
-            SCALAR_STORE((temp + 14 * NPTS_LOCAL + p_inner), tx);
-            t50 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t40);
-            t50 = SCALAR_FNMA(Z_PC, t41, t50);
-            tx = SCALAR_SUB(t30, t31);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t50 = SCALAR_FMA(tx, ty, t50);
-            t51 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t41);
-            t51 = SCALAR_FNMA(Z_PC, t42, t51);
-            tx = SCALAR_SUB(t31, t32);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t51 = SCALAR_FMA(tx, ty, t51);
-            t52 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t42);
-            t52 = SCALAR_FNMA(Z_PC, t43, t52);
-            tx = SCALAR_SUB(t32, t33);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t52 = SCALAR_FMA(tx, ty, t52);
-            t53 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t43);
-            t53 = SCALAR_FNMA(Z_PC, t44, t53);
-            tx = SCALAR_SUB(t33, t34);
-            ty = SCALAR_SET1(0.5 * 4);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t53 = SCALAR_FMA(tx, ty, t53);
-            tx = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t50);
-            SCALAR_STORE((temp + 35 * NPTS_LOCAL + p_inner), tx);
-            t60 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t50);
-            t60 = SCALAR_FNMA(Z_PC, t51, t60);
-            tx = SCALAR_SUB(t40, t41);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t60 = SCALAR_FMA(tx, ty, t60);
-            t61 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t51);
-            t61 = SCALAR_FNMA(Z_PC, t52, t61);
-            tx = SCALAR_SUB(t41, t42);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t61 = SCALAR_FMA(tx, ty, t61);
-            t62 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t52);
-            t62 = SCALAR_FNMA(Z_PC, t53, t62);
-            tx = SCALAR_SUB(t42, t43);
-            ty = SCALAR_SET1(0.5 * 5);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t62 = SCALAR_FMA(tx, ty, t62);
-            tx = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t60);
-            SCALAR_STORE((temp + 63 * NPTS_LOCAL + p_inner), tx);
-            t70 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t60);
-            t70 = SCALAR_FNMA(Z_PC, t61, t70);
-            tx = SCALAR_SUB(t50, t51);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t70 = SCALAR_FMA(tx, ty, t70);
-            t71 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t61);
-            t71 = SCALAR_FNMA(Z_PC, t62, t71);
-            tx = SCALAR_SUB(t51, t52);
-            ty = SCALAR_SET1(0.5 * 6);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t71 = SCALAR_FMA(tx, ty, t71);
-            tx = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t70);
-            SCALAR_STORE((temp + 99 * NPTS_LOCAL + p_inner), tx);
-            t80 = SCALAR_MUL(SCALAR_DUPLICATE(&(Z_PA)), t70);
-            t80 = SCALAR_FNMA(Z_PC, t71, t80);
-            tx = SCALAR_SUB(t60, t61);
-            ty = SCALAR_SET1(0.5 * 7);
-            ty = SCALAR_MUL(ty, SCALAR_DUPLICATE(&(RHO_INV)));
-            t80 = SCALAR_FMA(tx, ty, t80);
-            tx = SCALAR_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-            tx = SCALAR_ADD(tx, t80);
-            SCALAR_STORE((temp + 144 * NPTS_LOCAL + p_inner), tx);
-         }
-      }
-
-      size_t npts_inner_upper = SIMD_LENGTH * (npts_inner / SIMD_LENGTH);
-      size_t p_inner = 0;
-      for(p_inner = 0; p_inner < npts_inner_upper; p_inner += SIMD_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SIMD_TYPE const_value_v = SIMD_UNALIGNED_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SIMD_TYPE const_value_w;
-         SIMD_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 4, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(4));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 0 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 0 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 1 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 1 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 2 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 2 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 3 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 3 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 4 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 4 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 5 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 5 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 6 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 6 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 7 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 7 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 8 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 8 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 9 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 9 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 9 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 4, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(4));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 10 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 10 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 10 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 11 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 11 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 11 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 12 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 12 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 12 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 13 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 13 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 13 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 4, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(4));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SIMD_MUL(const_value_v, SIMD_DUPLICATE(&(const_value)));
-         tx = SIMD_UNALIGNED_LOAD((Xik + 0 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 0 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t0 = SIMD_ALIGNED_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SIMD_MUL(t0, const_value_w);
-         tz = SIMD_FMA(ty, t0, tz);
-         tw = SIMD_FMA(tx, t0, tw);
-         SIMD_UNALIGNED_STORE((Gik + 0 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 1 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 1 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t1 = SIMD_ALIGNED_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SIMD_MUL(t1, const_value_w);
-         tz = SIMD_FMA(ty, t1, tz);
-         tw = SIMD_FMA(tx, t1, tw);
-         SIMD_UNALIGNED_STORE((Gik + 1 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 2 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 2 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t2 = SIMD_ALIGNED_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SIMD_MUL(t2, const_value_w);
-         tz = SIMD_FMA(ty, t2, tz);
-         tw = SIMD_FMA(tx, t2, tw);
-         SIMD_UNALIGNED_STORE((Gik + 2 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 3 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 3 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t3 = SIMD_ALIGNED_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SIMD_MUL(t3, const_value_w);
-         tz = SIMD_FMA(ty, t3, tz);
-         tw = SIMD_FMA(tx, t3, tw);
-         SIMD_UNALIGNED_STORE((Gik + 3 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 4 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 4 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t4 = SIMD_ALIGNED_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SIMD_MUL(t4, const_value_w);
-         tz = SIMD_FMA(ty, t4, tz);
-         tw = SIMD_FMA(tx, t4, tw);
-         SIMD_UNALIGNED_STORE((Gik + 4 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 5 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 5 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t5 = SIMD_ALIGNED_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SIMD_MUL(t5, const_value_w);
-         tz = SIMD_FMA(ty, t5, tz);
-         tw = SIMD_FMA(tx, t5, tw);
-         SIMD_UNALIGNED_STORE((Gik + 5 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 6 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 6 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t6 = SIMD_ALIGNED_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SIMD_MUL(t6, const_value_w);
-         tz = SIMD_FMA(ty, t6, tz);
-         tw = SIMD_FMA(tx, t6, tw);
-         SIMD_UNALIGNED_STORE((Gik + 6 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 7 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 7 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t7 = SIMD_ALIGNED_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SIMD_MUL(t7, const_value_w);
-         tz = SIMD_FMA(ty, t7, tz);
-         tw = SIMD_FMA(tx, t7, tw);
-         SIMD_UNALIGNED_STORE((Gik + 7 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 8 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 8 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t8 = SIMD_ALIGNED_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SIMD_MUL(t8, const_value_w);
-         tz = SIMD_FMA(ty, t8, tz);
-         tw = SIMD_FMA(tx, t8, tw);
-         SIMD_UNALIGNED_STORE((Gik + 8 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 9 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 9 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t9 = SIMD_ALIGNED_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SIMD_MUL(t9, const_value_w);
-         tz = SIMD_FMA(ty, t9, tz);
-         tw = SIMD_FMA(tx, t9, tw);
-         SIMD_UNALIGNED_STORE((Gik + 9 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 10 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 10 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t10 = SIMD_ALIGNED_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SIMD_MUL(t10, const_value_w);
-         tz = SIMD_FMA(ty, t10, tz);
-         tw = SIMD_FMA(tx, t10, tw);
-         SIMD_UNALIGNED_STORE((Gik + 10 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 11 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 11 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t11 = SIMD_ALIGNED_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SIMD_MUL(t11, const_value_w);
-         tz = SIMD_FMA(ty, t11, tz);
-         tw = SIMD_FMA(tx, t11, tw);
-         SIMD_UNALIGNED_STORE((Gik + 11 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 12 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 12 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t12 = SIMD_ALIGNED_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SIMD_MUL(t12, const_value_w);
-         tz = SIMD_FMA(ty, t12, tz);
-         tw = SIMD_FMA(tx, t12, tw);
-         SIMD_UNALIGNED_STORE((Gik + 12 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 13 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 13 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t13 = SIMD_ALIGNED_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SIMD_MUL(t13, const_value_w);
-         tz = SIMD_FMA(ty, t13, tz);
-         tw = SIMD_FMA(tx, t13, tw);
-         SIMD_UNALIGNED_STORE((Gik + 13 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-         tx = SIMD_UNALIGNED_LOAD((Xik + 14 * ldX));
-         ty = SIMD_UNALIGNED_LOAD((Xjk + 14 * ldX));
-         tz = SIMD_UNALIGNED_LOAD((Gik + 14 * ldG));
-         tw = SIMD_UNALIGNED_LOAD((Gjk + 14 * ldG));
-         t14 = SIMD_ALIGNED_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SIMD_MUL(t14, const_value_w);
-         tz = SIMD_FMA(ty, t14, tz);
-         tw = SIMD_FMA(tx, t14, tw);
-         SIMD_UNALIGNED_STORE((Gik + 14 * ldG), tz);
-         SIMD_UNALIGNED_STORE((Gjk + 14 * ldG), tw);
-      }
-
-      for(; p_inner < npts_inner; p_inner += SCALAR_LENGTH) {
-         double *Xik = (Xi + p_outer + p_inner);
-         double *Xjk = (Xj + p_outer + p_inner);
-         double *Gik = (Gi + p_outer + p_inner);
-         double *Gjk = (Gj + p_outer + p_inner);
-
-         SCALAR_TYPE const_value_v = SCALAR_LOAD((weights + p_outer + p_inner));
-
-         double const_value, X_ABp, Y_ABp, Z_ABp, comb_m_i, comb_n_j, comb_p_k;
-         SCALAR_TYPE const_value_w;
-         SCALAR_TYPE tx, ty, tz, tw, t0, t1, t2, t3, t4, t5, t6, t7, t8, t9, t10, t11, t12, t13, t14;
-
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 100 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 4, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(4));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 0 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 0 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 0 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 101 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 1 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 1 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 1 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 102 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 64 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 3, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(3));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 2 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 2 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 2 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 103 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 3 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 3 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 3 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 104 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 65 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 4 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 4 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 4 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 105 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 66 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 36 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 2, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(2));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 5 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 5 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 5 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 106 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 6 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 6 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 6 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 107 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 67 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 7 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 7 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 7 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 108 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 68 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 37 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 8 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 8 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 8 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 109 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 69 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 38 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 15 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         X_ABp = SCALAR_MUL(X_ABp, X_AB); comb_m_i = SCALAR_MUL(comb_m_i * 1, SCALAR_RECIPROCAL(1));
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 9 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 9 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 9 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t0 = SCALAR_LOAD((temp + 110 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t1 = SCALAR_LOAD((temp + 115 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t2 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t3 = SCALAR_LOAD((temp + 121 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t4 = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t5 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t6 = SCALAR_LOAD((temp + 128 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t7 = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t8 = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t9 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t10 = SCALAR_LOAD((temp + 136 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t11 = SCALAR_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t12 = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t13 = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t14 = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 4, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t0 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t1 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t2 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t3 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t4 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t5 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t6 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t7 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t8 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t9 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t10 = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t11 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t12 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t13 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t14 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(4));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 10 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 10 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 10 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 111 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 116 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 122 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 129 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 137 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 70 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 74 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 79 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 85 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 92 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 3, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(3));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 11 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 11 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 11 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 112 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 117 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 123 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 130 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 138 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 71 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 75 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 80 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 86 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 93 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 39 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 42 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 46 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 51 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 57 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 2, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(2));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 12 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 12 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 12 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 113 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 118 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 124 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 131 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 139 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 72 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 76 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 81 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 87 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 94 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 40 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 43 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 47 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 52 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 58 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 16 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 18 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 21 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 25 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 30 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Y_ABp = SCALAR_MUL(Y_ABp, Y_AB); comb_n_j = SCALAR_MUL(comb_n_j * 1, SCALAR_RECIPROCAL(1));
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 13 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 13 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 13 * ldG), tw);
-         X_ABp = 1.0; comb_m_i = 1.0;
-         Y_ABp = 1.0; comb_n_j = 1.0;
-         Z_ABp = 1.0; comb_p_k = 1.0;
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t0 = SCALAR_LOAD((temp + 114 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t1 = SCALAR_LOAD((temp + 119 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t2 = SCALAR_LOAD((temp + 120 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t3 = SCALAR_LOAD((temp + 125 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t4 = SCALAR_LOAD((temp + 126 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t5 = SCALAR_LOAD((temp + 127 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t6 = SCALAR_LOAD((temp + 132 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t7 = SCALAR_LOAD((temp + 133 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t8 = SCALAR_LOAD((temp + 134 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t9 = SCALAR_LOAD((temp + 135 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t10 = SCALAR_LOAD((temp + 140 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t11 = SCALAR_LOAD((temp + 141 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t12 = SCALAR_LOAD((temp + 142 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t13 = SCALAR_LOAD((temp + 143 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t14 = SCALAR_LOAD((temp + 144 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 4, SCALAR_RECIPROCAL(1));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t0 = SCALAR_LOAD((temp + 73 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t1 = SCALAR_LOAD((temp + 77 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t2 = SCALAR_LOAD((temp + 78 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t3 = SCALAR_LOAD((temp + 82 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t4 = SCALAR_LOAD((temp + 83 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t5 = SCALAR_LOAD((temp + 84 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t6 = SCALAR_LOAD((temp + 88 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t7 = SCALAR_LOAD((temp + 89 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t8 = SCALAR_LOAD((temp + 90 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t9 = SCALAR_LOAD((temp + 91 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t10 = SCALAR_LOAD((temp + 95 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t11 = SCALAR_LOAD((temp + 96 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t12 = SCALAR_LOAD((temp + 97 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t13 = SCALAR_LOAD((temp + 98 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t14 = SCALAR_LOAD((temp + 99 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 3, SCALAR_RECIPROCAL(2));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t0 = SCALAR_LOAD((temp + 41 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t1 = SCALAR_LOAD((temp + 44 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t2 = SCALAR_LOAD((temp + 45 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t3 = SCALAR_LOAD((temp + 48 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t4 = SCALAR_LOAD((temp + 49 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t5 = SCALAR_LOAD((temp + 50 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t6 = SCALAR_LOAD((temp + 53 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t7 = SCALAR_LOAD((temp + 54 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t8 = SCALAR_LOAD((temp + 55 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t9 = SCALAR_LOAD((temp + 56 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t10 = SCALAR_LOAD((temp + 59 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t11 = SCALAR_LOAD((temp + 60 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t12 = SCALAR_LOAD((temp + 61 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t13 = SCALAR_LOAD((temp + 62 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t14 = SCALAR_LOAD((temp + 63 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 2, SCALAR_RECIPROCAL(3));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t0 = SCALAR_LOAD((temp + 17 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t1 = SCALAR_LOAD((temp + 19 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t2 = SCALAR_LOAD((temp + 20 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t3 = SCALAR_LOAD((temp + 22 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t4 = SCALAR_LOAD((temp + 23 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t5 = SCALAR_LOAD((temp + 24 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t6 = SCALAR_LOAD((temp + 26 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t7 = SCALAR_LOAD((temp + 27 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t8 = SCALAR_LOAD((temp + 28 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t9 = SCALAR_LOAD((temp + 29 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t10 = SCALAR_LOAD((temp + 31 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t11 = SCALAR_LOAD((temp + 32 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t12 = SCALAR_LOAD((temp + 33 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t13 = SCALAR_LOAD((temp + 34 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t14 = SCALAR_LOAD((temp + 35 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         Z_ABp = SCALAR_MUL(Z_ABp, Z_AB); comb_p_k = SCALAR_MUL(comb_p_k * 1, SCALAR_RECIPROCAL(4));
-         const_value = comb_m_i * comb_n_j * comb_p_k * X_ABp * Y_ABp * Z_ABp;
-         const_value_w = SCALAR_MUL(const_value_v, SCALAR_DUPLICATE(&(const_value)));
-         tx = SCALAR_LOAD((Xik + 0 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 0 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t0 = SCALAR_LOAD((temp + 0 * NPTS_LOCAL + p_inner));
-         t0 = SCALAR_MUL(t0, const_value_w);
-         tz = SCALAR_FMA(ty, t0, tz);
-         tw = SCALAR_FMA(tx, t0, tw);
-         SCALAR_STORE((Gik + 0 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 1 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 1 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t1 = SCALAR_LOAD((temp + 1 * NPTS_LOCAL + p_inner));
-         t1 = SCALAR_MUL(t1, const_value_w);
-         tz = SCALAR_FMA(ty, t1, tz);
-         tw = SCALAR_FMA(tx, t1, tw);
-         SCALAR_STORE((Gik + 1 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 2 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 2 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t2 = SCALAR_LOAD((temp + 2 * NPTS_LOCAL + p_inner));
-         t2 = SCALAR_MUL(t2, const_value_w);
-         tz = SCALAR_FMA(ty, t2, tz);
-         tw = SCALAR_FMA(tx, t2, tw);
-         SCALAR_STORE((Gik + 2 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 3 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 3 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t3 = SCALAR_LOAD((temp + 3 * NPTS_LOCAL + p_inner));
-         t3 = SCALAR_MUL(t3, const_value_w);
-         tz = SCALAR_FMA(ty, t3, tz);
-         tw = SCALAR_FMA(tx, t3, tw);
-         SCALAR_STORE((Gik + 3 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 4 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 4 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t4 = SCALAR_LOAD((temp + 4 * NPTS_LOCAL + p_inner));
-         t4 = SCALAR_MUL(t4, const_value_w);
-         tz = SCALAR_FMA(ty, t4, tz);
-         tw = SCALAR_FMA(tx, t4, tw);
-         SCALAR_STORE((Gik + 4 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 5 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 5 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t5 = SCALAR_LOAD((temp + 5 * NPTS_LOCAL + p_inner));
-         t5 = SCALAR_MUL(t5, const_value_w);
-         tz = SCALAR_FMA(ty, t5, tz);
-         tw = SCALAR_FMA(tx, t5, tw);
-         SCALAR_STORE((Gik + 5 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 6 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 6 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t6 = SCALAR_LOAD((temp + 6 * NPTS_LOCAL + p_inner));
-         t6 = SCALAR_MUL(t6, const_value_w);
-         tz = SCALAR_FMA(ty, t6, tz);
-         tw = SCALAR_FMA(tx, t6, tw);
-         SCALAR_STORE((Gik + 6 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 7 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 7 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t7 = SCALAR_LOAD((temp + 7 * NPTS_LOCAL + p_inner));
-         t7 = SCALAR_MUL(t7, const_value_w);
-         tz = SCALAR_FMA(ty, t7, tz);
-         tw = SCALAR_FMA(tx, t7, tw);
-         SCALAR_STORE((Gik + 7 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 8 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 8 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t8 = SCALAR_LOAD((temp + 8 * NPTS_LOCAL + p_inner));
-         t8 = SCALAR_MUL(t8, const_value_w);
-         tz = SCALAR_FMA(ty, t8, tz);
-         tw = SCALAR_FMA(tx, t8, tw);
-         SCALAR_STORE((Gik + 8 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 9 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 9 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t9 = SCALAR_LOAD((temp + 9 * NPTS_LOCAL + p_inner));
-         t9 = SCALAR_MUL(t9, const_value_w);
-         tz = SCALAR_FMA(ty, t9, tz);
-         tw = SCALAR_FMA(tx, t9, tw);
-         SCALAR_STORE((Gik + 9 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 10 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 10 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t10 = SCALAR_LOAD((temp + 10 * NPTS_LOCAL + p_inner));
-         t10 = SCALAR_MUL(t10, const_value_w);
-         tz = SCALAR_FMA(ty, t10, tz);
-         tw = SCALAR_FMA(tx, t10, tw);
-         SCALAR_STORE((Gik + 10 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 11 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 11 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t11 = SCALAR_LOAD((temp + 11 * NPTS_LOCAL + p_inner));
-         t11 = SCALAR_MUL(t11, const_value_w);
-         tz = SCALAR_FMA(ty, t11, tz);
-         tw = SCALAR_FMA(tx, t11, tw);
-         SCALAR_STORE((Gik + 11 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 12 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 12 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t12 = SCALAR_LOAD((temp + 12 * NPTS_LOCAL + p_inner));
-         t12 = SCALAR_MUL(t12, const_value_w);
-         tz = SCALAR_FMA(ty, t12, tz);
-         tw = SCALAR_FMA(tx, t12, tw);
-         SCALAR_STORE((Gik + 12 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 13 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 13 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t13 = SCALAR_LOAD((temp + 13 * NPTS_LOCAL + p_inner));
-         t13 = SCALAR_MUL(t13, const_value_w);
-         tz = SCALAR_FMA(ty, t13, tz);
-         tw = SCALAR_FMA(tx, t13, tw);
-         SCALAR_STORE((Gik + 13 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-         tx = SCALAR_LOAD((Xik + 14 * ldX));
-         ty = SCALAR_LOAD((Xjk + 14 * ldX));
-         tz = SCALAR_LOAD((Gik + 14 * ldG));
-         tw = SCALAR_LOAD((Gjk + 14 * ldG));
-         t14 = SCALAR_LOAD((temp + 14 * NPTS_LOCAL + p_inner));
-         t14 = SCALAR_MUL(t14, const_value_w);
-         tz = SCALAR_FMA(ty, t14, tz);
-         tw = SCALAR_FMA(tx, t14, tw);
-         SCALAR_STORE((Gik + 14 * ldG), tz);
-         SCALAR_STORE((Gjk + 14 * ldG), tw);
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_4.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_4.hpp
deleted file mode 100644
index 2583fc7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/integral_4_4.hpp
+++ /dev/null
@@ -1,33 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifndef __MY_INTEGRAL_4_4
-#define __MY_INTEGRAL_4_4
-
-#include "../include/cpu/integral_data_types.hpp"
-namespace XCPU {
-void integral_4_4(size_t npts,
-                  double *points,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table);
-}
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/obara_saika_integrals.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/obara_saika_integrals.cxx
deleted file mode 100644
index 5fa3c65..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/src/obara_saika_integrals.cxx
+++ /dev/null
@@ -1,547 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdio.h>
-#include <stdlib.h>
-#include "../include/cpu/integral_data_types.hpp"
-#include "../include/cpu/obara_saika_integrals.hpp"
-#include "integral_0.hpp"
-#include "integral_1.hpp"
-#include "integral_2.hpp"
-#include "integral_3.hpp"
-#include "integral_4.hpp"
-#include "integral_0_0.hpp"
-#include "integral_1_0.hpp"
-#include "integral_1_1.hpp"
-#include "integral_2_0.hpp"
-#include "integral_2_1.hpp"
-#include "integral_2_2.hpp"
-#include "integral_3_0.hpp"
-#include "integral_3_1.hpp"
-#include "integral_3_2.hpp"
-#include "integral_3_3.hpp"
-#include "integral_4_0.hpp"
-#include "integral_4_1.hpp"
-#include "integral_4_2.hpp"
-#include "integral_4_3.hpp"
-#include "integral_4_4.hpp"
-namespace XCPU {
-void generate_shell_pair( const shells& A, const shells& B, prim_pair *prim_pairs) {
-   // L Values
-   const auto xA = A.origin.x;
-   const auto yA = A.origin.y;
-   const auto zA = A.origin.z;
-
-   const auto xB = B.origin.x;
-   const auto yB = B.origin.y;
-   const auto zB = B.origin.z;
-
-   double rABx = xA - xB;
-   double rABy = yA - yB;
-   double rABz = zA - zB;
-
-   const double dAB = rABx*rABx + rABy*rABy + rABz*rABz;
-
-   const int nprim_A = A.m;
-   const int nprim_B = B.m;
-   for(int i = 0, ij = 0; i < nprim_A; ++i       )
-   for(int j = 0        ; j < nprim_B; ++j, ++ij ) {
-      auto& pair = prim_pairs[ij];
-      const auto alpha_A = A.coeff[i].alpha;
-      const auto alpha_B = B.coeff[j].alpha;
-
-      pair.gamma = alpha_A + alpha_B;
-      pair.gamma_inv = 1. / pair.gamma;
-
-      pair.P.x = (alpha_A * xA + alpha_B * xB) * pair.gamma_inv;
-      pair.P.y = (alpha_A * yA + alpha_B * yB) * pair.gamma_inv;
-      pair.P.z = (alpha_A * zA + alpha_B * zB) * pair.gamma_inv;
-
-      pair.PA.x = pair.P.x - xA;
-      pair.PA.y = pair.P.y - yA;
-      pair.PA.z = pair.P.z - zA;
-
-      pair.PB.x = pair.P.x - xB;
-      pair.PB.y = pair.P.y - yB;
-      pair.PB.z = pair.P.z - zB;
-
-      pair.K_coeff_prod = 2 * M_PI * pair.gamma_inv * std::exp( - alpha_A * alpha_B * dAB * pair.gamma_inv ) * A.coeff[i].coeff * B.coeff[j].coeff;
-   }
-}
-
-void compute_integral_shell_pair(int is_diag,
-                  size_t npts,
-                  double *points,
-                  int lA,
-                  int lB,
-                  point rA,
-                  point rB,
-                  int nprim_pairs,
-                  prim_pair *prim_pairs,
-                  double *Xi,
-                  double *Xj,
-                  int ldX,
-                  double *Gi,
-                  double *Gj,
-                  int ldG, 
-                  double *weights, 
-                  double *boys_table) {
-   if (is_diag) {
-      if(lA == 0) {
-         integral_0(npts,
-                    points,
-                    rA,
-                    rB,
-                    nprim_pairs,
-                    prim_pairs,
-                    Xi,
-                    ldX,
-                    Gi,
-                    ldG, 
-                    weights, 
-                    boys_table);
-      } else if(lA == 1) {
-        integral_1(npts,
-                    points,
-                   rA,
-                   rB,
-                   nprim_pairs,
-                   prim_pairs,
-                   Xi,
-                   ldX,
-                   Gi,
-                   ldG, 
-                   weights, 
-                   boys_table);
-      } else if(lA == 2) {
-        integral_2(npts,
-                    points,
-                   rA,
-                   rB,
-                   nprim_pairs,
-                   prim_pairs,
-                   Xi,
-                   ldX,
-                   Gi,
-                   ldG, 
-                   weights, 
-                   boys_table);
-      } else if(lA == 3) {
-        integral_3(npts,
-                    points,
-                   rA,
-                   rB,
-                   nprim_pairs,
-                   prim_pairs,
-                   Xi,
-                   ldX,
-                   Gi,
-                   ldG, 
-                   weights, 
-                   boys_table);
-      } else if(lA == 4) {
-        integral_4(npts,
-                    points,
-                   rA,
-                   rB,
-                   nprim_pairs,
-                   prim_pairs,
-                   Xi,
-                   ldX,
-                   Gi,
-                   ldG, 
-                   weights, 
-                   boys_table);
-      } else {
-         printf("Type not defined!\n");
-      }
-   } else {
-      if((lA == 0) && (lB == 0)) {
-         integral_0_0(npts,
-                      points,
-                      rA,
-                      rB,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xi,
-                      Xj,
-                      ldX,
-                      Gi,
-                      Gj,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 1) && (lB == 0)) {
-            integral_1_0(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 0) && (lB == 1)) {
-         integral_1_0(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 1) && (lB == 1)) {
-        integral_1_1(npts,
-                     points,
-                     rA,
-                     rB,
-                     nprim_pairs,
-                     prim_pairs,
-                     Xi,
-                     Xj,
-                     ldX,
-                     Gi,
-                     Gj,
-                     ldG, 
-                     weights, 
-                     boys_table);
-      } else if((lA == 2) && (lB == 0)) {
-            integral_2_0(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 0) && (lB == 2)) {
-         integral_2_0(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 2) && (lB == 1)) {
-            integral_2_1(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 1) && (lB == 2)) {
-         integral_2_1(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 2) && (lB == 2)) {
-        integral_2_2(npts,
-                     points,
-                     rA,
-                     rB,
-                     nprim_pairs,
-                     prim_pairs,
-                     Xi,
-                     Xj,
-                     ldX,
-                     Gi,
-                     Gj,
-                     ldG, 
-                     weights, 
-                     boys_table);
-      } else if((lA == 3) && (lB == 0)) {
-            integral_3_0(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 0) && (lB == 3)) {
-         integral_3_0(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 3) && (lB == 1)) {
-            integral_3_1(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 1) && (lB == 3)) {
-         integral_3_1(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 3) && (lB == 2)) {
-            integral_3_2(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 2) && (lB == 3)) {
-         integral_3_2(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 3) && (lB == 3)) {
-        integral_3_3(npts,
-                     points,
-                     rA,
-                     rB,
-                     nprim_pairs,
-                     prim_pairs,
-                     Xi,
-                     Xj,
-                     ldX,
-                     Gi,
-                     Gj,
-                     ldG, 
-                     weights, 
-                     boys_table);
-      } else if((lA == 4) && (lB == 0)) {
-            integral_4_0(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 0) && (lB == 4)) {
-         integral_4_0(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 4) && (lB == 1)) {
-            integral_4_1(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 1) && (lB == 4)) {
-         integral_4_1(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 4) && (lB == 2)) {
-            integral_4_2(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 2) && (lB == 4)) {
-         integral_4_2(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 4) && (lB == 3)) {
-            integral_4_3(npts,
-                         points,
-                         rA,
-                         rB,
-                         nprim_pairs,
-                         prim_pairs,
-                         Xi,
-                         Xj,
-                         ldX,
-                         Gi,
-                         Gj,
-                         ldG, 
-                         weights, 
-                         boys_table);
-      } else if((lA == 3) && (lB == 4)) {
-         integral_4_3(npts,
-                      points,
-                      rB,
-                      rA,
-                      nprim_pairs,
-                      prim_pairs,
-                      Xj,
-                      Xi,
-                      ldX,
-                      Gj,
-                      Gi,
-                      ldG, 
-                      weights, 
-                      boys_table);
-      } else if((lA == 4) && (lB == 4)) {
-        integral_4_4(npts,
-                     points,
-                     rA,
-                     rB,
-                     nprim_pairs,
-                     prim_pairs,
-                     Xi,
-                     Xj,
-                     ldX,
-                     Gi,
-                     Gj,
-                     ldG, 
-                     weights, 
-                     boys_table);
-      } else {
-         printf("Type not defined!\n");
-      }
-   }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/Makefile
deleted file mode 100644
index 9d80566..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/Makefile
+++ /dev/null
@@ -1,15 +0,0 @@
-#LIBINT_ROOT = /global/cfs/cdirs/m1027/dbwy/mpqc4/li/install/haswell/release
-#EIGEN_DIR   = /global/common/sw/cray/cnl7/haswell/eigen/3.3.7/gcc/8.2.0/2wwrykb/include/eigen3
-
-CC = g++
-
-CONST_LIB = ../../../../../../include/
-LIBINT_ROOT = /home/dtpopovici/Executables/libint
-EIGEN_DIR   = /usr/include/eigen3
-
-#CONST_LIB = ../../../../../../include/
-#LIBINT_ROOT = /global/homes/t/thom13/Executables/libint_gnu/
-#EIGEN_DIR   = /global/homes/t/thom13/Executables/Eigen/include/eigen3/
-
-compile:
-	$(CC) test_experimental.cxx  ../obara_saika.a $(LIBINT_ROOT)/lib/libint2.a -o test_experimental.x  -I$(CONST_LIB) -I$(LIBINT_ROOT)/include -I$(EIGEN_DIR) -I../include/ -std=c++1z
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test.cxx
deleted file mode 100644
index 1992171..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test.cxx
+++ /dev/null
@@ -1,245 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <libint2.hpp>
-#include <integral_data_types.hpp>
-#include <obara_saika_integrals.hpp>
-#include <chebyshev_boys_computation.hpp>
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-#include <sys/time.h>
-#include <float.h>
-
-int main(int argc, char** argv) {
-  libint2::initialize();
-  
-  double *boys_table = XCPU::boys_init();
-
-  // Benzene
-  std::vector<libint2::Atom> atoms = {
-    libint2::Atom{ 6,  6.92768e-01,  -1.77656e+00,   1.40218e-03},
-    libint2::Atom{ 6,  3.35108e+00,  -1.77668e+00,   2.21098e-03},
-    libint2::Atom{ 6,  4.68035e+00,   5.25219e-01,   1.22454e-03},
-    libint2::Atom{ 6,  3.35121e+00,   2.82744e+00,  -7.02978e-04},
-    libint2::Atom{ 6,  6.93087e-01,   2.82756e+00,  -1.55902e-03},
-    libint2::Atom{ 6, -6.36278e-01,   5.25491e-01,  -4.68652e-04},
-    libint2::Atom{ 1, -3.41271e-01,  -3.56759e+00,   2.21287e-03},
-    libint2::Atom{ 1,  4.38492e+00,  -3.56783e+00,   3.73599e-03},
-    libint2::Atom{ 1,  6.74844e+00,   5.25274e-01,   1.88028e-03},
-    libint2::Atom{ 1,  4.38551e+00,   4.61832e+00,  -1.48721e-03},
-    libint2::Atom{ 1, -3.41001e-01,   4.61857e+00,  -3.05569e-03},
-    libint2::Atom{ 1, -2.70437e+00,   5.25727e-01,  -1.09793e-03} 
-  };
-
-  // Create cc-pVDZ BasisSet
-  const std::string basis_name = "cc-pVDZ";
-  libint2::BasisSet basis( basis_name, atoms );
-  basis.set_pure(false); // Reset to Cartesian
-  auto shell2bf = basis.shell2bf();
-
-  auto [min_x, max_x] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> 
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() {
-    return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) };
-  };
-
-  if( argc != 2 ) throw std::runtime_error("Must Specify NGrid");
-  
-  const int ngrid = std::stoll( std::string(argv[1]) );
-  
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  const size_t nbf = basis.nbf();
-  std::cout << "Running sn-LinK Proxy App with Settings:" << std::endl
-	    << "  * NBF   = " << nbf << std::endl
-	    << "  * NGRID = " << ngrid << std::endl
-	    << std::endl;
-
-  std::vector<libint2::Engine> engines;
-  engines.reserve(ngrid);
-  for( const auto& g : grid_points ) {
-    engines.emplace_back( libint2::Operator::nuclear, basis.max_nprim(),
-		          basis.max_l(), 0 );
-    std::vector< std::pair<double, std::array<double,3>> > q = { {-1., g} }; 
-    engines.back().set_params(q);
-  }
-
-  // Generate a random F matrix
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-  
-  // Generate random grid weights
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  // Compute A
-  std::vector<double> A( nbf * nbf * ngrid );
-  memset(&A[0], 0, nbf * nbf * ngrid * sizeof(double));
-  
-  using row_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  using const_row_major_map = Eigen::Map< const row_major_mat >;
-  
-  using col_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
-  using col_major_map = Eigen::Map< col_major_mat >;
-
-  // correctness - libint implementation
-  
-  for( int k = 0; k < ngrid; ++k ) {
-    auto& engine = engines.at(k);
-    const auto& engine_buf = engine.results();
-
-    col_major_map A_k( A.data() + nbf * nbf * k, nbf, nbf );
-
-    for( int j = 0; j < basis.size(); ++j) {
-      auto bf_j = shell2bf[j];
-      auto nj   = basis[j].size();
-      
-      for( int i = 0; i < basis.size(); ++i) {
-        auto bf_i = shell2bf[i];
-        auto ni   = basis[i].size();
-
-	engine.compute( basis[i], basis[j] );
-	const_row_major_map buf_map( engine_buf[0], ni, nj );
-	A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-      }
-    }
-  }
-
-  std::vector<double> G_libint( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_libint[i] = 0.0;
-  }
-  for( int k = 0; k < ngrid; ++k ) {
-    for( int i = 0; i < nbf; ++i ) {
-      double tmp = 0.0;
-
-      for( int j = 0; j < nbf; ++j )
-        tmp += A[i + j * nbf + k * nbf * nbf] * F[j * ngrid + k];
-
-      G_libint[ i * ngrid + k ] = w[k] * tmp;
-    }
-  }
-
-  // correctness - own implementation
-
-  std::vector<point>  _points(ngrid);
-  std::vector<double> _points_transposed(3 * ngrid);
-  
-  _points.resize(ngrid); 
-
-  for( int i = 0; i < ngrid; ++i ){
-    _points[i].x = grid_points[i][0];
-    _points[i].y = grid_points[i][1];
-    _points[i].z = grid_points[i][2];
-
-    _points_transposed[i + 0 * ngrid] = grid_points[i][0];
-    _points_transposed[i + 1 * ngrid] = grid_points[i][1];
-    _points_transposed[i + 2 * ngrid] = grid_points[i][2];
-  }
-  
-  std::vector< shells > _shells;
-  
-  int nshells = basis.size();
-  
-  _shells.resize(nshells);
-  
-  for( int i = 0; i < nshells; ++i ) {
-    _shells[i].origin.x = basis[i].O[0];
-    _shells[i].origin.y = basis[i].O[1];
-    _shells[i].origin.z = basis[i].O[2];
-
-    _shells[i].m = basis[i].alpha.size();
-    _shells[i].L = basis[i].contr[0].l;
-    
-    _shells[i].coeff = new coefficients[_shells[i].m];
-    for( int j = 0; j < _shells[i].m; ++j ) {
-      _shells[i].coeff[j].alpha = basis[i].alpha[j];
-      _shells[i].coeff[j].coeff = basis[i].contr[0].coeff[j];
-    }
-  }
-
-  std::vector<double> G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_own[i] = 0.0;
-  }
-  double *Xi = F.data();
-  double *Xj = F.data();
-
-  double *Gi = G_own.data();
-  double *Gj = G_own.data();
-
-  std::cout << nshells << std::endl;
-
-  struct timeval start, end;
-
-  gettimeofday(&start, NULL);
-  int ioff_cart = 0;
-  for( int i = 0; i < nshells; ++i) {
-    shells bra_shell = _shells[i];
-    int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-
-    int joff_cart = 0;
-    for( int j = 0; j <= i; ++j) {
-      shells ket_shell = _shells[j];
-      int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-      XCPU::compute_integral_shell_pair(ngrid,
-					i,
-					j,
-					_shells.data(),
-					_points_transposed.data(),
-					(Xi + ioff_cart * ngrid),
-					(Xj + joff_cart * ngrid),
-					ngrid,
-					(Gi + ioff_cart * ngrid),
-					(Gj + joff_cart * ngrid),
-					ngrid,
-					w.data(),
-					boys_table);
-      joff_cart += ket_cart_size;
-    }
-
-    ioff_cart += bra_cart_size;
-  }
-
-  gettimeofday(&end, NULL);
-  
-  int correct = 1;
-  
-  for( int i = 0; i < nbf * ngrid; ++i) {
-    if((fabs(G_libint[i] - G_own[i]) > 1e-6) || std::isnan(G_own[i])) {
-      printf("%lf %lf\n", G_libint[i], G_own[i]);
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << "\tExecution: "<< 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec) << std::endl;
-  
-  libint2::finalize();  // done with libint
-  XCPU::boys_finalize(boys_table);
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test1.cxx
deleted file mode 100644
index bbb30dd..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test1.cxx
+++ /dev/null
@@ -1,273 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <libint2.hpp>
-#include <integral_data_types.hpp>
-#include <obara_saika_integrals.hpp>
-#include <chebyshev_boys_computation.hpp>
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-#include <sys/time.h>
-#include <float.h>
-
-int main(int argc, char** argv) {
-  libint2::initialize();
-  
-  double *boys_table = XCPU::boys_init();
-
-  // Benzene
-  std::vector<libint2::Atom> atoms = {
-    libint2::Atom{ 6,  6.92768e-01,  -1.77656e+00,   1.40218e-03},
-    libint2::Atom{ 6,  3.35108e+00,  -1.77668e+00,   2.21098e-03},
-    libint2::Atom{ 6,  4.68035e+00,   5.25219e-01,   1.22454e-03},
-    libint2::Atom{ 6,  3.35121e+00,   2.82744e+00,  -7.02978e-04},
-    libint2::Atom{ 6,  6.93087e-01,   2.82756e+00,  -1.55902e-03},
-    libint2::Atom{ 6, -6.36278e-01,   5.25491e-01,  -4.68652e-04},
-    libint2::Atom{ 1, -3.41271e-01,  -3.56759e+00,   2.21287e-03},
-    libint2::Atom{ 1,  4.38492e+00,  -3.56783e+00,   3.73599e-03},
-    libint2::Atom{ 1,  6.74844e+00,   5.25274e-01,   1.88028e-03},
-    libint2::Atom{ 1,  4.38551e+00,   4.61832e+00,  -1.48721e-03},
-    libint2::Atom{ 1, -3.41001e-01,   4.61857e+00,  -3.05569e-03},
-    libint2::Atom{ 1, -2.70437e+00,   5.25727e-01,  -1.09793e-03} 
-  };
-
-  // Create cc-pVDZ BasisSet
-  const std::string basis_name = "cc-pVDZ";
-  libint2::BasisSet basis( basis_name, atoms );
-  basis.set_pure(false); // Reset to Cartesian
-  auto shell2bf = basis.shell2bf();
-
-  auto [min_x, max_x] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> 
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() {
-    return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) };
-  };
-
-  if( argc != 2 ) throw std::runtime_error("Must Specify NGrid");
-  
-  const int ngrid = std::stoll( std::string(argv[1]) );
-  
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  const size_t nbf = basis.nbf();
-  std::cout << "Running sn-LinK Proxy App with Settings:" << std::endl
-	    << "  * NBF   = " << nbf << std::endl
-	    << "  * NGRID = " << ngrid << std::endl
-	    << std::endl;
-
-  std::vector<libint2::Engine> engines;
-  engines.reserve(ngrid);
-  for( const auto& g : grid_points ) {
-    engines.emplace_back( libint2::Operator::nuclear, basis.max_nprim(),
-		          basis.max_l(), 0 );
-    std::vector< std::pair<double, std::array<double,3>> > q = { {-1., g} }; 
-    engines.back().set_params(q);
-  }
-
-  // Generate a random F matrix
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-  
-  // Generate random grid weights
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  // Compute A
-  std::vector<double> A( nbf * nbf * ngrid );
-  memset(&A[0], 0, nbf * nbf * ngrid * sizeof(double));
-  
-  using row_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  using const_row_major_map = Eigen::Map< const row_major_mat >;
-  
-  using col_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
-  using col_major_map = Eigen::Map< col_major_mat >;
-
-  // correctness - libint implementation
-  
-  for( int k = 0; k < ngrid; ++k ) {
-    auto& engine = engines.at(k);
-    const auto& engine_buf = engine.results();
-
-    col_major_map A_k( A.data() + nbf * nbf * k, nbf, nbf );
-
-    for( int j = 0; j < basis.size(); ++j) {
-      auto bf_j = shell2bf[j];
-      auto nj   = basis[j].size();
-      
-      for( int i = 0; i < basis.size(); ++i) {
-        auto bf_i = shell2bf[i];
-        auto ni   = basis[i].size();
-
-	engine.compute( basis[i], basis[j] );
-	const_row_major_map buf_map( engine_buf[0], ni, nj );
-	A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-      }
-    }
-  }
-
-  std::vector<double> G_libint( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_libint[i] = 0.0;
-  }
-  for( int k = 0; k < ngrid; ++k ) {
-    for( int i = 0; i < nbf; ++i ) {
-      double tmp = 0.0;
-
-      for( int j = 0; j < nbf; ++j )
-        tmp += A[i + j * nbf + k * nbf * nbf] * F[j * ngrid + k];
-
-      G_libint[ i * ngrid + k ] = w[k] * tmp;
-    }
-  }
-
-  // correctness - own implementation
-
-  std::vector<point>  _points(ngrid);
-  std::vector<double> _points_transposed(3 * ngrid);
-  
-  _points.resize(ngrid); 
-
-  for( int i = 0; i < ngrid; ++i ){
-    _points[i].x = grid_points[i][0];
-    _points[i].y = grid_points[i][1];
-    _points[i].z = grid_points[i][2];
-
-    _points_transposed[i + 0 * ngrid] = grid_points[i][0];
-    _points_transposed[i + 1 * ngrid] = grid_points[i][1];
-    _points_transposed[i + 2 * ngrid] = grid_points[i][2];
-  }
-  
-  std::vector< shells > _shells;
-  
-  int nshells = basis.size();
-  
-  _shells.resize(nshells);
-  
-  for( int i = 0; i < nshells; ++i ) {
-    _shells[i].origin.x = basis[i].O[0];
-    _shells[i].origin.y = basis[i].O[1];
-    _shells[i].origin.z = basis[i].O[2];
-
-    _shells[i].m = basis[i].alpha.size();
-    _shells[i].L = basis[i].contr[0].l;
-    
-    _shells[i].coeff = new coefficients[_shells[i].m];
-    for( int j = 0; j < _shells[i].m; ++j ) {
-      _shells[i].coeff[j].alpha = basis[i].alpha[j];
-      _shells[i].coeff[j].coeff = basis[i].contr[0].coeff[j];
-    }
-  }
-
-  shell_pair *shpairs = new shell_pair[nshells * (nshells + 1) / 2];
-  
-  int offset = 0;
-  for( int i = 0; i < nshells; ++i) {
-    for( int j = 0; j <= i; ++j) {
-      if( _shells[i].L >= _shells[j].L )
-	generate_shell_pair(_shells[i], _shells[j], shpairs[offset]);
-      else
-	generate_shell_pair(_shells[j], _shells[i], shpairs[offset]);
-
-      offset++;
-    }
-  }
-  
-  std::vector<double> G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_own[i] = 0.0;
-  }
-  double *Xi = F.data();
-  double *Xj = F.data();
-
-  double *Gi = G_own.data();
-  double *Gj = G_own.data();
-
-  std::cout << nshells << std::endl;
-
-  struct timeval start, end;
-
-  gettimeofday(&start, NULL);
-  offset = 0;
-  int ioff_cart = 0;
-  for( int i = 0; i < nshells; ++i) {
-    shells bra_shell = _shells[i];
-    int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-
-    int joff_cart = 0;
-    for( int j = 0; j <= i; ++j) {
-      shells ket_shell = _shells[j];
-      int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-      XCPU::compute_integral_shell_pair_v0(ngrid,
-					   i == j,
-					   _shells[i].L,
-					   _shells[j].L,
-					   shparis[offset],
-					   _points_transposed.data(),
-					   (Xi + ioff_cart * ngrid),
-					   (Xj + joff_cart * ngrid),
-					   ngrid,
-					   (Gi + ioff_cart * ngrid),
-					   (Gj + joff_cart * ngrid),
-					   ngrid,
-					   w.data(),
-					   boys_table);
-      offset++;
-      
-      joff_cart += ket_cart_size;
-    }
-
-    ioff_cart += bra_cart_size;
-  }
-
-  gettimeofday(&end, NULL);
-  
-  int correct = 1;
-  
-  for( int i = 0; i < nbf * ngrid; ++i) {
-    if((fabs(G_libint[i] - G_own[i]) > 1e-6) || std::isnan(G_own[i])) {
-      printf("%lf %lf\n", G_libint[i], G_own[i]);
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << "\tExecution: "<< 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec) << std::endl;
-  
-  offset = 0;
-  for( int i = 0; i < nshells; ++i) {
-    for( int j = 0; j <= i; ++j) {
-      delete shpairs[offset].prim_pairs;
-      offset++;
-    }
-  }
-
-  delete shpairs;
-  
-  libint2::finalize();  // done with libint
-  XCPU::boys_finalize(boys_table);
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test2.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test2.cxx
deleted file mode 100644
index ebb02db..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test2.cxx
+++ /dev/null
@@ -1,250 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <libint2.hpp>
-#include <integral_data_types.h>
-#include <obara_saika_integrals.h>
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-
-int main(int argc, char** argv) {
-  libint2::initialize();
-
-  // Benzene
-  std::vector<libint2::Atom> atoms = {
-    libint2::Atom{ 6,  6.92768e-01,  -1.77656e+00,   1.40218e-03},
-    libint2::Atom{ 6,  3.35108e+00,  -1.77668e+00,   2.21098e-03},
-    libint2::Atom{ 6,  4.68035e+00,   5.25219e-01,   1.22454e-03},
-    libint2::Atom{ 6,  3.35121e+00,   2.82744e+00,  -7.02978e-04},
-    libint2::Atom{ 6,  6.93087e-01,   2.82756e+00,  -1.55902e-03},
-    libint2::Atom{ 6, -6.36278e-01,   5.25491e-01,  -4.68652e-04},
-    libint2::Atom{ 1, -3.41271e-01,  -3.56759e+00,   2.21287e-03},
-    libint2::Atom{ 1,  4.38492e+00,  -3.56783e+00,   3.73599e-03},
-    libint2::Atom{ 1,  6.74844e+00,   5.25274e-01,   1.88028e-03},
-    libint2::Atom{ 1,  4.38551e+00,   4.61832e+00,  -1.48721e-03},
-    libint2::Atom{ 1, -3.41001e-01,   4.61857e+00,  -3.05569e-03},
-    libint2::Atom{ 1, -2.70437e+00,   5.25727e-01,  -1.09793e-03} 
-  };
-
-  // Create cc-pVDZ BasisSet
-  const std::string basis_name = "cc-pVDZ";
-  libint2::BasisSet basis( basis_name, atoms );
-  basis.set_pure(false); // Reset to Cartesian
-  auto shell2bf = basis.shell2bf();
-
-  auto [min_x, max_x] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> 
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() {
-    return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) };
-  };
-
-  if( argc != 4 ) throw std::runtime_error("Must Specify NGrid");
-  
-  const int ngrid = std::stoll( std::string(argv[1]) );
-  const int lA = std::stoll( std::string(argv[2]) );
-  const int lB = std::stoll( std::string(argv[3]) );
-  
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  const size_t nbf = basis.nbf();
-  std::cout << "Running sn-LinK Proxy App with Settings:" << std::endl
-	    << "  * NBF   = " << nbf << std::endl
-	    << "  * NGRID = " << ngrid << std::endl
-	    << std::endl;
-
-  std::vector<libint2::Engine> engines;
-  engines.reserve(ngrid);
-  for( const auto& g : grid_points ) {
-    engines.emplace_back( libint2::Operator::nuclear, basis.max_nprim(),
-		          basis.max_l(), 0 );
-    std::vector< std::pair<double, std::array<double,3>> > q = { {-1., g} }; 
-    engines.back().set_params(q);
-  }
-
-  // Generate a random F matrix
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-
-  // Generate random grid weights
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  // Compute A
-  std::vector<double> A( nbf * nbf * ngrid );
-  
-  using row_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  using const_row_major_map = Eigen::Map< const row_major_mat >;
-  
-  using col_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
-  using col_major_map = Eigen::Map< col_major_mat >;
-  
-  // correctness - libint implementation
-  for( int k = 0; k < ngrid; ++k ) {
-    auto& engine = engines.at(k);
-    const auto& engine_buf = engine.results();
-
-    int skip_loop = 0;
-    
-    col_major_map A_k( A.data() + nbf * nbf * k, nbf, nbf );
-
-    for( int j = 0; j < basis.size(); ++j) {
-      auto bf_j = shell2bf[j];
-      auto nj   = basis[j].size();
-      
-      for( int i = 0; i <= j; ++i) {
-        auto bf_i = shell2bf[i];
-        auto ni   = basis[i].size();
-
-	if((i == j) && (basis[i].contr[0].l == lA) && (basis[j].contr[0].l == lB)) {
-	  engine.compute( basis[i], basis[j] );
-	  
-	  const_row_major_map buf_map( engine_buf[0], ni, nj );
-	  A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-
-	  skip_loop = 1;
-	}
-
-	if(skip_loop) break;
-      }
-      if(skip_loop) break;
-    }
-  }
-
-  std::vector<double> G_libint( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_libint[i] = 0.0;
-  }
-  for( int k = 0; k < ngrid; ++k ) {
-    for( int i = 0; i < nbf; ++i ) {
-      double tmp = 0.0;
-
-      for( int j = 0; j < nbf; ++j )
-        tmp += A[i + j * nbf + k * nbf * nbf] * F[j * ngrid + k];
-
-      G_libint[ i * ngrid + k ] = w[k] * tmp;
-    }
-  }
-
-  // correctness - own implementation
-
-  std::vector< point > _points;
-
-  _points.resize(ngrid); 
-
-  for( int i = 0; i < ngrid; ++i ){
-    _points[i].x = grid_points[i][0];
-    _points[i].y = grid_points[i][1];
-    _points[i].z = grid_points[i][2];
-  }
-  
-  std::vector< shells > _shells;
-  
-  int nshells = basis.size();
-  
-  _shells.resize(nshells);
-  
-  for( int i = 0; i < nshells; ++i ) {
-    _shells[i].origin.x = basis[i].O[0];
-    _shells[i].origin.y = basis[i].O[1];
-    _shells[i].origin.z = basis[i].O[2];
-
-    _shells[i].m = basis[i].alpha.size();
-    _shells[i].L = basis[i].contr[0].l;
-    
-    _shells[i].coeff = new coefficients[_shells[i].m];
-    for( int j = 0; j < _shells[i].m; ++j ) {
-      _shells[i].coeff[j].alpha = basis[i].alpha[j];
-      _shells[i].coeff[j].coeff = basis[i].contr[0].coeff[j];
-    }
-  }
-
-  std::vector<double> G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_own[i] = 0.0;
-  }
-  
-  double *Xi = F.data();
-  double *Xj = F.data();
-
-  double *Gi = G_own.data();
-  double *Gj = G_own.data();
-
-  std::cout << nshells << std::endl;
-
-  int skip_loop = 0;
-
-  int ioff_cart = 0;
-  for( int i = 0; i < nshells; ++i) {
-    shells bra_shell = _shells[i];
-    int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-  
-    int joff_cart = 0;
-    for( int j = 0; j <= i; ++j) {
-      shells ket_shell = _shells[j];
-      int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-      if((i == j) && (bra_shell.L == lA) && (ket_shell.L == lB)) {
-	std::cout << bra_shell.L << " " << ket_shell.L << std::endl;
-	compute_integral_shell_pair(ngrid,
-				    i,
-				    j,
-				    _shells.data(),
-				    _points.data(),
-				    (Xi + ioff_cart * ngrid),
-				    (Xj + joff_cart * ngrid),
-				    1,
-				    ngrid, 
-				    (Gi + ioff_cart * ngrid),
-				    (Gj + joff_cart * ngrid),
-				    1,
-				    ngrid,
-				    w.data());
-	skip_loop = 1;
-      }
-
-      if(skip_loop) break;
-      joff_cart += ket_cart_size;
-    }
-
-    if(skip_loop) break;
-    ioff_cart += bra_cart_size;
-  }
-
-  int correct = 1;
-  
-  for( int i = 0; i < nbf * ngrid; ++i) {
-    if(fabs(G_libint[i] - G_own[i]) > 1e-6) {
-      printf("%lf - %lf = %lf\n", G_libint[i], G_own[i], G_libint[i] - G_own[i]);
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << std::endl;
-  
-  libint2::finalize();  // done with libint
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test3.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test3.cxx
deleted file mode 100644
index 9d588ba..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test3.cxx
+++ /dev/null
@@ -1,254 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <libint2.hpp>
-#include <integral_data_types.h>
-#include <obara_saika_integrals.h>
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-
-int main(int argc, char** argv) {
-  libint2::initialize();
-
-  // Benzene
-  std::vector<libint2::Atom> atoms = {
-    libint2::Atom{ 6,  6.92768e-01,  -1.77656e+00,   1.40218e-03},
-    libint2::Atom{ 6,  3.35108e+00,  -1.77668e+00,   2.21098e-03},
-    libint2::Atom{ 6,  4.68035e+00,   5.25219e-01,   1.22454e-03},
-    libint2::Atom{ 6,  3.35121e+00,   2.82744e+00,  -7.02978e-04},
-    libint2::Atom{ 6,  6.93087e-01,   2.82756e+00,  -1.55902e-03},
-    libint2::Atom{ 6, -6.36278e-01,   5.25491e-01,  -4.68652e-04},
-    libint2::Atom{ 1, -3.41271e-01,  -3.56759e+00,   2.21287e-03},
-    libint2::Atom{ 1,  4.38492e+00,  -3.56783e+00,   3.73599e-03},
-    libint2::Atom{ 1,  6.74844e+00,   5.25274e-01,   1.88028e-03},
-    libint2::Atom{ 1,  4.38551e+00,   4.61832e+00,  -1.48721e-03},
-    libint2::Atom{ 1, -3.41001e-01,   4.61857e+00,  -3.05569e-03},
-    libint2::Atom{ 1, -2.70437e+00,   5.25727e-01,  -1.09793e-03} 
-  };
-
-  // Create cc-pVDZ BasisSet
-  const std::string basis_name = "cc-pVDZ";
-  libint2::BasisSet basis( basis_name, atoms );
-  basis.set_pure(false); // Reset to Cartesian
-  auto shell2bf = basis.shell2bf();
-
-  auto [min_x, max_x] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( atoms.begin(), atoms.end(), 
-    []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> 
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() {
-    return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) };
-  };
-
-  if( argc != 4 ) throw std::runtime_error("Must Specify NGrid");
-  
-  const int ngrid = std::stoll( std::string(argv[1]) );
-  const int lA = std::stoll( std::string(argv[2]) );
-  const int lB = std::stoll( std::string(argv[3]) );
-  
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  const size_t nbf = basis.nbf();
-  std::cout << "Running sn-LinK Proxy App with Settings:" << std::endl
-	    << "  * NBF   = " << nbf << std::endl
-	    << "  * NGRID = " << ngrid << std::endl
-	    << std::endl;
-
-  std::vector<libint2::Engine> engines;
-  engines.reserve(ngrid);
-  for( const auto& g : grid_points ) {
-    engines.emplace_back( libint2::Operator::nuclear, basis.max_nprim(),
-		          basis.max_l(), 0 );
-    std::vector< std::pair<double, std::array<double,3>> > q = { {-1., g} }; 
-    engines.back().set_params(q);
-  }
-
-  // Generate a random F matrix
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-
-  /*
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    F[i] = 1.0;
-  }
-  */
-  
-  // Generate random grid weights
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  /*
-  for(int i = 0; i < ngrid; ++i) {
-    w[i] = 1.0;
-  }
-  */
-  
-  // Compute A
-  std::vector<double> A( nbf * nbf * ngrid );
-  
-  using row_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  using const_row_major_map = Eigen::Map< const row_major_mat >;
-  
-  using col_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
-  using col_major_map = Eigen::Map< col_major_mat >;
-
-  // correctness - libint implementation
-  for( int k = 0; k < ngrid; ++k ) {
-    auto& engine = engines.at(k);
-    const auto& engine_buf = engine.results();
-
-    col_major_map A_k( A.data() + nbf * nbf * k, nbf, nbf );
-
-    for( int j = 0; j < basis.size(); ++j) {
-      auto bf_j = shell2bf[j];
-      auto nj   = basis[j].size();
-      
-      for( int i = 0; i < basis.size(); ++i) {
-        auto bf_i = shell2bf[i];
-        auto ni   = basis[i].size();
-	
-	if((i == lA) && (j == lB)) {
-	  std::cout << basis[i].contr[0].l << " " << basis[j].contr[0].l << std::endl;
-	  
-	  engine.compute( basis[i], basis[j] );
-	
-	  const_row_major_map buf_map( engine_buf[0], ni, nj );
-	  A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-	} else if((i == lB) && (j == lA)) {
-	  std::cout << basis[i].contr[0].l << " " << basis[j].contr[0].l << std::endl;
-	  
-	  engine.compute( basis[i], basis[j] );
-	
-	  const_row_major_map buf_map( engine_buf[0], ni, nj );
-	  A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-	}
-      }
-    }
-  }
-
-  std::vector<double> G_libint( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_libint[i] = 0.0;
-  }
-  for( int k = 0; k < ngrid; ++k ) {
-    for( int i = 0; i < nbf; ++i ) {
-      double tmp = 0.0;
-
-      for( int j = 0; j < nbf; ++j )
-        tmp += A[i + j * nbf + k * nbf * nbf] * F[j * ngrid + k];
-
-      G_libint[ i * ngrid + k ] = w[k] * tmp;
-    }
-  }
-
-  // correctness - own implementation
-
-  std::vector< point > _points;
-
-  _points.resize(ngrid); 
-
-  for( int i = 0; i < ngrid; ++i ){
-    _points[i].x = grid_points[i][0];
-    _points[i].y = grid_points[i][1];
-    _points[i].z = grid_points[i][2];
-  }
-  
-  std::vector< shells > _shells;
-  
-  int nshells = basis.size();
-  
-  _shells.resize(nshells);
-  
-  for( int i = 0; i < nshells; ++i ) {
-    _shells[i].origin.x = basis[i].O[0];
-    _shells[i].origin.y = basis[i].O[1];
-    _shells[i].origin.z = basis[i].O[2];
-
-    _shells[i].m = basis[i].alpha.size();
-    _shells[i].L = basis[i].contr[0].l;
-    
-    _shells[i].coeff = new coefficients[_shells[i].m];
-    for( int j = 0; j < _shells[i].m; ++j ) {
-      _shells[i].coeff[j].alpha = basis[i].alpha[j];
-      _shells[i].coeff[j].coeff = basis[i].contr[0].coeff[j];
-    }
-  }
-
-  std::vector<double> G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_own[i] = 0.0;
-  }
-  double *Xi = F.data();
-  double *Xj = F.data();
-
-  double *Gi = G_own.data();
-  double *Gj = G_own.data();
-
-  int ioff_cart = 0;
-  for( int i = 0; i < nshells; ++i) {
-    shells bra_shell = _shells[i];
-    int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-      
-    int joff_cart = 0;
-    for( int j = 0; j <= i; ++j) {
-      shells ket_shell = _shells[j];
-      int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-      if((i == lA) && (j == lB)) {
-	std::cout << bra_shell.L << " " << ket_shell.L << std::endl;
-	compute_integral_shell_pair(ngrid,
-				    i,
-				    j,
-				    _shells.data(),
-				    _points.data(),
-				    (Xi + ioff_cart * ngrid),
-				    (Xj + joff_cart * ngrid),
-				    1,
-				    ngrid, 
-				    (Gi + ioff_cart * ngrid),
-				    (Gj + joff_cart * ngrid),
-				    1,
-				    ngrid,
-				    w.data());
-      }
-      joff_cart += ket_cart_size;
-    }
-    ioff_cart += bra_cart_size;  
-  }
-
-  int correct = 1;
-  
-  for( int i = 0; i < nbf * ngrid; ++i) {
-    if(fabs(G_libint[i] - G_own[i]) > 1e-6) {
-      printf("%lf - %lf = %lf\n", G_libint[i], G_own[i], G_libint[i] - G_own[i]);
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << std::endl;
-  
-  libint2::finalize();  // done with libint
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys.cxx
deleted file mode 100644
index 42941ef..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys.cxx
+++ /dev/null
@@ -1,89 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdio.h>
-#include <stdlib.h>
-
-#include <iostream>
-#include <cmath>
-
-#include <sys/time.h>
-
-#include "../include/chebyshev_boys_computation.hpp"
-
-int main(int argc, char **argv) {
-
-  int runs = atoi(argv[1]);
-  double TVAL = atof(argv[2]);
-  
-  GauXC::gauxc_boys_init();
-
-  struct timeval t0, t1;
-  
-  double f0, f1, f2, f3, f4, f5, f6, f7, f8;
-  double g0, g1, g2, g3, g4, g5, g6, g7, g8;
-  
-  long long sum0 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    f0 = GauXC::gauxc_boys_element<0>(TVAL);
-    f1 = GauXC::gauxc_boys_element<1>(TVAL);
-    f2 = GauXC::gauxc_boys_element<2>(TVAL);
-    f3 = GauXC::gauxc_boys_element<3>(TVAL);
-    f4 = GauXC::gauxc_boys_element<4>(TVAL);
-    f5 = GauXC::gauxc_boys_element<5>(TVAL);
-    f6 = GauXC::gauxc_boys_element<6>(TVAL);
-    f7 = GauXC::gauxc_boys_element<7>(TVAL);
-    f8 = GauXC::gauxc_boys_element<8>(TVAL);
-    gettimeofday(&t1, NULL);
-
-    sum0 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  long long sum1 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    double e_TVAL_neg = std::exp(-TVAL);
-    double TVAL_rec = 1 / (2 * TVAL);
-
-    e_TVAL_neg = (-1.0) * e_TVAL_neg * TVAL_rec;
-  
-    g0 = GauXC::gauxc_boys_element<0>(TVAL);
-
-    g1 =  1.0 * g0 * TVAL_rec + e_TVAL_neg;
-    g2 =  3.0 * g1 * TVAL_rec + e_TVAL_neg;
-    g3 =  5.0 * g2 * TVAL_rec + e_TVAL_neg;
-    g4 =  7.0 * g3 * TVAL_rec + e_TVAL_neg;
-    g5 =  9.0 * g4 * TVAL_rec + e_TVAL_neg;
-    g6 = 11.0 * g5 * TVAL_rec + e_TVAL_neg;
-    g7 = 13.0 * g6 * TVAL_rec + e_TVAL_neg;
-    g8 = 15.0 * g7 * TVAL_rec + e_TVAL_neg;
-    gettimeofday(&t1, NULL);
-    
-    sum1 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  printf("%lf - %lf = %e\n", f0, g0, f0 - g0);
-  printf("%lf - %lf = %e\n", f1, g1, f1 - g1);
-  printf("%lf - %lf = %e\n", f2, g2, f2 - g2);
-  printf("%lf - %lf = %e\n", f3, g3, f3 - g3);
-  printf("%lf - %lf = %e\n", f4, g4, f4 - g4);
-  printf("%lf - %lf = %e\n", f5, g5, f5 - g5);
-  printf("%lf - %lf = %e\n", f6, g6, f6 - g6);
-  printf("%lf - %lf = %e\n", f7, g7, f7 - g7);
-  printf("%lf - %lf = %e\n", f8, g8, f8 - g8);
-
-  printf("%lf\t%lf\n", sum0 / ((double) (1.0 * runs)), sum1 / ((double) (1.0 * runs)));
-  
-  GauXC::gauxc_boys_finalize();
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v0.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v0.cxx
deleted file mode 100644
index 455f715..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v0.cxx
+++ /dev/null
@@ -1,94 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-#include <stdio.h>
-#include <stdlib.h>
-#include <sys/time.h>
-
-#include <iostream>
-#include <cmath>
-
-#include "../include/chebyshev_boys_computation.hpp"
-
-#define SQRT_PI_OVER_2 0.88622692545275801364
-
-int main(int argc, char **argv) {
-
-  int runs = atoi(argv[1]);
-  double TVAL = atof(argv[2]);
-  
-  GauXC::gauxc_boys_init();
-
-  struct timeval t0, t1;
-
-  double f0, f1, f2, f3, f4, f5, f6, f7, f8;
-  double g0, g1, g2, g3, g4, g5, g6, g7, g8;  
-  
-  long long sum0 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    f0 = GauXC::gauxc_boys_element<0>(TVAL);
-    f1 = GauXC::gauxc_boys_element<1>(TVAL);
-    f2 = GauXC::gauxc_boys_element<2>(TVAL);
-    f3 = GauXC::gauxc_boys_element<3>(TVAL);
-    f4 = GauXC::gauxc_boys_element<4>(TVAL);
-    f5 = GauXC::gauxc_boys_element<5>(TVAL);
-    f6 = GauXC::gauxc_boys_element<6>(TVAL);
-    f7 = GauXC::gauxc_boys_element<7>(TVAL);
-    f8 = GauXC::gauxc_boys_element<8>(TVAL);
-    gettimeofday(&t1, NULL);
-
-    sum0 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  long long sum1 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    double e_TVAL_neg = std::exp(-TVAL);
-    double TVAL_rec = 1 / TVAL;
-    double TVAL_sqrt = std::sqrt(TVAL);
-    double TVAL_rec_sqrt = std::sqrt(TVAL_rec);
-  
-    e_TVAL_neg = (-0.5) * e_TVAL_neg * TVAL_rec;
-
-    g0 = SQRT_PI_OVER_2 * TVAL_rec_sqrt;
-    g0 *= (TVAL < DEFAULT_MAX_T) ? std::erf(TVAL_sqrt) : 1.0;
-  
-    g1 = 0.5 * g0 * TVAL_rec + e_TVAL_neg;
-    g2 = 1.5 * g1 * TVAL_rec + e_TVAL_neg;
-    g3 = 2.5 * g2 * TVAL_rec + e_TVAL_neg;
-    g4 = 3.5 * g3 * TVAL_rec + e_TVAL_neg;
-    g5 = 4.5 * g4 * TVAL_rec + e_TVAL_neg;
-    g6 = 5.5 * g5 * TVAL_rec + e_TVAL_neg;
-    g7 = 6.5 * g6 * TVAL_rec + e_TVAL_neg;
-    g8 = 7.5 * g7 * TVAL_rec + e_TVAL_neg;
-    gettimeofday(&t1, NULL);
-    
-    sum1 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  printf("%e - %e = %e\n", f0, g0, (f0 - g0) / f0);
-  printf("%e - %e = %e\n", f1, g1, (f1 - g1) / f1);
-  printf("%e - %e = %e\n", f2, g2, (f2 - g2) / f2);
-  printf("%e - %e = %e\n", f3, g3, (f3 - g3) / f3);
-  printf("%e - %e = %e\n", f4, g4, (f4 - g4) / f4);
-  printf("%e - %e = %e\n", f5, g5, (f5 - g5) / f5);
-  printf("%e - %e = %e\n", f6, g6, (f6 - g6) / f6);
-  printf("%e - %e = %e\n", f7, g7, (f7 - g7) / f7);
-  printf("%e - %e = %e\n", f8, g8, (f8 - g8) / f8);
-
-  printf("%lf\t%lf\n", sum0 / ((double) (1.0 * runs)), sum1 / ((double) (1.0 * runs)));
-  
-  GauXC::gauxc_boys_finalize();
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v1.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v1.cxx
deleted file mode 100644
index 39c5176..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v1.cxx
+++ /dev/null
@@ -1,153 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdio.h>
-#include <stdlib.h>
-#include <sys/time.h>
-
-#include <iostream>
-#include <cmath>
-
-#include "../include/chebyshev_boys_computation.hpp"
-
-#define SQRT_PI_OVER_2 0.88622692545275801364
-
-int main(int argc, char **argv) {
-  
-  int runs = atoi(argv[1]);
-  double TVAL = atof(argv[2]);
-  
-  GauXC::gauxc_boys_init();
-
-  struct timeval t0, t1;
-  
-  double f0, f1, f2, f3, f4, f5, f6, f7, f8;
-  double g0, g1, g2, g3, g4, g5, g6, g7, g8;
-
-  long long sum0 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    f0 = GauXC::gauxc_boys_element<0>(TVAL);
-    f1 = GauXC::gauxc_boys_element<1>(TVAL);
-    f2 = GauXC::gauxc_boys_element<2>(TVAL);
-    f3 = GauXC::gauxc_boys_element<3>(TVAL);
-    f4 = GauXC::gauxc_boys_element<4>(TVAL);
-    f5 = GauXC::gauxc_boys_element<5>(TVAL);
-    f6 = GauXC::gauxc_boys_element<6>(TVAL);
-    f7 = GauXC::gauxc_boys_element<7>(TVAL);
-    f8 = GauXC::gauxc_boys_element<8>(TVAL);
-    gettimeofday(&t1, NULL);
-
-    sum0 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  long long sum1 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    double e_13 = std::exp(-1.0 * TVAL / 3.0);
-    double e_23 = e_13 * e_13;
-    double e_11 = e_23 * e_13;
-
-    double TVALr  = 1 / TVAL;
-    double TVALrs = std::sqrt(TVALr);
-
-    g0 = 0.0;
-  
-    if(TVAL < 28) {
-      double n;
-      double d;
-    
-      if(TVAL < 13) {
-	n = 0.101496827289892561636e-8 * TVAL + 0.100290453231804032913e-8;
-	n = TVAL * n + 0.114315819494419468355e-5;
-	n = TVAL * n + 0.488275205694491957804e-5;
-	n = TVAL * n + 0.000399414007760856993659f;
-	n = TVAL * n + 0.00173561872693777888307f;
-	n = TVAL * n + 0.0447039731090986429495f;
-	n = TVAL * n + 0.110797197786631479568f;
-	n = TVAL * n + 0.999999999999995700241;
-
-	d = -0.282456869187885785253e-12 * TVAL + 0.333637026721052224101e-10;
-	d = TVAL * d - 0.128927743593561789607e-8;
-	d = TVAL * d + 0.446404578868329808188e-8;
-	d = TVAL * d + 0.76237111832045313941e-6;
-	d = TVAL * d - 0.493272041137073499076e-5;
-	d = TVAL * d - 0.000366831695730316839546f;
-	d = TVAL * d + 0.000259528667137113921197f;
-	d = TVAL * d + 0.110797197786377266728f;
-	d = TVAL * d + 1.0f;
-
-      } else {
-	n = 0.230224133910752021883e-9 * TVAL - 0.328585595083913821085e-8;
-	n = TVAL * n + 0.435705981848460995997e-6;
-	n = TVAL * n - 0.106401343255264539364e-5;
-	n = TVAL * n + 0.000226242532551670921154f;
-	n = TVAL * n + 0.00070264488753193594737f;
-	n = TVAL * n + 0.0370559849570588636147f;
-	n = TVAL * n + 0.114650580864037928698f;
-	n = TVAL * n + 1.02241837924423924866f;
-
-	d = -0.506080089114735146947e-14 * TVAL + 0.15072842445210102341e-11;
-	d = TVAL * d - 0.187119412616382912596e-9;
-	d = TVAL * d + 0.117435181167263649392e-7;
-	d = TVAL * d - 0.303867297213349637263e-6;
-	d = TVAL * d - 0.629509987120141096118e-5;
-	d = TVAL * d + 0.000681696308108648850972f;
-	d = TVAL * d - 0.0180199379732503914666f;
-	d = TVAL * d + 0.136951673337325655053f;
-	d = TVAL * d + 1.0;
-      }
-
-      double d_inv = 1 / d;
-      g0 = e_13 * n * d_inv;
-    } else {
-      g0 = SQRT_PI_OVER_2 * TVALrs;
-    }
-
-    e_11 *= (-0.5) * TVALr;
-    g1 = 0.5 * TVALr;
-    g2 = 1.5 * TVALr;
-    g3 = 2.5 * TVALr;
-    g4 = 3.5 * TVALr;
-    g5 = 4.5 * TVALr;
-    g6 = 5.5 * TVALr;
-    g7 = 6.5 * TVALr;
-    g8 = 7.5 * TVALr;
-
-    g1 = g1 * g0 + e_11;
-    g2 = g2 * g1 + e_11;
-    g3 = g3 * g2 + e_11;
-    g4 = g4 * g3 + e_11;
-    g5 = g5 * g4 + e_11;
-    g6 = g6 * g5 + e_11;
-    g7 = g7 * g6 + e_11;
-    g8 = g8 * g7 + e_11;
-    gettimeofday(&t1, NULL);
-    
-    sum1 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  printf("%lf - %lf = %e\n", f0, g0, (f0 - g0) / f0);
-  printf("%lf - %lf = %e\n", f1, g1, (f1 - g1) / f1);
-  printf("%lf - %lf = %e\n", f2, g2, (f2 - g2) / f2);
-  printf("%lf - %lf = %e\n", f3, g3, (f3 - g3) / f3);
-  printf("%lf - %lf = %e\n", f4, g4, (f4 - g4) / f4);
-  printf("%lf - %lf = %e\n", f5, g5, (f5 - g5) / f5);
-  printf("%lf - %lf = %e\n", f6, g6, (f6 - g6) / f6);
-  printf("%lf - %lf = %e\n", f7, g7, (f7 - g7) / f7);
-  printf("%lf - %lf = %e\n", f8, g8, (f8 - g8) / f8);
-
-  printf("%lf\t%lf\n", sum0 / ((double) (1.0 * runs)), sum1 / ((double) (1.0 * runs)));
-  
-  GauXC::gauxc_boys_finalize();
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v2.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v2.cxx
deleted file mode 100644
index b992fcc..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v2.cxx
+++ /dev/null
@@ -1,131 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdio.h>
-#include <stdlib.h>
-#include <sys/time.h>
-
-#include <iostream>
-#include <cmath>
-
-#include "../include/chebyshev_boys_computation.hpp"
-
-#define SQRT_PI_OVER_2 0.88622692545275801364
-
-int main(int argc, char **argv) {
-  
-  int runs = atoi(argv[1]);
-  double TVAL = atof(argv[2]);
-  
-  GauXC::gauxc_boys_init();
-
-  struct timeval t0, t1;
-  
-  double f0, f1, f2, f3, f4, f5, f6, f7, f8;
-  double g0, g1, g2, g3, g4, g5, g6, g7, g8;
-
-  long long sum0 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    f0 = GauXC::gauxc_boys_element<0>(TVAL);
-    f1 = GauXC::gauxc_boys_element<1>(TVAL);
-    f2 = GauXC::gauxc_boys_element<2>(TVAL);
-    f3 = GauXC::gauxc_boys_element<3>(TVAL);
-    f4 = GauXC::gauxc_boys_element<4>(TVAL);
-    f5 = GauXC::gauxc_boys_element<5>(TVAL);
-    f6 = GauXC::gauxc_boys_element<6>(TVAL);
-    f7 = GauXC::gauxc_boys_element<7>(TVAL);
-    f8 = GauXC::gauxc_boys_element<8>(TVAL);
-    gettimeofday(&t1, NULL);
-
-    sum0 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  long long sum1 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    double e_13 = std::exp(-1.0 * TVAL / 3.0);
-    double e_23 = e_13 * e_13;
-    double e_11 = e_23 * e_13;
-
-    double TVALr  = 1 / TVAL;
-    double TVALrs = std::sqrt(TVALr);
-
-    g0 = 0.0;
-  
-    if(TVAL < 28) {
-      double n;
-      double d;
-    
-      n = 0.101496827289892561636e-8 * TVAL + 0.100290453231804032913e-8;
-      n = TVAL * n + 0.114315819494419468355e-5;
-      n = TVAL * n + 0.488275205694491957804e-5;
-      n = TVAL * n + 0.000399414007760856993659f;
-      n = TVAL * n + 0.00173561872693777888307f;
-      n = TVAL * n + 0.0447039731090986429495f;
-      n = TVAL * n + 0.110797197786631479568f;
-      n = TVAL * n + 0.999999999999995700241;
-
-      d = -0.282456869187885785253e-12 * TVAL + 0.333637026721052224101e-10;
-      d = TVAL * d - 0.128927743593561789607e-8;
-      d = TVAL * d + 0.446404578868329808188e-8;
-      d = TVAL * d + 0.76237111832045313941e-6;
-      d = TVAL * d - 0.493272041137073499076e-5;
-      d = TVAL * d - 0.000366831695730316839546f;
-      d = TVAL * d + 0.000259528667137113921197f;
-      d = TVAL * d + 0.110797197786377266728f;
-      d = TVAL * d + 1.0f;
-
-      double d_inv = 1 / d;
-      g0 = e_13 * n * d_inv;
-    } else {
-      g0 = SQRT_PI_OVER_2 * TVALrs;
-    }
-
-    e_11 *= (-0.5) * TVALr;
-    g1 = 0.5 * TVALr;
-    g2 = 1.5 * TVALr;
-    g3 = 2.5 * TVALr;
-    g4 = 3.5 * TVALr;
-    g5 = 4.5 * TVALr;
-    g6 = 5.5 * TVALr;
-    g7 = 6.5 * TVALr;
-    g8 = 7.5 * TVALr;
-
-    g1 = g1 * g0 + e_11;
-    g2 = g2 * g1 + e_11;
-    g3 = g3 * g2 + e_11;
-    g4 = g4 * g3 + e_11;
-    g5 = g5 * g4 + e_11;
-    g6 = g6 * g5 + e_11;
-    g7 = g7 * g6 + e_11;
-    g8 = g8 * g7 + e_11;
-    gettimeofday(&t1, NULL);
-    
-    sum1 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  printf("%lf - %lf = %e\n", f0, g0, (f0 - g0) / f0);
-  printf("%lf - %lf = %e\n", f1, g1, (f1 - g1) / f1);
-  printf("%lf - %lf = %e\n", f2, g2, (f2 - g2) / f2);
-  printf("%lf - %lf = %e\n", f3, g3, (f3 - g3) / f3);
-  printf("%lf - %lf = %e\n", f4, g4, (f4 - g4) / f4);
-  printf("%lf - %lf = %e\n", f5, g5, (f5 - g5) / f5);
-  printf("%lf - %lf = %e\n", f6, g6, (f6 - g6) / f6);
-  printf("%lf - %lf = %e\n", f7, g7, (f7 - g7) / f7);
-  printf("%lf - %lf = %e\n", f8, g8, (f8 - g8) / f8);
-
-  printf("%lf\t%lf\n", sum0 / ((double) (1.0 * runs)), sum1 / ((double) (1.0 * runs)));
-  
-  GauXC::gauxc_boys_finalize();
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v3.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v3.cxx
deleted file mode 100644
index 325b8b3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v3.cxx
+++ /dev/null
@@ -1,89 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <stdio.h>
-#include <stdlib.h>
-#include <sys/time.h>
-
-#include <iostream>
-#include <cmath>
-
-#include "../include/chebyshev_boys_computation.hpp"
-#include "../src/config_obara_saika.hpp"
-
-#define SQRT_PI_OVER_2 0.88622692545275801364
-
-int main(int argc, char **argv) {
-
-  int runs = atoi(argv[1]);
-  double TVAL = atof(argv[2]);
-  
-  double *boys_table = XCPU::boys_init();
-
-  struct timeval t0, t1;
-
-  double t;
-  double f0, f1, f2, f3, f4, f5, f6, f7, f8;
-  double g0, g1, g2, g3, g4, g5, g6, g7, g8;  
-  
-  long long sum0 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    XCPU::boys_element<0>(&TVAL, &t, &f0, boys_table);
-    XCPU::boys_element<1>(&TVAL, &t, &f1, boys_table);
-    XCPU::boys_element<2>(&TVAL, &t, &f2, boys_table);
-    XCPU::boys_element<3>(&TVAL, &t, &f3, boys_table);
-    XCPU::boys_element<4>(&TVAL, &t, &f4, boys_table);
-    XCPU::boys_element<5>(&TVAL, &t, &f5, boys_table);
-    XCPU::boys_element<6>(&TVAL, &t, &f6, boys_table);
-    XCPU::boys_element<7>(&TVAL, &t, &f7, boys_table);
-    XCPU::boys_element<8>(&TVAL, &t, &f8, boys_table);
-    gettimeofday(&t1, NULL);
-
-    sum0 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  long long sum1 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-
-    XCPU::boys_element<8>(&TVAL, &t, &g8, boys_table);
-
-    g7 = (TVAL * g8 + t) * (2.0 / 15.0);
-    g6 = (TVAL * g7 + t) * (2.0 / 13.0);
-    g5 = (TVAL * g6 + t) * (2.0 / 11.0);
-    g4 = (TVAL * g5 + t) * (2.0 /  9.0);
-    g3 = (TVAL * g4 + t) * (2.0 /  7.0);
-    g2 = (TVAL * g3 + t) * (2.0 /  5.0);
-    g1 = (TVAL * g2 + t) * (2.0 /  3.0);
-    g0 = (TVAL * g1 + t) * (2.0 /  1.0);
-    
-    gettimeofday(&t1, NULL);
-    
-    sum1 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  printf("%e - %e = %e\n", f0, g0, (f0 - g0) / f0);
-  printf("%e - %e = %e\n", f1, g1, (f1 - g1) / f1);
-  printf("%e - %e = %e\n", f2, g2, (f2 - g2) / f2);
-  printf("%e - %e = %e\n", f3, g3, (f3 - g3) / f3);
-  printf("%e - %e = %e\n", f4, g4, (f4 - g4) / f4);
-  printf("%e - %e = %e\n", f5, g5, (f5 - g5) / f5);
-  printf("%e - %e = %e\n", f6, g6, (f6 - g6) / f6);
-  printf("%e - %e = %e\n", f7, g7, (f7 - g7) / f7);
-  printf("%e - %e = %e\n", f8, g8, (f8 - g8) / f8);
-
-  printf("%lf\t%lf\n", sum0 / ((double) (1.0 * runs)), sum1 / ((double) (1.0 * runs)));
-  
-  XCPU::boys_finalize(boys_table);
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v4.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v4.cxx
deleted file mode 100644
index 5cf9753..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/archive/test_boys_v4.cxx
+++ /dev/null
@@ -1,91 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-#include <stdio.h>
-#include <stdlib.h>
-#include <sys/time.h>
-
-#include <iostream>
-#include <cmath>
-
-#include "../include/chebyshev_boys_computation.hpp"
-
-#define SQRT_PI_OVER_2 0.88622692545275801364
-
-int main(int argc, char **argv) {
-
-  int runs = atoi(argv[1]);
-  double TVAL = atof(argv[2]);
-  
-  GauXC::gauxc_boys_init();
-
-  struct timeval t0, t1;
-
-  double f0, f1, f2, f3, f4, f5, f6, f7, f8;
-  double g0, g1, g2, g3, g4, g5, g6, g7, g8;  
-  
-  long long sum0 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    f0 = GauXC::gauxc_boys_element<0>(TVAL);
-    f1 = GauXC::gauxc_boys_element<1>(TVAL);
-    f2 = GauXC::gauxc_boys_element<2>(TVAL);
-    f3 = GauXC::gauxc_boys_element<3>(TVAL);
-    f4 = GauXC::gauxc_boys_element<4>(TVAL);
-    f5 = GauXC::gauxc_boys_element<5>(TVAL);
-    f6 = GauXC::gauxc_boys_element<6>(TVAL);
-    f7 = GauXC::gauxc_boys_element<7>(TVAL);
-    f8 = GauXC::gauxc_boys_element<8>(TVAL);
-    gettimeofday(&t1, NULL);
-
-    sum0 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  long long sum1 = 0;
-  for(int r = 0; r < runs; ++r) {
-    gettimeofday(&t0, NULL);
-    double TVAL_rec = 1 / TVAL;
-    double TVAL_sqrt = std::sqrt(TVAL);
-    double TVAL_rec_sqrt = std::sqrt(TVAL_rec);
-  
-    g0 = SQRT_PI_OVER_2 * TVAL_rec_sqrt;
-    g0 *= (TVAL < DEFAULT_MAX_T) ? std::erf(TVAL_sqrt) : 1.0;
-  
-    g1 = 0.5 * g0 * TVAL_rec;
-    g2 = 1.5 * g1 * TVAL_rec;
-    g3 = 2.5 * g2 * TVAL_rec;
-    g4 = 3.5 * g3 * TVAL_rec;
-    g5 = 4.5 * g4 * TVAL_rec;
-    g6 = 5.5 * g5 * TVAL_rec;
-    g7 = 6.5 * g6 * TVAL_rec;
-    g8 = 7.5 * g7 * TVAL_rec;
-    gettimeofday(&t1, NULL);
-    
-    sum1 += (t1.tv_sec-t0.tv_sec)*1000000LL + t1.tv_usec-t0.tv_usec;
-  }
-
-  printf("%e - %e = %e\n", f0, g0, (f0 - g0) / f0);
-  printf("%e - %e = %e\n", f1, g1, (f1 - g1) / f1);
-  printf("%e - %e = %e\n", f2, g2, (f2 - g2) / f2);
-  printf("%e - %e = %e\n", f3, g3, (f3 - g3) / f3);
-  printf("%e - %e = %e\n", f4, g4, (f4 - g4) / f4);
-  printf("%e - %e = %e\n", f5, g5, (f5 - g5) / f5);
-  printf("%e - %e = %e\n", f6, g6, (f6 - g6) / f6);
-  printf("%e - %e = %e\n", f7, g7, (f7 - g7) / f7);
-  printf("%e - %e = %e\n", f8, g8, (f8 - g8) / f8);
-
-  printf("%lf\t%lf\n", sum0 / ((double) (1.0 * runs)), sum1 / ((double) (1.0 * runs)));
-  
-  GauXC::gauxc_boys_finalize();
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/test_experimental.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/test_experimental.cxx
deleted file mode 100644
index e2378e6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/obara_saika/test/test_experimental.cxx
+++ /dev/null
@@ -1,272 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <libint2.hpp>
-#include <integral_data_types.hpp>
-#include <obara_saika_integrals.hpp>
-#include <chebyshev_boys_computation.hpp>
-#include <vector>
-#include <iostream>
-#include <algorithm>
-#include <random>
-#include <sys/time.h>
-#include <float.h>
-
-int main(int argc, char** argv) {
-  libint2::initialize();
-
-  double *boys_table = XCPU::boys_init();
-
-  // Benzene
-  std::vector<libint2::Atom> atoms = {
-    libint2::Atom{ 6,  6.92768e-01,  -1.77656e+00,   1.40218e-03},
-    libint2::Atom{ 6,  3.35108e+00,  -1.77668e+00,   2.21098e-03},
-    libint2::Atom{ 6,  4.68035e+00,   5.25219e-01,   1.22454e-03},
-    libint2::Atom{ 6,  3.35121e+00,   2.82744e+00,  -7.02978e-04},
-    libint2::Atom{ 6,  6.93087e-01,   2.82756e+00,  -1.55902e-03},
-    libint2::Atom{ 6, -6.36278e-01,   5.25491e-01,  -4.68652e-04},
-    libint2::Atom{ 1, -3.41271e-01,  -3.56759e+00,   2.21287e-03},
-    libint2::Atom{ 1,  4.38492e+00,  -3.56783e+00,   3.73599e-03},
-    libint2::Atom{ 1,  6.74844e+00,   5.25274e-01,   1.88028e-03},
-    libint2::Atom{ 1,  4.38551e+00,   4.61832e+00,  -1.48721e-03},
-    libint2::Atom{ 1, -3.41001e-01,   4.61857e+00,  -3.05569e-03},
-    libint2::Atom{ 1, -2.70437e+00,   5.25727e-01,  -1.09793e-03}
-  };
-
-  // Create cc-pVDZ BasisSet
-  const std::string basis_name = "cc-pVDZ";
-  libint2::BasisSet basis( basis_name, atoms );
-  basis.set_pure(false); // Reset to Cartesian
-  auto shell2bf = basis.shell2bf();
-
-  auto [min_x, max_x] = std::minmax_element( atoms.begin(), atoms.end(),
-    []( const auto& a, const auto& b) { return a.x < b.x; } );
-  auto [min_y, max_y] = std::minmax_element( atoms.begin(), atoms.end(),
-    []( const auto& a, const auto& b) { return a.y < b.y; } );
-  auto [min_z, max_z] = std::minmax_element( atoms.begin(), atoms.end(),
-    []( const auto& a, const auto& b) { return a.z < b.z; } );
-
-  std::array<double,3> box_lo = { min_x->x, min_y->y, min_z->z };
-  std::array<double,3> box_hi = { max_x->x, max_y->y, max_z->z };
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double>
-    dist_x( box_lo[0], box_hi[0] ),
-    dist_y( box_lo[1], box_hi[1] ),
-    dist_z( box_lo[2], box_hi[2] );
-
-  auto gen_grid_point = [&]() {
-    return std::array<double,3>{ dist_x(gen), dist_y(gen), dist_z(gen) };
-  };
-
-  if( argc != 2 ) throw std::runtime_error("Must Specify NGrid");
-
-  const int ngrid = std::stoll( std::string(argv[1]) );
-
-  std::vector< std::array<double,3> > grid_points( ngrid );
-  std::generate( grid_points.begin(), grid_points.end(), gen_grid_point );
-
-  const size_t nbf = basis.nbf();
-  std::cout << "Running sn-LinK Proxy App with Settings:" << std::endl
-	    << "  * NBF   = " << nbf << std::endl
-	    << "  * NGRID = " << ngrid << std::endl
-	    << std::endl;
-
-  std::vector<libint2::Engine> engines;
-  engines.reserve(ngrid);
-  for( const auto& g : grid_points ) {
-    engines.emplace_back( libint2::Operator::nuclear, basis.max_nprim(),
-		          basis.max_l(), 0 );
-    std::vector< std::pair<double, std::array<double,3>> > q = { {-1., g} };
-    engines.back().set_params(q);
-  }
-
-  // Generate a random F matrix
-  std::vector<double> F( ngrid * nbf );
-  std::generate( F.begin(), F.end(), [&](){ return dist_x(gen); } );
-
-  // Generate random grid weights
-  std::vector<double> w( ngrid );
-  std::generate( w.begin(), w.end(), [&](){ return dist_x(gen); } );
-
-  // Compute A
-  std::vector<double> A( nbf * nbf * ngrid );
-  memset(&A[0], 0, nbf * nbf * ngrid * sizeof(double));
-
-  using row_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::RowMajor>;
-  using const_row_major_map = Eigen::Map< const row_major_mat >;
-
-  using col_major_mat = Eigen::Matrix<double, Eigen::Dynamic, Eigen::Dynamic, Eigen::ColMajor>;
-  using col_major_map = Eigen::Map< col_major_mat >;
-
-  // correctness - libint implementation
-
-  for( int k = 0; k < ngrid; ++k ) {
-    auto& engine = engines.at(k);
-    const auto& engine_buf = engine.results();
-
-    col_major_map A_k( A.data() + nbf * nbf * k, nbf, nbf );
-
-    for( int j = 0; j < basis.size(); ++j) {
-      auto bf_j = shell2bf[j];
-      auto nj   = basis[j].size();
-
-      for( int i = 0; i < basis.size(); ++i) {
-        auto bf_i = shell2bf[i];
-        auto ni   = basis[i].size();
-
-	engine.compute( basis[i], basis[j] );
-	const_row_major_map buf_map( engine_buf[0], ni, nj );
-	A_k.block( bf_i, bf_j, ni, nj ) = buf_map;
-      }
-    }
-  }
-
-  std::vector<double> G_libint( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_libint[i] = 0.0;
-  }
-  for( int k = 0; k < ngrid; ++k ) {
-    for( int i = 0; i < nbf; ++i ) {
-      double tmp = 0.0;
-
-      for( int j = 0; j < nbf; ++j )
-        tmp += A[i + j * nbf + k * nbf * nbf] * F[j * ngrid + k];
-
-      G_libint[ i * ngrid + k ] = w[k] * tmp;
-    }
-  }
-
-  // correctness - own implementation
-
-  std::vector<XCPU::point>  _points(ngrid);
-  std::vector<double> _points_transposed(3 * ngrid);
-
-  _points.resize(ngrid);
-
-  for( int i = 0; i < ngrid; ++i ){
-    _points[i].x = grid_points[i][0];
-    _points[i].y = grid_points[i][1];
-    _points[i].z = grid_points[i][2];
-
-    _points_transposed[i + 0 * ngrid] = grid_points[i][0];
-    _points_transposed[i + 1 * ngrid] = grid_points[i][1];
-    _points_transposed[i + 2 * ngrid] = grid_points[i][2];
-  }
-
-  std::vector<XCPU::shells> _shells;
-
-  int nshells = basis.size();
-
-  _shells.resize(nshells);
-
-  for( int i = 0; i < nshells; ++i ) {
-    _shells[i].origin.x = basis[i].O[0];
-    _shells[i].origin.y = basis[i].O[1];
-    _shells[i].origin.z = basis[i].O[2];
-
-    _shells[i].m = basis[i].alpha.size();
-    _shells[i].L = basis[i].contr[0].l;
-
-    _shells[i].coeff = new XCPU::coefficients[_shells[i].m];
-    for( int j = 0; j < _shells[i].m; ++j ) {
-      _shells[i].coeff[j].alpha = basis[i].alpha[j];
-      _shells[i].coeff[j].coeff = basis[i].contr[0].coeff[j];
-    }
-  }
-
-  int total_prim_pairs = 0;
-  for( int i = 0; i < nshells; ++i) {
-    for( int j = 0; j <= i; ++j) {
-      total_prim_pairs += (_shells[i].m * _shells[j].m);
-    }
-  }
-
-  XCPU::prim_pair *prim_pairs = new XCPU::prim_pair[total_prim_pairs];
-
-  int offset = 0;
-  for( int i = 0; i < nshells; ++i) {
-    for( int j = 0; j <= i; ++j) {
-      if( _shells[i].L >= _shells[j].L )
-	XCPU::generate_shell_pair(_shells[i], _shells[j], (prim_pairs + offset));
-      else
-	XCPU::generate_shell_pair(_shells[j], _shells[i], (prim_pairs + offset));
-
-      offset += (_shells[i].m * _shells[j].m);
-    }
-  }
-
-  std::vector<double> G_own( ngrid * nbf );
-  for(int i = 0; i < ngrid * nbf; ++i) {
-    G_own[i] = 0.0;
-  }
-  double *Xi = F.data();
-  double *Xj = F.data();
-
-  double *Gi = G_own.data();
-  double *Gj = G_own.data();
-
-  struct timeval start, end;
-
-  gettimeofday(&start, NULL);
-  offset = 0;
-  int ioff_cart = 0;
-  for( int i = 0; i < nshells; ++i) {
-    XCPU::shells bra_shell = _shells[i];
-    int bra_cart_size = (bra_shell.L + 1) * (bra_shell.L + 2) / 2;
-
-    int joff_cart = 0;
-    for( int j = 0; j <= i; ++j) {
-      XCPU::shells ket_shell = _shells[j];
-      int ket_cart_size = (ket_shell.L + 1) * (ket_shell.L + 2) / 2;
-
-      XCPU::compute_integral_shell_pair(i == j,
-					ngrid,
-					_points_transposed.data(),
-					_shells[i].L,
-					_shells[j].L,
-					_shells[i].origin,
-					_shells[j].origin,
-					(_shells[i].m * _shells[j].m),
-					(prim_pairs + offset),
-					(Xi + ioff_cart * ngrid),
-					(Xj + joff_cart * ngrid),
-					ngrid,
-					(Gi + ioff_cart * ngrid),
-					(Gj + joff_cart * ngrid),
-					ngrid,
-					w.data(),
-					boys_table);
-
-      offset += (_shells[i].m * _shells[j].m);
-      joff_cart += ket_cart_size;
-    }
-
-    ioff_cart += bra_cart_size;
-  }
-
-  gettimeofday(&end, NULL);
-
-  int correct = 1;
-  for( int i = 0; i < nbf * ngrid; ++i) {
-    if((fabs(G_libint[i] - G_own[i]) > 1e-6) || std::isnan(G_own[i])) {
-      printf("%lf %lf\n", G_libint[i], G_own[i]);
-      correct = 0;
-    }
-  }
-
-  std::cout << "Correctness: " << correct << "\tExecution: "<< 1000000 * (end.tv_sec - start.tv_sec) + (end.tv_usec - start.tv_usec) << std::endl;
-
-  delete prim_pairs;
-
-  libint2::finalize();  // done with libint
-  XCPU::boys_finalize(boys_table);
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/collocation.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/collocation.hpp
deleted file mode 100644
index bab6a07..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/collocation.hpp
+++ /dev/null
@@ -1,82 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <gauxc/basisset.hpp>
-
-namespace GauXC {
-
-void gau2grid_collocation( size_t                  npts, 
-                           size_t                  nshells,
-                           size_t                  nbe,
-                           const double*           points, 
-                           const BasisSet<double>& basis,
-                           const int32_t*          shell_mask,
-                           double*                 basis_eval );
-
-void gau2grid_collocation_gradient( size_t                  npts, 
-                                    size_t                  nshells,
-                                    size_t                  nbe,
-                                    const double*           points, 
-                                    const BasisSet<double>& basis,
-                                    const int32_t*          shell_mask,
-                                    double*                 basis_eval, 
-                                    double*                 dbasis_x_eval, 
-                                    double*                 dbasis_y_eval,
-                                    double*                 dbasis_z_eval );
-
-
-void gau2grid_collocation_hessian( size_t                  npts, 
-                                   size_t                  nshells,
-                                   size_t                  nbe,
-                                   const double*           points, 
-                                   const BasisSet<double>& basis,
-                                   const int32_t*          shell_mask,
-                                   double*                 basis_eval, 
-                                   double*                 dbasis_x_eval, 
-                                   double*                 dbasis_y_eval,
-                                   double*                 dbasis_z_eval, 
-                                   double*                 d2basis_xx_eval, 
-                                   double*                 d2basis_xy_eval,
-                                   double*                 d2basis_xz_eval,
-                                   double*                 d2basis_yy_eval,
-                                   double*                 d2basis_yz_eval,
-                                   double*                 d2basis_zz_eval);
-
-void gau2grid_collocation_der3(    size_t                  npts,
-                                   size_t                  nshells,
-                                   size_t                  nbe,
-                                   const double*           points, 
-                                   const BasisSet<double>& basis,
-                                   const int32_t*          shell_mask,
-                                   double*                 basis_eval, 
-                                   double*                 dbasis_x_eval, 
-                                   double*                 dbasis_y_eval,
-                                   double*                 dbasis_z_eval, 
-                                   double*                 d2basis_xx_eval, 
-                                   double*                 d2basis_xy_eval,
-                                   double*                 d2basis_xz_eval,
-                                   double*                 d2basis_yy_eval,
-                                   double*                 d2basis_yz_eval,
-                                   double*                 d2basis_zz_eval,
-				   double*                 d3basis_xxx_eval,
-				   double*                 d3basis_xxy_eval,
-				   double*                 d3basis_xxz_eval,
-				   double*                 d3basis_xyy_eval,
-				   double*                 d3basis_xyz_eval,
-				   double*                 d3basis_xzz_eval,
-				   double*                 d3basis_yyy_eval,
-				   double*                 d3basis_yyz_eval,
-				   double*                 d3basis_yzz_eval,
-				   double*                 d3basis_zzz_eval);
-
-    }
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/gau2grid_collocation.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/gau2grid_collocation.cxx
deleted file mode 100644
index 98f53d3..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/gau2grid_collocation.cxx
+++ /dev/null
@@ -1,303 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "collocation.hpp"
-
-
-#ifdef GAUXC_HAS_GAU2GRID
-  #include "gau2grid/gau2grid.h"
-#else
-  #include "collocation/collocation_angular_cartesian.hpp"
-  #include "collocation/collocation_angular_spherical_unnorm.hpp"
-  #include "collocation/collocation_radial.hpp"
-#endif
-
-namespace GauXC {
-
-void gau2grid_collocation( size_t                  npts, 
-                           size_t                  nshells,
-                           size_t                  nbe,
-                           const double*           points, 
-                           const BasisSet<double>& basis,
-                           const int32_t*          shell_mask,
-                           double*                 basis_eval ) {
-
-#ifdef GAUXC_HAS_GAU2GRID
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( npts * nbe );
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-    gg_collocation( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ncomp*npts );
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv, basis_eval );
-  a.deallocate( rv, npts*nbe );
-
-#else
-  
-  for( size_t ipt = 0; ipt < npts;  ++ipt )
-  for( size_t i = 0;   i < nshells; ++i   ) {
-    
-    const auto ish = shell_mask[i];
-    const auto& sh = basis.at(ish);
-    auto* eval = basis_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-
-    double x,y,z, bf;
-    integrator::cuda::collocation_device_radial_eval( sh, points + 3*ipt, 
-                                                      &x, &y, &z, &bf );
-
-    if( sh.pure() )
-      integrator::cuda::collocation_spherical_unnorm_angular( sh.l(), bf, x, y, z,
-                                                              eval );
-    else
-      integrator::cuda::collocation_cartesian_angular( sh.l(), bf, x, y, z, eval );
-                                                              
-                                                              
-  }
-
-#endif
-
-}
-
-void gau2grid_collocation_gradient( size_t                  npts, 
-                                    size_t                  nshells,
-                                    size_t                  nbe,
-                                    const double*           points, 
-                                    const BasisSet<double>& basis,
-                                    const int32_t*          shell_mask,
-                                    double*                 basis_eval, 
-                                    double*                 dbasis_x_eval, 
-                                    double*                 dbasis_y_eval,
-                                    double*                 dbasis_z_eval ) {
-
-#ifdef GAUXC_HAS_GAU2GRID
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( 4 * npts * nbe );
-  auto* rv_x = rv   + npts * nbe;
-  auto* rv_y = rv_x + npts * nbe;
-  auto* rv_z = rv_y + npts * nbe;
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-    gg_collocation_deriv1( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ncomp*npts, 
-      rv_x + ncomp*npts, rv_y + ncomp*npts, rv_z + ncomp*npts );
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv,   basis_eval );
-  gg_fast_transpose( ncomp, npts, rv_x, dbasis_x_eval );
-  gg_fast_transpose( ncomp, npts, rv_y, dbasis_y_eval );
-  gg_fast_transpose( ncomp, npts, rv_z, dbasis_z_eval );
-
-  a.deallocate( rv, 4*npts*nbe );
-
-#else 
-
-  for( size_t ipt = 0; ipt < npts;  ++ipt )
-  for( size_t i = 0;   i < nshells; ++i   ) {
-    
-    const auto ish = shell_mask[i];
-    const auto& sh = basis.at(ish);
-    auto* eval = basis_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_x = dbasis_x_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_y = dbasis_y_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-    auto* deval_z = dbasis_z_eval + ipt*nbe + basis.shell_to_first_ao( ish );
-
-    double x,y,z, bf, dbf_x, dbf_y, dbf_z;
-    integrator::cuda::collocation_device_radial_eval_deriv1( sh, points + 3*ipt, 
-                                                      &x, &y, &z, &bf, &dbf_x,
-                                                      &dbf_y, &dbf_z);
-
-    if( sh.pure() )
-      integrator::cuda::collocation_spherical_unnorm_angular_deriv1( 
-        sh.l(), bf, dbf_x, dbf_y, dbf_z, x, y, z, eval, deval_x, deval_y, deval_z );
-    else
-      integrator::cuda::collocation_cartesian_angular_deriv1( 
-        sh.l(), bf, dbf_x, dbf_y, dbf_z, x, y, z, eval, deval_x, deval_y, deval_z );
-                                                              
-  }
-
-#endif
-}
-
-
-
-void gau2grid_collocation_hessian( size_t                  npts, 
-                                   size_t                  nshells,
-                                   size_t                  nbe,
-                                   const double*           points, 
-                                   const BasisSet<double>& basis,
-                                   const int32_t*          shell_mask,
-                                   double*                 basis_eval, 
-                                   double*                 dbasis_x_eval, 
-                                   double*                 dbasis_y_eval,
-                                   double*                 dbasis_z_eval, 
-                                   double*                 d2basis_xx_eval, 
-                                   double*                 d2basis_xy_eval,
-                                   double*                 d2basis_xz_eval,
-                                   double*                 d2basis_yy_eval,
-                                   double*                 d2basis_yz_eval,
-                                   double*                 d2basis_zz_eval) {
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( 10 * npts * nbe );
-  auto* rv_x = rv   + npts * nbe;
-  auto* rv_y = rv_x + npts * nbe;
-  auto* rv_z = rv_y + npts * nbe;
-  auto* rv_xx = rv_z  + npts * nbe;
-  auto* rv_xy = rv_xx + npts * nbe;
-  auto* rv_xz = rv_xy + npts * nbe;
-  auto* rv_yy = rv_xz + npts * nbe;
-  auto* rv_yz = rv_yy + npts * nbe;
-  auto* rv_zz = rv_yz + npts * nbe;
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-
-    const auto ioff = ncomp*npts;
-    gg_collocation_deriv2( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ioff, rv_x + ioff, rv_y + ioff, 
-      rv_z + ioff, rv_xx + ioff, rv_xy + ioff, rv_xz + ioff, rv_yy + ioff,
-      rv_yz + ioff, rv_zz + ioff);
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv,    basis_eval );
-  gg_fast_transpose( ncomp, npts, rv_x,  dbasis_x_eval );
-  gg_fast_transpose( ncomp, npts, rv_y,  dbasis_y_eval );
-  gg_fast_transpose( ncomp, npts, rv_z,  dbasis_z_eval );
-  gg_fast_transpose( ncomp, npts, rv_xx, d2basis_xx_eval );
-  gg_fast_transpose( ncomp, npts, rv_xy, d2basis_xy_eval );
-  gg_fast_transpose( ncomp, npts, rv_xz, d2basis_xz_eval );
-  gg_fast_transpose( ncomp, npts, rv_yy, d2basis_yy_eval );
-  gg_fast_transpose( ncomp, npts, rv_yz, d2basis_yz_eval );
-  gg_fast_transpose( ncomp, npts, rv_zz, d2basis_zz_eval );
-
-  a.deallocate( rv, 10*npts*nbe );
-
-}
-
-
-void gau2grid_collocation_der3(    size_t                  npts, 
-                                   size_t                  nshells,
-                                   size_t                  nbe,
-                                   const double*           points, 
-                                   const BasisSet<double>& basis,
-                                   const int32_t*          shell_mask,
-                                   double*                 basis_eval, 
-                                   double*                 dbasis_x_eval, 
-                                   double*                 dbasis_y_eval,
-                                   double*                 dbasis_z_eval, 
-                                   double*                 d2basis_xx_eval, 
-                                   double*                 d2basis_xy_eval,
-                                   double*                 d2basis_xz_eval,
-                                   double*                 d2basis_yy_eval,
-                                   double*                 d2basis_yz_eval,
-                                   double*                 d2basis_zz_eval,
-                                   double*                 d3basis_xxx_eval,
-                                   double*                 d3basis_xxy_eval,
-                                   double*                 d3basis_xxz_eval,
-                                   double*                 d3basis_xyy_eval,
-                                   double*                 d3basis_xyz_eval,
-                                   double*                 d3basis_xzz_eval,
-                                   double*                 d3basis_yyy_eval,
-                                   double*                 d3basis_yyz_eval,
-                                   double*                 d3basis_yzz_eval,
-                                   double*                 d3basis_zzz_eval) {
-
-  std::allocator<double> a;
-  auto* rv = a.allocate( 20 * npts * nbe );
-  auto* rv_x = rv   + npts * nbe;
-  auto* rv_y = rv_x + npts * nbe;
-  auto* rv_z = rv_y + npts * nbe;
-  auto* rv_xx = rv_z  + npts * nbe;
-  auto* rv_xy = rv_xx + npts * nbe;
-  auto* rv_xz = rv_xy + npts * nbe;
-  auto* rv_yy = rv_xz + npts * nbe;
-  auto* rv_yz = rv_yy + npts * nbe;
-  auto* rv_zz = rv_yz + npts * nbe;
-  auto* rv_xxx = rv_zz + npts * nbe;
-  auto* rv_xxy = rv_xxx + npts * nbe;
-  auto* rv_xxz = rv_xxy + npts * nbe;
-  auto* rv_xyy = rv_xxz + npts * nbe;
-  auto* rv_xyz = rv_xyy + npts * nbe;
-  auto* rv_xzz = rv_xyz + npts * nbe;
-  auto* rv_yyy = rv_xzz + npts * nbe;
-  auto* rv_yyz = rv_yyy + npts * nbe;
-  auto* rv_yzz = rv_yyz + npts * nbe;
-  auto* rv_zzz = rv_yzz + npts * nbe;
-
-
-  size_t ncomp = 0;
-  for( size_t i = 0; i < nshells; ++i ) {
-
-    const auto& sh = basis.at(shell_mask[i]);
-    int order = sh.pure() ? GG_SPHERICAL_CCA : GG_CARTESIAN_CCA; 
-
-    const auto ioff = ncomp*npts;
-    gg_collocation_deriv3( sh.l(), npts, points, 3, sh.nprim(), sh.coeff_data(),
-      sh.alpha_data(), sh.O_data(), order, rv + ioff, rv_x + ioff, rv_y + ioff, 
-      rv_z + ioff, rv_xx + ioff, rv_xy + ioff, rv_xz + ioff, rv_yy + ioff,
-      rv_yz + ioff, rv_zz + ioff, rv_xxx + ioff, rv_xxy + ioff, rv_xxz + ioff,
-      rv_xyy + ioff, rv_xyz + ioff, rv_xzz + ioff, rv_yyy + ioff, rv_yyz + ioff,
-      rv_yzz + ioff, rv_zzz + ioff);
-
-    ncomp += sh.size();
-
-  }
-
-  gg_fast_transpose( ncomp, npts, rv,    basis_eval );
-  gg_fast_transpose( ncomp, npts, rv_x,  dbasis_x_eval );
-  gg_fast_transpose( ncomp, npts, rv_y,  dbasis_y_eval );
-  gg_fast_transpose( ncomp, npts, rv_z,  dbasis_z_eval );
-  gg_fast_transpose( ncomp, npts, rv_xx, d2basis_xx_eval );
-  gg_fast_transpose( ncomp, npts, rv_xy, d2basis_xy_eval );
-  gg_fast_transpose( ncomp, npts, rv_xz, d2basis_xz_eval );
-  gg_fast_transpose( ncomp, npts, rv_yy, d2basis_yy_eval );
-  gg_fast_transpose( ncomp, npts, rv_yz, d2basis_yz_eval );
-  gg_fast_transpose( ncomp, npts, rv_zz, d2basis_zz_eval );
-  gg_fast_transpose( ncomp, npts, rv_xxx, d3basis_xxx_eval );
-  gg_fast_transpose( ncomp, npts, rv_xxy, d3basis_xxy_eval );
-  gg_fast_transpose( ncomp, npts, rv_xxz, d3basis_xxz_eval );
-  gg_fast_transpose( ncomp, npts, rv_xyy, d3basis_xyy_eval );
-  gg_fast_transpose( ncomp, npts, rv_xyz, d3basis_xyz_eval );
-  gg_fast_transpose( ncomp, npts, rv_xzz, d3basis_xzz_eval );
-  gg_fast_transpose( ncomp, npts, rv_yyy, d3basis_yyy_eval );
-  gg_fast_transpose( ncomp, npts, rv_yyz, d3basis_yyz_eval );
-  gg_fast_transpose( ncomp, npts, rv_yzz, d3basis_yzz_eval );
-  gg_fast_transpose( ncomp, npts, rv_zzz, d3basis_zzz_eval );
-
-  a.deallocate( rv, 20*npts*nbe );
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/weights.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/weights.cxx
deleted file mode 100644
index 145bfd1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/weights.cxx
+++ /dev/null
@@ -1,988 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "host/reference/weights.hpp"
-#include "common/integrator_constants.hpp"
-
-#include <gauxc/molgrid/defaults.hpp>
-
-namespace GauXC {
-
-// Reference Becke weights impl
-void reference_becke_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  task_iterator          task_begin,
-  task_iterator          task_end
-) {
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-
-  const size_t ntasks = std::distance(task_begin,task_end);
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  std::vector<double> slater_radii;
-  for( auto& atom : mol ) {
-    slater_radii.emplace_back( default_atomic_radius(atom.Z) );
-  }
-
-
-#if 0
-  // TODO: Add a pathway for this
-  std::vector<double> size_adj(natoms * natoms);
-  for( auto i = 0; i < natoms; ++i ) 
-  for( auto j = 0; j < natoms; ++j ) {
-    const auto si  = slater_radii[i];
-    const auto sj  = slater_radii[j];
-    const auto chi = std::sqrt(si/sj);
-    const auto u   = (chi-1.)/(chi+1.);
-    const auto a   = u / (u*u-1.);
-
-    size_adj[i + j*natoms] = a;
-  }
-#endif
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  #pragma omp for
-  for( size_t iT = 0; iT < ntasks;                  ++iT )
-  for( size_t i  = 0; i  < (task_begin+iT)->points.size(); ++i  ) {
-
-    auto&       task   = *(task_begin+iT);
-    auto&       weight = task.weights[i];
-    const auto& point  = task.points[i];
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ ){
-
-      double mu  = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-
-#if 0
-      // Size Adjustment
-      const double a = size_adj[iA + jA*natoms];
-      mu = mu + a * ( 1. - mu*mu );
-#endif
-
-      const double g = gBecke(mu);
-
-      partitionScratch[iA] *= 0.5 * (1. - g);
-      partitionScratch[jA] *= 0.5 * (1. + g);
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[task.iParent] / sum;
-
-  } // Collapsed loop over tasks and points
-
-  } // OMP context
-
-
-}
-
-
-
-void reference_ssf_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  task_iterator          task_begin,
-  task_iterator          task_end
-) {
-
-  auto gFrisch = [&](double x) {
-    const double s_x  = x / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-
-  const size_t ntasks = std::distance(task_begin,task_end);
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  #pragma omp for
-  for( size_t iT = 0; iT < ntasks;                  ++iT )
-  for( size_t i  = 0; i  < (task_begin+iT)->points.size(); ++i  ) {
-
-    auto&       task   = *(task_begin+iT);
-    auto&       weight = task.weights[i];
-    const auto& point  = task.points[i];
-
-    const auto dist_cutoff = 0.5 * (1-integrator::magic_ssf_factor<>) * task.dist_nearest;
-
-    // Compute dist to parent atom
-    {
-      const double da_x = point[0] - mol[task.iParent].x;
-      const double da_y = point[1] - mol[task.iParent].y;
-      const double da_z = point[2] - mol[task.iParent].z;
-
-      atomDist[task.iParent] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-    }
-
-    if( atomDist[task.iParent] < dist_cutoff ) continue; // Partition weight = 1
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      if( iA == (size_t)task.iParent ) continue;
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-#if 1
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ )
-    if( partitionScratch[iA] > integrator::ssf_weight_tol or 
-        partitionScratch[jA] > integrator::ssf_weight_tol ) {
-
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-
-      if( mu <= -integrator::magic_ssf_factor<> ) {
-
-        partitionScratch[jA] = 0.;
-
-      } else if (mu >= integrator::magic_ssf_factor<>) {
-
-        partitionScratch[iA] = 0.;
-
-      } else {
-
-        double g = 0.5 * ( 1. - gFrisch(mu) );
-        partitionScratch[iA] *= g;
-        partitionScratch[jA] *= 1. - g;
-
-      }
-
-    }
-#else
-    for(size_t iA = 0; iA < natoms; ++iA)
-    for(size_t jA = 0; jA < natoms; ++jA) 
-    if(iA != jA and partitionScratch[iA] > integrator::ssf_weight_tol) {
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-      if( fabs(mu) < integrator::magic_ssf_factor<> ) {
-        double g = 0.5 * (1. - gFrisch(mu));
-        partitionScratch[iA] *= g;
-      } else if(mu >= integrator::magic_ssf_factor<>) {
-        partitionScratch[iA] = 0.0;
-      }
-    }
-
-    if(partitionScratch[task.iParent] < std::numeric_limits<double>::epsilon()) {
-      weight = 0;
-      continue;
-    }
-#endif
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[task.iParent] / sum;
-
-  } // Collapsed loop over tasks and points
-
-  } // OMP context
-
-
-}
-
-void reference_lko_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  task_iterator          task_begin,
-  task_iterator          task_end
-) {
-
-
-  // Sort on atom index
-  std::stable_sort( task_begin, task_end, 
-    [](const auto& a, const auto&b ) { return a.iParent < b.iParent; } );
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-  constexpr double R_cutoff = 5;
-
-  const size_t natoms = mol.natoms();
-
-  const auto&  RAB    = meta.rab();
-
-  #pragma omp parallel 
-  {
-
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-  std::vector<size_t> inter_atom_dist_idx( natoms );
-  std::vector<size_t> point_dist_idx( natoms );
-
-  #pragma omp for schedule(dynamic)
-  for( auto iAtom = 0ul; iAtom < natoms; ++iAtom ) {
-
-    auto atom_begin = std::find_if( task_begin, task_end,
-      [&](const auto& t){ return t.iParent == (int)iAtom; } );
-    auto atom_end = std::find_if( task_begin, task_end,
-      [&](const auto& t){ return t.iParent == (int)(iAtom+1); } );
-
-    auto* RAB_parent = RAB.data() + iAtom*natoms;
-
-    std::iota( inter_atom_dist_idx.begin(), inter_atom_dist_idx.end(), 0 );
-    std::sort( inter_atom_dist_idx.begin(), inter_atom_dist_idx.end(),
-      [&](auto i, auto j){ return RAB_parent[i] < RAB_parent[j]; } );
-
-  for( auto task_it = atom_begin; task_it != atom_end; ++task_it ) {
-
-    auto& points  = task_it->points;
-    auto& weights = task_it->weights;
-    const auto npts = points.size();
-
-  for( auto ipt = 0ul; ipt < npts; ++ipt ) {
-
-    auto& weight = weights[ipt];
-    const auto point = points[ipt];
-
-    std::fill( atomDist.begin(), atomDist.end(), std::numeric_limits<double>::infinity() );
-    // Parent distance
-    {
-      const double da_x = point[0] - mol[iAtom].x;
-      const double da_y = point[1] - mol[iAtom].y;
-      const double da_z = point[2] - mol[iAtom].z;
-
-      atomDist[iAtom] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-    }
-
-    double r_parent  = atomDist[iAtom];
-    double r_nearest = r_parent;
-    size_t natoms_keep = 1;
-    // Compute distances of each center to point
-    for(size_t iA = 1; iA < natoms; iA++) {
-      auto idx = inter_atom_dist_idx[iA];
-      if( RAB_parent[idx] > (r_parent + r_nearest + 2*R_cutoff) ) break;
-
-      const double da_x = point[0] - mol[idx].x;
-      const double da_y = point[1] - mol[idx].y;
-      const double da_z = point[2] - mol[idx].z;
-
-      const auto r = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-      r_nearest = std::min( r_nearest, r );
-      atomDist[idx] = r;
-      ++natoms_keep;
-    }
-
-     // Partition weight is 0
-    if( r_parent > r_nearest + R_cutoff ) {
-      weight = 0.;
-      continue;
-    }
-
-    // Partiton atom indices into a petite list of non-negligible centers
-    std::iota( point_dist_idx.begin(), point_dist_idx.end(), 0 );
-    auto atom_keep_end = std::partition( point_dist_idx.begin(), point_dist_idx.end(), 
-      [&](auto i){ return atomDist[i] < std::numeric_limits<double>::infinity(); } );
-
-    // Only sort over non-negligible cetners
-    std::sort( point_dist_idx.begin(), atom_keep_end,
-      [&](auto i, auto j){ return atomDist[i] < atomDist[j]; } );
-
-    // Get parent index
-    auto parent_it  = std::find( point_dist_idx.begin(), atom_keep_end, iAtom );
-    auto parent_idx = std::distance( point_dist_idx.begin(), parent_it );
-
-    // Sort atom distances for contiguous reads in weight loop
-    auto atom_dist_end = std::partition( atomDist.begin(), atomDist.end(),
-      [](auto x){ return x < std::numeric_limits<double>::infinity(); } );
-    std::sort( atomDist.begin(), atom_dist_end );
-
-
-
-    // Evaluate unnormalized partition functions 
-    std::fill_n(partitionScratch.begin(),natoms_keep,0.);
-    for( auto i = 0ul; i < natoms_keep; ++i ) {
-      auto idx_i = point_dist_idx[i];
-      auto r_i = atomDist[i];
-      if( r_i > (r_nearest + R_cutoff) ) { break; }
-      partitionScratch[i] = 1.;
-
-      const auto* RAB_i_idx = RAB.data() + idx_i*natoms;
-
-    for( auto j = 0ul; j < i; ++j ) {
-      auto idx_j = point_dist_idx[j];
-      auto r_j = atomDist[j];
-      if( r_j > (r_i + R_cutoff) ) { break; }
-
-      const double mu = 
-        (r_i - r_j) / std::min(RAB_i_idx[idx_j], R_cutoff);
-
-      const double g = gBecke(mu);
-      const auto   s_ij = 0.5 * (1. - g);
-      partitionScratch[i] *= s_ij;
-      partitionScratch[j] *= 1. - s_ij;
-      
-    }
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms_keep; iA++ )  sum += partitionScratch[iA];
-
-    // Update Weights
-    weight *= partitionScratch[parent_idx] / sum;
-
-  } // Loop over points 
-  } // Loop over tasks
-  } // Loop over atoms
-
-  } // OMP context
-
-}
-
-
-/**
- * 1st derivative which expects weight_deri to be preallocated as (ngrid*natoms*3)
- */
-void reference_becke_weights_1st_derivative_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  double* weight_deri
-){
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-  auto tBecke = [&](double x) {
-    // for numerical stability (see Jiashu's notes for details)
-    if (x > 1.0 - 1e-4) 
-      return 0.0; 
-    const double p1 = hBecke(x);
-    const double p2 = hBecke(p1);
-    return - 27.0 * (1. + p2) * (1. + p1) * (1. + x) / (1. - x) / (2. + p2) / (2. + p1) / (2. + x);
-  };
-
-  const size_t natoms = mol.natoms();
-  const auto&  RAB    = meta.rab();
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  for( size_t i  = 0; i  < task.points.size(); ++i  ) {
-
-    auto * weight_deri_ith = weight_deri + 3*natoms*i;
-    const size_t iParent = task.iParent;
-
-    //zerofy the derivative
-    std::fill(weight_deri_ith, weight_deri_ith + 3*natoms, 0.);
-    const auto& point  = task.points[i];
-    const auto& weight = task.weights[i];
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ ){
-
-      double mu  = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-      const double g = gBecke(mu);
-
-      partitionScratch[iA] *= 0.5 * (1. - g);
-      partitionScratch[jA] *= 0.5 * (1. + g);
-    }
-
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // calculate derivative now
-    auto * weight_deri_iParent = weight_deri_ith + 3*iParent;
-    for( size_t iB = 0; iB < natoms; iB++ ) {
-      if (iB == iParent) continue;
-      auto * weight_deri_iB = weight_deri_ith + 3*iB;
-      
-      const double uB_x = mol[iB].x - point[0];
-      const double uB_y = mol[iB].y - point[1];
-      const double uB_z = mol[iB].z - point[2];
-
-      const double uBA_x =mol[iB].x - mol[iParent].x;
-      const double uBA_y =mol[iB].y - mol[iParent].y;
-      const double uBA_z =mol[iB].z - mol[iParent].z;
-      const double rAB = RAB[iB + iParent*natoms];
-
-      double mu_AB  = (atomDist[iParent] - atomDist[iB]) / rAB;
-
-      // first term is - coef1 * nabla_B mu_BA
-      double coef1 = tBecke(mu_AB);
-      weight_deri_iB[0] -= coef1 / rAB * (uB_x / atomDist[iB] + mu_AB * uBA_x /rAB);
-      weight_deri_iB[1] -= coef1 / rAB * (uB_y / atomDist[iB] + mu_AB * uBA_y /rAB);
-      weight_deri_iB[2] -= coef1 / rAB * (uB_z / atomDist[iB] + mu_AB * uBA_z /rAB);
-      
-      double term_x = 0.0, term_y = 0.0, term_z = 0.0;
-      // second term is 1/Z *  \sum_{C != B} (P(B)t_BC - P(C)t_CB) nabla_B mu_BC
-      for( size_t iC = 0; iC < natoms; iC++ ){
-        if (iB == iC) continue;
-
-        // coef = (P(B)t_BC - P(C)t_CB)
-        double mu_BC = (atomDist[iB] - atomDist[iC]) / RAB[iC + iB*natoms];
-        double t_BC = tBecke(mu_BC);
-        double t_CB = tBecke(-mu_BC);
-        double coef = partitionScratch[iB] *t_BC - partitionScratch[iC] * t_CB;
-
-        const double rBC = RAB[iC + iB*natoms];
-
-        term_x += coef * ((mol[iB].x - point[0]) / atomDist[iB] / rBC - mu_BC * (mol[iB].x - mol[iC].x) / rBC / rBC);
-        term_y += coef * ((mol[iB].y - point[1]) / atomDist[iB] / rBC - mu_BC * (mol[iB].y - mol[iC].y) / rBC / rBC);
-        term_z += coef * ((mol[iB].z - point[2]) / atomDist[iB] / rBC - mu_BC * (mol[iB].z - mol[iC].z) / rBC / rBC);
-      }
-
-      weight_deri_iB[0] -= term_x / sum;
-      weight_deri_iB[1] -= term_y / sum;
-      weight_deri_iB[2] -= term_z / sum;
-
-      // Use translational invariance to calculate the derivative for the parent atom
-      weight_deri_iParent[0] -= weight_deri_iB[0];
-      weight_deri_iParent[1] -= weight_deri_iB[1];
-      weight_deri_iParent[2] -= weight_deri_iB[2];
-
-    }
-    
-    // Finally, scale the derivatives by the weight
-    for( size_t iB = 0; iB < natoms; iB++ ) 
-      for (size_t coord = 0; coord < 3; ++coord) 
-        weight_deri_ith[3*iB + coord] *= weight;
-      
-  } 
-}
-
-void reference_ssf_weights_1st_derivative_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  double* weight_deri
-){
-
-  const auto safe_magic_ssf_bound = integrator::magic_ssf_factor<> - 1e-4;
-
-  auto gFrisch = [&](double x) {
-    const double s_x  = x / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-  auto tFrisch = [&](double x) {
-    const double s_x  = x / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double numerator = 35. * (s_x3 + 3. * s_x2 + 3. * s_x + 1.);
-    const double denominator = (x - integrator::magic_ssf_factor<>) * (5.*s_x3 + 20.*s_x2 + 29.*s_x + 16.);
-    return numerator / denominator ;
-  };
-
-  const size_t natoms = mol.natoms();
-  const auto&  RAB    = meta.rab();
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  for( size_t i  = 0; i  < task.points.size(); ++i  ) {
-
-    auto * weight_deri_ith = weight_deri + 3*natoms*i;
-
-    //zerofy the derivative
-    std::fill(weight_deri_ith, weight_deri_ith + 3*natoms, 0.);
-    const auto& weight = task.weights[i];
-
-    if (std::abs(weight) < 1.e-12) continue; // weight derivative = 0 when p_A = 0
-    const size_t iParent = task.iParent;
-
-    const auto& point  = task.points[i];
-
-    const auto dist_cutoff = 0.5 * (1-integrator::magic_ssf_factor<>) * task.dist_nearest;
-
-    // Compute dist to parent atom
-    {
-      const double da_x = point[0] - mol[iParent].x;
-      const double da_y = point[1] - mol[iParent].y;
-      const double da_z = point[2] - mol[iParent].z;
-
-      atomDist[iParent] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-    }
-
-    if( atomDist[iParent] < dist_cutoff ) continue; // weight derivative = 0 when p_A = 1
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      if( iA == (size_t)iParent ) continue;
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ )
-    if( partitionScratch[iA] > integrator::ssf_weight_tol or 
-        partitionScratch[jA] > integrator::ssf_weight_tol ) {
-
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-
-      if( mu <= -integrator::magic_ssf_factor<> ) {
-
-        partitionScratch[jA] = 0.;
-
-      } else if (mu >= integrator::magic_ssf_factor<>) {
-
-        partitionScratch[iA] = 0.;
-
-      } else {
-
-        double g = 0.5 * ( 1. - gFrisch(mu) );
-        partitionScratch[iA] *= g;
-        partitionScratch[jA] *= 1. - g;
-
-      }
-
-    }
-
-    // Normalization
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // calculate derivative now
-    auto * weight_deri_iParent = weight_deri_ith + 3*iParent;
-    for( size_t iB = 0; iB < natoms; iB++ ) {
-      if (iB == iParent) continue;
-      auto * weight_deri_iB = weight_deri_ith + 3*iB;
-      
-      const double rAB = RAB[iB + iParent*natoms];
-      double mu_AB  = (atomDist[iParent] - atomDist[iB]) / rAB;
-      if(mu_AB > - integrator::magic_ssf_factor<> && mu_AB < safe_magic_ssf_bound){ 
-        const double uB_x = mol[iB].x - point[0];
-        const double uB_y = mol[iB].y - point[1];
-        const double uB_z = mol[iB].z - point[2];
-
-        const double uBA_x =mol[iB].x - mol[iParent].x;
-        const double uBA_y =mol[iB].y - mol[iParent].y;
-        const double uBA_z =mol[iB].z - mol[iParent].z;
-
-        // first term is - coef1 * nabla_B mu_BA
-        double coef1 = tFrisch(mu_AB) * (sum - partitionScratch[iParent])/sum;
-        weight_deri_iB[0] -= coef1 / rAB * (uB_x / atomDist[iB] + mu_AB * uBA_x /rAB);
-        weight_deri_iB[1] -= coef1 / rAB * (uB_y / atomDist[iB] + mu_AB * uBA_y /rAB);
-        weight_deri_iB[2] -= coef1 / rAB * (uB_z / atomDist[iB] + mu_AB * uBA_z /rAB);
-      }
-
-      if (std::abs(partitionScratch[iB]) < 1.e-12) continue; // no contribution to the derivative if partition function is zero
-
-      double term_x = 0.0, term_y = 0.0, term_z = 0.0;
-      for( size_t iC = 0; iC < natoms; iC++ ){
-        if (iB == iC) continue;
-        const double rBC = RAB[iC + iB*natoms];
-        double mu_BC = (atomDist[iB] - atomDist[iC]) / rBC;
-        if(mu_BC > - safe_magic_ssf_bound && mu_BC < safe_magic_ssf_bound){
-          double t_BC = tFrisch(mu_BC);
-          double coef = partitionScratch[iB] * t_BC / rBC/ sum;
-
-          term_x += coef * ((mol[iB].x - point[0]) / atomDist[iB] - mu_BC * (mol[iB].x - mol[iC].x) / rBC);
-          term_y += coef * ((mol[iB].y - point[1]) / atomDist[iB] - mu_BC * (mol[iB].y - mol[iC].y) / rBC);
-          term_z += coef * ((mol[iB].z - point[2]) / atomDist[iB] - mu_BC * (mol[iB].z - mol[iC].z) / rBC);
-
-          if(iC != iParent) {
-            auto * weight_deri_iC = weight_deri_ith + 3*iC;
-            weight_deri_iC[0] += coef * ( (mol[iC].x - point[0]) / atomDist[iC] + mu_BC * (mol[iC].x - mol[iB].x) / rBC );
-            weight_deri_iC[1] += coef * ( (mol[iC].y - point[1]) / atomDist[iC] + mu_BC * (mol[iC].y - mol[iB].y) / rBC );
-            weight_deri_iC[2] += coef * ( (mol[iC].z - point[2]) / atomDist[iC] + mu_BC * (mol[iC].z - mol[iB].z) / rBC );
-          }
-
-        }
-      }
-        weight_deri_iB[0] -= term_x;
-        weight_deri_iB[1] -= term_y;
-        weight_deri_iB[2] -= term_z;
-    }
-
-    // Use translational invariance to calculate the derivative for the parent atom
-    for( size_t iB = 0; iB < natoms; iB++ ) {
-      if (iB == iParent) continue;
-      auto * weight_deri_iB = weight_deri_ith + 3*iB;
-      weight_deri_iParent[0] -= weight_deri_iB[0];
-      weight_deri_iParent[1] -= weight_deri_iB[1];
-      weight_deri_iParent[2] -= weight_deri_iB[2];
-    }
-    
-    // Finally, scale the derivatives by the weight
-    for( size_t iB = 0; iB < natoms; iB++ ) 
-      for (size_t coord = 0; coord < 3; ++coord) 
-        weight_deri_ith[3*iB + coord] *= weight;
-
-  }
-}
-
-
-
-/**
- * 1st derivative with contraction 
- */
-void reference_becke_weights_1std_contraction_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  const double* w_times_f,
-  double* exc_grad_w
-){
-
-  // Becke partition functions
-  auto hBecke = [](double x) {return 1.5 * x - 0.5 * x * x * x;}; // Eq. 19
-  auto gBecke = [&](double x) {return hBecke(hBecke(hBecke(x)));}; // Eq. 20 f_3
-  auto tBecke = [&](double x) {
-    // for numerical stability (see Jiashu's notes for details)
-    if (x > 1.0 - 1e-4) 
-      return 0.0; 
-    const double p1 = hBecke(x);
-    const double p2 = hBecke(p1);
-    return - 27.0 * (1. + p2) * (1. + p1) * (1. + x) / (1. - x) / (2. + p2) / (2. + p1) / (2. + x);
-  };
-
-  const size_t natoms = mol.natoms();
-  const auto&  RAB    = meta.rab();
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  for( size_t i  = 0; i  < task.points.size(); ++i  ) {
-
-    const size_t iParent = task.iParent;
-    const auto& point  = task.points[i];
-    const auto w_times_f_i = w_times_f[i];
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ ){
-
-      double mu  = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-      const double g = gBecke(mu);
-
-      partitionScratch[iA] *= 0.5 * (1. - g);
-      partitionScratch[jA] *= 0.5 * (1. + g);
-    }
-
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // calculate derivative now
-    for( size_t iB = 0; iB < natoms; iB++ ) {
-      if (iB == iParent) continue;
-      double exc_grad_w_iBx = 0.0, exc_grad_w_iBy = 0.0, exc_grad_w_iBz = 0.0;
-      
-      const double uB_x = mol[iB].x - point[0];
-      const double uB_y = mol[iB].y - point[1];
-      const double uB_z = mol[iB].z - point[2];
-
-      const double uBA_x =mol[iB].x - mol[iParent].x;
-      const double uBA_y =mol[iB].y - mol[iParent].y;
-      const double uBA_z =mol[iB].z - mol[iParent].z;
-      const double rAB = RAB[iB + iParent*natoms];
-
-      double mu_AB  = (atomDist[iParent] - atomDist[iB]) / rAB;
-
-      // first term is - coef1 * nabla_B mu_BA
-      double coef1 = tBecke(mu_AB) * w_times_f_i;
-      exc_grad_w_iBx = - coef1 / rAB * (uB_x / atomDist[iB] + mu_AB * uBA_x /rAB);
-      exc_grad_w_iBy = - coef1 / rAB * (uB_y / atomDist[iB] + mu_AB * uBA_y /rAB);
-      exc_grad_w_iBz = - coef1 / rAB * (uB_z / atomDist[iB] + mu_AB * uBA_z /rAB);
-      
-      // second term is 1/Z *  \sum_{C != B} (P(B)t_BC - P(C)t_CB) nabla_B mu_BC
-      for( size_t iC = 0; iC < natoms; iC++ ){
-        if (iB == iC) continue;
-
-        // coef = (P(B)t_BC - P(C)t_CB)
-        double mu_BC = (atomDist[iB] - atomDist[iC]) / RAB[iC + iB*natoms];
-        double t_BC = tBecke(mu_BC);
-        double t_CB = tBecke(-mu_BC);
-        double coef = (partitionScratch[iB] *t_BC - partitionScratch[iC] * t_CB)/ sum * w_times_f_i;
-
-        const double rBC = RAB[iC + iB*natoms];
-
-        exc_grad_w_iBx -= coef * ((mol[iB].x - point[0]) / atomDist[iB] / rBC - mu_BC * (mol[iB].x - mol[iC].x) / rBC / rBC);
-        exc_grad_w_iBy -= coef * ((mol[iB].y - point[1]) / atomDist[iB] / rBC - mu_BC * (mol[iB].y - mol[iC].y) / rBC / rBC);
-        exc_grad_w_iBz -= coef * ((mol[iB].z - point[2]) / atomDist[iB] / rBC - mu_BC * (mol[iB].z - mol[iC].z) / rBC / rBC);
-      }
-
-      #pragma omp atomic
-      exc_grad_w[3*iB + 0] += exc_grad_w_iBx;
-      #pragma omp atomic
-      exc_grad_w[3*iB + 1] += exc_grad_w_iBy;
-      #pragma omp atomic
-      exc_grad_w[3*iB + 2] += exc_grad_w_iBz;
-      // Use translational invariance to calculate the derivative for the parent atom
-      #pragma omp atomic
-      exc_grad_w[3*iParent + 0] -= exc_grad_w_iBx;
-      #pragma omp atomic
-      exc_grad_w[3*iParent + 1] -= exc_grad_w_iBy;
-      #pragma omp atomic
-      exc_grad_w[3*iParent + 2] -= exc_grad_w_iBz;
-
-    }  
-  } 
-
-}
-
-
-void reference_ssf_weights_1std_contraction_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  const double* w_times_f,
-  double* exc_grad_w
-){
-
-  const double safe_magic_ssf_bound = integrator::magic_ssf_factor<> - 1.e-4;
-  const double w_times_f_thresh = 1.e-12;
-  const double weight_tol = integrator::ssf_weight_tol;
-
-  auto gFrisch = [&](double x) {
-    const double s_x  = x / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double s_x5 = s_x3 * s_x2;
-    const double s_x7 = s_x5 * s_x2;
-
-    return (35.*(s_x - s_x3) + 21.*s_x5 - 5.*s_x7) / 16.;
-  };
-
-  auto tFrisch = [&](double x) {
-    const double s_x  = x / integrator::magic_ssf_factor<>;
-    const double s_x2 = s_x  * s_x;
-    const double s_x3 = s_x  * s_x2;
-    const double numerator = (35.) * (s_x3 + (3.) * s_x2 + (3.) * s_x + (1.));
-    const double denominator = (x - integrator::magic_ssf_factor<>) * ((5.)*s_x3 + (20.)*s_x2 + (29.)*s_x + (16.));
-    return numerator / denominator ;
-  };
-
-  const size_t natoms = mol.natoms();
-  const auto&  RAB    = meta.rab();
-  std::vector<double> partitionScratch( natoms );
-  std::vector<double> atomDist( natoms );
-
-  for( size_t i  = 0; i  < task.points.size(); ++i  ) {
-    const auto& w_times_f_i = w_times_f[i];
-    if (fabs(w_times_f_i) < w_times_f_thresh) continue; // weight derivative = 0 when p_A = 0
-    const size_t iParent = task.iParent;
-    const auto& point  = task.points[i];
-
-    const auto dist_cutoff = 0.5 * (1-integrator::magic_ssf_factor<>) * task.dist_nearest;
-
-    // Compute dist to parent atom
-    {
-      const double da_x = point[0] - mol[iParent].x;
-      const double da_y = point[1] - mol[iParent].y;
-      const double da_z = point[2] - mol[iParent].z;
-
-      atomDist[iParent] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-    }
-
-    if( atomDist[iParent] < dist_cutoff ) continue; // weight derivative = 0 when p_A = 1
-
-    // Compute distances of each center to point
-    for(size_t iA = 0; iA < natoms; iA++) {
-
-      if( iA == iParent ) continue;
-
-      const double da_x = point[0] - mol[iA].x;
-      const double da_y = point[1] - mol[iA].y;
-      const double da_z = point[2] - mol[iA].z;
-
-      atomDist[iA] = std::sqrt(da_x*da_x + da_y*da_y + da_z*da_z);
-
-    }
-
-    // Evaluate unnormalized partition functions 
-    std::fill(partitionScratch.begin(),partitionScratch.end(),1.);
-
-    for( size_t iA = 0; iA < natoms; iA++ ) 
-    for( size_t jA = 0; jA < iA;     jA++ )
-    if( partitionScratch[iA] > weight_tol or 
-        partitionScratch[jA] > weight_tol ) {
-
-      const double mu = (atomDist[iA] - atomDist[jA]) / RAB[jA + iA*natoms];
-
-      if( mu <= -integrator::magic_ssf_factor<> ) {
-
-        partitionScratch[jA] = 0.;
-
-      } else if (mu >= integrator::magic_ssf_factor<>) {
-
-        partitionScratch[iA] = 0.;
-
-      } else {
-
-        double g = 0.5 * ( 1. - gFrisch(mu) );
-        partitionScratch[iA] *= g;
-        partitionScratch[jA] *= 1. - g;
-
-      }
-
-    }
-
-    double sum = 0.;
-    for( size_t iA = 0; iA < natoms; iA++ )  sum += partitionScratch[iA];
-
-    // calculate derivative now
-    for( size_t iB = 0; iB < natoms; iB++ ) {
-      if (iB == iParent) continue;
-      double exc_grad_w_iBx = 0.0, exc_grad_w_iBy = 0.0, exc_grad_w_iBz = 0.0;
-      
-      const double rAB = RAB[iB + iParent*natoms];
-      double rAB_inv = 1.0 / rAB;
-      double mu_AB  = (atomDist[iParent] - atomDist[iB]) * rAB_inv ;
-      if( fabs(mu_AB) < safe_magic_ssf_bound) {
-        const double uB_x = mol[iB].x - point[0];
-        const double uB_y = mol[iB].y - point[1];
-        const double uB_z = mol[iB].z - point[2];
-
-        const double uBA_x =mol[iB].x - mol[iParent].x;
-        const double uBA_y =mol[iB].y - mol[iParent].y;
-        const double uBA_z =mol[iB].z - mol[iParent].z;
-
-        // first term is - coef1 * nabla_B mu_BA
-        double coef1 = tFrisch(mu_AB) / rAB * (partitionScratch[iParent]-sum)/sum * w_times_f_i / atomDist[iB];
-        exc_grad_w_iBx = coef1 * (uB_x + mu_AB * uBA_x * rAB_inv * atomDist[iB]);
-        exc_grad_w_iBy = coef1 * (uB_y + mu_AB * uBA_y * rAB_inv * atomDist[iB]);
-        exc_grad_w_iBz = coef1 * (uB_z + mu_AB * uBA_z * rAB_inv * atomDist[iB]);
-      }
-
-      if (partitionScratch[iB] > weight_tol){
-        for( size_t iC = 0; iC < natoms; iC++ ){
-          if (iB == iC) continue;
-          const double rBC = RAB[iC + iB*natoms];
-          double mu_BC = (atomDist[iB] - atomDist[iC]) / rBC;
-          if(fabs(mu_BC) < safe_magic_ssf_bound){
-            double t_BC = tFrisch(mu_BC);
-            double coef = partitionScratch[iB] * t_BC / rBC/ sum * w_times_f_i;
-
-            exc_grad_w_iBx -= coef * ((mol[iB].x - point[0]) / atomDist[iB] - mu_BC * (mol[iB].x - mol[iC].x) / rBC);
-            exc_grad_w_iBy -= coef * ((mol[iB].y - point[1]) / atomDist[iB] - mu_BC * (mol[iB].y - mol[iC].y) / rBC);
-            exc_grad_w_iBz -= coef * ((mol[iB].z - point[2]) / atomDist[iB] - mu_BC * (mol[iB].z - mol[iC].z) / rBC);
-
-            if(iC != iParent) {
-              
-              double C_x = coef * ((mol[iC].x - point[0]) / atomDist[iC] + mu_BC * (mol[iC].x - mol[iB].x) / rBC);
-              double C_y = coef * ((mol[iC].y - point[1]) / atomDist[iC] + mu_BC * (mol[iC].y - mol[iB].y) / rBC);
-              double C_z = coef * ((mol[iC].z - point[2]) / atomDist[iC] + mu_BC * (mol[iC].z - mol[iB].z) / rBC);
-              // Update exc_grad_w_iC
-              #pragma omp atomic
-              exc_grad_w[3*iC + 0] += C_x;
-              #pragma omp atomic
-              exc_grad_w[3*iC + 1] += C_y;
-              #pragma omp atomic
-              exc_grad_w[3*iC + 2] += C_z;
-              // Update exc_grad_w for the parent atom
-              #pragma omp atomic
-              exc_grad_w[3*iParent + 0] -= C_x;
-              #pragma omp atomic
-              exc_grad_w[3*iParent + 1] -= C_y;
-              #pragma omp atomic
-              exc_grad_w[3*iParent + 2] -= C_z;
-            }
-
-          }
-        }
-      } 
-
-      #pragma omp atomic
-      exc_grad_w[3*iB + 0] += exc_grad_w_iBx;
-      #pragma omp atomic
-      exc_grad_w[3*iB + 1] += exc_grad_w_iBy;
-      #pragma omp atomic
-      exc_grad_w[3*iB + 2] += exc_grad_w_iBz;
-      // Use translational invariance to calculate the derivative for the parent atom
-      #pragma omp atomic
-      exc_grad_w[3*iParent + 0] -= exc_grad_w_iBx;
-      #pragma omp atomic
-      exc_grad_w[3*iParent + 1] -= exc_grad_w_iBy;
-      #pragma omp atomic
-      exc_grad_w[3*iParent + 2] -= exc_grad_w_iBz;
-
-    }
-  }
-
-}
-
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/weights.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/weights.hpp
deleted file mode 100644
index 7b79a15..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference/weights.hpp
+++ /dev/null
@@ -1,71 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "host/local_host_work_driver_pimpl.hpp"
-
-namespace GauXC {
-
-using task_iterator = detail::LocalHostWorkDriverPIMPL::task_iterator;
-
-void reference_ssf_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  task_iterator          task_begin,
-  task_iterator          task_end
-);
-
-void reference_becke_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  task_iterator          task_begin,
-  task_iterator          task_end
-);
-
-void reference_lko_weights_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  task_iterator          task_begin,
-  task_iterator          task_end
-);
-
-void reference_becke_weights_1st_derivative_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  double* weight_deri
-);
-
-void reference_ssf_weights_1st_derivative_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  double* weight_deri
-);
-
-// Becke weights 1st derivative contracted with integrator
-void reference_becke_weights_1std_contraction_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  const double* w_times_f,
-  double* exc_grad_w
-);
-
-// SSF weights 1st derivative contracted with integrator
-void reference_ssf_weights_1std_contraction_host(
-  const Molecule&        mol,
-  const MolMeta&         meta,
-  const XCTask& task,
-  const double* w_times_f,
-  double* exc_grad_w
-);
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference_local_host_work_driver.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference_local_host_work_driver.cxx
deleted file mode 100644
index 192cfcd..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference_local_host_work_driver.cxx
+++ /dev/null
@@ -1,1821 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-#include "host/reference_local_host_work_driver.hpp"
-#include "host/reference/weights.hpp"
-#include "host/reference/collocation.hpp"
-
-#include "host/util.hpp"
-#include "host/blas.hpp"
-#include <stdexcept>
-
-#include <gauxc/basisset_map.hpp>
-#include <gauxc/shell_pair.hpp>
-#include <gauxc/util/unused.hpp>
-#include "cpu/integral_data_types.hpp"
-#include "cpu/obara_saika_integrals.hpp"
-#include "cpu/chebyshev_boys_computation.hpp"
-#include <gauxc/util/real_solid_harmonics.hpp>
-#include "integrator_util/integral_bounds.hpp"
-
-namespace GauXC {
-
-  ReferenceLocalHostWorkDriver::ReferenceLocalHostWorkDriver() {
-    this->boys_table = XCPU::boys_init();
-  }
-  
-  ReferenceLocalHostWorkDriver::~ReferenceLocalHostWorkDriver() noexcept {
-    XCPU::boys_finalize(this->boys_table);
-  }
-
-  // Partition weights
-  void ReferenceLocalHostWorkDriver::partition_weights( XCWeightAlg weight_alg, 
-							const Molecule& mol, const MolMeta& meta, task_iterator task_begin, 
-							task_iterator task_end ) {
-    switch( weight_alg ) {
-      case XCWeightAlg::Becke:
-        reference_becke_weights_host( mol, meta, task_begin, task_end );
-        break;
-      case XCWeightAlg::SSF:
-        reference_ssf_weights_host( mol, meta, task_begin, task_end );
-        break;
-      case XCWeightAlg::LKO:
-        reference_lko_weights_host( mol, meta, task_begin, task_end );
-        break;
-      default:
-        GAUXC_GENERIC_EXCEPTION("Weight Alg Not Supported");
-    }
-  }
-
-  void ReferenceLocalHostWorkDriver::eval_weight_1st_deriv_contracted( 
-    XCWeightAlg weight_alg, const Molecule& mol, const MolMeta& meta, 
-    const XCTask& task, const double* w_times_f, double* exc_grad_w ) {
-    switch( weight_alg ) {
-      case XCWeightAlg::Becke:
-        reference_becke_weights_1std_contraction_host( mol, meta, task, w_times_f, exc_grad_w );
-        break;
-      case XCWeightAlg::SSF:
-        reference_ssf_weights_1std_contraction_host( mol, meta, task, w_times_f, exc_grad_w );
-        break;
-      default:
-        GAUXC_GENERIC_EXCEPTION("Weight Alg Not Supported");
-    }
-  }
-
-
-  // Collocation
-  void ReferenceLocalHostWorkDriver::eval_collocation( size_t npts, size_t nshells, 
-						       size_t nbe, const double* pts, const BasisSet<double>& basis, 
-						       const int32_t* shell_list, double* basis_eval ) {
-    gau2grid_collocation( npts, nshells, nbe, pts, basis, shell_list, basis_eval );
-  }
-
-
-  // Collocation Gradient
-  void ReferenceLocalHostWorkDriver::eval_collocation_gradient( size_t npts, 
-								size_t nshells, size_t nbe, const double* pts, const BasisSet<double>& basis, 
-								const int32_t* shell_list, double* basis_eval, double* dbasis_x_eval, 
-								double* dbasis_y_eval, double* dbasis_z_eval) {
-    gau2grid_collocation_gradient(npts, nshells, nbe, pts, basis, shell_list,
-				  basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-  }
-
-  void ReferenceLocalHostWorkDriver::eval_collocation_hessian( size_t npts, 
-							       size_t nshells, size_t nbe, const double* pts, const BasisSet<double>& basis, 
-							       const int32_t* shell_list, double* basis_eval, double* dbasis_x_eval, 
-							       double* dbasis_y_eval, double* dbasis_z_eval, double* d2basis_xx_eval, 
-							       double* d2basis_xy_eval, double* d2basis_xz_eval, double* d2basis_yy_eval, 
-							       double* d2basis_yz_eval, double* d2basis_zz_eval ) {
-    gau2grid_collocation_hessian(npts, nshells, nbe, pts, basis, shell_list,
-				 basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval,
-				 d2basis_xy_eval, d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval,
-				 d2basis_zz_eval);
-  }
-
-  void ReferenceLocalHostWorkDriver::eval_collocation_der3( size_t npts,
-							    size_t nshells, size_t nbe, const double* pts, const BasisSet<double>& basis, 
-							     const int32_t* shell_list, double* basis_eval, double* dbasis_x_eval, 
-							     double* dbasis_y_eval, double* dbasis_z_eval, double* d2basis_xx_eval, 
-							     double* d2basis_xy_eval, double* d2basis_xz_eval, double* d2basis_yy_eval, 
-							     double* d2basis_yz_eval, double* d2basis_zz_eval, double* d3basis_xxx_eval,
-							     double* d3basis_xxy_eval, double* d3basis_xxz_eval, double* d3basis_xyy_eval,
-							     double* d3basis_xyz_eval, double* d3basis_xzz_eval, double* d3basis_yyy_eval,
-							     double* d3basis_yyz_eval, double* d3basis_yzz_eval, double* d3basis_zzz_eval) {
-    gau2grid_collocation_der3(npts, nshells, nbe, pts, basis, shell_list,
-				 basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval,
-				 d2basis_xy_eval, d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval,
-				 d2basis_zz_eval, d3basis_xxx_eval, d3basis_xxy_eval, d3basis_xxz_eval,
-				 d3basis_xyy_eval, d3basis_xyz_eval, d3basis_xzz_eval, d3basis_yyy_eval,
-				 d3basis_yyz_eval, d3basis_yzz_eval, d3basis_zzz_eval);
-  }
-
-
-  // X matrix (P * B)
-  void ReferenceLocalHostWorkDriver::eval_xmat( size_t npts, size_t nbf, size_t nbe, 
-						const submat_map_t& submat_map, double fac, const double* P, size_t ldp, 
-						const double* basis_eval, size_t ldb, double* X, size_t ldx, double* scr ) {
-    const auto* P_use = P;
-    size_t ldp_use = ldp;
-     
-    if( submat_map.size() > 1 ) {
-      detail::submat_set( nbf, nbf, nbe, nbe, P, ldp, scr, nbe, submat_map );
-      P_use = scr;
-      ldp_use = nbe;
-    } else if( nbe != nbf ) {
-      P_use = P + submat_map[0][0]*(ldp+1);
-    }
-
-    blas::gemm( 'N', 'N', nbe, npts, nbe, fac, P_use, ldp_use, basis_eval, ldb, 
-		0., X, ldx );
-
-  }
-
-
-  // U/VVar LDA (density)
-  void ReferenceLocalHostWorkDriver::eval_uvvar_lda_rks( size_t npts, size_t nbe, 
-						     const double* basis_eval, const double* X, size_t ldx, double* den_eval) {
-
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioff = size_t(i) * ldx;
-      const auto*   X_i = X + ioff;
-      den_eval[i] = blas::dot( nbe, basis_eval + ioff, 1, X_i, 1 );
-
-    }    
-
-  }
-
-  
-  void ReferenceLocalHostWorkDriver::eval_uvvar_lda_uks( size_t npts, size_t nbe,
-   const double* basis_eval, const double* Xs, size_t ldxs, 
-   const double* Xz, size_t ldxz, double* den_eval) {
-  
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioffs = size_t(i) * ldxs;
-      const size_t ioffz = size_t(i) * ldxz;
-
-      const auto*   Xs_i = Xs + ioffs;
-      const auto*   Xz_i = Xz + ioffz;
-
-      const double rhos = blas::dot( nbe, basis_eval + ioffs, 1, Xs_i, 1 );
-      const double rhoz = blas::dot( nbe, basis_eval + ioffz, 1, Xz_i, 1 );
-      
-      den_eval[2*i]   = 0.5*(rhos + rhoz); // rho_+
-      den_eval[2*i+1] = 0.5*(rhos - rhoz); // rho_-
-
-    }
- 
-  }
-  
-  void ReferenceLocalHostWorkDriver::eval_uvvar_lda_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz,
-    const double* Xx, size_t ldxx, const double* Xy, size_t ldxy, double* den_eval, double* K, const double dtol) {
-
-
-    auto *KZ = K; // KZ // store K in the Z matrix
-    auto *KY = KZ + npts;
-    auto *KX = KY + npts;
-
-    double dtolsq = dtol*dtol;
- 
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioffs = size_t(i) * ldxs;
-      const size_t ioffz = size_t(i) * ldxz;
-      const size_t ioffx = size_t(i) * ldxx;
-      const size_t ioffy = size_t(i) * ldxy;
-
-      const auto*   Xs_i = Xs + ioffs;
-      const auto*   Xz_i = Xz + ioffz;
-      const auto*   Xx_i = Xx + ioffx;
-      const auto*   Xy_i = Xy + ioffy;
-
-      const double rhos = blas::dot( nbe, basis_eval + ioffs, 1, Xs_i, 1 );
-      const double rhoz = blas::dot( nbe, basis_eval + ioffz, 1, Xz_i, 1 );
-      const double rhox = blas::dot( nbe, basis_eval + ioffx, 1, Xx_i, 1 );
-      const double rhoy = blas::dot( nbe, basis_eval + ioffy, 1, Xy_i, 1 );
- 
-      double mtemp = rhoz * rhoz + rhox * rhox + rhoy * rhoy;
-      double mnorm = 0;
-
-      if (mtemp > dtolsq) {
-        mnorm = sqrt(mtemp);
-        KZ[i] = rhoz / mnorm;
-        KY[i] = rhoy / mnorm;
-        KX[i] = rhox / mnorm;
-      } else {
-        mnorm = (1. / 3.) * (rhox + rhoy + rhoz);
-        KZ[i] = 1. / 3.;
-        KY[i] = 1. / 3.;
-        KX[i] = 1. / 3.;
-      }
-
-      den_eval[2*i]   = 0.5*(rhos + mnorm); // rho_+
-      den_eval[2*i+1] = 0.5*(rhos - mnorm); // rho_-
-
-    }
-
-  }
-
-
-  void ReferenceLocalHostWorkDriver::eval_uvvar_gga_rks( size_t npts, size_t nbe, 
-						     const double* basis_eval, const double* dbasis_x_eval, 
-						     const double *dbasis_y_eval, const double* dbasis_z_eval, const double* X, 
-						     size_t ldx, double* den_eval, double* dden_x_eval, double* dden_y_eval, 
-						     double* dden_z_eval, double* gamma ) {
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioff = size_t(i) * ldx;
-      const auto*   X_i = X + ioff;
-
-      den_eval[i] = blas::dot( nbe, basis_eval + ioff, 1, X_i, 1 );
-
-      const auto dx = 2. * blas::dot( nbe, dbasis_x_eval + ioff, 1, X_i, 1 );
-      const auto dy = 2. * blas::dot( nbe, dbasis_y_eval + ioff, 1, X_i, 1 );
-      const auto dz = 2. * blas::dot( nbe, dbasis_z_eval + ioff, 1, X_i, 1 );
-
-      dden_x_eval[i] = dx;
-      dden_y_eval[i] = dy;
-      dden_z_eval[i] = dz;
-
-      gamma[i] = dx*dx + dy*dy + dz*dz;
-
-    }
-  }
-
-void ReferenceLocalHostWorkDriver::eval_uvvar_gga_uks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval,
-  const double *dbasis_y_eval, const double* dbasis_z_eval, const double* Xs,
-  size_t ldxs, const double* Xz, size_t ldxz, 
-  double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma ) {
-
-   for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioffs = size_t(i) * ldxs;
-      const size_t ioffz = size_t(i) * ldxz;
-
-      const auto*   Xs_i = Xs + ioffs;
-      const auto*   Xz_i = Xz + ioffz;
-
-      double rhos = blas::dot( nbe, basis_eval + ioffs, 1, Xs_i, 1 ); // S density
-      double rhoz = blas::dot( nbe, basis_eval + ioffz, 1, Xz_i, 1 ); // Z density
-
-
-      den_eval[2*i]   = 0.5*(rhos + rhoz); // rho_+
-      den_eval[2*i+1] = 0.5*(rhos - rhoz); // rho_-
-
-      const auto dndx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffs, 1, Xs_i, 1 );
-      const auto dndy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffs, 1, Xs_i, 1 );
-      const auto dndz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffs, 1, Xs_i, 1 );
-
-      const auto dMzdx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffz, 1, Xz_i, 1 );
-      const auto dMzdy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffz, 1, Xz_i, 1 );
-      const auto dMzdz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffz, 1, Xz_i, 1 );
-
-      dden_x_eval[2*i] = dndx; // dn / dx
-      dden_y_eval[2*i] = dndy; // dn / dy
-      dden_z_eval[2*i] = dndz; // dn / dz
-
-      dden_x_eval[2*i+1] = dMzdx; // dMz / dx
-      dden_y_eval[2*i+1] = dMzdy; // dMz / dy
-      dden_z_eval[2*i+1] = dMzdz; // dMz / dz
-
-      // (del n).(del n)
-      const auto dn_sq  = dndx*dndx + dndy*dndy + dndz*dndz;
-      // (del Mz).(del Mz)
-      const auto dMz_sq = dMzdx*dMzdx + dMzdy*dMzdy + dMzdz*dMzdz;
-      // (del n).(del Mz)
-      const auto dn_dMz = dndx*dMzdx + dndy*dMzdy + dndz*dMzdz;
-
-      gamma[3*i  ] = 0.25*(dn_sq + dMz_sq) + 0.5*dn_dMz;
-      gamma[3*i+1] = 0.25*(dn_sq - dMz_sq);
-      gamma[3*i+2] = 0.25*(dn_sq + dMz_sq) - 0.5*dn_dMz;
-    }
-
-}
-
-
-void ReferenceLocalHostWorkDriver::eval_uvvar_mgga_rks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval,
-  const double *dbasis_y_eval, const double* dbasis_z_eval, const double* lbasis_eval,
-  const double* X, size_t ldx, const double* mmat_x, const double* mmat_y, 
-  const double* mmat_z, size_t ldm,
-  double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma, double* tau, double* lapl ) {
-
-   for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioff = size_t(i) * ldx;
-      const auto*   X_i = X + ioff;
-
-      den_eval[i] = blas::dot( nbe, basis_eval + ioff, 1, X_i, 1 );
-
-      const auto dx = 2. * blas::dot( nbe, dbasis_x_eval + ioff, 1, X_i, 1 );
-      const auto dy = 2. * blas::dot( nbe, dbasis_y_eval + ioff, 1, X_i, 1 );
-      const auto dz = 2. * blas::dot( nbe, dbasis_z_eval + ioff, 1, X_i, 1 );
-
-      dden_x_eval[i] = dx;
-      dden_y_eval[i] = dy;
-      dden_z_eval[i] = dz;
-
-      gamma[i] = dx*dx + dy*dy + dz*dz;
-
-      tau[i]  = 0.5*blas::dot( nbe, dbasis_x_eval + ioff, 1, mmat_x + ioff, 1);
-      tau[i] += 0.5*blas::dot( nbe, dbasis_y_eval + ioff, 1, mmat_y + ioff, 1);
-      tau[i] += 0.5*blas::dot( nbe, dbasis_z_eval + ioff, 1, mmat_z + ioff, 1);
-
-      if (lapl != nullptr)
-        lapl[i]  = 2. * blas::dot( nbe, lbasis_eval + ioff, 1, X_i, 1) + 4. * tau[i];
-
-   }
-}
-
-void ReferenceLocalHostWorkDriver::eval_uvvar_mgga_uks( size_t npts, size_t nbe,
-  const double* basis_eval, const double* dbasis_x_eval,
-  const double *dbasis_y_eval, const double* dbasis_z_eval, const double* lbasis_eval,
-  const double* Xs, size_t ldxs, const double* Xz, size_t ldxz, 
-  const double* mmat_xs, const double* mmat_ys, const double* mmat_zs, size_t ldms,
-  const double* mmat_xz, const double* mmat_yz, const double* mmat_zz, size_t ldmz,
-  double* den_eval, double* dden_x_eval, double* dden_y_eval,
-  double* dden_z_eval, double* gamma, double* tau, double* lapl ) {
-
-   for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioffs = size_t(i) * ldxs;
-      const size_t ioffz = size_t(i) * ldxz;
-
-      const auto*   Xs_i = Xs + ioffs;
-      const auto*   Xz_i = Xz + ioffz;
-
-      double rhos = blas::dot( nbe, basis_eval + ioffs, 1, Xs_i, 1 ); // S density
-      double rhoz = blas::dot( nbe, basis_eval + ioffz, 1, Xz_i, 1 ); // Z density
-
-
-      den_eval[2*i]   = 0.5*(rhos + rhoz); // rho_+
-      den_eval[2*i+1] = 0.5*(rhos - rhoz); // rho_-
-
-      const auto dndx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffs, 1, Xs_i, 1 );
-      const auto dndy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffs, 1, Xs_i, 1 );
-      const auto dndz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffs, 1, Xs_i, 1 );
-
-      const auto dMzdx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffz, 1, Xz_i, 1 );
-      const auto dMzdy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffz, 1, Xz_i, 1 );
-      const auto dMzdz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffz, 1, Xz_i, 1 );
-
-      dden_x_eval[2*i] = dndx; // dn / dx
-      dden_y_eval[2*i] = dndy; // dn / dy
-      dden_z_eval[2*i] = dndz; // dn / dz
-
-      dden_x_eval[2*i+1] = dMzdx; // dMz / dx
-      dden_y_eval[2*i+1] = dMzdy; // dMz / dy
-      dden_z_eval[2*i+1] = dMzdz; // dMz / dz
-
-      // (del n).(del n)
-      const auto dn_sq  = dndx*dndx + dndy*dndy + dndz*dndz;
-      // (del Mz).(del Mz)
-      const auto dMz_sq = dMzdx*dMzdx + dMzdy*dMzdy + dMzdz*dMzdz;
-      // (del n).(del Mz)
-      const auto dn_dMz = dndx*dMzdx + dndy*dMzdy + dndz*dMzdz;
-
-      gamma[3*i  ] = 0.25*(dn_sq + dMz_sq) + 0.5*dn_dMz;
-      gamma[3*i+1] = 0.25*(dn_sq - dMz_sq);
-      gamma[3*i+2] = 0.25*(dn_sq + dMz_sq) - 0.5*dn_dMz;
-
-      auto taus  = 0.5*blas::dot( nbe, dbasis_x_eval + ioffs, 1, mmat_xs + ioffs, 1);
-           taus += 0.5*blas::dot( nbe, dbasis_y_eval + ioffs, 1, mmat_ys + ioffs, 1);
-           taus += 0.5*blas::dot( nbe, dbasis_z_eval + ioffs, 1, mmat_zs + ioffs, 1);
-      auto tauz  = 0.5*blas::dot( nbe, dbasis_x_eval + ioffz, 1, mmat_xz + ioffz, 1);
-           tauz += 0.5*blas::dot( nbe, dbasis_y_eval + ioffz, 1, mmat_yz + ioffz, 1);
-           tauz += 0.5*blas::dot( nbe, dbasis_z_eval + ioffz, 1, mmat_zz + ioffz, 1);
-
-      tau[2*i]   = 0.5*(taus + tauz);
-      tau[2*i+1] = 0.5*(taus - tauz);
-
-      if (lapl != nullptr) {
-        auto lapls = 2. * blas::dot( nbe, lbasis_eval + ioffs, 1, Xs_i, 1) + 4. * taus;
-        auto laplz = 2. * blas::dot( nbe, lbasis_eval + ioffz, 1, Xz_i, 1) + 4. * tauz;
-
-        lapl[2*i]   = 0.5*(lapls + laplz);
-        lapl[2*i+1] = 0.5*(lapls - laplz);
-      }
-
-   }
-}
-
-
-
-void ReferenceLocalHostWorkDriver::eval_uvvar_gga_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs,
-    const double* Xz, size_t ldxz, const double* Xx, size_t ldxx,
-    const double* Xy, size_t ldxy, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma, double* K, double* H, const double dtol) {
-
-   auto *KZ = K; // KZ // store K in the Z matrix
-   auto *KY = KZ + npts;
-   auto *KX = KY + npts;
-
-   auto *HZ = H; // KZ // store K in the Z matrix
-   auto *HY = HZ + npts;
-   auto *HX = HY + npts;
-
-   double dtolsq = dtol*dtol;
-
-   for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const size_t ioffs = size_t(i) * ldxs;
-      const size_t ioffz = size_t(i) * ldxz;
-      const size_t ioffx = size_t(i) * ldxx;
-      const size_t ioffy = size_t(i) * ldxy;
-
-      const auto*   Xs_i = Xs + ioffs;
-      const auto*   Xz_i = Xz + ioffz;
-      const auto*   Xx_i = Xx + ioffx;
-      const auto*   Xy_i = Xy + ioffy;
-
-      const double rhos = blas::dot( nbe, basis_eval + ioffs, 1, Xs_i, 1 );
-      const double rhoz = blas::dot( nbe, basis_eval + ioffz, 1, Xz_i, 1 );
-      const double rhox = blas::dot( nbe, basis_eval + ioffx, 1, Xx_i, 1 );
-      const double rhoy = blas::dot( nbe, basis_eval + ioffy, 1, Xy_i, 1 );
-
-      const auto dndx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffs, 1, Xs_i, 1 );
-      const auto dndy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffs, 1, Xs_i, 1 );
-      const auto dndz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffs, 1, Xs_i, 1 );
-
-      const auto dMzdx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffz, 1, Xz_i, 1 );
-      const auto dMzdy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffz, 1, Xz_i, 1 );
-      const auto dMzdz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffz, 1, Xz_i, 1 );
-
-      const auto dMxdx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffx, 1, Xx_i, 1 );
-      const auto dMxdy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffx, 1, Xx_i, 1 );
-      const auto dMxdz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffx, 1, Xx_i, 1 );
-
-      const auto dMydx =
-        2. * blas::dot( nbe, dbasis_x_eval + ioffy, 1, Xy_i, 1 );
-      const auto dMydy =
-        2. * blas::dot( nbe, dbasis_y_eval + ioffy, 1, Xy_i, 1 );
-      const auto dMydz =
-        2. * blas::dot( nbe, dbasis_z_eval + ioffy, 1, Xy_i, 1 );
-
-
-      dden_x_eval[4 * i] = dndx;
-      dden_y_eval[4 * i] = dndy;
-      dden_z_eval[4 * i] = dndz;
-
-      dden_x_eval[4 * i + 1] = dMzdx;
-      dden_y_eval[4 * i + 1] = dMzdy;
-      dden_z_eval[4 * i + 1] = dMzdz;
-
-      dden_x_eval[4 * i + 2] = dMydx;
-      dden_y_eval[4 * i + 2] = dMydy;
-      dden_z_eval[4 * i + 2] = dMydz;
-
-      dden_x_eval[4 * i + 3] = dMxdx;
-      dden_y_eval[4 * i + 3] = dMxdy;
-      dden_z_eval[4 * i + 3] = dMxdz;
-
-      double mtemp = rhoz * rhoz + rhox * rhox + rhoy * rhoy;
-      double mnorm = 0;
-
-      auto dels_dot_dels = dndx * dndx + dndy * dndy + dndz * dndz;
-      auto delz_dot_delz = dMzdx * dMzdx + dMzdy * dMzdy + dMzdz * dMzdz;
-      auto delx_dot_delx = dMxdx * dMxdx + dMxdy * dMxdy + dMxdz * dMxdz;
-      auto dely_dot_dely = dMydx * dMydx + dMydy * dMydy + dMydz * dMydz;
-
-      auto dels_dot_delz = dndx * dMzdx + dndy * dMzdy + dndz * dMzdz;
-      auto dels_dot_delx = dndx * dMxdx + dndy * dMxdy + dndz * dMxdz;
-      auto dels_dot_dely = dndx * dMydx + dndy * dMydy + dndz * dMydz;
-
-      auto sum = delz_dot_delz + delx_dot_delx + dely_dot_dely;
-      auto s_sum =
-          dels_dot_delz * rhoz + dels_dot_delx * rhox + dels_dot_dely * rhoy;
-
-      auto sqsum2 =
-          sqrt(dels_dot_delz * dels_dot_delz + dels_dot_delx * dels_dot_delx +
-               dels_dot_dely * dels_dot_dely);
-
-      double sign = 1.;
-      if (std::signbit(s_sum))
-        sign = -1.;
-
-      if (mtemp > dtolsq) {
-        mnorm = sqrt(mtemp);
-        KZ[i] = rhoz / mnorm;
-        KY[i] = rhoy / mnorm;
-        KX[i] = rhox / mnorm;
-        HZ[i] = sign * dels_dot_delz / sqsum2;
-        HY[i] = sign * dels_dot_dely / sqsum2;
-        HX[i] = sign * dels_dot_delx / sqsum2;
-      } else {
-        mnorm = (1. / 3.) * (rhox + rhoy + rhoz);
-        KZ[i] = 1. / 3.;
-        KY[i] = 1. / 3.;
-        KX[i] = 1. / 3.;
-
-        HZ[i] = sign / 3.;
-        HY[i] = sign / 3.;
-        HX[i] = sign / 3.;
-      }
-      
-      den_eval[2 * i] = 0.5 * (rhos + mnorm);
-      den_eval[2 * i + 1] = 0.5 * (rhos - mnorm);
-      
-      gamma[3 * i] = 0.25 * (dels_dot_dels + sum) + 0.5 * sign * sqsum2;
-      gamma[3 * i + 1] = 0.25 * (dels_dot_dels - sum);
-      gamma[3 * i + 2] = 0.25 * (dels_dot_dels + sum) - 0.5 * sign * sqsum2;
-
-
-    }
-
-}
-  // Eval Z Matrix LDA VXC
-  void ReferenceLocalHostWorkDriver::eval_zmat_lda_vxc_rks( size_t npts, size_t nbf, 
-							const double* vrho, const double* basis_eval, double* Z, size_t ldz ) {
-
-
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Z, ldz );
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      auto* z_col = Z + i*ldz;
-
-      const double fact = 0.5 * vrho[i];
-      GauXC::blas::scal( nbf, fact, z_col, 1 );
-
-    }
-
-  }
-
-  // Eval Z Matrix LDA VXC
-  void ReferenceLocalHostWorkDriver::eval_zmat_lda_vxc_uks( size_t npts, size_t nbf,
-              const double* vrho, const double* basis_eval, double* Zs, size_t ldzs,
-              double* Zz, size_t ldzz ) {
-
-
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zs, ldzs);
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zz, ldzz);
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      auto* zs_col = Zs + i*ldzs;
-      auto* zz_col = Zz + i*ldzz;
-
-      const double factp = 0.5 * vrho[2*i];
-      const double factm = 0.5 * vrho[2*i+1];
-
-      //eq. 56 https://doi.org/10.1140/epjb/e2018-90170-1
-      GauXC::blas::scal( nbf, 0.5*(factp + factm), zs_col, 1 );
-      GauXC::blas::scal( nbf, 0.5*(factp - factm), zz_col, 1 );
-
-    }
- 
-
-  }
-
-void ReferenceLocalHostWorkDriver::eval_zmat_lda_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz,
-    double* Zx, size_t ldzx,double* Zy, size_t ldzy, double *K ) {
-
-  auto *KZ = K; // KZ // store K in the Z matrix
-  auto *KY = KZ + npts;
-  auto *KX = KY + npts;
-
-    blas::lacpy( 'A', nbe, npts, basis_eval, nbe, Zs, ldzs);
-    blas::lacpy( 'A', nbe, npts, basis_eval, nbe, Zz, ldzz);
-    blas::lacpy( 'A', nbe, npts, basis_eval, nbe, Zx, ldzx);
-    blas::lacpy( 'A', nbe, npts, basis_eval, nbe, Zy, ldzy);
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      auto* zs_col = Zs + i*ldzs;
-      auto* zz_col = Zz + i*ldzz;
-      auto* zx_col = Zx + i*ldzx;
-      auto* zy_col = Zy + i*ldzy;
-
-      const double factp = 0.5 * vrho[2*i];
-      const double factm = 0.5 * vrho[2*i+1];
-      const double factor = 0.5 * (factp - factm);
-
-      //eq. 56 https://doi.org/10.1140/epjb/e2018-90170-1
-      GauXC::blas::scal( nbe, 0.5*(factp + factm), zs_col, 1 );
-      GauXC::blas::scal( nbe, KZ[i] * factor, zz_col, 1 );
-      GauXC::blas::scal( nbe, KX[i] * factor, zx_col, 1 );
-      GauXC::blas::scal( nbe, KY[i] * factor, zy_col, 1 );
-   
-    }
-
-}
-
-  // Eval Z Matrix GGA VXC
-  void ReferenceLocalHostWorkDriver::eval_zmat_gga_vxc_rks( size_t npts, size_t nbf, 
-							const double* vrho, const double* vgamma, const double* basis_eval, 
-							const double* dbasis_x_eval, const double* dbasis_y_eval, 
-							const double* dbasis_z_eval, const double* dden_x_eval, 
-							const double* dden_y_eval, const double* dden_z_eval, double* Z, size_t ldz ) {
-
-    if( ldz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Z, nbf );
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-
-      auto* z_col    = Z + ioff;
-      auto* bf_x_col = dbasis_x_eval + ioff; 
-      auto* bf_y_col = dbasis_y_eval + ioff; 
-      auto* bf_z_col = dbasis_z_eval + ioff; 
-
-      const auto lda_fact = 0.5 * vrho[i];
-      blas::scal( nbf, lda_fact, z_col, 1 );
-
-      const auto gga_fact = 2. * vgamma[i]; 
-      const auto x_fact = gga_fact * dden_x_eval[i];
-      const auto y_fact = gga_fact * dden_y_eval[i];
-      const auto z_fact = gga_fact * dden_z_eval[i];
-
-      blas::axpy( nbf, x_fact, bf_x_col, 1, z_col, 1 );
-      blas::axpy( nbf, y_fact, bf_y_col, 1, z_col, 1 );
-      blas::axpy( nbf, z_fact, bf_z_col, 1, z_col, 1 );
-
-    }
-
-  }
-
-  void ReferenceLocalHostWorkDriver::eval_zmat_gga_vxc_uks( size_t npts, size_t nbf,
-              const double* vrho, const double* vgamma, const double* basis_eval,
-              const double* dbasis_x_eval, const double* dbasis_y_eval,
-              const double* dbasis_z_eval, const double* dden_x_eval,
-              const double* dden_y_eval, const double* dden_z_eval, double* Zs, 
-              size_t ldzs, double* Zz, size_t ldzz ) {
-
-
-    if( ldzs != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    if( ldzz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zs, ldzs);
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zz, ldzz);
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-
-      auto* zs_col = Zs + ioff;
-      auto* zz_col = Zz + ioff;
-      auto* bf_x_col = dbasis_x_eval + ioff;
-      auto* bf_y_col = dbasis_y_eval + ioff;
-      auto* bf_z_col = dbasis_z_eval + ioff;
-
-      const double factp = 0.5 * vrho[2*i];
-      const double factm = 0.5 * vrho[2*i+1];
-
-      GauXC::blas::scal( nbf, 0.5*(factp + factm), zs_col, 1 ); //additional 0.5 is from eq 56 in petrone 2018 eur phys journal b "an efficent implementation of .. "
-      GauXC::blas::scal( nbf, 0.5*(factp - factm), zz_col, 1 );
-
-      const auto gga_fact_pp = vgamma[3*i];
-      const auto gga_fact_pm = vgamma[3*i+1];
-      const auto gga_fact_mm = vgamma[3*i+2];
-
-      const auto gga_fact_1 = 0.5*(gga_fact_pp + gga_fact_pm + gga_fact_mm);
-      const auto gga_fact_2 = 0.5*(gga_fact_pp - gga_fact_mm);
-      const auto gga_fact_3 = 0.5*(gga_fact_pp - gga_fact_pm + gga_fact_mm);
-
-      const auto x_fact_s = gga_fact_1 * dden_x_eval[2*i] + gga_fact_2 * dden_x_eval[2*i+1];
-      const auto y_fact_s = gga_fact_1 * dden_y_eval[2*i] + gga_fact_2 * dden_y_eval[2*i+1];
-      const auto z_fact_s = gga_fact_1 * dden_z_eval[2*i] + gga_fact_2 * dden_z_eval[2*i+1];
-
-      const auto x_fact_z = gga_fact_3 * dden_x_eval[2*i+1] + gga_fact_2 * dden_x_eval[2*i];
-      const auto y_fact_z = gga_fact_3 * dden_y_eval[2*i+1] + gga_fact_2 * dden_y_eval[2*i];
-      const auto z_fact_z = gga_fact_3 * dden_z_eval[2*i+1] + gga_fact_2 * dden_z_eval[2*i];
-      
-      blas::axpy( nbf, x_fact_s, bf_x_col, 1, zs_col, 1 );
-      blas::axpy( nbf, y_fact_s, bf_y_col, 1, zs_col, 1 );
-      blas::axpy( nbf, z_fact_s, bf_z_col, 1, zs_col, 1 );
-
-      blas::axpy( nbf, x_fact_z, bf_x_col, 1, zz_col, 1 );
-      blas::axpy( nbf, y_fact_z, bf_y_col, 1, zz_col, 1 );
-      blas::axpy( nbf, z_fact_z, bf_z_col, 1, zz_col, 1 );
-
-    }
-  }
-
-  // Eval Z Matrix MGGA VXC
-  void ReferenceLocalHostWorkDriver::eval_zmat_mgga_vxc_rks( size_t npts, size_t nbf,
-              const double* vrho, const double* vgamma, const double* vlapl,
-              const double* basis_eval,
-              const double* dbasis_x_eval, const double* dbasis_y_eval,
-              const double* dbasis_z_eval, const double* lbasis_eval,
-              const double* dden_x_eval,
-              const double* dden_y_eval, const double* dden_z_eval, double* Z, size_t ldz ) {
-
-    if( ldz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Z, nbf );
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-
-      auto* z_col    = Z + ioff;
-      auto* bf_x_col = dbasis_x_eval + ioff;
-      auto* bf_y_col = dbasis_y_eval + ioff;
-      auto* bf_z_col = dbasis_z_eval + ioff;
-
-      const auto lda_fact = 0.5 * vrho[i];
-      blas::scal( nbf, lda_fact, z_col, 1 );
-
-      const auto gga_fact = 2. * vgamma[i];
-      const auto x_fact = gga_fact * dden_x_eval[i];
-      const auto y_fact = gga_fact * dden_y_eval[i];
-      const auto z_fact = gga_fact * dden_z_eval[i];
-
-      blas::axpy( nbf, x_fact, bf_x_col, 1, z_col, 1 );
-      blas::axpy( nbf, y_fact, bf_y_col, 1, z_col, 1 );
-      blas::axpy( nbf, z_fact, bf_z_col, 1, z_col, 1 );
-
-      if ( vlapl != nullptr ) {
-  auto* lbf_col = lbasis_eval + ioff;
-        const auto lapl_fact = vlapl[i];
-        blas::axpy( nbf, lapl_fact, lbf_col, 1, z_col, 1 );
-      }
-
-    }
-
-  }
-
-void ReferenceLocalHostWorkDriver::eval_zmat_mgga_vxc_uks( size_t npts, size_t nbf,
-              const double* vrho, const double* vgamma, const double* vlapl, 
-        const double* basis_eval,
-              const double* dbasis_x_eval, const double* dbasis_y_eval,
-              const double* dbasis_z_eval, const double* lbasis_eval,
-        const double* dden_x_eval,
-              const double* dden_y_eval, const double* dden_z_eval, double* Zs, 
-              size_t ldzs, double* Zz, size_t ldzz ) {
-
-
-    if( ldzs != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    if( ldzz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zs, ldzs);
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zz, ldzz);
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-
-      auto* zs_col = Zs + ioff;
-      auto* zz_col = Zz + ioff;
-      auto* bf_x_col = dbasis_x_eval + ioff;
-      auto* bf_y_col = dbasis_y_eval + ioff;
-      auto* bf_z_col = dbasis_z_eval + ioff;
-      auto* lbf_col = lbasis_eval + ioff;
-
-      const double factp = 0.5 * vrho[2*i];
-      const double factm = 0.5 * vrho[2*i+1];
-
-      GauXC::blas::scal( nbf, 0.5*(factp + factm), zs_col, 1 ); //additional 0.5 is from eq 56 in petrone 2018 eur phys journal b "an efficent implementation of .. "
-      GauXC::blas::scal( nbf, 0.5*(factp - factm), zz_col, 1 );
-
-      const auto gga_fact_pp = vgamma[3*i];
-      const auto gga_fact_pm = vgamma[3*i+1];
-      const auto gga_fact_mm = vgamma[3*i+2];
-
-      const auto gga_fact_1 = 0.5*(gga_fact_pp + gga_fact_pm + gga_fact_mm);
-      const auto gga_fact_2 = 0.5*(gga_fact_pp - gga_fact_mm);
-      const auto gga_fact_3 = 0.5*(gga_fact_pp - gga_fact_pm + gga_fact_mm);
-
-      const auto x_fact_s = gga_fact_1 * dden_x_eval[2*i] + gga_fact_2 * dden_x_eval[2*i+1];
-      const auto y_fact_s = gga_fact_1 * dden_y_eval[2*i] + gga_fact_2 * dden_y_eval[2*i+1];
-      const auto z_fact_s = gga_fact_1 * dden_z_eval[2*i] + gga_fact_2 * dden_z_eval[2*i+1];
-
-      const auto x_fact_z = gga_fact_3 * dden_x_eval[2*i+1] + gga_fact_2 * dden_x_eval[2*i];
-      const auto y_fact_z = gga_fact_3 * dden_y_eval[2*i+1] + gga_fact_2 * dden_y_eval[2*i];
-      const auto z_fact_z = gga_fact_3 * dden_z_eval[2*i+1] + gga_fact_2 * dden_z_eval[2*i];
-
-      
-      blas::axpy( nbf, x_fact_s, bf_x_col, 1, zs_col, 1 );
-      blas::axpy( nbf, y_fact_s, bf_y_col, 1, zs_col, 1 );
-      blas::axpy( nbf, z_fact_s, bf_z_col, 1, zs_col, 1 );
-
-      blas::axpy( nbf, x_fact_z, bf_x_col, 1, zz_col, 1 );
-      blas::axpy( nbf, y_fact_z, bf_y_col, 1, zz_col, 1 );
-      blas::axpy( nbf, z_fact_z, bf_z_col, 1, zz_col, 1 );
-
-      if (vlapl != nullptr) {
-        const auto lfactp = vlapl[2*i];
-        const auto lfactm = vlapl[2*i+1];
-        blas::axpy( nbf, 0.5*(lfactp + lfactm), lbf_col, 1, zs_col, 1);
-        blas::axpy( nbf, 0.5*(lfactp - lfactm), lbf_col, 1, zz_col, 1);
-      }
-
-    }
-  }
-
-  void ReferenceLocalHostWorkDriver::eval_mmat_mgga_vxc_rks(size_t npts, size_t nbf, 
-              const double* vtau, const double* vlapl, 
-              const double* dbasis_x_eval, const double* dbasis_y_eval, 
-              const double* dbasis_z_eval,
-              double* mmat_x, double* mmat_y, double* mmat_z, size_t ldm ) {
-
-    if( ldm != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    
-    blas::lacpy( 'A', nbf, npts, dbasis_x_eval, nbf, mmat_x, ldm);
-    blas::lacpy( 'A', nbf, npts, dbasis_y_eval, nbf, mmat_y, ldm);
-    blas::lacpy( 'A', nbf, npts, dbasis_z_eval, nbf, mmat_z, ldm);
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-      auto* mmat_x_col = mmat_x + ioff;
-      auto* mmat_y_col = mmat_y + ioff;
-      auto* mmat_z_col = mmat_z + ioff;
-      auto* bf_x_col = dbasis_x_eval + ioff;
-      auto* bf_y_col = dbasis_y_eval + ioff;
-      auto* bf_z_col = dbasis_z_eval + ioff;
-
-      const auto tfact = 0.25 * vtau[i];
-
-      blas::scal( nbf, tfact, mmat_x_col, 1);
-      blas::scal( nbf, tfact, mmat_y_col, 1);
-      blas::scal( nbf, tfact, mmat_z_col, 1);
-
-      if ( vlapl != nullptr ) {
-        const auto lfact = vlapl[i];
-        blas::axpy( nbf, lfact, bf_x_col, 1, mmat_x_col, 1);
-        blas::axpy( nbf, lfact, bf_y_col, 1, mmat_y_col, 1);
-        blas::axpy( nbf, lfact, bf_z_col, 1, mmat_z_col, 1);
-      }
-    }
-  }
-
-void ReferenceLocalHostWorkDriver::eval_mmat_mgga_vxc_uks(size_t npts, size_t nbf, 
-              const double* vtau, const double* vlapl, 
-              const double* dbasis_x_eval, const double* dbasis_y_eval, 
-              const double* dbasis_z_eval,
-              double* mmat_xs, double* mmat_ys, double* mmat_zs, size_t ldms,
-              double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz) {
-
-    if( ldms != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    if( ldmz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    
-    blas::lacpy( 'A', nbf, npts, dbasis_x_eval, nbf, mmat_xs, ldms);
-    blas::lacpy( 'A', nbf, npts, dbasis_y_eval, nbf, mmat_ys, ldms);
-    blas::lacpy( 'A', nbf, npts, dbasis_z_eval, nbf, mmat_zs, ldms);
-    blas::lacpy( 'A', nbf, npts, dbasis_x_eval, nbf, mmat_xz, ldmz);
-    blas::lacpy( 'A', nbf, npts, dbasis_y_eval, nbf, mmat_yz, ldmz);
-    blas::lacpy( 'A', nbf, npts, dbasis_z_eval, nbf, mmat_zz, ldmz);
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-      auto* xs_col = mmat_xs + ioff;
-      auto* ys_col = mmat_ys + ioff;
-      auto* zs_col = mmat_zs + ioff;
-      auto* xz_col = mmat_xz + ioff;
-      auto* yz_col = mmat_yz + ioff;
-      auto* zz_col = mmat_zz + ioff;
-      auto* bf_x_col = dbasis_x_eval + ioff;
-      auto* bf_y_col = dbasis_y_eval + ioff;
-      auto* bf_z_col = dbasis_z_eval + ioff;
-
-      const auto tfactp = 0.25 * vtau[2*i];
-      const auto tfactm = 0.25 * vtau[2*i+1];
-      const auto tfacts = 0.5*(tfactp + tfactm);
-      const auto tfactz = 0.5*(tfactp - tfactm);
-
-      blas::scal( nbf, tfacts, xs_col, 1);
-      blas::scal( nbf, tfacts, ys_col, 1);
-      blas::scal( nbf, tfacts, zs_col, 1);
-      blas::scal( nbf, tfactz, xz_col, 1);
-      blas::scal( nbf, tfactz, yz_col, 1);
-      blas::scal( nbf, tfactz, zz_col, 1);
-
-      if ( vlapl != nullptr ) {
-        const auto lfactp = vlapl[2*i];
-        const auto lfactm = vlapl[2*i+1];
-  const auto lfacts = 0.5*(lfactp + lfactm);
-  const auto lfactz = 0.5*(lfactp - lfactm);
-        blas::axpy( nbf, lfacts, bf_x_col, 1, xs_col, 1);
-        blas::axpy( nbf, lfacts, bf_y_col, 1, ys_col, 1);
-        blas::axpy( nbf, lfacts, bf_z_col, 1, zs_col, 1);
-        blas::axpy( nbf, lfactz, bf_x_col, 1, xz_col, 1);
-        blas::axpy( nbf, lfactz, bf_y_col, 1, yz_col, 1);
-        blas::axpy( nbf, lfactz, bf_z_col, 1, zz_col, 1);
-      }
-
-    }
-  }
-
-
-void ReferenceLocalHostWorkDriver::eval_zmat_gga_vxc_gks( size_t npts, size_t nbf, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz, double* Zx, size_t ldzx,
-    double* Zy, size_t ldzy, double* K, double* H ) {
-
-    auto *KZ = K; // KZ // store K in the Z matrix
-    auto *KY = KZ + npts;
-    auto *KX = KY + npts;
-
-    auto *HZ = H; // KZ // store K in the Z matrix
-    auto *HY = HZ + npts;
-    auto *HX = HY + npts;
-
-    if( ldzs != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    if( ldzz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    if( ldzx != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-    if( ldzy != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zs, ldzs);
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zz, ldzz);
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zx, ldzx);
-    blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zy, ldzy);   
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      const int32_t ioff = i * nbf;
-
-      auto* zs_col = Zs + ioff;
-      auto* zz_col = Zz + ioff;
-      auto* zx_col = Zx + ioff;
-      auto* zy_col = Zy + ioff;
-
-      auto* bf_x_col = dbasis_x_eval + ioff;
-      auto* bf_y_col = dbasis_y_eval + ioff;
-      auto* bf_z_col = dbasis_z_eval + ioff;
-
-      const double factp = 0.5 * vrho[2*i];
-      const double factm = 0.5 * vrho[2*i+1];
-      const double factor = 0.5 * (factp - factm);
-
-      GauXC::blas::scal( nbf, 0.5*(factp + factm), zs_col, 1 ); //additional 0.5 is from eq 56 in petrone 2018 eur phys journal b "an efficent implementation of .. "
-      GauXC::blas::scal( nbf, KZ[i]*factor, zz_col, 1 );
-      GauXC::blas::scal( nbf, KX[i]*factor, zx_col, 1 );
-      GauXC::blas::scal( nbf, KY[i]*factor, zy_col, 1 );
-
-      const auto gga_fact_pp = vgamma[3 * i];
-      const auto gga_fact_pm = vgamma[3 * i + 1];
-      const auto gga_fact_mm = vgamma[3 * i + 2];
-
-      const auto gga_fact_1 = 0.5 * (gga_fact_pp + gga_fact_pm + gga_fact_mm);
-      const auto gga_fact_2 = 0.5 * (gga_fact_pp - gga_fact_mm);
-      const auto gga_fact_3 = 0.5 * (gga_fact_pp - gga_fact_pm + gga_fact_mm);
-
-      const auto x_fact_s = gga_fact_1 * dden_x_eval[4 * i] +
-                            gga_fact_2 * (HZ[i] * dden_x_eval[4 * i + 1] +
-                                          HY[i] * dden_x_eval[4 * i + 2] +
-                                          HX[i] * dden_x_eval[4 * i + 3]);
-      const auto y_fact_s = gga_fact_1 * dden_y_eval[4 * i] +
-                            gga_fact_2 * (HZ[i] * dden_y_eval[4 * i + 1] +
-                                          HY[i] * dden_y_eval[4 * i + 2] +
-                                          HX[i] * dden_y_eval[4 * i + 3]);
-      const auto z_fact_s = gga_fact_1 * dden_z_eval[4 * i] +
-                            gga_fact_2 * (HZ[i] * dden_z_eval[4 * i + 1] +
-                                          HY[i] * dden_z_eval[4 * i + 2] +
-                                          HX[i] * dden_z_eval[4 * i + 3]);
-
-      const auto x_fact_z = gga_fact_3 * dden_x_eval[4 * i + 1] +
-                            gga_fact_2 * HZ[i] * dden_x_eval[4 * i];
-      const auto y_fact_z = gga_fact_3 * dden_y_eval[4 * i + 1] +
-                            gga_fact_2 * HZ[i] * dden_y_eval[4 * i];
-      const auto z_fact_z = gga_fact_3 * dden_z_eval[4 * i + 1] +
-                            gga_fact_2 * HZ[i] * dden_z_eval[4 * i];
-
-      const auto x_fact_x = gga_fact_3 * dden_x_eval[4 * i + 3] +
-                            gga_fact_2 * HX[i] * dden_x_eval[4 * i];
-      const auto y_fact_x = gga_fact_3 * dden_y_eval[4 * i + 3] +
-                            gga_fact_2 * HX[i] * dden_y_eval[4 * i];
-      const auto z_fact_x = gga_fact_3 * dden_z_eval[4 * i + 3] +
-                            gga_fact_2 * HX[i] * dden_z_eval[4 * i];
-
-      const auto x_fact_y = gga_fact_3 * dden_x_eval[4 * i + 2] +
-                            gga_fact_2 * HY[i] * dden_x_eval[4 * i];
-      const auto y_fact_y = gga_fact_3 * dden_y_eval[4 * i + 2] +
-                            gga_fact_2 * HY[i] * dden_y_eval[4 * i];
-      const auto z_fact_y = gga_fact_3 * dden_z_eval[4 * i + 2] +
-                            gga_fact_2 * HY[i] * dden_z_eval[4 * i];
-
-
-      blas::axpy(nbf, x_fact_s, bf_x_col, 1, zs_col, 1);
-      blas::axpy(nbf, y_fact_s, bf_y_col, 1, zs_col, 1);
-      blas::axpy(nbf, z_fact_s, bf_z_col, 1, zs_col, 1);
-
-      blas::axpy(nbf, x_fact_z, bf_x_col, 1, zz_col, 1);
-      blas::axpy(nbf, y_fact_z, bf_y_col, 1, zz_col, 1);
-      blas::axpy(nbf, z_fact_z, bf_z_col, 1, zz_col, 1);
-
-      blas::axpy(nbf, x_fact_x, bf_x_col, 1, zx_col, 1);
-      blas::axpy(nbf, y_fact_x, bf_y_col, 1, zx_col, 1);
-      blas::axpy(nbf, z_fact_x, bf_z_col, 1, zx_col, 1);
-
-      blas::axpy(nbf, x_fact_y, bf_x_col, 1, zy_col, 1);
-      blas::axpy(nbf, y_fact_y, bf_y_col, 1, zy_col, 1);
-      blas::axpy(nbf, z_fact_y, bf_z_col, 1, zy_col, 1);
-
-    }
-
-}
-
-void ReferenceLocalHostWorkDriver::eval_tmat_lda_vxc_rks( size_t npts, const double* v2rho2, const double* trho, double* A){
-	for( int32_t i = 0; i < (int32_t)npts; ++i ) 
-		A[i] = v2rho2[i] * trho[i];
-}
-
-void ReferenceLocalHostWorkDriver::eval_tmat_lda_vxc_uks( size_t npts, const double* v2rho2, const double* trho, double* A){
-	for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-		A[2*i] = v2rho2[3*i] * trho[2*i] + v2rho2[3*i+1] * trho[2*i+1];
-		A[2*i+1] = v2rho2[3*i+1] * trho[2*i] + v2rho2[3*i+2] * trho[2*i+1];
-	}
-}
-
-void ReferenceLocalHostWorkDriver::eval_tmat_gga_vxc_rks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-  const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ){
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-
-    //calculate trial gamma
-    const auto tgamma = tdden_x_eval[i] * dden_x_eval[i] + tdden_y_eval[i] * dden_y_eval[i] + tdden_z_eval[i] * dden_z_eval[i];
-
-    A[i] = v2rho2[i] * trho[i] + 2 * v2rhogamma[i] * tgamma;
-
-    auto B_coef = v2rhogamma[i] * trho[i] + 2 * v2gamma2[i] * tgamma;
-
-    B[i * 3]     = 2 * B_coef * dden_x_eval[i] + 2 * vgamma[i] * tdden_x_eval[i];
-    B[i * 3 + 1] = 2 * B_coef * dden_y_eval[i] + 2 * vgamma[i] * tdden_y_eval[i];
-    B[i * 3 + 2] = 2 * B_coef * dden_z_eval[i] + 2 * vgamma[i] * tdden_z_eval[i];
-
-  }
-}
-
-
-void ReferenceLocalHostWorkDriver::eval_tmat_gga_vxc_uks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-  const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ){
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    // convert dden_x_eval, dden_y_eval, dden_z_eval to two-spinor representation
-    const auto dden_x_eval_a = 0.5 * (dden_x_eval[2*i] + dden_x_eval[2*i+1]);
-    const auto dden_x_eval_b = 0.5 * (dden_x_eval[2*i] - dden_x_eval[2*i+1]);
-    const auto dden_y_eval_a = 0.5 * (dden_y_eval[2*i] + dden_y_eval[2*i+1]);
-    const auto dden_y_eval_b = 0.5 * (dden_y_eval[2*i] - dden_y_eval[2*i+1]);
-    const auto dden_z_eval_a = 0.5 * (dden_z_eval[2*i] + dden_z_eval[2*i+1]);
-    const auto dden_z_eval_b = 0.5 * (dden_z_eval[2*i] - dden_z_eval[2*i+1]);
-    // convert tdden_x_eval, tdden_y_eval, tdden_z_eval to two-spinor representation
-    const auto tdden_x_eval_a = 0.5 * (tdden_x_eval[2*i] + tdden_x_eval[2*i+1]);
-    const auto tdden_x_eval_b = 0.5 * (tdden_x_eval[2*i] - tdden_x_eval[2*i+1]);
-    const auto tdden_y_eval_a = 0.5 * (tdden_y_eval[2*i] + tdden_y_eval[2*i+1]);
-    const auto tdden_y_eval_b = 0.5 * (tdden_y_eval[2*i] - tdden_y_eval[2*i+1]);
-    const auto tdden_z_eval_a = 0.5 * (tdden_z_eval[2*i] + tdden_z_eval[2*i+1]);
-    const auto tdden_z_eval_b = 0.5 * (tdden_z_eval[2*i] - tdden_z_eval[2*i+1]);
-
-    //calculate trial gamma
-    const auto tgamma_aa = tdden_x_eval_a * dden_x_eval_a + tdden_y_eval_a * dden_y_eval_a + tdden_z_eval_a * dden_z_eval_a;
-    const auto tgamma_ab = tdden_x_eval_a * dden_x_eval_b + tdden_y_eval_a * dden_y_eval_b + tdden_z_eval_a * dden_z_eval_b
-                        + tdden_x_eval_b * dden_x_eval_a + tdden_y_eval_b * dden_y_eval_a + tdden_z_eval_b * dden_z_eval_a;
-    const auto tgamma_bb = tdden_x_eval_b * dden_x_eval_b + tdden_y_eval_b * dden_y_eval_b + tdden_z_eval_b * dden_z_eval_b;
-    const auto trho_a = trho[2*i];
-    const auto trho_b = trho[2*i+1];
-
-    const auto v2rho2_a_a = v2rho2[3*i];
-    const auto v2rho2_a_b = v2rho2[3*i+1];
-    const auto v2rho2_b_b = v2rho2[3*i+2];
-    const auto v2rhogamma_a_aa = v2rhogamma[6*i];
-    const auto v2rhogamma_a_ab = v2rhogamma[6*i+1];
-    const auto v2rhogamma_a_bb = v2rhogamma[6*i+2];
-    const auto v2rhogamma_b_aa = v2rhogamma[6*i+3];
-    const auto v2rhogamma_b_ab = v2rhogamma[6*i+4];
-    const auto v2rhogamma_b_bb = v2rhogamma[6*i+5];
-    const auto v2gamma2_aa_aa = v2gamma2[6*i];
-    const auto v2gamma2_aa_ab = v2gamma2[6*i+1];
-    const auto v2gamma2_aa_bb = v2gamma2[6*i+2];
-    const auto v2gamma2_ab_ab = v2gamma2[6*i+3];
-    const auto v2gamma2_ab_bb = v2gamma2[6*i+4];
-    const auto v2gamma2_bb_bb = v2gamma2[6*i+5];
-    const auto vgamma_aa = vgamma[3*i];
-    const auto vgamma_ab = vgamma[3*i+1];
-    const auto vgamma_bb = vgamma[3*i+2];
-
-    A[2 * i] = v2rho2_a_a * trho_a + 2 * v2rhogamma_a_aa * tgamma_aa + v2rhogamma_a_ab * tgamma_ab +
-             v2rho2_a_b * trho_b + 2 * v2rhogamma_a_bb * tgamma_bb;
-    A[2 * i + 1] = v2rho2_b_b * trho_b + 2 * v2rhogamma_b_bb * tgamma_bb + v2rhogamma_b_ab * tgamma_ab +
-             v2rho2_a_b * trho_a + 2 * v2rhogamma_b_aa * tgamma_aa;
-
-    auto B_coef1 = v2rhogamma_a_aa * trho_a + 2 * v2gamma2_aa_aa * tgamma_aa + v2gamma2_aa_ab * tgamma_ab +
-             v2rhogamma_b_aa * trho_b + 2 * v2gamma2_aa_bb * tgamma_bb;
-    auto B_coef2 = v2rhogamma_a_ab * trho_a + 2 * v2gamma2_aa_ab * tgamma_aa + v2gamma2_ab_ab * tgamma_ab +
-             v2rhogamma_b_ab * trho_b + 2 * v2gamma2_ab_bb * tgamma_bb;
-
-    B[i * 6]     = 2 * B_coef1 * dden_x_eval_a + B_coef2 * dden_x_eval_b + 2 * vgamma_aa * tdden_x_eval_a + vgamma_ab * tdden_x_eval_b;
-    B[i * 6 + 1] = 2 * B_coef1 * dden_y_eval_a + B_coef2 * dden_y_eval_b + 2 * vgamma_aa * tdden_y_eval_a + vgamma_ab * tdden_y_eval_b;
-    B[i * 6 + 2] = 2 * B_coef1 * dden_z_eval_a + B_coef2 * dden_z_eval_b + 2 * vgamma_aa * tdden_z_eval_a + vgamma_ab * tdden_z_eval_b;
-
-    B_coef1 = v2rhogamma_b_bb * trho_b + 2 * v2gamma2_bb_bb * tgamma_bb + v2gamma2_ab_bb * tgamma_ab +
-             v2rhogamma_a_bb * trho_a + 2 * v2gamma2_aa_bb * tgamma_aa;
-    B_coef2 = v2rhogamma_b_ab * trho_b + 2 * v2gamma2_ab_bb * tgamma_bb + v2gamma2_ab_ab * tgamma_ab +
-             v2rhogamma_a_ab * trho_a + 2 * v2gamma2_aa_ab * tgamma_aa;
-
-    B[i * 6 + 3] = 2 * B_coef1 * dden_x_eval_b + B_coef2 * dden_x_eval_a + 2 * vgamma_bb * tdden_x_eval_b + vgamma_ab * tdden_x_eval_a;
-    B[i * 6 + 4] = 2 * B_coef1 * dden_y_eval_b + B_coef2 * dden_y_eval_a + 2 * vgamma_bb * tdden_y_eval_b + vgamma_ab * tdden_y_eval_a;
-    B[i * 6 + 5] = 2 * B_coef1 * dden_z_eval_b + B_coef2 * dden_z_eval_a + 2 * vgamma_bb * tdden_z_eval_b + vgamma_ab * tdden_z_eval_a;
-  }
-}
-
-
-void ReferenceLocalHostWorkDriver::eval_tmat_mgga_vxc_rks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-  const double* v2gamma2, const double* v2gammalapl, const double* v2gammatau,
-  const double* v2lapl2, const double* v2lapltau, const double* v2tau2, 
-  const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C){
-
-    for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-      //calculate trial gamma
-      const auto tgamma = tdden_x_eval[i] * dden_x_eval[i] + tdden_y_eval[i] * dden_y_eval[i] + tdden_z_eval[i] * dden_z_eval[i];
-  
-      A[i] = v2rho2[i] * trho[i] + 2 * v2rhogamma[i] * tgamma + v2rhotau[i] * ttau[i];
-      C[i] = v2rhotau[i] * trho[i] + 2 * v2gammatau[i] * tgamma + v2tau2[i] * ttau[i];
-  
-      auto B_coef = v2rhogamma[i] * trho[i] + 2 * v2gamma2[i] * tgamma + v2gammatau[i] * ttau[i];
-  
-      B[i * 3]     = 2 * B_coef * dden_x_eval[i] + 2 * vgamma[i] * tdden_x_eval[i];
-      B[i * 3 + 1] = 2 * B_coef * dden_y_eval[i] + 2 * vgamma[i] * tdden_y_eval[i];
-      B[i * 3 + 2] = 2 * B_coef * dden_z_eval[i] + 2 * vgamma[i] * tdden_z_eval[i];
-  
-    }
-
-}
-
-
-void ReferenceLocalHostWorkDriver::eval_tmat_mgga_vxc_uks( size_t npts, const double* vgamma, 
-  const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-  const double* v2gamma2, const double* v2gammalapl, const double* v2gammatau,
-  const double* v2lapl2, const double* v2lapltau, const double* v2tau2, 
-  const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C){
-
-  // Laplacian is not supported now
-  if( v2rholapl != nullptr ||  v2gammalapl != nullptr ||  v2lapltau != nullptr ||  v2lapl2 != nullptr )
-      GAUXC_GENERIC_EXCEPTION(std::string("Laplacian not supported"));
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    // convert dden_x_eval, dden_y_eval, dden_z_eval to two-spinor representation
-    const auto dden_x_eval_a = 0.5 * (dden_x_eval[2*i] + dden_x_eval[2*i+1]);
-    const auto dden_x_eval_b = 0.5 * (dden_x_eval[2*i] - dden_x_eval[2*i+1]);
-    const auto dden_y_eval_a = 0.5 * (dden_y_eval[2*i] + dden_y_eval[2*i+1]);
-    const auto dden_y_eval_b = 0.5 * (dden_y_eval[2*i] - dden_y_eval[2*i+1]);
-    const auto dden_z_eval_a = 0.5 * (dden_z_eval[2*i] + dden_z_eval[2*i+1]);
-    const auto dden_z_eval_b = 0.5 * (dden_z_eval[2*i] - dden_z_eval[2*i+1]);
-    // convert tdden_x_eval, tdden_y_eval, tdden_z_eval to two-spinor representation
-    const auto tdden_x_eval_a = 0.5 * (tdden_x_eval[2*i] + tdden_x_eval[2*i+1]);
-    const auto tdden_x_eval_b = 0.5 * (tdden_x_eval[2*i] - tdden_x_eval[2*i+1]);
-    const auto tdden_y_eval_a = 0.5 * (tdden_y_eval[2*i] + tdden_y_eval[2*i+1]);
-    const auto tdden_y_eval_b = 0.5 * (tdden_y_eval[2*i] - tdden_y_eval[2*i+1]);
-    const auto tdden_z_eval_a = 0.5 * (tdden_z_eval[2*i] + tdden_z_eval[2*i+1]);
-    const auto tdden_z_eval_b = 0.5 * (tdden_z_eval[2*i] - tdden_z_eval[2*i+1]);
-
-    //calculate trial gamma
-    const auto tgamma_aa = tdden_x_eval_a * dden_x_eval_a + tdden_y_eval_a * dden_y_eval_a + tdden_z_eval_a * dden_z_eval_a;
-    const auto tgamma_ab = tdden_x_eval_a * dden_x_eval_b + tdden_y_eval_a * dden_y_eval_b + tdden_z_eval_a * dden_z_eval_b
-                         + tdden_x_eval_b * dden_x_eval_a + tdden_y_eval_b * dden_y_eval_a + tdden_z_eval_b * dden_z_eval_a;
-    const auto tgamma_bb = tdden_x_eval_b * dden_x_eval_b + tdden_y_eval_b * dden_y_eval_b + tdden_z_eval_b * dden_z_eval_b;
-    const auto trho_a = trho[2*i];
-    const auto trho_b = trho[2*i+1];
-    const auto ttau_a = ttau[2*i];
-    const auto ttau_b = ttau[2*i+1];
-
-    const auto v2rho2_a_a = v2rho2[3*i];
-    const auto v2rho2_a_b = v2rho2[3*i+1];
-    const auto v2rho2_b_b = v2rho2[3*i+2];
-    const auto v2rhogamma_a_aa = v2rhogamma[6*i];
-    const auto v2rhogamma_a_ab = v2rhogamma[6*i+1];
-    const auto v2rhogamma_a_bb = v2rhogamma[6*i+2];
-    const auto v2rhogamma_b_aa = v2rhogamma[6*i+3];
-    const auto v2rhogamma_b_ab = v2rhogamma[6*i+4];
-    const auto v2rhogamma_b_bb = v2rhogamma[6*i+5];
-    const auto v2gamma2_aa_aa = v2gamma2[6*i];
-    const auto v2gamma2_aa_ab = v2gamma2[6*i+1];
-    const auto v2gamma2_aa_bb = v2gamma2[6*i+2];
-    const auto v2gamma2_ab_ab = v2gamma2[6*i+3];
-    const auto v2gamma2_ab_bb = v2gamma2[6*i+4];
-    const auto v2gamma2_bb_bb = v2gamma2[6*i+5];
-    const auto vgamma_aa = vgamma[3*i];
-    const auto vgamma_ab = vgamma[3*i+1];
-    const auto vgamma_bb = vgamma[3*i+2];
-    const auto v2rhotau_a_a = v2rhotau[4*i];
-    const auto v2rhotau_a_b = v2rhotau[4*i+1];
-    const auto v2rhotau_b_a = v2rhotau[4*i+2];
-    const auto v2rhotau_b_b = v2rhotau[4*i+3];
-    const auto v2tau2_a_a = v2tau2[3*i];
-    const auto v2tau2_a_b = v2tau2[3*i+1];
-    const auto v2tau2_b_b = v2tau2[3*i+2];
-    const auto v2gammatau_aa_a = v2gammatau[6*i];
-    const auto v2gammatau_aa_b = v2gammatau[6*i+1];
-    const auto v2gammatau_ab_a = v2gammatau[6*i+2];
-    const auto v2gammatau_ab_b = v2gammatau[6*i+3];
-    const auto v2gammatau_bb_a = v2gammatau[6*i+4];
-    const auto v2gammatau_bb_b = v2gammatau[6*i+5];
-
-  
-    A[2 * i] =     v2rho2_a_a * trho_a + 2 * v2rhogamma_a_aa * tgamma_aa + v2rhogamma_a_ab * tgamma_ab + v2rhotau_a_a * ttau_a
-                +  v2rho2_a_b * trho_b + 2 * v2rhogamma_a_bb * tgamma_bb + v2rhotau_a_b * ttau_b;
-    A[2 * i + 1] = v2rho2_b_b * trho_b + 2 * v2rhogamma_b_bb * tgamma_bb + v2rhogamma_b_ab * tgamma_ab + v2rhotau_b_b * ttau_b
-                +  v2rho2_a_b * trho_a + 2 * v2rhogamma_b_aa * tgamma_aa + v2rhotau_b_a * ttau_a;
-
-    C[2 * i] =     v2rhotau_a_a * trho_a + 2 * v2gammatau_aa_a * tgamma_aa + v2gammatau_ab_a * tgamma_ab + v2tau2_a_a * ttau_a
-                +  v2rhotau_b_a * trho_b + 2 * v2gammatau_bb_a * tgamma_bb + v2tau2_a_b * ttau_b;
-    C[2 * i + 1] = v2rhotau_b_b * trho_b + 2 * v2gammatau_bb_b * tgamma_bb + v2gammatau_ab_b * tgamma_ab + v2tau2_b_b * ttau_b
-                +  v2rhotau_a_b * trho_a + 2 * v2gammatau_aa_b * tgamma_aa + v2tau2_a_b * ttau_a;
-
-    auto B_coef1 = v2rhogamma_a_aa * trho_a + 2 * v2gamma2_aa_aa * tgamma_aa + v2gamma2_aa_ab * tgamma_ab + v2gammatau_aa_a * ttau_a
-                +  v2rhogamma_b_aa * trho_b + 2 * v2gamma2_aa_bb * tgamma_bb + v2gammatau_aa_b * ttau_b;
-    auto B_coef2 = v2rhogamma_a_ab * trho_a + 2 * v2gamma2_aa_ab * tgamma_aa + v2gamma2_ab_ab * tgamma_ab + v2gammatau_ab_a * ttau_a
-                +  v2rhogamma_b_ab * trho_b + 2 * v2gamma2_ab_bb * tgamma_bb + v2gammatau_ab_b * ttau_b;
-
-    B[i * 6]     = 2 * B_coef1 * dden_x_eval_a + B_coef2 * dden_x_eval_b + 2 * vgamma_aa * tdden_x_eval_a + vgamma_ab * tdden_x_eval_b;
-    B[i * 6 + 1] = 2 * B_coef1 * dden_y_eval_a + B_coef2 * dden_y_eval_b + 2 * vgamma_aa * tdden_y_eval_a + vgamma_ab * tdden_y_eval_b;
-    B[i * 6 + 2] = 2 * B_coef1 * dden_z_eval_a + B_coef2 * dden_z_eval_b + 2 * vgamma_aa * tdden_z_eval_a + vgamma_ab * tdden_z_eval_b;
-
-    B_coef1 = v2rhogamma_b_bb * trho_b + 2 * v2gamma2_bb_bb * tgamma_bb + v2gamma2_ab_bb * tgamma_ab + v2gammatau_bb_b * ttau_b
-            + v2rhogamma_a_bb * trho_a + 2 * v2gamma2_aa_bb * tgamma_aa + v2gammatau_bb_a * ttau_a;
-    B_coef2 = v2rhogamma_b_ab * trho_b + 2 * v2gamma2_ab_bb * tgamma_bb + v2gamma2_ab_ab * tgamma_ab + v2gammatau_ab_b * ttau_b
-            + v2rhogamma_a_ab * trho_a + 2 * v2gamma2_aa_ab * tgamma_aa + v2gammatau_ab_a * ttau_a;
-
-    B[i * 6 + 3] = 2 * B_coef1 * dden_x_eval_b + B_coef2 * dden_x_eval_a + 2 * vgamma_bb * tdden_x_eval_b + vgamma_ab * tdden_x_eval_a;
-    B[i * 6 + 4] = 2 * B_coef1 * dden_y_eval_b + B_coef2 * dden_y_eval_a + 2 * vgamma_bb * tdden_y_eval_b + vgamma_ab * tdden_y_eval_a;
-    B[i * 6 + 5] = 2 * B_coef1 * dden_z_eval_b + B_coef2 * dden_z_eval_a + 2 * vgamma_bb * tdden_z_eval_b + vgamma_ab * tdden_z_eval_a;
-
-  }
-}
-
-
-// Eval Z Matrix LDA VXC for two-spinors
-void ReferenceLocalHostWorkDriver::eval_zmat_lda_vxc_uks_ts( size_t npts, size_t nbf,
-  const double* vrho, const double* basis_eval, double* Za, size_t ldza,
-  double* Zb, size_t ldzb ) {
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Za, ldza);
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zb, ldzb);
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-  //eq. 56 https://doi.org/10.1140/epjb/e2018-90170-1
-  GauXC::blas::scal( nbf, 0.5 * vrho[2*i], Za + i*ldza, 1 );
-  GauXC::blas::scal( nbf, 0.5 * vrho[2*i+1], Zb + i*ldzb, 1 );
-  }
-}
-
-void ReferenceLocalHostWorkDriver::eval_Bvec_gga_vxc_rks_ts( size_t npts, const double* vgamma, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ){
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-    B[i*3]   = 2 * vgamma[i] * dden_x_eval[i];
-    B[i*3+1] = 2 * vgamma[i] * dden_y_eval[i];
-    B[i*3+2] = 2 * vgamma[i]* dden_z_eval[i]; 
-  }
-}
-
-void ReferenceLocalHostWorkDriver::eval_zmat_gga_vxc_rks_ts( size_t npts, size_t nbf,
-  const double* A, const double* B, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval,
-  const double* dbasis_z_eval, double* Z, 
-  size_t ldz) {
-
-  if( ldz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Z, ldz);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* z_col = Z + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-
-    GauXC::blas::scal( nbf, 0.5*A[i], z_col, 1 ); 
-
-    blas::axpy( nbf, B[i*3],   bf_x_col, 1, z_col, 1 );
-    blas::axpy( nbf, B[i*3+1], bf_y_col, 1, z_col, 1 );
-    blas::axpy( nbf, B[i*3+2], bf_z_col, 1, z_col, 1 );
-
-  }
-}
-
-
-void ReferenceLocalHostWorkDriver::eval_Bvec_gga_vxc_uks_ts( size_t npts, const double* vgamma, 
-  const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ){
-
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-    const auto gga_fact_aa = vgamma[3*i];
-    const auto gga_fact_ab = vgamma[3*i+1];
-    const auto gga_fact_bb = vgamma[3*i+2];
-
-    // dden_x_eval, dden_y_eval, dden_z_eval are all still in Pauli representation
-    // so we need to convert them to the two spinor representation
-    const auto dden_x_eval_a = 0.5 * (dden_x_eval[2*i] + dden_x_eval[2*i+1]);
-    const auto dden_x_eval_b = 0.5 * (dden_x_eval[2*i] - dden_x_eval[2*i+1]);
-    const auto dden_y_eval_a = 0.5 * (dden_y_eval[2*i] + dden_y_eval[2*i+1]);
-    const auto dden_y_eval_b = 0.5 * (dden_y_eval[2*i] - dden_y_eval[2*i+1]);
-    const auto dden_z_eval_a = 0.5 * (dden_z_eval[2*i] + dden_z_eval[2*i+1]);
-    const auto dden_z_eval_b = 0.5 * (dden_z_eval[2*i] - dden_z_eval[2*i+1]);
-
-    B[i*6]   = 2 * gga_fact_aa * dden_x_eval_a + gga_fact_ab * dden_x_eval_b;
-    B[i*6+1] = 2 * gga_fact_aa * dden_y_eval_a + gga_fact_ab * dden_y_eval_b;
-    B[i*6+2] = 2 * gga_fact_aa * dden_z_eval_a + gga_fact_ab * dden_z_eval_b;
-    
-    B[i*6+3] = 2 * gga_fact_bb * dden_x_eval_b + gga_fact_ab * dden_x_eval_a;
-    B[i*6+4] = 2 * gga_fact_bb * dden_y_eval_b + gga_fact_ab * dden_y_eval_a;
-    B[i*6+5] = 2 * gga_fact_bb * dden_z_eval_b + gga_fact_ab * dden_z_eval_a;
-  }
-}
-void ReferenceLocalHostWorkDriver::eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbf,
-  const double* A, const double* B, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval,
-  const double* dbasis_z_eval, double* Za, 
-  size_t ldza, double* Zb, size_t ldzb ) {
-
-
-  if( ldza != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  if( ldzb != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Za, ldza);
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zb, ldzb);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* za_col = Za + ioff;
-    auto* zb_col = Zb + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-
-    GauXC::blas::scal( nbf, 0.5*A[2*i], za_col, 1 ); //additional 0.5 is from eq 56 in petrone 2018 eur phys journal b "an efficent implementation of .. "
-    GauXC::blas::scal( nbf, 0.5*A[2*i+1], zb_col, 1 );
-
-    blas::axpy( nbf, B[i*6],   bf_x_col, 1, za_col, 1 );
-    blas::axpy( nbf, B[i*6+1], bf_y_col, 1, za_col, 1 );
-    blas::axpy( nbf, B[i*6+2], bf_z_col, 1, za_col, 1 );
-
-    blas::axpy( nbf, B[i*6+3], bf_x_col, 1, zb_col, 1 );
-    blas::axpy( nbf, B[i*6+4], bf_y_col, 1, zb_col, 1 );
-    blas::axpy( nbf, B[i*6+5], bf_z_col, 1, zb_col, 1 );
-
-  }
-}
-
-
-void ReferenceLocalHostWorkDriver::eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbf,
-  const double* vrho, const double* vgamma, const double* basis_eval,
-  const double* dbasis_x_eval, const double* dbasis_y_eval,
-  const double* dbasis_z_eval, const double* dden_x_eval,
-  const double* dden_y_eval, const double* dden_z_eval, double* Za, 
-  size_t ldza, double* Zb, size_t ldzb ) {
-
-
-  if( ldza != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  if( ldzb != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Za, ldza);
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zb, ldzb);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* za_col = Za + ioff;
-    auto* zb_col = Zb + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-
-    GauXC::blas::scal( nbf, 0.5*vrho[2*i], za_col, 1 ); //additional 0.5 is from eq 56 in petrone 2018 eur phys journal b "an efficent implementation of .. "
-    GauXC::blas::scal( nbf, 0.5*vrho[2*i+1], zb_col, 1 );
-
-    const auto gga_fact_aa = vgamma[3*i];
-    const auto gga_fact_ab = vgamma[3*i+1];
-    const auto gga_fact_bb = vgamma[3*i+2];
-
-    // dden_x_eval, dden_y_eval, dden_z_eval are all still in Pauli representation
-    // so we need to convert them to the two spinor representation
-    const auto dden_x_eval_a = 0.5 * (dden_x_eval[2*i] + dden_x_eval[2*i+1]);
-    const auto dden_x_eval_b = 0.5 * (dden_x_eval[2*i] - dden_x_eval[2*i+1]);
-    const auto dden_y_eval_a = 0.5 * (dden_y_eval[2*i] + dden_y_eval[2*i+1]);
-    const auto dden_y_eval_b = 0.5 * (dden_y_eval[2*i] - dden_y_eval[2*i+1]);
-    const auto dden_z_eval_a = 0.5 * (dden_z_eval[2*i] + dden_z_eval[2*i+1]);
-    const auto dden_z_eval_b = 0.5 * (dden_z_eval[2*i] - dden_z_eval[2*i+1]);
-
-    const auto x_fact_a = 2 * gga_fact_aa * dden_x_eval_a + gga_fact_ab * dden_x_eval_b;
-    const auto y_fact_a = 2 * gga_fact_aa * dden_y_eval_a + gga_fact_ab * dden_y_eval_b;
-    const auto z_fact_a = 2 * gga_fact_aa * dden_z_eval_a + gga_fact_ab * dden_z_eval_b;
-
-    const auto x_fact_b = 2 * gga_fact_bb * dden_x_eval_b + gga_fact_ab * dden_x_eval_a;
-    const auto y_fact_b = 2 * gga_fact_bb * dden_y_eval_b + gga_fact_ab * dden_y_eval_a;
-    const auto z_fact_b = 2 * gga_fact_bb * dden_z_eval_b + gga_fact_ab * dden_z_eval_a;
-
-    blas::axpy( nbf, x_fact_a, bf_x_col, 1, za_col, 1 );
-    blas::axpy( nbf, y_fact_a, bf_y_col, 1, za_col, 1 );
-    blas::axpy( nbf, z_fact_a, bf_z_col, 1, za_col, 1 );
-
-    blas::axpy( nbf, x_fact_b, bf_x_col, 1, zb_col, 1 );
-    blas::axpy( nbf, y_fact_b, bf_y_col, 1, zb_col, 1 );
-    blas::axpy( nbf, z_fact_b, bf_z_col, 1, zb_col, 1 );
-
-  }
-}
-
-void ReferenceLocalHostWorkDriver::eval_zmat_mgga_vxc_uks_ts( size_t npts, size_t nbf,
-              const double* vrho, const double* vgamma, const double* vlapl, 
-        const double* basis_eval,
-              const double* dbasis_x_eval, const double* dbasis_y_eval,
-              const double* dbasis_z_eval, const double* lbasis_eval,
-        const double* dden_x_eval,
-              const double* dden_y_eval, const double* dden_z_eval, double* Za, 
-              size_t ldza, double* Zb, size_t ldzb ) {
-
-  if( ldza != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  if( ldzb != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Za, ldza);
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zb, ldzb);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* za_col = Za + ioff;
-    auto* zb_col = Zb + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-    auto* lbf_col = lbasis_eval + ioff;
-
-    GauXC::blas::scal( nbf, 0.5*vrho[2*i], za_col, 1 ); //additional 0.5 is from eq 56 in petrone 2018 eur phys journal b "an efficent implementation of .. "
-    GauXC::blas::scal( nbf, 0.5*vrho[2*i+1], zb_col, 1 );
-    
-    // dden_x_eval, dden_y_eval, dden_z_eval are all still in Pauli representation
-    // so we need to convert them to the two spinor representation
-    const auto dden_x_eval_a = 0.5 * (dden_x_eval[2*i] + dden_x_eval[2*i+1]);
-    const auto dden_x_eval_b = 0.5 * (dden_x_eval[2*i] - dden_x_eval[2*i+1]);
-    const auto dden_y_eval_a = 0.5 * (dden_y_eval[2*i] + dden_y_eval[2*i+1]);
-    const auto dden_y_eval_b = 0.5 * (dden_y_eval[2*i] - dden_y_eval[2*i+1]);
-    const auto dden_z_eval_a = 0.5 * (dden_z_eval[2*i] + dden_z_eval[2*i+1]);
-    const auto dden_z_eval_b = 0.5 * (dden_z_eval[2*i] - dden_z_eval[2*i+1]);
-    
-    const auto gga_fact_aa = vgamma[3*i];
-    const auto gga_fact_ab = vgamma[3*i+1];
-    const auto gga_fact_bb = vgamma[3*i+2];
-
-    const auto x_fact_a = 2 * gga_fact_aa * dden_x_eval_a + gga_fact_ab * dden_x_eval_b;
-    const auto y_fact_a = 2 * gga_fact_aa * dden_y_eval_a + gga_fact_ab * dden_y_eval_b;
-    const auto z_fact_a = 2 * gga_fact_aa * dden_z_eval_a + gga_fact_ab * dden_z_eval_b;
-
-    const auto x_fact_b = 2 * gga_fact_bb * dden_x_eval_b + gga_fact_ab * dden_x_eval_a;
-    const auto y_fact_b = 2 * gga_fact_bb * dden_y_eval_b + gga_fact_ab * dden_y_eval_a;
-    const auto z_fact_b = 2 * gga_fact_bb * dden_z_eval_b + gga_fact_ab * dden_z_eval_a;
-
-    blas::axpy( nbf, x_fact_a, bf_x_col, 1, za_col, 1 );
-    blas::axpy( nbf, y_fact_a, bf_y_col, 1, za_col, 1 );
-    blas::axpy( nbf, z_fact_a, bf_z_col, 1, za_col, 1 );
-
-    blas::axpy( nbf, x_fact_b, bf_x_col, 1, zb_col, 1 );
-    blas::axpy( nbf, y_fact_b, bf_y_col, 1, zb_col, 1 );
-    blas::axpy( nbf, z_fact_b, bf_z_col, 1, zb_col, 1 );
-
-    if (vlapl != nullptr) {
-      blas::axpy( nbf, vlapl[2*i],     lbf_col, 1, za_col, 1);
-      blas::axpy( nbf, vlapl[2*i + 1], lbf_col, 1, zb_col, 1);
-    }
-
-  }
-}
-void ReferenceLocalHostWorkDriver::eval_mmat_mgga_vxc_uks_ts(size_t npts, size_t nbf, 
-        const double* vtau, const double* vlapl, 
-        const double* dbasis_x_eval, const double* dbasis_y_eval, 
-        const double* dbasis_z_eval,
-        double* mmat_xa, double* mmat_ya, double* mmat_za, size_t ldma,
-        double* mmat_xb, double* mmat_yb, double* mmat_zb, size_t ldmb) {
-
-  if( ldma != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  if( ldmb != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  
-  blas::lacpy( 'A', nbf, npts, dbasis_x_eval, nbf, mmat_xa, ldma);
-  blas::lacpy( 'A', nbf, npts, dbasis_y_eval, nbf, mmat_ya, ldma);
-  blas::lacpy( 'A', nbf, npts, dbasis_z_eval, nbf, mmat_za, ldma);
-  blas::lacpy( 'A', nbf, npts, dbasis_x_eval, nbf, mmat_xb, ldmb);
-  blas::lacpy( 'A', nbf, npts, dbasis_y_eval, nbf, mmat_yb, ldmb);
-  blas::lacpy( 'A', nbf, npts, dbasis_z_eval, nbf, mmat_zb, ldmb);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-    auto* xa_col = mmat_xa + ioff;
-    auto* ya_col = mmat_ya + ioff;
-    auto* za_col = mmat_za + ioff;
-    auto* xb_col = mmat_xb + ioff;
-    auto* yb_col = mmat_yb + ioff;
-    auto* zb_col = mmat_zb + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-
-    const auto tfacta = 0.25 * vtau[2*i];
-    const auto tfactb = 0.25 * vtau[2*i+1];
-
-    blas::scal( nbf, tfacta, xa_col, 1);
-    blas::scal( nbf, tfacta, ya_col, 1);
-    blas::scal( nbf, tfacta, za_col, 1);
-    blas::scal( nbf, tfactb, xb_col, 1);
-    blas::scal( nbf, tfactb, yb_col, 1);
-    blas::scal( nbf, tfactb, zb_col, 1);
-
-    if ( vlapl != nullptr ) {
-      const auto lfacta = vlapl[2*i];
-      const auto lfactb = vlapl[2*i+1];
-      blas::axpy( nbf, lfacta, bf_x_col, 1, xa_col, 1);
-      blas::axpy( nbf, lfacta, bf_y_col, 1, ya_col, 1);
-      blas::axpy( nbf, lfacta, bf_z_col, 1, za_col, 1);
-      blas::axpy( nbf, lfactb, bf_x_col, 1, xb_col, 1);
-      blas::axpy( nbf, lfactb, bf_y_col, 1, yb_col, 1);
-      blas::axpy( nbf, lfactb, bf_z_col, 1, zb_col, 1);
-    }
-
-  }
-}
-
-
-
-
-
-
-  // Increment VXC by Z
-  void ReferenceLocalHostWorkDriver::inc_vxc( size_t npts, size_t nbf, size_t nbe, 
-					      const double* basis_eval, const submat_map_t& submat_map, const double* Z,
-					      size_t ldz, double* VXC, size_t ldvxc, double* scr ) {
-
-      blas::syr2k('L', 'N', nbe, npts, 1., basis_eval, nbe, Z, ldz, 0., scr, nbe );
-
-      detail::inc_by_submat_atomic( nbf, nbf, nbe, nbe, VXC, ldvxc, scr, nbe, submat_map );
-
-  }
-
-  // Increment K by G
-  void ReferenceLocalHostWorkDriver::inc_exx_k( size_t npts, size_t nbf, 
-						size_t nbe_bra, size_t nbe_ket, const double* basis_eval, 
-						const submat_map_t& submat_map_bra, const submat_map_t& submat_map_ket, 
-						const double* G, size_t ldg, double* K, size_t ldk, double* scr ) {
-
-      blas::gemm( 'N', 'T', nbe_bra, nbe_ket, npts, 1., basis_eval, nbe_bra,
-		  G, ldg, 0., scr, nbe_bra );
-
-      detail::inc_by_submat_atomic( nbf, nbf, nbe_bra, nbe_ket, K, ldk, scr, nbe_bra, 
-			     submat_map_bra, submat_map_ket );
-
-  }
-
-
-  // Construct F = P * B (P non-square, TODO: should merge with XMAT)
-  void ReferenceLocalHostWorkDriver::eval_exx_fmat( size_t npts, size_t nbf, 
-						    size_t nbe_bra, size_t nbe_ket, const submat_map_t& submat_map_bra,
-						    const submat_map_t& submat_map_ket, const double* P, size_t ldp,
-						    const double* basis_eval, size_t ldb, double* F, size_t ldf,
-						    double* scr ) {
-
-    const auto* P_use = P;
-    size_t ldp_use = ldp;
-
-    if( submat_map_bra.size() > 1 or submat_map_ket.size() > 1 ) {
-      detail::submat_set( nbf, nbf, nbe_bra, nbe_ket, P, ldp,
-			  scr, nbe_bra, submat_map_bra, submat_map_ket );
-      P_use = scr;
-      ldp_use = nbe_bra;
-    } else {
-      P_use = P + submat_map_ket[0][0]*ldp + submat_map_bra[0][0];
-    }
-
-    blas::gemm( 'N', 'N', nbe_bra, npts, nbe_ket, 1., P_use, ldp_use, basis_eval,
-		ldb, 0., F, ldf );
-
-  }
-
-  // Construct G(mu,i) = w(i) * A(mu,nu,i) * F(nu, i)
-  void ReferenceLocalHostWorkDriver::eval_exx_gmat( size_t npts, size_t nshells, 
-    size_t nshell_pairs, size_t nbe, const double* points, const double* weights, 
-    const BasisSet<double>& basis, const ShellPairCollection<double>& shpairs, 
-    const BasisSetMap& basis_map, const int32_t* shell_list, 
-    const std::pair<int32_t,int32_t>* shell_pair_list, 
-    const double* X, size_t ldx, double* G, size_t ldg ) {
-
-    util::unused(basis_map);
-
-    // Cast points to Rys format (binary compatable)
-    XCPU::point* _points = 
-      reinterpret_cast<XCPU::point*>(const_cast<double*>(points));
-    std::vector<double> _points_transposed(3 * npts);
-
-    for(size_t i = 0; i < npts; ++i) {
-      _points_transposed[i + 0 * npts] = _points[i].x;
-      _points_transposed[i + 1 * npts] = _points[i].y;
-      _points_transposed[i + 2 * npts] = _points[i].z;
-    }
-
-  
-    // Set G to zero
-    for( size_t j = 0; j < npts; ++j )
-    for( size_t i = 0; i < nbe;  ++i ) {
-	    G[i + j*ldg] = 0.;
-    }
-
-
-    // Spherical Harmonic Transformer
-    util::SphericalHarmonicTransform sph_trans(5);
-
-    const bool any_pure = std::any_of( shell_list, shell_list + nshells,
-				       [&](const auto& i){ return basis.at(i).pure(); } );
-    
-    const size_t nbe_cart = 
-      basis.nbf_cart_subset( shell_list, shell_list + nshells );
-
-    std::vector<double> X_cart, G_cart;
-    if( any_pure ){
-      X_cart.resize( nbe_cart * npts );
-      G_cart.resize( nbe_cart * npts, 0. );
-
-      // Transform X into cartesian
-      int ioff = 0;
-      int ioff_cart = 0;
-      for( auto i = 0ul; i < nshells; ++i ) {
-        const auto ish = shell_list[i];
-        const auto& shell      = basis.at(ish);
-        const int shell_l       = shell.l();
-        const int shell_sz      = shell.size();
-        const int shell_cart_sz = shell.cart_size();
-        
-        if( shell.pure() and shell_l > 0 ) {
-          sph_trans.itform_bra_cm( shell_l, npts, X + ioff, ldx,
-        			   X_cart.data() + ioff_cart, nbe_cart );
-        } else {
-          blas::lacpy( 'A', shell_sz, npts, X + ioff, ldx,
-        	       X_cart.data() + ioff_cart, nbe_cart );
-        }
-        ioff += shell_sz;
-        ioff_cart += shell_cart_sz;
-      }
-    }
-
-    const auto* X_use = any_pure ? X_cart.data() : X;
-    auto*       G_use = any_pure ? G_cart.data() : G;
-    const auto ldx_use = any_pure ? nbe_cart : ldx;
-    const auto ldg_use = any_pure ? nbe_cart : ldg;
-
-    std::vector<double> X_cart_rm( nbe_cart*npts,0. ), 
-                        G_cart_rm( nbe_cart*npts,0. );
-    for( auto i = 0ul; i < nbe_cart; ++i )
-    for( auto j = 0ul; j < npts;     ++j ) {
-      X_cart_rm[i*npts + j] = X_use[i + j*ldx_use];
-    }
-
-
-    std::map<size_t,size_t> cou_offsets_map;
-    std::vector<size_t> cou_cart_sizes(nshells);
-    cou_cart_sizes[0] = 0;
-    cou_offsets_map[shell_list[0]] = 0;
-    for(size_t i = 1; i < nshells; ++i) {
-      cou_cart_sizes[i] = cou_cart_sizes[i-1] +
-        basis.at(shell_list[i-1]).cart_size();
-      cou_offsets_map[shell_list[i]] = cou_cart_sizes[i];
-    }
-
-    {
-#if 0
-    //size_t ioff_cart = 0;
-    for( auto i = 0ul; i < nshells; ++i ) {
-      const auto ish        = shell_list[i];
-      const auto& bra       = basis[ish];
-      const int bra_cart_sz = bra.cart_size();
-      const size_t ioff_cart = cou_cart_sizes[i] * npts;
-      XCPU::point bra_origin{bra.O()[0],bra.O()[1],bra.O()[2]};
-
-      //size_t joff_cart = 0;
-      for( auto j = 0ul; j <= i; ++j ) {
-      //for( auto j = i; j < nshells; ++j ) {
-        const auto jsh        = shell_list[j];
-        const auto& ket       = basis[jsh];
-        const int ket_cart_sz = ket.cart_size();
-        const size_t joff_cart = cou_cart_sizes[j] * npts;
-        XCPU::point ket_origin{ket.O()[0],ket.O()[1],ket.O()[2]};
-        if(!need_sp(ish,jsh)) continue;
-
-        auto sh_pair = shpairs.at(ish,jsh);
-        auto prim_pair_data = sh_pair.prim_pairs();
-        auto nprim_pair     = sh_pair.nprim_pairs();
-        
-        XCPU::compute_integral_shell_pair( ish == jsh,
-        				   npts, _points_transposed.data(),
-        				   bra.l(), ket.l(), bra_origin, ket_origin,
-        				   nprim_pair, prim_pair_data,
-        				   X_cart_rm.data()+ioff_cart, X_cart_rm.data()+joff_cart, npts,
-        				   G_cart_rm.data()+ioff_cart, G_cart_rm.data()+joff_cart, npts,
-        				   const_cast<double*>(weights), this->boys_table );
-        
-        //joff_cart += ket_cart_sz * npts;
-      }
-	
-      //ioff_cart += bra_cart_sz * npts;
-    }
-#else
-    for( auto ij = 0ul; ij < nshell_pairs; ++ij ) {
-      auto [ish,jsh] = shell_pair_list[ij];
-      //std::cout << "SHP " << ij << " " << i << " " << j << " " << nshells << std::endl;
-
-     
-      // Bra
-      const auto& bra      = basis.at(ish);
-      const auto ioff_cart = cou_offsets_map.at(ish) * npts;
-      XCPU::point bra_origin{bra.O()[0],bra.O()[1],bra.O()[2]};
-
-      // Ket
-      const auto& ket      = basis.at(jsh);
-      const auto joff_cart = cou_offsets_map.at(jsh) * npts;
-      XCPU::point ket_origin{ket.O()[0],ket.O()[1],ket.O()[2]};
-
-      auto sh_pair = shpairs.at(ish,jsh);
-      auto prim_pair_data = sh_pair.prim_pairs();
-      auto nprim_pair     = sh_pair.nprim_pairs();
-      
-      XCPU::compute_integral_shell_pair( ish == jsh,
-      				   npts, _points_transposed.data(),
-      				   bra.l(), ket.l(), bra_origin, ket_origin,
-      				   nprim_pair, prim_pair_data,
-      				   X_cart_rm.data()+ioff_cart, X_cart_rm.data()+joff_cart, npts,
-      				   G_cart_rm.data()+ioff_cart, G_cart_rm.data()+joff_cart, npts,
-      				   const_cast<double*>(weights), this->boys_table );
-    }
-#endif
-    }
-   
-    for( auto i = 0ul; i < nbe_cart; ++i )
-    for( auto j = 0ul; j < npts;     ++j ) {
-	    G_use[i + j*ldg_use] = G_cart_rm[i*npts + j];
-    }
-  
-    // Transform G back to spherical
-    if( any_pure ) {
-      size_t ioff = 0;
-      size_t ioff_cart = 0;
-      for( auto i = 0ul; i < nshells; ++i ) {
-        const auto ish = shell_list[i];
-        const auto& shell      = basis.at(ish);
-        const int shell_l       = shell.l();
-        const int shell_sz      = shell.size();
-        const int shell_cart_sz = shell.cart_size();
-        
-        if( shell.pure() and shell_l > 0 ) {
-          sph_trans.tform_bra_cm( shell_l, npts, G_cart.data() + ioff_cart, nbe_cart,
-        			  G + ioff, ldg );
-        } else {
-          blas::lacpy( 'A', shell_sz, npts, G_cart.data() + ioff_cart, nbe_cart,
-        	       G + ioff, ldg );
-        }
-        ioff += shell_sz;
-        ioff_cart += shell_cart_sz;
-      }
-    }
-
-  } // GMAT
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference_local_host_work_driver.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference_local_host_work_driver.hpp
deleted file mode 100644
index 3560b85..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/reference_local_host_work_driver.hpp
+++ /dev/null
@@ -1,241 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "local_host_work_driver_pimpl.hpp"
-
-namespace GauXC {
-
-struct ReferenceLocalHostWorkDriver : public detail::LocalHostWorkDriverPIMPL {
-
-  double *boys_table;
-  
-  using submat_map_t   = LocalHostWorkDriverPIMPL::submat_map_t;
-  using task_container = LocalHostWorkDriverPIMPL::task_container;
-  using tast_iterator  = LocalHostWorkDriverPIMPL::task_iterator;
-
-  ReferenceLocalHostWorkDriver();
-
-  virtual ~ReferenceLocalHostWorkDriver() noexcept;
-
-  ReferenceLocalHostWorkDriver( const ReferenceLocalHostWorkDriver& )     = delete;
-  ReferenceLocalHostWorkDriver( ReferenceLocalHostWorkDriver&& ) noexcept = delete;
-
-  // Public APIs
-
-  void partition_weights( XCWeightAlg weight_alg, const Molecule& mol, 
-    const MolMeta& meta, task_iterator task_begin, task_iterator task_end ) override;
-
-  void eval_weight_1st_deriv_contracted( XCWeightAlg weight_alg, const Molecule& mol, 
-    const MolMeta& meta, const XCTask& task, const double* w_times_f, double* exc_grad_w ) override;
-
-  void eval_collocation( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval ) override;
-  void eval_collocation_gradient( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval) override;
-  void eval_collocation_hessian( size_t npts, size_t nshells, size_t nbe, 
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval ) override;
-  void eval_collocation_der3( size_t npts, size_t nshells, size_t nbe,
-    const double* pts, const BasisSet<double>& basis, const int32_t* shell_list, 
-    double* basis_eval, double* dbasis_x_eval, double* dbasis_y_eval, 
-    double* dbasis_z_eval, double* d2basis_xx_eval, double* d2basis_xy_eval,
-    double* d2basis_xz_eval, double* d2basis_yy_eval, double* d2basis_yz_eval,
-    double* d2basis_zz_eval, double* d3basis_xxx_eval, double* d3basis_xxy_eval,
-    double* d3basis_xxz_eval, double* d3basis_xyy_eval, double* d3basis_xyz_eval,
-    double* d3basis_xzz_eval, double* d3basis_yyy_eval, double* d3basis_yyz_eval,
-    double* d3basis_yzz_eval, double* d3basis_zzz_eval) override;
-
-
-  void eval_xmat( size_t npts, size_t nbf, size_t nbe, 
-    const submat_map_t& submat_map, double fac, const double* P, size_t ldp, 
-    const double* basis_eval, size_t ldb, double* X, size_t ldx, double* scr ) 
-    override;
-
-  void eval_exx_gmat( size_t npts, size_t nshells, size_t nshell_pairs,
-    size_t nbe, const double* points, const double* weights, 
-    const BasisSet<double>& basis, const ShellPairCollection<double>& shpairs, 
-    const BasisSetMap& basis_map, const int32_t* shell_list, 
-    const std::pair<int32_t,int32_t>* shell_pair_list, 
-    const double* X, size_t ldx, double* G, size_t ldg ) override ;
-
-  void eval_exx_fmat( size_t npts, size_t nbf, size_t nbe_bra,
-    size_t nbe_ket, const submat_map_t& submat_map_bra,
-    const submat_map_t& submat_map_ket, const double* P, size_t ldp,
-    const double* basis_eval, size_t ldb, double* F, size_t ldf,
-    double* scr ) override;
-
-  void inc_exx_k( size_t npts, size_t nbf, size_t nbe_bra, size_t nbe_ket, 
-    const double* basis_eval, const submat_map_t& submat_map_bra, 
-    const submat_map_t& submat_map_ket, const double* G, size_t ldg, double* K, 
-    size_t ldk, double* scr ) override;
-    
-  void eval_uvvar_lda_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* X, size_t ldx, double* den_eval) override;
-  void eval_uvvar_lda_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz, 
-    double* den_eval) override;
-  void eval_uvvar_lda_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* Xs, size_t ldxs, const double* Xz, size_t ldxz,
-    const double* Xx, size_t ldxx, const double* Xy, size_t ldxy,
-    double* den_eval, double* K, const double dtol) override;
-
-  void eval_uvvar_gga_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double *dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* X, size_t ldx, double* den_eval, 
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, 
-    double* gamma ) override;
-  void eval_uvvar_gga_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs, 
-    const double* Xz, size_t ldxz, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval,
-    double* gamma ) override;
-  void eval_uvvar_gga_gks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eavl, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double* Xs, size_t ldxs,
-    const double* Xz, size_t ldxz, const double* Xx, size_t ldxx,
-    const double* Xy, size_t ldxy, double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, double* gamma,
-    double* K, double* H, const double dtol ) override;
-
-  void eval_uvvar_mgga_rks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* lbasis_eval, 
-    const double* X, size_t ldx, const double* mmat_x, const double* mmat_y,
-    const double* mmat_z, size_t ldm, double* den_eval, 
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval, 
-    double* gamma, double* tau, double* lapl ) override;
-  void eval_uvvar_mgga_uks( size_t npts, size_t nbe, const double* basis_eval,
-    const double* dbasis_x_eval, const double *dbasis_y_eval,
-    const double* dbasis_z_eval, const double *lbasis_eval, 
-    const double* Xs, size_t ldxs, 
-    const double* Xz, size_t ldxz, 
-    const double* mmat_xs, const double* mmat_ys, const double* mmat_zs, size_t ldms,
-    const double* mmat_xz, const double* mmat_yz, const double* mmat_zz, size_t ldmz,
-    double* den_eval,
-    double* dden_x_eval, double* dden_y_eval, double* dden_z_eval,
-    double* gamma, double* tau, double* lapl ) override;
-
-  void eval_zmat_lda_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* basis_eval, double* Z, size_t ldz ) override;
-  void eval_zmat_lda_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz ) override;
-  void eval_zmat_lda_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz,
-    double* Zx, size_t ldzx,double* Zy, size_t ldzy, double *K ) override;
-
-  void eval_zmat_gga_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Z, size_t ldz ) override;
-  void eval_zmat_gga_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz ) override;
-  void eval_zmat_gga_vxc_gks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz, double* Zx, size_t ldzx,
-    double* Zy, size_t ldzy, double* K, double* H ) override;
-
-
-  void eval_zmat_mgga_vxc_rks( size_t npts, size_t nbe, const double* vrho, 
-    const double* vgamma, const double* vlapl, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval, const double* lbasis_eval, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Z, size_t ldz ) override;
-  void eval_zmat_mgga_vxc_uks( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* vlapl, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval, const double* lbasis_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Zs, size_t ldzs, double* Zz, size_t ldzz ) override;
-  void eval_mmat_mgga_vxc_rks( size_t npts, size_t nbe, const double* vtau,
-    const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, double* mmat_x, double* mmat_y, double* mmat_z,
-    size_t ldm ) override;
-  void eval_mmat_mgga_vxc_uks( size_t npts, size_t nbe, const double* vtau,
-    const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs,
-    size_t ldms, double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz ) override;
-
-
-  void inc_vxc( size_t npts, size_t nbf, size_t nbe, 
-    const double* basis_eval, const submat_map_t& submat_map, const double* Z, 
-    size_t ldz, double* VXC, size_t ldvxc, double* scr ) override;
-
-
-  void eval_tmat_lda_vxc_rks( size_t npts, const double* v2rho2, const double* tden_eval, double* A) override;
-  void eval_tmat_lda_vxc_uks( size_t npts, const double* v2rho2, const double* trho, double* tmat) override;
-  
-  void eval_tmat_gga_vxc_rks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-    const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ) override;
-  void eval_tmat_gga_vxc_uks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2gamma2, 
-    const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B ) override;
-  
-  void eval_tmat_mgga_vxc_rks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-    const double* v2gamma2, const double* v2gammalapl, const double* v2gammatau,
-    const double* v2lapl2, const double* v2lapltau, const double* v2tau2, 
-    const double* tden_eval, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C) override;
-  void eval_tmat_mgga_vxc_uks( size_t npts, const double* vgamma, 
-    const double* v2rho2, const double* v2rhogamma, const double* v2rholapl, const double* v2rhotau, 
-    const double* v2gamma2, const double* v2gammalapl, const double* v2gamma_tau,
-    const double* v2lapl2, const double* v2tau_lapl, const double* v2tau2, 
-    const double* trho, const double* tdden_x_eval, const double* tdden_y_eval, const double* tdden_z_eval, const double* ttau, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* A, double* B, double* C) override;
-
-  void eval_zmat_lda_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* basis_eval, double* Za, size_t ldza, double* Zb, size_t ldzb ) override;
-  void eval_Bvec_gga_vxc_uks_ts( size_t npts, const double* vgamma, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ) override;
-  void eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    double* Za, size_t ldza, double* Zb, size_t ldzb ) override;
-  void eval_Bvec_gga_vxc_rks_ts( size_t npts, const double* vgamma, 
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval, double* B ) override;
-  void eval_zmat_gga_vxc_rks_ts( size_t npts, size_t nbf, const double* A, const double* B, const double* basis_eval,
-    const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval, 
-    double* Z, size_t ldz ) override;
-
-  void eval_zmat_gga_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* basis_eval, const double* dbasis_x_eval,
-    const double* dbasis_y_eval, const double* dbasis_z_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Za, size_t ldza, double* Zb, size_t ldzb ) override;
-  void eval_zmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, const double* vrho,
-    const double* vgamma, const double* vlapl,
-    const double* basis_eval, const double* dbasis_x_eval, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, const double* lbasis_eval,
-    const double* dden_x_eval, const double* dden_y_eval, const double* dden_z_eval,
-    double* Za, size_t ldza, double* Zb, size_t ldzb ) override;
-  void eval_mmat_mgga_vxc_uks_ts( size_t npts, size_t nbe, const double* vtau,
-    const double* vlapl, const double* dbasis_x_eval, const double* dbasis_y_eval, 
-    const double* dbasis_z_eval, double* mmat_xs, double* mmat_ys, double* mmat_zs,
-    size_t ldms, double* mmat_xz, double* mmat_yz, double* mmat_zz, size_t ldmz ) override;
-};
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/CMakeLists.txt
deleted file mode 100644
index 00cd653..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/CMakeLists.txt
+++ /dev/null
@@ -1,27 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-set( GAUXC_RYS_HOST_SRC 
-     src/boys_table.c
-     src/jacobi_table.c
-     src/rys_1rw.c
-     src/rys_2rw.c
-     src/rys_3rw.c
-     src/rys_4rw.c
-     src/rys_5rw.c
-     src/rys_integral.c
-     src/rys_rw.c
-     src/rys_xrw.c )
-
-target_sources( gauxc PRIVATE ${GAUXC_RYS_HOST_SRC} )
-target_include_directories( gauxc PRIVATE
-  $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}/include>
-)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/Makefile b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/Makefile
deleted file mode 100644
index 568d982..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/Makefile
+++ /dev/null
@@ -1,35 +0,0 @@
-AR = ar
-ARFLAGS = -rc
-
-CC=gcc
-CFLAGS=-Wall -O2 -lm -mavx
-
-SRC=./src
-INCLUDE=./include
-TEST=./test
-
-#DEBUG=
-DEBUG=-DDEBUG
-
-compile:
-	$(CC) -c $(SRC)/boys_table.c -o $(SRC)/boys_table.o $(CFLAGS)
-	$(CC) -c $(SRC)/jacobi_table.c -o $(SRC)/jacobi_table.o $(CFLAGS)
-
-	$(CC) -c $(SRC)/rys_1rw.c -o $(SRC)/rys_1rw.o $(CFLAGS)
-	$(CC) -c $(SRC)/rys_2rw.c -o $(SRC)/rys_2rw.o $(CFLAGS)
-	$(CC) -c $(SRC)/rys_3rw.c -o $(SRC)/rys_3rw.o $(CFLAGS)
-	$(CC) -c $(SRC)/rys_4rw.c -o $(SRC)/rys_4rw.o $(CFLAGS)
-	$(CC) -c $(SRC)/rys_5rw.c -o $(SRC)/rys_5rw.o $(CFLAGS)
-	$(CC) -c $(SRC)/rys_xrw.c -o $(SRC)/rys_xrw.o $(CFLAGS)
-
-	$(CC) -c $(SRC)/rys_rw.c -o $(SRC)/rys_rw.o $(CFLAGS)
-	$(CC) -c $(SRC)/rys_integral.c -o $(SRC)/rys_integral.o $(CFLAGS) -I$(INCLUDE)
-
-	$(AR) $(ARFLAGS) ./rys_integral.a $(SRC)/*.o
-
-test: compile
-	$(CC) -o $(TEST)/test_int_v0.x $(TEST)/test_int_v0.c ./rys_integral.a $(CFLAGS) -I$(INCLUDE) $(DEBUG)
-
-
-clean:
-	rm -rf ./*.a $(SRC)/*.o $(TEST)/*.x
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/cheby_boys.cxx b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/cheby_boys.cxx
deleted file mode 100644
index 0877f2e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/cheby_boys.cxx
+++ /dev/null
@@ -1,321 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <iostream>
-#include <limits>
-#include <cmath>
-#include <vector>
-#include <random>
-#include <algorithm>
-#include <array>
-#include <iomanip>
-
-int64_t ifact( int64_t i ) {
-  if( i == 0 or i == 1 ) return 1;
-  int64_t v = 1;
-  for( int k = 1; k <= i; ++k ) v += k;
-  return v;
-}
-
-int64_t difact( int64_t i ) {
-  int64_t v = 1;
-  for( int k = 0; k < (i/2); ++k ) v *= i - 2*k;
-  return v;
-}
-
-
-double boys_reference(int m, double T) {
-  double denom = m + 0.5;
-  double term  = std::exp(-T) / (2 * denom);
-  double old_term = term;
-  double sum = old_term;
-
-  constexpr auto eps = std::numeric_limits<double>::epsilon();
-  constexpr auto eps_10 = eps / 10;
-
-  while( term > sum * eps_10 || old_term < term ) {
-    denom = denom + 1;
-    old_term = term;
-    term = old_term * T / denom;
-    sum = sum + term;
-  }
-
-  return sum;
-}
-
-double boys_asymp(int m, double T) {
-  return difact(2*m-1) / std::pow(2.,m+1) * std::sqrt(M_PI/std::pow(T,2*m+1));
-}
-
-
-template <typename Op>
-void cheby_coeff( int ncheb, const Op& f, double a, double b, double* c ) {
-
-  const int n = ncheb+1;
-  const double pi_ov_2n = M_PI / (2 * n);
-
-  // Generate function table
-  std::vector<double> f_table(n);
-  for( int i = 0; i < n; ++i ) {
-    double x = std::cos( (2.*(i+1)-1) * pi_ov_2n ); // Chebyshev node
-    x = 0.5 * ( a+b + (b-a)*x );
-    f_table[i] = f(x);
-  }
-
-  c[0] = std::accumulate( f_table.begin(), f_table.end(),0. ) / n;
-  for( int i = 1; i < n; ++i ) {
-    double _val = 0.;
-    for( int j = 0; j < n; ++j ) {
-      // f(x_j) * T_i(x_j)
-      _val += f_table[j] * std::cos( i * (2*(j+1)-1) * pi_ov_2n );
-    }
-    c[i] = 2.0 * _val / n;
-  }
-
-};
-
-void cheby_to_monomial_coeff( int ncheb, double *coeff ) {
-
-  const int n = ncheb+1;
-  int64_t i_fact = 1; // i!
-  int64_t t_fact = 1; // 2^(i-1)
-  for(int i = 0; i < n; ++i) {
-    if(i)     i_fact *= i; // Update i!
-    if(i > 1) t_fact *= 2; // Update 2^(i-1)
-
-    double _val = 0;
-    if(!i) {
-      int m1_fact = 1; // (-1)^(j/2)
-      for( int j = i; j < n; j += 2 ) {
-        _val += m1_fact * coeff[j];
-	m1_fact *= -1; // Update (-1)^(j/2)
-      }
-    } else {
-
-      // OEIS A008310
-      // a(i,j) = 2^(i-1) * j * (-1)^((j-i)/2) * ((i+j)/2-1)! / (i! * ((j-i)/2)!)
-      // Coeff tform is UT, able to be performed in place
-#if 1
-      int m1_term = 1;
-      for( int j = i; j < n; j += 2 ) {
-	const int f_up = (i+j)/2 - 1;
-        const int f_lo = (j-i)/2;
-	// This comptes the ratio of factorials as a 
-	// Pochhammer falling factorial
-	int f_term = 1;
-	for( int k = f_lo+1; k <= f_up; ++k ) f_term *= k;
-        _val += t_fact * j * m1_term * double(f_term) / double(i_fact) * coeff[j];
-	m1_term *= -1;
-      }
-#else
-      // Attempt at f term optimization, minor errors that are too tedious
-      // to figure out for only minor performance improvements
-      int f_term  = 1;
-      int m1_term = 1;
-      for( int j = 1; j < i; ++j ) f_term *= j;
-      for( int j = i, f_div_val = 1; j < n; j += 2, f_div_val++ ) {
-        const int f_lo = (j-i)/2;
-        _val += t_fact * j * std::pow(-1,f_lo) * double(f_term) / double(i_fact) * coeff[j];
-	//printf("%d, %d, %d, %d, %d\n",i,j,t_fact,m1_term,f_term);
-        if(i>1) f_term = f_term * (i - f_div_val + 1);
-	m1_term *= -1;
-      }
-#endif
-    }
-
-    coeff[i] = _val;
-  }
-
-}
-
-void cheby_expand( size_t npts, int ncheb, const double* coeff, const double *x, 
-		   double a, double b, double* eval ) {
-
-  const int n = ncheb+1;
-  for( size_t j = 0; j < npts; ++j ) {
-    double xt = (2*x[j] - (a+b)) / (b-a);
-    double wm2 = 1;
-    double wm1 = xt;
-    double _val = coeff[0] + coeff[1] * wm1;
-    for( int i = 2; i < n; ++i ) {
-      double w = 2 * xt * wm1 - wm2;
-      _val += coeff[i] * w;
-      wm2 = wm1;
-      wm1 = w;
-    }
-    eval[j] = _val;
-  }
-
-}
-
-void monomial_expand( size_t npts, int npoly, const double* coeff, const double *x, 
-		      double a, double b, double* eval ) {
-
-  const int n = npoly+1;
-  const double sum = a+b;
-  const double diff = b-a;
-  const double ratio = sum / diff;
-  const double fact = 2. / diff;
-  for( size_t j = 0; j < npts; ++j ) {
-    double xt = fact * x[j] - ratio;
-    double xt_use = xt;
-    double _val = coeff[0];
-    for( int i = 1; i < n; ++i ) {
-      _val += xt_use * coeff[i];
-      xt_use *= xt;
-    }
-    eval[j] = _val;
-  }
-
-}
-
-
-
-void generate_boys_table(int ncheb, int maxM, double maxT, int nseg, double* cheb_coeff_table, int ld) {
-  // cheb_coeff_table is (ld, nseg, maxM+1) ld >= (ncheb+1)
-
-  const double deltaT = maxT / nseg;
-  for( int m = 0; m <= maxM; ++m ) {
-    double* coeff_m = cheb_coeff_table + m * ld * nseg; // table offset for current m
-    for( int iseg = 0; iseg < nseg; ++iseg ) {
-      double* coeff_seg = coeff_m + iseg * ld;
-
-      const double a = iseg * deltaT;
-      const double b = a + deltaT;
-
-      auto f = [=](double x){ return boys_reference(m,x); };
-      cheby_coeff( ncheb, f, a, b, coeff_seg ); // Generate coeff in Chebyshev basis
-      cheby_to_monomial_coeff( ncheb, coeff_seg );   // Convert to monomial basis
-    }
-  }
-
-}
-
-void boys_chebyshev( int npts, int m, const double* T, int ncheb, int nseg, double maxT, const double* boys_table, int ld, double* eval ) {
-  const double* boys_m = boys_table + m * ld * nseg;
-
-  const double deltaT = maxT / nseg;
-  for( int i = 0; i < npts; ++i ) {
-    const double tval = T[i];
-    if( tval > maxT ) eval[i] = boys_asymp(m,tval);
-    else {
-      int iseg = std::floor( tval / deltaT);
-      const double* boys_seg = boys_m + iseg * ld;
-
-      const double a = iseg * deltaT;
-      const double b = a + deltaT;
-      monomial_expand( 1, ncheb, boys_seg, T+i, a, b, eval+i );
-    }
-  }
-}
-
-int main() {
-
-#if 0
-  const double maxT   = 117;
-  const int    nseg   = 60;//maxT;
-  const double deltaT = maxT / nseg;
-  const int    ncheb  = 13;
-  const int    ntest  = 100;
-
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> dist(0.,1.);
-  auto rand_gen = [&](double a, double b) { return a + (b-a)*dist(gen); };
-
-  double max_diff = -1;
-  for( int m = 0;    m < 10;      ++m    ) 
-  for( int iseg = 0; iseg < nseg; ++iseg ) {
-    const double a = iseg * deltaT;
-    const double b = a + deltaT;
-
-    auto f = [=](double x){ return boys_reference(m,x); };
-    auto coeff = cheby_coeff( ncheb, f, a, b );
-
-    // Generate test points
-    std::vector<double> x_test(ntest);
-    auto rand_gen_ab = [&](){ return rand_gen(a,b); };
-    std::generate( x_test.begin(), x_test.end(), rand_gen_ab );
-
-    std::vector<double> f_cheb(ntest), f_ref(ntest);
-    cheby_expand( ntest, ncheb, coeff.data(), x_test.data(), a, b, f_cheb.data() );
-    std::transform( x_test.begin(), x_test.end(), f_ref.begin(), f );
-
-    const auto cheby_diff = std::abs(f_cheb[0] - f_ref[0]) / std::abs(f_ref[0]);
-
-    // Transform into monomial basis
-    cheby_to_monomial_coeff( ncheb, coeff.data() );
-    std::vector<double> f_monomial(ntest);
-    monomial_expand( ntest, ncheb, coeff.data(), x_test.data(), a, b, f_monomial.data() );
-    
-    const auto monomial_diff = std::abs(f_monomial[0] - f_ref[0]) / std::abs(f_ref[0]);
-
-
-    std::cout << m << ", " << a << ", " << b << ", " << cheby_diff << ", " << monomial_diff << std::endl;
-    max_diff = std::max( cheby_diff, max_diff );
-  }
-  std::cout << max_diff << std::endl;
-
-#else
-
-  const double maxT   = 117;
-  const int    maxM   = 10;
-  const int    nseg   = 60;
-  const int    ncheb  = 13;
-
-  std::vector<double> boys_table( (ncheb+1)*nseg*(maxM+1) );
-  generate_boys_table( ncheb, maxM, maxT, nseg, boys_table.data(), ncheb+1 );
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<double> dist(0.,1.);
-  auto rand_gen = [&](double a, double b) { return a + (b-a)*dist(gen); };
-
-  auto rand_gen_seg = [&](){ return rand_gen(0,maxT); };
-  auto rand_gen_asy = [&](){ return rand_gen(maxT,maxT+20); };
-  auto rand_gen_ran = [&](){ return rand_gen(0,maxT+20); };
-
-  size_t ntest = 1000;
-  std::vector<double> seg_pts( ntest ), asy_pts( ntest ), ran_pts( ntest );
-  std::generate( seg_pts.begin(), seg_pts.end(), rand_gen_seg );
-  std::generate( asy_pts.begin(), asy_pts.end(), rand_gen_asy );
-  std::generate( ran_pts.begin(), ran_pts.end(), rand_gen_ran );
-
-
-
-  std::vector<double> seg_eval( ntest ), asy_eval( ntest ), ran_eval( ntest );
-  for( int m = 0; m <= maxM; ++m ) {
-    boys_chebyshev( ntest, m, seg_pts.data(), ncheb, nseg, maxT, boys_table.data(), ncheb+1, seg_eval.data() );
-    boys_chebyshev( ntest, m, asy_pts.data(), ncheb, nseg, maxT, boys_table.data(), ncheb+1, asy_eval.data() );
-    boys_chebyshev( ntest, m, ran_pts.data(), ncheb, nseg, maxT, boys_table.data(), ncheb+1, ran_eval.data() );
-
-    for( int i = 0; i < ntest; ++i ) {
-      const auto seg_ref_val = boys_reference( m, seg_pts[i] );
-      const auto asy_ref_val = boys_reference( m, asy_pts[i] );
-      const auto ran_ref_val = boys_reference( m, ran_pts[i] );
-
-      seg_eval[i] = std::abs( seg_eval[i] - seg_ref_val ) / seg_ref_val;
-      asy_eval[i] = std::abs( asy_eval[i] - asy_ref_val ) / asy_ref_val;
-      ran_eval[i] = std::abs( ran_eval[i] - ran_ref_val ) / ran_ref_val;
-    }
-
-    auto max_seg_diff = *std::max_element( seg_eval.begin(), seg_eval.end() );
-    auto max_asy_diff = *std::max_element( asy_eval.begin(), asy_eval.end() );
-    auto max_ran_diff = *std::max_element( ran_eval.begin(), ran_eval.end() );
-
-    std::cout << std::scientific << std::setprecision(4);
-    std::cout << "m = " << std::setw(4) << m 
-	    << " seg max = " << max_seg_diff
-	    << " asy max = " << max_asy_diff
-	    << " ran max = " << max_ran_diff << std::endl;
-  }
-
-#endif
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/include/rys_integral.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/include/rys_integral.h
deleted file mode 100644
index 967ba2a..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/include/rys_integral.h
+++ /dev/null
@@ -1,48 +0,0 @@
-#ifndef __RYS_INTEGRALS
-#define __RYS_INTEGRALS
-
-typedef struct {
-  double x, y, z;
-} point;
-
-typedef struct {
-  double alpha, coeff;
-} coefficients;
-
-typedef struct {
-  point origin;
-  coefficients *coeff;
-  int m, L;
-} shells;
-
-typedef struct {
-  point P;
-  point PA;
-  point PB;
-
-  double K;
-  double gamma;
-  double coeff_prod;
-} prim_pair;
-
-typedef struct {
-  int lA;
-  int lB;
-  int nprim_pair;
-  point rAB;
-  prim_pair* prim_pairs;
-} shell_pair;
-
-#ifdef __cplusplus
-extern "C" {
-#endif
-void compute_integral(int n, shells *shell_list, int m, point *points, double *output);
-void compute_integral_shell_pair( int npts, shells sh0, shells sh1, 
-                                  point *points, double* matrix ); 
-void compute_integral_shell_pair_pre( int npts, shell_pair shpair,
-                                      point* points, double* matrix );
-#ifdef __cplusplus
-}
-#endif
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/scripts/generate_rys_kernel.py b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/scripts/generate_rys_kernel.py
deleted file mode 100644
index c940ecf..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/scripts/generate_rys_kernel.py
+++ /dev/null
@@ -1,46 +0,0 @@
-from itertools import product
-from math import ceil
-
-import pyexpander.lib as expander
-
-s_targets = [(0, 0, 0)]
-p_targets = [(1, 0, 0), (0, 1, 0), (0, 0, 1)]
-d_targets = [(2, 0, 0), (1, 1, 0), (1, 0, 1), (0, 2, 0), (0, 1, 1), (0, 0, 2)]
-
-sph_targets = [s_targets, p_targets, d_targets]
-
-lA = 1
-lB = 1
-
-int_targets = []
-for bra, ket in product(sph_targets[lA], sph_targets[lB]):
-    int_targets.append([bra, ket])
-
-rys_targets = []
-uniq_targets = set()
-for bra, ket in int_targets:
-    x_targets = (bra[0], ket[0])
-    y_targets = (bra[1], ket[1])
-    z_targets = (bra[2], ket[2])
-    rys_targets.append([x_targets, y_targets, z_targets])
-    uniq_targets.add(x_targets)
-    uniq_targets.add(y_targets)
-    uniq_targets.add(z_targets)
-uniq_targets = list(uniq_targets)
-uniq_targets.sort()
-
-
-for u_target in uniq_targets:
-    targets = [target for target in rys_targets if u_target in target]
-
-nroot = ceil((lA + lB) / 2.0) + 1
-exp_dict = {
-    "rys_targets": rys_targets,
-    "uniq_targets": uniq_targets,
-    "lA": lA,
-    "lB": lB,
-    "nroot": nroot,
-}
-expander.expandFile(
-    "rys_kernel_template.hpp", external_definitions=exp_dict, auto_indent=False
-)
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/scripts/rys_kernel_template.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/scripts/rys_kernel_template.hpp
deleted file mode 100644
index f9a7681..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/scripts/rys_kernel_template.hpp
+++ /dev/null
@@ -1,56 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-  double *hrrx = hrr_array + $(0*(lA+1) * (lB+1) * nroot);
-  double *hrry = hrr_array + $(1*(lA+1) * (lB+1) * nroot);
-  double *hrrz = hrr_array + $(2*(lA+1) * (lB+1) * nroot);
-
-$for( i in range(len(rys_targets)) )\
-  double _rys_target_$(i);
-$endfor\
-  double hrrx_tmp, hrry_tmp, hrrz_tmp;
-
-$for( k in range(nroot) )\
-$for( i in range(len(rys_targets)) )\
-  _rys_target_$(i) = 1.;
-$endfor
-
-$for( tgt_idx,u_target in enumerate(uniq_targets,start=0) )\
-$py(i,j = u_target)\
-$py(idx = (lB+1)*nroot*i + nroot*j + k)\
-  hrrx_tmp = hrrx[$(idx)];
-  hrry_tmp = hrry[$(idx)];
-  hrrz_tmp = hrrz[$(idx)];
-$py(_targets = [_i for _i,target in enumerate(rys_targets,start=0) if u_target in target])\
-$for(_i in _targets)\
-$py(need_x = bool(rys_targets[_i][0] == u_target) )\
-$py(need_y = bool(rys_targets[_i][1] == u_target) )\
-$py(need_z = bool(rys_targets[_i][2] == u_target) )\
-$py(_exp_str = [])\
-$py(if need_x: _exp_str.append('hrrx_tmp'))\
-$py(if need_y: _exp_str.append('hrry_tmp'))\
-$py(if need_z: _exp_str.append('hrrz_tmp'))\
-$py(_exp_str = ' * '.join(_exp_str))\
-$if(tgt_idx==0)\
-  _rys_target_$(_i) = $(_exp_str);\
-$else\
-  _rys_target_$(_i) *= $(_exp_str);\
-$endif
-$endfor
-$endfor
-$for( i in range(len(rys_targets)) )\
-$if(k==0)\
-  result[$(i)] = beta * result[$(i)] + weights[$(k)] * _rys_target_$(i);
-$else\
-  result[$(i)] += weights[$(k)] * _rys_target_$(i);
-$endif\
-$endfor
-$endfor
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/boys.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/boys.h
deleted file mode 100644
index 92afc84..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/boys.h
+++ /dev/null
@@ -1,15 +0,0 @@
-#ifndef BOYS_H_
-#define BOYS_H_
-
-#include <stddef.h>
-
-#define NGRID    920
-#define MGRID     10
-
-static const double tmax = 46.0;
-static const double tvstep = 20.0;
-static const double tstep = 0.05;
-
-extern double boys_table[NGRID + 1][MGRID + 1];
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/boys_table.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/boys_table.c
deleted file mode 100644
index 7256af6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/boys_table.c
+++ /dev/null
@@ -1,925 +0,0 @@
-#include "boys.h"
-
-double boys_table[NGRID + 1][MGRID + 1] = {
-	{ 0x1.0000000000000p+0, 0x1.5555555555555p-2, 0x1.999999999999Ap-3, 0x1.2492492492492p-3, 0x1.C71C71C71C71Cp-4, 0x1.745D1745D1746p-4, 0x1.3B13B13B13B14p-4, 0x1.1111111111111p-4, 0x1.E1E1E1E1E1E1Ep-5, 0x1.AF286BCA1AF28p-5, 0x1.8618618618618p-5 },
-	{ 0x1.F797D92C5D79Dp-1, 0x1.4B461AA65D354p-2, 0x1.8B40855BF7DC4p-3, 0x1.196C525488652p-3, 0x1.B4E192F6D6107p-4, 0x1.64F2378380898p-4, 0x1.2DB8673D79D4Ap-4, 0x1.0548F9F41CBB7p-4, 0x1.CCCE038A292FEp-5, 0x1.9C177337D74ECp-5, 0x1.74B09CEA49FD0p-5 },
-	{ 0x1.EF6EF1BBED0A7p-1, 0x1.4190F13207642p-2, 0x1.7D73439267B20p-3, 0x1.0EB89901AA590p-3, 0x1.A367D5DFA8441p-4, 0x1.562E97BBA7E47p-4, 0x1.20F098BC26033p-4, 0x1.F4098E617577Dp-5, 0x1.B8A8B56391F74p-5, 0x1.89E038E59EF42p-5, 0x1.64111C0C24732p-5 },
-	{ 0x1.E78314496326Cp-1, 0x1.38326C21E3A51p-2, 0x1.702C3C6C662AEp-3, 0x1.0472637FEEBABp-3, 0x1.92A70C34BF3D6p-4, 0x1.480B01BBA3BCEp-4, 0x1.14B5D31803979p-4, 0x1.DE7D489101B82p-5, 0x1.A567536CCB0AFp-5, 0x1.7878F3DA117F7p-5, 0x1.5430D062C9476p-5 },
-	{ 0x1.DFD220EA43FB5p-1, 0x1.2F2741AC557C9p-2, 0x1.6366134B0574Dp-3, 0x1.F52A56B78EB94p-4, 0x1.829761F047FA9p-4, 0x1.3A80900259D66p-4, 0x1.0901ECA4ACD7Fp-4, 0x1.C9E1FE97EF74Fp-5, 0x1.92FFB409A0421p-5, 0x1.67D84C612797Fp-5, 0x1.450714CEE5522p-5 },
-	{ 0x1.D85A0C533C52Ep-1, 0x1.266C49A1D0C8Cp-2, 0x1.571BA43F88633p-3, 0x1.E239364A25B51p-4, 0x1.733159618DDBFp-4, 0x1.2D88AA2F776C8p-4, 0x1.FB9E02CF8290Ep-5, 0x1.B62D0BBA3EA0Fp-5, 0x1.8168227A52C5Ap-5, 0x1.57F556E5FA291p-5, 0x1.368BA8CA1E024p-5 },
-	{ 0x1.D118DF058CCE8p-1, 0x1.1DFE7C09C62F6p-2, 0x1.4B4801A59F823p-3, 0x1.D00918A57B201p-4, 0x1.646DC767B51C6p-4, 0x1.211D019B5FFB3p-4, 0x1.E62EDFFB45F21p-5, 0x1.A35444A91CC93p-5, 0x1.7097599356480p-5, 0x1.48C78F08BDF04p-5, 0x1.28B6ABCF055A0p-5 },
-	{ 0x1.CA0CB48525378p-1, 0x1.15DAEFCE926F0p-2, 0x1.3FE671D812C5Fp-3, 0x1.BE920A7BF5BAAp-4, 0x1.5645CFD7151E0p-4, 0x1.15378E15F90C4p-4, 0x1.D1ABAD43D4048p-5, 0x1.914DF20F348D6p-5, 0x1.60847EB282587p-5, 0x1.3A46D2EE309D8p-5, 0x1.1B8098F6FAA3Ap-5 },
-	{ 0x1.C333BA9711EDCp-1, 0x1.0DFED977CB2D4p-2, 0x1.34F26CFEB088Fp-3, 0x1.ADCC6E68181B3p-4, 0x1.48B2E2074C592p-4, 0x1.09D28ACA94565p-4, 0x1.BE0A20B3E21CAp-5, 0x1.8010CB5C0D282p-5, 0x1.51271CEEE9870p-5, 0x1.2C6B5EC5D54BBp-5, 0x1.0EE242CB7C9CEp-5 },
-	{ 0x1.BC8C3087E180Dp-1, 0x1.066789F24B151p-2, 0x1.2A679AF467966p-3, 0x1.9DB0F93B2C296p-4, 0x1.3BAEB5883D8EEp-4, 0x1.FDD0E68E9B511p-5, 0x1.AB40647FE123Ap-5, 0x1.6F93F1CB9C9C3p-5, 0x1.42772080A8FDEp-5, 0x1.1F2DC8847D1C6p-5, 0x1.02D4CF488F299p-5 },
-	{ 0x1.B6146679AC5F9p-1, 0x1.FE24DACACBFBDp-3, 0x1.2041D1447E70Ep-3, 0x1.8E38AE752563Ep-4, 0x1.2F3346FC3AB64p-4, 0x1.E8E8014C8AC6Fp-5, 0x1.994511DA60824p-5, 0x1.5FCEEBA75093Ap-5, 0x1.346CD25E229C7p-5, 0x1.1286FBD0B6596p-5, 0x1.EEA3681BE5303p-6 },
-	{ 0x1.AFCABCB96C3D8p-1, 0x1.EFFA142968D94p-3, 0x1.167D113DE5ECEp-3, 0x1.7F5CDCE3E8B99p-4, 0x1.233AD515B6047p-4, 0x1.D4E04DAE65461p-5, 0x1.880F2C03CED19p-5, 0x1.50B99FBDF1F04p-5, 0x1.2700D40C319B4p-5, 0x1.0670361ED8B9Fp-5, 0x1.D8A5657A0A58Bp-6 },
-	{ 0x1.A9ADA31B54565p-1, 0x1.E249FE9BD81B0p-3, 0x1.0D15861BB0941p-3, 0x1.71171B683D734p-4, 0x1.17BFDDB6E46C3p-4, 0x1.C1B0240FB3991p-5, 0x1.77961B92EA3D7p-5, 0x1.424C510FE586Ap-5, 0x1.1A2C1B9F06559p-5, 0x1.F5C605F500A74p-6, 0x1.C3A3AB028232Ap-6 },
-	{ 0x1.A3BB985DDF1A9p-1, 0x1.D51008C4819ADp-3, 0x1.04078341C324Ap-3, 0x1.636145DEBE70Fp-4, 0x1.0CBD1B31CF19Bp-4, 0x1.AF4E485409EADp-5, 0x1.67D1A9F351AC7p-5, 0x1.347F9AAD69921p-5, 0x1.0DE7EFE9711C4p-5, 0x1.DFB270F6C4DDCp-6, 0x1.AF92D782C2A36p-6 },
-	{ 0x1.9DF32993490CFp-1, 0x1.C847CF559FF5Ep-3, 0x1.F69F0519B9BFEp-4, 0x1.56357A2B35E17p-4, 0x1.022D81A762BFFp-4, 0x1.9DB1E52B57308p-5, 0x1.58B9FD17C577Fp-5, 0x1.274C6BC48B2FFp-5, 0x1.022DE4D87DFCAp-5, 0x1.CA99E7C6FFEC3p-6, 0x1.9C680DEE9D7AEp-6 },
-	{ 0x1.9852F19133AF9p-1, 0x1.BBED1B2F38B45p-3, 0x1.E5D4456A40917p-4, 0x1.498E1564DFA52p-4, 0x1.F018790838309p-5, 0x1.8CD2878C0CA3Fp-5, 0x1.4A47935DC2DDAp-5, 0x1.1AAC03DCA9ABCp-5, 0x1.EDEFAFF2B86CBp-6, 0x1.B6712CC9A1265p-6, 0x1.8A18EF5A1AE6Cp-6 },
-	{ 0x1.92D998662E575p-1, 0x1.AFFBDF914EB39p-3, 0x1.D5A84B849CD3Fp-4, 0x1.3D65B1221FC90p-4, 0x1.DCA9583201845p-5, 0x1.7CA81A60B3ED9p-5, 0x1.3C733FA04066Cp-5, 0x1.0E97EF3D76A84p-5, 0x1.D87FDA4F479D8p-6, 0x1.A32D84192FB3Fp-6, 0x1.789B9539ED439p-6 },
-	{ 0x1.8D85D2D4E58F7p-1, 0x1.A470386171423p-3, 0x1.C614DF21DF9DBp-4, 0x1.31B720E24AFC8p-4, 0x1.CA04C69F45878p-5, 0x1.6D2AE266A6721p-5, 0x1.2F3625776B595p-5, 0x1.030A037F7A4F8p-5, 0x1.C40116C444884p-6, 0x1.90C4ADA556416p-6, 0x1.67E68BE73FC95p-6 },
-	{ 0x1.885661D4BC6E8p-1, 0x1.99466882D3FAAp-3, 0x1.B71408CF5DF81p-4, 0x1.267D6F942E9EAp-4, 0x1.B8224AEFF6AD3p-5, 0x1.5E537A3BB2CB6p-5, 0x1.2289B5A35EEEEp-5, 0x1.EFF8B88873697p-6, 0x1.B068B388D9EC1p-6, 0x1.7F2CDF9605DD9p-6, 0x1.57F0CD63C7D94p-6 },
-	{ 0x1.834A121795D32p-1, 0x1.8E7AD840249F0p-3, 0x1.A8A00F3860FE8p-4, 0x1.1BB3DD3815048p-4, 0x1.A6F9C85DEED3Dp-5, 0x1.501ACE9896D40p-5, 0x1.1667AA9FE598Fp-5, 0x1.DAD2B028670B5p-6, 0x1.9DAC794718CC2p-6, 0x1.6E5CC0F00C87Fp-6, 0x1.48B1BC5B253B5p-6 },
-	{ 0x1.7E5FBB9495FB8p-1, 0x1.840A13C65D039p-3, 0x1.9AB3748D7923Bp-4, 0x1.1155DC9C10F24p-4, 0x1.96837AB93AD1Fp-5, 0x1.427A1AB64CE2Ap-5, 0x1.0ACA055F6B10Bp-5, 0x1.C6972AC1F83CCp-6, 0x1.8BC2A5984E2BDp-6, 0x1.5E4B647820D86p-6, 0x1.3A211F5EC06BAp-6 },
-	{ 0x1.79964117A7494p-1, 0x1.79F0C9AFD77E7p-3, 0x1.8D48F4082BB09p-4, 0x1.075F113168F7Ep-4, 0x1.86B7F29180BA0p-5, 0x1.356AE4DC41F50p-5, 0x1.FF561456B6C27p-6, 0x1.B33BDF53AC1A2p-6, 0x1.7AA1E5C14AFC6p-6, 0x1.4EF043D187618p-6, 0x1.2C371C597752Bp-6 },
-	{ 0x1.74EC8FD58F463p-1, 0x1.702BC99EF45D8p-3, 0x1.805B7F89C000Cp-4, 0x1.FB9699F410EF6p-5, 0x1.7790118A80FD2p-5, 0x1.28E6FB15A09AAp-5, 0x1.EA0A7B507F285p-6, 0x1.A0B6F9826E521p-6, 0x1.6A4151ABB4F05p-6, 0x1.40433AD59801Cp-6, 0x1.1EEC343888731p-6 },
-	{ 0x1.70619F04632D7p-1, 0x1.66B802E7A694Bp-3, 0x1.73E63D53FFCC9p-4, 0x1.E92D1D19D1426p-5, 0x1.690506D9C9719p-5, 0x1.1CE8700BF1853p-5, 0x1.D5A6C3F7F85F2p-6, 0x1.8EFF146379261p-6, 0x1.5A98671998F98p-6, 0x1.323C83218961Bp-6, 0x1.12393EC74ACF4p-6 },
-	{ 0x1.6BF46F782D4CEp-1, 0x1.5D928347452F3p-3, 0x1.67E485DACAFEDp-4, 0x1.D779FE60DF375p-5, 0x1.5B104BEBC71DAp-5, 0x1.1169980566C0Ep-5, 0x1.C220E82950B61p-6, 0x1.7E0B358242A85p-6, 0x1.4B9F051098BF3p-6, 0x1.24D4AFD8076DBp-6, 0x1.061766BB5D9D4p-6 },
-	{ 0x1.67A40B439690Ap-1, 0x1.54B875AA0616Bp-3, 0x1.5C51E1AD6C2E8p-4, 0x1.C675E2139F10Ap-5, 0x1.4DABA12E78851p-5, 0x1.0665060539CF2p-5, 0x1.AF6F521D0C98Ep-6, 0x1.6DD2C81FB7C80p-6, 0x1.3D4D677A2B5D1p-6, 0x1.1804A99436BF9p-6, 0x1.F5004BDE2CBA8p-7 },
-	{ 0x1.636F855C6971Bp-1, 0x1.4C2720FD8D7C6p-3, 0x1.512A0776A6E16p-4, 0x1.B619BAC0F3D3Dp-5, 0x1.40D10B0016218p-5, 0x1.F7AB12192E678p-6, 0x1.9D88D76F6D356p-6, 0x1.5E4D98A82D62Fp-6, 0x1.2F9C22F68757Cp-6, 0x1.0BC5AA8BE2BD2p-6, 0x1.DEDA83901C40Fp-7 },
-	{ 0x1.5F55F943C54FFp-1, 0x1.43DBE710039B8p-3, 0x1.4668DA12843B5p-4, 0x1.A65EC5E98CD81p-5, 0x1.347ACEC019BADp-5, 0x1.E36C52F5470F5p-6, 0x1.8C64B460A095Fp-6, 0x1.4F73D05D8DC12p-6, 0x1.228420DFE7F10p-6, 0x1.00113ADEAEB6Ep-6, 0x1.C9B18F8F8FA08p-7 },
-	{ 0x1.5B568AB1DB007p-1, 0x1.3BD4437B28B39p-3, 0x1.3C0A66B8EDC22p-4, 0x1.973E88D1EBEF0p-5, 0x1.28A370011F7CDp-5, 0x1.D0044D146DBA3p-6, 0x1.7BFA874B2DCEAp-6, 0x1.413DF13365B29p-6, 0x1.15FE9B7BFAF8Dp-6, 0x1.E9C25A2077464p-7, 0x1.B57A148902432p-7 },
-	{ 0x1.577065450CFF3p-1, 0x1.340DCA9AE4F86p-3, 0x1.320AE33C305EDp-4, 0x1.88B2CD778909Ap-5, 0x1.1D45ADDA2D05Fp-5, 0x1.BD69E7D7F66C6p-6, 0x1.6C424C4E2D66Fp-6, 0x1.33A4D1DA90032p-6, 0x1.0A051A595DED9p-6, 0x1.D45F35569866Fp-7, 0x1.A2293A90AD42Fp-7 },
-	{ 0x1.53A2BC344F4FCp-1, 0x1.2C86288ED7D46p-3, 0x1.2866AC5A8BD23p-4, 0x1.7AB59FA78A64Dp-5, 0x1.125C8055FB3E3p-5, 0x1.AB946EF7541ACp-6, 0x1.5D345928FA5D4p-6, 0x1.26A199FA5839Ep-6, 0x1.FD22DDAE538E1p-7, 0x1.BFEDC218101B1p-7, 0x1.8FB4A729F1F6Ep-7 },
-	{ 0x1.4FECCA04A4994p-1, 0x1.253B20466F395p-3, 0x1.1F1A4421FC6ECp-4, 0x1.6D414A3599A70p-5, 0x1.07E315FEEF99Ep-5, 0x1.9A7B8E1E66F8Bp-6, 0x1.4EC95946230ECp-6, 0x1.1A2DBE9506A04p-6, 0x1.E73B61A948609p-7, 0x1.AC633C9F29CE6p-7, 0x1.7E1277948C9D3p-7 },
-	{ 0x1.4C4DD0419784Fp-1, 0x1.1E2A8A9714DFCp-3, 0x1.162250657616Ap-4, 0x1.605054516EED1p-5, 0x1.FBA9A30D0119Ap-6, 0x1.8A174CBD4EE4Ap-6, 0x1.40FA49F37AFE8p-6, 0x1.0E42FE95DF769p-6, 0x1.D248770E8690Ap-7, 0x1.99B55CCEA2795p-7, 0x1.6D393B5C5C498p-7 },
-	{ 0x1.48C5173890C71p-1, 0x1.1752555C043EFp-3, 0x1.0D7B9942D0440p-4, 0x1.53DD7EF9BA9FCp-5, 0x1.E85A8F0D9EC52p-6, 0x1.7A600A078D5FEp-6, 0x1.33C076C54701Ep-6, 0x1.02DB5F86B607Fp-6, 0x1.BE3F54EA8CA5Ep-7, 0x1.87DA509C20ACBp-7, 0x1.5D1FEF28B2EADp-7 },
-	{ 0x1.4551EDB6EB934p-1, 0x1.10B0829F60BA4p-3, 0x1.052307B8AB44Bp-4, 0x1.47E3C28B260D5p-5, 0x1.D5D078BA9EF9Cp-6, 0x1.6B4E79205BD06p-6, 0x1.2715762294BF5p-6, 0x1.EFE254D6942D7p-7, 0x1.AB15AD26742FDp-7, 0x1.76C8B6BB94CF2p-7, 0x1.4DBDF7C844294p-7 },
-	{ 0x1.41F3A8CAAB821p-1, 0x1.0A4327CC28005p-3, 0x1.FA2B48973DAFCp-5, 0x1.3C5E4C6A313C0p-5, 0x1.C403443AC04D6p-6, 0x1.5CDB9D7232FFBp-6, 0x1.1AF325F8E4CA0p-6, 0x1.DAFDD18175BC1p-7, 0x1.98C1A705A629Cp-7, 0x1.667799888B85Ap-7, 0x1.3F0B1D76EC226p-7 },
-	{ 0x1.3EA9A385B8294p-1, 0x1.04086CE8A0E41p-3, 0x1.EAA12B741409Ep-5, 0x1.31487CC6C23C0p-5, 0x1.B2EB2D33957E9p-6, 0x1.4F00C72F97DFFp-6, 0x1.0F53A89563FA7p-6, 0x1.C6FEC33EDD743p-7, 0x1.8739D9E33455Cp-7, 0x1.56DE6A2A9EF8Ap-7, 0x1.30FF875AA7BC8p-7 },
-	{ 0x1.3B733EC383D0Dp-1, 0x1.FBFD17B1D62A1p-4, 0x1.DBA23F7BC6B09p-5, 0x1.269DE47847769p-5, 0x1.A280C308460EDp-6, 0x1.41B78FFB57B09p-6, 0x1.043161A205012p-6, 0x1.B3DB2DFBC2E9Ap-7, 0x1.7675482BF4340p-7, 0x1.47F4FBF254C9Ap-7, 0x1.2393B73537777p-7 },
-	{ 0x1.384FE0F103D0Dp-1, 0x1.F0479F52B0152p-4, 0x1.CD2943B7DF634p-5, 0x1.1C5A42F15B155p-5, 0x1.92BCE54225A9Dp-6, 0x1.34F9D7B672AA3p-6, 0x1.F30DE689BD4C8p-7, 0x1.A1898625BA868p-7, 0x1.666B5A9299F20p-7, 0x1.39B37FEBD6274p-7, 0x1.16C0854803602p-7 },
-	{ 0x1.353EF5D6E233Bp-1, 0x1.E4ED27C072702p-4, 0x1.BF312C7F99078p-5, 0x1.12798449E1ACCp-5, 0x1.8398C0214AD36p-6, 0x1.28C1C17208766p-6, 0x1.DE9E76C08B6A3p-7, 0x1.9000ABAB67789p-7, 0x1.5713DB7B31D93p-7, 0x1.2C1280A50D94Ap-7, 0x1.0A7F1C67F32C7p-7 },
-	{ 0x1.323FEE65D1421p-1, 0x1.D9EA87ADA675Dp-4, 0x1.B1B521488193Fp-5, 0x1.08F7BF5EA9DC4p-5, 0x1.750DC95362496p-6, 0x1.1D09B083ACEB9p-6, 0x1.CB0AA1E4569CDp-7, 0x1.7F37E536390AAp-7, 0x1.4866F29B75750p-7, 0x1.1F0ADE24D2BE4p-7, 0x1.FD91EC7E1129Ap-8 },
-	{ 0x1.2F524084EA961p-1, 0x1.CF3CB43252438p-4, 0x1.A4B07A8E9C2FCp-5, 0x1.FFA2680B3B2D9p-6, 0x1.6715BCCF108A1p-6, 0x1.11CC45BA9DDBCp-6, 0x1.B8490322B28A3p-7, 0x1.6F26DB9ADE47Bp-7, 0x1.3A5D20CD96F59p-7, 0x1.1295CA10E827Dp-7, 0x1.E72FAF7347A6Ap-8 },
-	{ 0x1.2C7566E20446Ap-1, 0x1.C4E0BF98AC71Fp-4, 0x1.981EBFD301FFBp-5, 0x1.EE0492AB40A0Cp-6, 0x1.59AA99D2460F0p-6, 0x1.07045CB46447Cp-6, 0x1.A6509E0E6CA25p-7, 0x1.5FC5957DF8BF9p-7, 0x1.2CEF3C1339448p-7, 0x1.06ACC400A8ADAp-7, 0x1.D1CB9B3AE59CAp-8 },
-	{ 0x1.29A8E0C3E7A12p-1, 0x1.BAD3D8365FDA8p-4, 0x1.8BFBA5B00B4CEp-5, 0x1.DD0F18027EAF4p-6, 0x1.4CC6A001FD0DEp-6, 0x1.F95A129EF8038p-7, 0x1.9518DA09969CBp-7, 0x1.510C732AB3DE9p-7, 0x1.20166BC665EFAp-7, 0x1.F6932BF4B7A02p-8, 0x1.BD5A529045EB3p-8 },
-	{ 0x1.26EC31DE55C3Bp-1, 0x1.B1134751D8B17p-4, 0x1.80430C02155EAp-5, 0x1.CCBB5986C681Fp-6, 0x1.40644CA9E9052p-6, 0x1.E5832A755981Bp-7, 0x1.84997DE3A2EB4p-7, 0x1.42F42A9901985p-7, 0x1.13CC24F66B7FBp-7, 0x1.E0CCA2327F28Ep-8, 0x1.A9D0FB28087EBp-8 },
-	{ 0x1.243EE227C73EBp-1, 0x1.A79C701319E15p-4, 0x1.74F0FC24039E7p-5, 0x1.BD02FDBA74EECp-6, 0x1.347E581AB1022p-6, 0x1.D27AFB3F9DD08p-7, 0x1.74CAABA93F1B0p-7, 0x1.3575C3A157329p-7, 0x1.080A26EEA71B4p-7, 0x1.CBFA94B4DB08Ep-8, 0x1.972537C1C2277p-8 },
-	{ 0x1.21A07DB0D4AC2p-1, 0x1.9E6CCE7F9F158p-4, 0x1.6A01A73EA45FBp-5, 0x1.ADDFED493B9A0p-6, 0x1.290FB3255D7CBp-6, 0x1.C038E1D189A88p-7, 0x1.65A4DCA3B2EF5p-7, 0x1.288A945BDDDF6p-7, 0x1.F994EFCAA7055p-8, 0x1.B8122F1DAC0F2p-8, 0x1.854D227EC6B49p-8 },
-	{ 0x1.1F10947D36F07p-1, 0x1.9581F680D52A5p-4, 0x1.5F7164AA2B00Ep-5, 0x1.9F4C504470923p-6, 0x1.1E1384B2B1D6Fp-6, 0x1.AEB4993AFECFAp-7, 0x1.5720DD85A4A47p-7, 0x1.1C2C3DA922904p-7, 0x1.E40EC3A11B20Ep-8, 0x1.A50918E14409Dp-8, 0x1.743F477AE49F7p-8 },
-	{ 0x1.1C8EBA5E4E8D2p-1, 0x1.8CD992F4B7C15p-4, 0x1.553CB060FA089p-5, 0x1.91428B7D86EA6p-6, 0x1.138527753818Fp-6, 0x1.9DE636B3E3B94p-7, 0x1.4937CAC33B398p-7, 0x1.1054A7E267175p-7, 0x1.CF76DEBFA708Ep-8, 0x1.92D56FB4BCF6Dp-8, 0x1.63F29FA40EB2Fp-8 },
-	{ 0x1.1A1A86CF22227p-1, 0x1.847164C8278F7p-4, 0x1.4B602983006DCp-5, 0x1.83BD3DFD6227Ep-6, 0x1.096027B4D3619p-6, 0x1.8DC625B5CB104p-7, 0x1.3BE30D13AEFD8p-7, 0x1.04FDFFAFCC4A8p-7, 0x1.BBC2D230B1074p-8, 0x1.816DC23CD12E6p-8, 0x1.545E8BCE137FEp-8 },
-	{ 0x1.17B394D1C4E5Cp-1, 0x1.7C47421A91959p-4, 0x1.41D890E8F565Cp-5, 0x1.76B73E9744FCDp-6, 0x1.FF408265758D1p-7, 0x1.7E4D244154C71p-7, 0x1.2F1C561A6EE59p-7, 0x1.F44566054308Ap-8, 0x1.A8E8A52531DF6p-8, 0x1.70C90AFA4589Cp-8, 0x1.457ACFFFA4375p-8 },
-	{ 0x1.155982CE16743p-1, 0x1.7459156A83E18p-4, 0x1.38A2C7C6C5E26p-5, 0x1.6A2B999629C86p-6, 0x1.EC82BA499616Fp-7, 0x1.6F743F4D596EBp-7, 0x1.22DD9D36167B3p-7, 0x1.DF7ADC64731E8p-8, 0x1.96DECFAF5D225p-8, 0x1.60DEAB7118D68p-8, 0x1.373F8EF60CBA9p-8 },
-	{ 0x1.130BF271CE060p-1, 0x1.6CA4DCCAD0AE6p-4, 0x1.2FBBCE5C8E626p-5, 0x1.5E158E8360B46p-6, 0x1.DA7F208E535DCp-7, 0x1.6134CF5E06AE3p-7, 0x1.17211C7384865p-7, 0x1.CB9232736FB74p-8, 0x1.859C35B9EA1EBp-8, 0x1.51A66787CCA38p-8, 0x1.29A545DD1D6D3p-8 },
-	{ 0x1.10CA8891C39B3p-1, 0x1.6528A91FE4C60p-4, 0x1.2720C2B582DB3p-5, 0x1.52708E055C116p-6, 0x1.C92E32067EBE8p-7, 0x1.5388754228CF3p-7, 0x1.0BE14DA375FB1p-7, 0x1.B881AA2AB5A37p-8, 0x1.751822393FCDEp-8, 0x1.4318611C3AB0Ap-8, 0x1.1CA4C838E4A8Fp-8 },
-	{ 0x1.0E94ED0C6A48Ep-1, 0x1.5DE29D64F9E4Fp-4, 0x1.1ECEDF742D58Bp-5, 0x1.473837D59FCABp-6, 0x1.B888BB5635E87p-7, 0x1.466916F4F17AEp-7, 0x1.0118E7911B3DAp-7, 0x1.A63FF27BB26CDp-8, 0x1.654A4293E600Dp-8, 0x1.352D13CB88176p-8, 0x1.10373BFEF1A98p-8 },
-	{ 0x1.0C6ACAAD6F579p-1, 0x1.56D0EDF8D1968p-4, 0x1.16C37AAB72754p-5, 0x1.3C6858CCD4776p-6, 0x1.A887D590B12E6p-7, 0x1.39D0DCA29F04Ap-7, 0x1.ED85B6B05EF86p-8, 0x1.94C42280F1EB1p-8, 0x1.562AA23FBC7E1p-8, 0x1.27DD50EAE3B14p-8, 0x1.045615DCF578Cp-8 },
-	{ 0x1.0A4BCF1272658p-1, 0x1.4FF1DFF1A886Dp-4, 0x1.0EFC04C3D10E6p-5, 0x1.31FCE90409BA2p-6, 0x1.9924E2FB65B6Cp-7, 0x1.2DBA2DCE7A021p-7, 0x1.D9B4A3B2558A0p-8, 0x1.8405B4E52A822p-8, 0x1.47B1A69195CC3p-8, 0x1.1B223BAED8649p-8, 0x1.F1F62B555FAE3p-9 },
-	{ 0x1.0837AA90CB3C5p-1, 0x1.4943C87815B08p-4, 0x1.0776076C58910p-5, 0x1.27F20A0A3E49Fp-6, 0x1.8A598BF4DA514p-7, 0x1.221FAE98B07ECp-7, 0x1.C6B552946F3B5p-8, 0x1.73FC837EB1BE9p-8, 0x1.39D80ABCEF1AEp-8, 0x1.0EF5457F15E14p-8, 0x1.DC40860A5CCA0p-9 },
-	{ 0x1.062E101C5283Ep-1, 0x1.42C50C288C073p-4, 0x1.002F2496D6F0Bp-5, 0x1.1E44052D4E33Ap-6, 0x1.7C1FBBFDA0219p-7, 0x1.16FC3D22A6E1Ep-7, 0x1.B47EE5C748911p-8, 0x1.64A0C31CFF749p-8, 0x1.2C96DC019930Bp-8, 0x1.03502A74AB0DBp-8, 0x1.C77FD422F6FF2p-9 },
-	{ 0x1.042EB52F22EB5p-1, 0x1.3C741E7B385B5p-4, 0x1.F24A2AFD89A42p-6, 0x1.14EF49D571A0Ep-6, 0x1.6E719EE1F1E62p-7, 0x1.0C4AEF1066A05p-7, 0x1.A308E14D2D2F2p-8, 0x1.55EAFF8600B64p-8, 0x1.1FE776053F81Ap-8, 0x1.F059DC0189E78p-9, 0x1.B3A930C9E0B63p-9 },
-	{ 0x1.023951B248D32p-1, 0x1.364F8131F82DFp-4, 0x1.E4AB5374F7584p-6, 0x1.0BF06BF27FC5Ep-6, 0x1.61499E028D712p-7, 0x1.02070F25E2227p-7, 0x1.924B2679AE6FBp-8, 0x1.47D417A115E36p-8, 0x1.13C37F56D2A9Ep-8, 0x1.DB0BAF7436FABp-9, 0x1.A0B23422E5FCAp-9 },
-	{ 0x1.004D9FE756E93p-1, 0x1.3055C3CC29004p-4, 0x1.D77D8CAC8D428p-6, 0x1.0344227A327CBp-6, 0x1.54A25DBB6AFA5p-7, 0x1.F05835FDA7C91p-8, 0x1.823DEFE12D8FFp-8, 0x1.3A5539CDAFD60p-8, 0x1.0824E619F2879p-8, 0x1.C6AAE09E9589Fp-9, 0x1.8E90EDA7F9BDBp-9 },
-	{ 0x1.FCD6B8A5AD1EFp-2, 0x1.2A8583001265Cp-4, 0x1.CABCC9F1C7355p-6, 0x1.F5CE8BED5F36Cp-7, 0x1.4876BAE70547Ep-7, 0x1.DD6B81C0199A8p-8, 0x1.72D9CD7637B2Bp-8, 0x1.2D67E06397D52p-8, 0x1.FA0BB9B1143FFp-9, 0x1.B32CFD38D8748p-9, 0x1.7D3BDEC7B421Fp-9 },
-	{ 0x1.F9248B4F1688Cp-2, 0x1.24DD6839AFB8Dp-4, 0x1.BE6526221D828p-6, 0x1.E5AD9E494A695p-7, 0x1.3CC1C87CF4586p-7, 0x1.CB3FBB4226187p-8, 0x1.6417A0D2AA6B4p-8, 0x1.2105CE5B04838p-8, 0x1.E4C1AEF1C8DAFp-9, 0x1.A08809C4ACC7Cp-9, 0x1.6CA9F5C2469AAp-9 },
-	{ 0x1.F584396501442p-2, 0x1.1F5C291EA0D08p-4, 0x1.B272E2176D9E8p-6, 0x1.D61FAB409B76Ep-7, 0x1.317ECD4AAA394p-7, 0x1.B9CCF559FF1F7p-8, 0x1.55F099AAAEDC7p-8, 0x1.15290C1AB38E2p-8, 0x1.D06110AD2A672p-9, 0x1.8EB27C3BF95ECp-9, 0x1.5CD288C20D0E0p-9 },
-	{ 0x1.F1F5488FB5C31p-2, 0x1.1A0087170B77Dp-4, 0x1.A6E26324F9C8Bp-6, 0x1.C71F1D4170E43p-7, 0x1.26A941C52F1B7p-7, 0x1.A90B983328973p-8, 0x1.485E3267AFC16p-8, 0x1.09CBE46A546B8p-8, 0x1.BCDFBAF94810Bp-9, 0x1.7DA336FCF5111p-9, 0x1.4DAD512D04EFDp-9 },
-	{ 0x1.EE774260C4481p-2, 0x1.14C94EDB39B15p-4, 0x1.9BB031A44D0B9p-6, 0x1.B8A6978173564p-7, 0x1.1C3CCDF2C6812p-7, 0x1.98F45DA722564p-8, 0x1.3B5A2CE98401Fp-8, 0x1.FDD1C30F48413p-9, 0x1.AA33FBFEF3F4Ap-9, 0x1.6D5183F0CBDE4p-9, 0x1.3F32672C92E03p-9 },
-	{ 0x1.EB09B42F822C8p-2, 0x1.0FB55805C2FE8p-4, 0x1.90D8F7915890Cp-6, 0x1.AAB0F3A9DA5ACp-7, 0x1.1235476B739CAp-7, 0x1.89804DBEB142Fp-8, 0x1.2EDE8F6C1BC74p-8, 0x1.E8F594B9597ABp-9, 0x1.98548EEA47342p-9, 0x1.5DB50FEA2BE6Bp-9, 0x1.315A3D691DC2Cp-9 },
-	{ 0x1.E7AC2EF6DF9EAp-2, 0x1.0AC384AA10FC5p-4, 0x1.86597F352693Bp-6, 0x1.9D393F9C771C9p-7, 0x1.088EAF6F5EA49p-7, 0x1.7AA8BB59FED11p-8, 0x1.22E5A190116FAp-8, 0x1.D4F93FAB5A4F0p-9, 0x1.87389715138EBp-9, 0x1.4EC5E63931F26p-9, 0x1.241D9CF72332Dp-9 },
-	{ 0x1.E45E4734882DCp-2, 0x1.05F2C0EF11A59p-4, 0x1.7C2EB1DE86411p-6, 0x1.903ABB50B3175p-7, 0x1.FE8A6224501F7p-8, 0x1.6C6740FDDA3E3p-8, 0x1.1769E984924BEp-8, 0x1.C1D334AA7DBF0p-9, 0x1.76D79B68A6EB2p-9, 0x1.407C6C724AC6Bp-9, 0x1.1775A17384DA9p-9 },
-	{ 0x1.E11F94C9410F0p-2, 0x1.014202ADEB76Ap-4, 0x1.725596A81A83Ap-6, 0x1.83B0D6C77CBECp-7, 0x1.ECAA3EF482A79p-8, 0x1.5EB5BDC47A4AAp-8, 0x1.0C66295124C3Fp-8, 0x1.AF7A4E8ABF751p-9, 0x1.672981F46373Ap-9, 0x1.32D15E65BAB61p-9, 0x1.0B5BB54CE88B8p-9 },
-	{ 0x1.DDEFB2DA78890p-2, 0x1.F960922913075p-5, 0x1.68CB514B3C249p-6, 0x1.77973015276CAp-7, 0x1.DB75E866D9EE6p-8, 0x1.518E527030AB5p-8, 0x1.01D55C3DE269Cp-8, 0x1.9DE5CD882A3CAp-9, 0x1.58268BB6CBC28p-9, 0x1.25BDCA4597B2Dp-9, 0x1.FF931C703C3A9p-10 },
-	{ 0x1.DACE3FB4FA7BDp-2, 0x1.F0793897AEA92p-5, 0x1.5F8D20FF25CC0p-6, 0x1.6BE991804EC44p-7, 0x1.CAE69B2723082p-8, 0x1.44EB5E9E921BEp-8, 0x1.EF6568B1994DFp-9, 0x1.8D0D52D4DA53Bp-9, 0x1.49C75096BE271p-9, 0x1.193B0CF81BD50p-9, 0x1.E972539B2C2B0p-10 },
-	{ 0x1.D7BADCB0BE772p-2, 0x1.E7CC1A430C0FAp-5, 0x1.56985F63E6468p-6, 0x1.60A3EFB4D81D9p-7, 0x1.BAF5DA6228772p-8, 0x1.38C77E1AA6D84p-8, 0x1.DBF3302DE43D1p-9, 0x1.7CE8DC5960CD7p-9, 0x1.3C04BB8AB4540p-9, 0x1.0D42CE944EBB2p-9, 0x1.D449949C15FC1p-10 },
-	{ 0x1.D4B52E15C4487p-2, 0x1.DF57696A6BB26p-5, 0x1.4DEA7F789B138p-6, 0x1.55C2680A367A1p-7, 0x1.AB9D6CD3F29F6p-8, 0x1.2D1D864CC765Ap-8, 0x1.C94B402053296p-9, 0x1.6D70C0A54858Dp-9, 0x1.2ED806EBF5DFDp-9, 0x1.01CEFF071B87Ep-9, 0x1.C00DE7192A4F9p-10 },
-	{ 0x1.D1BCDB01F4606p-2, 0x1.D7196851C169Dp-5, 0x1.45810C9C7A9F0p-6, 0x1.4B413EDC1F024p-7, 0x1.9CD759F61FD82p-8, 0x1.21E883C6D8F97p-8, 0x1.B76529A86A83Ap-9, 0x1.5E9DAB0D959D1p-9, 0x1.223AB8F3C3F32p-9, 0x1.EDB3A5BDFF158p-10, 0x1.ACB4CFF8EADBAp-10 },
-	{ 0x1.CED18D4FF9DB0p-2, 0x1.CF1068A8C7F09p-5, 0x1.3D59A99A3AA9Ap-6, 0x1.411CDDF4E5227p-7, 0x1.8E9DE74CF0EE3p-8, 0x1.1723B7EBAB859p-8, 0x1.A638D9B05DC55p-9, 0x1.506897F736144p-9, 0x1.1626A0609B5D4p-9, 0x1.D8BB807925C82p-10, 0x1.9A344BC1EEDEDp-10 },
-	{ 0x1.CBF2F17F0C62Cp-2, 0x1.C73ACAF811D66p-5, 0x1.35720FBD644E0p-6, 0x1.3751D308BE09Bp-7, 0x1.80EB95D1B6784p-8, 0x1.0CCA96B0497EEp-8, 0x1.95BE94F6535C8p-9, 0x1.42CAD14B67E13p-9, 0x1.0A95D141C019Ap-9, 0x1.C4AAF7CC8186Dp-10, 0x1.8882C93BBD5F1p-10 },
-	{ 0x1.C920B69BA08A7p-2, 0x1.BF96FE13D9AFDp-5, 0x1.2DC80DF12BC46p-6, 0x1.2DDCCE41339D6p-7, 0x1.73BB1F795A365p-8, 0x1.02D8C47616E46p-8, 0x1.85EEF44207320p-9, 0x1.35BDEB143BA55p-9, 0x1.FF0543CEB44DDp-10, 0x1.B177ECFB307B7p-10, 0x1.7797244DC846Dp-10 },
-	{ 0x1.C65A8E28F59BEp-2, 0x1.B8237E9455E4Ep-5, 0x1.265987E866867p-6, 0x1.24BAA0D816E39p-7, 0x1.670774D5CDEC0p-8, 0x1.F29427F953C18p-9, 0x1.76C2E0C4D6063p-9, 0x1.293BC03F66DC2p-9, 0x1.E9CF4FEAFEE14p-10, 0x1.9F18B3A9626B5p-10, 0x1.6768A119B5FD7p-10 },
-	{ 0x1.C3A02C0B78376p-2, 0x1.B0DED65356FA7p-5, 0x1.1F24754E3EC1Fp-6, 0x1.1BE83BC1497E9p-7, 0x1.5ACBBAD136B5Ep-8, 0x1.E03508D4A749Fp-9, 0x1.683390A252366p-9, 0x1.1D3E6F85B1C92p-9, 0x1.D57F6B3133139p-10, 0x1.8D840CC464EB0p-10, 0x1.57EEE74E480F8p-10 },
-	{ 0x1.C0F14673F1788p-2, 0x1.A9C79BEEF9946p-5, 0x1.1826E0FF47272p-6, 0x1.1362AE62BD17Bp-7, 0x1.4F034881B8D4Dp-8, 0x1.CE8C7ED4B7A2Ap-9, 0x1.5A3A839F97DC3p-9, 0x1.11C058755FA33p-9, 0x1.C20BADB350288p-10, 0x1.7CB121A52DE20p-10, 0x1.4921FDB04CEE2p-10 },
-	{ 0x1.BE4D95CB7AAADp-2, 0x1.A2DC725137B32p-5, 0x1.115EE84A9612Ap-6, 0x1.0B27255A0E86Fp-7, 0x1.43A9A514D4504p-8, 0x1.BD932EBFF7E7Dp-9, 0x1.4CD17FF7AA9A5p-9, 0x1.06BC189E025E4p-9, 0x1.AF6A9E21E3FA2p-10, 0x1.6C977F6AC06F9p-10, 0x1.3AFA45D728CF8p-10 },
-	{ 0x1.BBB4D4A02DEC2p-2, 0x1.9C1C083C26DC5p-5, 0x1.0ACABA3A92D47p-6, 0x1.0332E94F292CBp-7, 0x1.38BA85D14EAB1p-8, 0x1.AD420B5A66ADAp-9, 0x1.3FF28F533AE62p-9, 0x1.F85911B87AABEp-10, 0x1.9D932CEB90715p-10, 0x1.5D2F1289E6EE6p-10, 0x1.2D70781A9E5F8p-10 },
-	{ 0x1.B926BF928C675p-2, 0x1.958517DAB2F62p-5, 0x1.046896E52375Dp-6, 0x1.F706BBA6CA91Fp-8, 0x1.2E31CC2EB13C3p-8, 0x1.9D9252192B1E8p-9, 0x1.3397FBE243394p-9, 0x1.E4197588165A1p-10, 0x1.8C7CAF9418DBFp-10, 0x1.4E70228FDA1CCp-10, 0x1.207D9FAF9B3F2p-10 },
-	{ 0x1.B6A31543931F5p-2, 0x1.8F166655A79A0p-5, 0x1.FC6D9D85D99E8p-7, 0x1.E82C00993462Bp-8, 0x1.240B84016E901p-8, 0x1.8E7D87FA80090p-9, 0x1.27BC4D95FF5C1p-9, 0x1.D0AFEC505705Ap-10, 0x1.7C1EDC407A143p-10, 0x1.40534E15895FDp-10, 0x1.141B16F1E667Fp-10 },
-	{ 0x1.B4299643778A7p-2, 0x1.88CEC36CDB8E1p-5, 0x1.F067841AB4254p-7, 0x1.D9D0CDD7462ACp-8, 0x1.1A43E1BACB935p-8, 0x1.7FFD768057F1Cp-9, 0x1.1C5A4779D0F2Ap-9, 0x1.BE136D7AD95E5p-10, 0x1.6C71C575AD2B3p-10, 0x1.32D186E152C43p-10, 0x1.084283D8A767Cp-10 },
-	{ 0x1.B1BA050105828p-2, 0x1.82AD091453EA2p-5, 0x1.E4BBC0464825Fp-7, 0x1.CBF07F5BB51DBp-8, 0x1.10D740BBB32D4p-8, 0x1.720C28CC3715Bp-9, 0x1.116CE529B4B02p-9, 0x1.AC3B53B129263p-10, 0x1.5D6DD607CFB1Ep-10, 0x1.25E40E3512D19p-10, 0x1.F9DBA927AA501p-11 },
-	{ 0x1.AF5425B998523p-2, 0x1.7CB01B15362CFp-5, 0x1.D9674DE6273A6p-7, 0x1.BE869ED22D19Bp-8, 0x1.07C221B9A4660p-8, 0x1.64A3E8DAD150Dp-9, 0x1.06EF5864FB0DEp-9, 0x1.9B1F588B737ADp-10, 0x1.4F0BCD3786EECp-10, 0x1.198471468C937p-10, 0x1.E42E78A163377p-11 },
-	{ 0x1.ACF7BE69A8E67p-2, 0x1.76D6E6B26235Ap-5, 0x1.CE6744D97A32Dp-7, 0x1.B18EE1C3667B6p-8, 0x1.FE025269E8832p-9, 0x1.57BF3CDE0A28Ep-9, 0x1.F9BA0D780C65Cp-10, 0x1.8AB7906FD75EAp-10, 0x1.4144BAFB8C49Dp-10, 0x1.0DAC85E041684p-10, 0x1.CF7260471A992p-11 },
-	{ 0x1.AAA496BDEB695p-2, 0x1.712062508EB12p-5, 0x1.C3B8D7EDECE4Ep-7, 0x1.A50527D480EFDp-8, 0x1.ED223BFF4A3B7p-9, 0x1.4B58E4B404C91p-9, 0x1.E6630EAFB9B14p-10, 0x1.7AFC66A02BFECp-10, 0x1.3411FC7469191p-10, 0x1.02566728E64A8p-10, 0x1.BB9CC82A44C63p-11 },
-	{ 0x1.A85A7804F6C5Ap-2, 0x1.6B8B8D21C4159p-5, 0x1.B95953D795D26p-7, 0x1.98E57918D393Bp-8, 0x1.DCDDCFA83B4A5p-9, 0x1.3F6BD77A009A1p-9, 0x1.D3D141B4DEF6Bp-10, 0x1.6BE699742CE85p-10, 0x1.276D38887EBDAp-10, 0x1.EEF8E51F72CBEp-11, 0x1.A8A390A3D4E66p-11 },
-	{ 0x1.A6192D2170CA4p-2, 0x1.66176ED413C05p-5, 0x1.AF461E336604Ep-7, 0x1.8D2C04756B93Ep-8, 0x1.CD2F1BF622A51p-9, 0x1.33F34139CD5A7p-9, 0x1.C1FC8EACF4128p-10, 0x1.5D6F36BE13FB5p-10, 0x1.1B505CA68DC34p-10, 0x1.DA3289B81DECFp-11, 0x1.967D0CF3CA420p-11 },
-	{ 0x1.A3E0827CB9DBEp-2, 0x1.60C317436A353p-5, 0x1.A57CB493B25C1p-7, 0x1.81D51E157B058p-8, 0x1.BE106BFFE818Fp-9, 0x1.28EA80B0AF2B9p-9, 0x1.B0DD34BBF12D8p-10, 0x1.4F8F9857BF744p-10, 0x1.0FB599AD0376Fp-10, 0x1.C64F6EBCFF55Ep-11, 0x1.851FFE1EAF3F3p-11 },
-	{ 0x1.A1B045FA13552p-2, 0x1.5B8D9E2E5CD8Dp-5, 0x1.9BFAAB966C302p-7, 0x1.76DD3DEF01D16p-8, 0x1.AF7C44E6B3383p-9, 0x1.1E4D252E98053p-9, 0x1.A06BC64C62C61p-10, 0x1.424160D697EC9p-10, 0x1.049760F4693E6p-10, 0x1.B345BA846A4ABp-11, 0x1.74838E063C4C4p-11 },
-	{ 0x1.9F8846EA3BE9Ap-2, 0x1.567622EDD4CB3p-5, 0x1.92BDAE04A3A16p-7, 0x1.6C40FE5702570p-8, 0x1.A16D63755153Cp-9, 0x1.1416EC8CA8664p-9, 0x1.90A12580C36B9p-10, 0x1.357E78647EC10p-10, 0x1.F3E0C2F6C7CA9p-11, 0x1.A10C01F9C5756p-11, 0x1.649F4ABA71974p-11 },
-	{ 0x1.9D6855FF7D8C4p-2, 0x1.517BCC2F79C7Ep-5, 0x1.89C37BFAF2307p-7, 0x1.61FD1AA49ADFCp-8, 0x1.93DEB9D91F0B8p-9, 0x1.0A43C139F4F55p-9, 0x1.817680CC4BBC8p-10, 0x1.294109BC20EF0p-10, 0x1.DF770A6586550p-11, 0x1.8F9943B812A09p-11, 0x1.556B2200999D4p-11 },
-	{ 0x1.9B504542288B0p-2, 0x1.4C9DC7B2C1205p-5, 0x1.8109EA1A70504p-7, 0x1.580E6DE2641A2p-8, 0x1.86CB6D735EA1Fp-9, 0x1.00CFB85D9A152p-9, 0x1.72E54FB17DBC3p-10, 0x1.1D837F471D3BEp-10, 0x1.CBE7DCD0662B9p-11, 0x1.7EE4E35C6A5CFp-11, 0x1.46DF5D0DC457Cp-11 },
-	{ 0x1.993FE80577BA6p-2, 0x1.47DB4A08860B2p-5, 0x1.788EE0C1DC8B1p-7, 0x1.4E71F18D7BA83p-8, 0x1.7A2ED4C1F053Ep-9, 0x1.EF6E201A62903p-10, 0x1.64E74FA4C42F9p-10, 0x1.1240805C7E5F1p-10, 0x1.B929EA9C6233Fp-11, 0x1.6EE6A50DE7BEAp-11, 0x1.38F49C72672EFp-11 },
-	{ 0x1.973712DCD9B76p-2, 0x1.43338E551198Bp-5, 0x1.70505B4E9E925p-7, 0x1.4524BC61A850Ap-8, 0x1.6E04755E6D7F1p-9, 0x1.DDEC5B2D8D254p-10, 0x1.57768111916F6p-10, 0x1.0772EE9E1B043p-10, 0x1.A7344B3FED816p-11, 0x1.5F96A9389D7EEp-11, 0x1.2BA3D434E8EECp-11 },
-	{ 0x1.95359B919B6CDp-2, 0x1.3EA5D61479ACCp-5, 0x1.684C676554262p-7, 0x1.3C2401320BA09p-8, 0x1.62480212B26F5p-9, 0x1.CD1337BAEBE57p-10, 0x1.4A8D24807AFFDp-10, 0x1.FA2BC6E6FBA01p-11, 0x1.95FE78C03543Cp-11, 0x1.50ED68794993Bp-11, 0x1.1EE64818FAD2Bp-11 },
-	{ 0x1.933B5918F031Fp-2, 0x1.3A3168E13F5ACp-5, 0x1.60812441992E7p-7, 0x1.336D0DCDDAC4Fp-8, 0x1.56F55901ED375p-9, 0x1.BCDC138FC4EC1p-10, 0x1.3E25B7DCE05A8p-10, 0x1.E6495B420E573p-11, 0x1.85804B616D805p-11, 0x1.42E3AFB796D93p-11, 0x1.12B58811B869Cp-11 },
-	{ 0x1.9148238A53FB2p-2, 0x1.35D5943D15FBFp-5, 0x1.58ECC20CBFA9Dp-7, 0x1.2AFD49F09E17Cp-8, 0x1.4C0881E552125p-9, 0x1.AD40917F82FEAp-10, 0x1.323AF3D8BBAAAp-10, 0x1.D3359DF413011p-11, 0x1.75B1F587E2279p-11, 0x1.35729C6CD5B84p-11, 0x1.070B6CDC9F9B6p-11 },
-	{ 0x1.8F5BD4164439Fp-2, 0x1.3191AB5BBD3FCp-5, 0x1.518D813B2F396p-7, 0x1.22D2363D7C568p-8, 0x1.417DAC5B9F751p-9, 0x1.9E3A96837ADF6p-10, 0x1.26C7C96D4AD9Ap-10, 0x1.C0E7F4595D981p-11, 0x1.668BFFC7A0414p-11, 0x1.289399152CE0Ep-11, 0x1.F7C4298711209p-12 },
-	{ 0x1.8D7644FD4C2BBp-2, 0x1.2D6506EFD95B4p-5, 0x1.4A61B1F02714Bp-7, 0x1.1AE96B451BAFBp-8, 0x1.37512E4AA52DEp-9, 0x1.8FC446F9F6523p-10, 0x1.1BC75F774E325p-10, 0x1.AF58214D080D2p-11, 0x1.58074520A3DD6p-11, 0x1.1C4059C95A431p-11, 0x1.E267C107B5629p-12 },
-	{ 0x1.8B97518761774p-2, 0x1.294F04F9B553Dp-5, 0x1.4367B367A012Cp-7, 0x1.13409895A7D95p-8, 0x1.2D7F82520AC91p-9, 0x1.81D804032B82Bp-10, 0x1.1135106DA820Ap-10, 0x1.9E7E412127B11p-11, 0x1.4A1CEF658F511p-11, 0x1.1072D8FF3275Cp-11, 0x1.CDF6E0B2A0CC4p-12 },
-	{ 0x1.89BED5FB8E17Ep-2, 0x1.254F0897DC320p-5, 0x1.3C9DF3660F362p-7, 0x1.0BD583D491294p-8, 0x1.2405464E99DF5p-9, 0x1.747068FAD692Dp-10, 0x1.070C683137326p-10, 0x1.8E52C5C40CF82p-11, 0x1.3CC673CB07071p-11, 0x1.0525546F21C1Dp-11, 0x1.BA6742555D894p-12 },
-	{ 0x1.87ECAF97E4B41p-2, 0x1.216479D976B07p-5, 0x1.3602EDADCBD19p-7, 0x1.04A607E19D3FBp-8, 0x1.1ADF39ED59081p-9, 0x1.6788490D3980Ap-10, 0x1.FA9243E9A0FA7p-11, 0x1.7ECE731091059p-11, 0x1.2FFD8F9DE2E91p-11, 0x1.F4A4943A0C343p-12, 0x1.A7AF13ADD20C1p-12 },
-	{ 0x1.8620BC89BC99Ap-2, 0x1.1D8EC5925BB8Ap-5, 0x1.2F952B79DEDF0p-7, 0x1.FB602805CC691p-9, 0x1.120A3D4DCBE0Ep-9, 0x1.5B1AACE6545AFp-10, 0x1.E7CE4C7899FCEp-11, 0x1.6FEA5B478B107p-11, 0x1.23BC451E7B265p-11, 0x1.DFE8EB0598E36p-12, 0x1.95C4F14272C1Fp-12 },
-	{ 0x1.845ADBE632B53p-2, 0x1.19CD5D30C2B81p-5, 0x1.295342FE03925p-7, 0x1.EDE35632D2D8Ep-9, 0x1.09834FB2B3FE8p-9, 0x1.4F22D07A34E8Bp-10, 0x1.D5C511E350CF1p-11, 0x1.619FDBB09D4C1p-11, 0x1.17FCD87F69EF1p-11, 0x1.CC0D99B69C591p-12, 0x1.849FE17593C43p-12 },
-	{ 0x1.829AEDA2ECF62p-2, 0x1.161FB69487861p-5, 0x1.233BD6EBA3817p-7, 0x1.E0D1C5BB96797p-9, 0x1.01478E40B5ACDp-9, 0x1.439C20E5497CCp-10, 0x1.C46F0F1E76492p-11, 0x1.53E899609DA61p-11, 0x1.0CB9CD062EA66p-11, 0x1.B908FD17F9B8Ep-12, 0x1.74374FD130245p-12 },
-	{ 0x1.80E0D28F1DA88p-2, 0x1.12854BE7F03B7p-5, 0x1.1D4D95FB9AF52p-7, 0x1.D427C649F0BB5p-9, 0x1.F2A865949444Ep-10, 0x1.38823A63AEBC4p-10, 0x1.B3C50EBC48829p-11, 0x1.46BE7E23F2638p-11, 0x1.01EDE24C3120Ap-11, 0x1.A6D1DD57F650Bp-12, 0x1.648308889B5D9p-12 },
-	{ 0x1.7F2C6C4CC4678p-2, 0x1.0EFD9B79E5FDEp-5, 0x1.17873A7C9416Bp-7, 0x1.C7E1CA58A3B12p-9, 0x1.E34D2550DE89Fp-10, 0x1.2DD0E65E7B9B6p-10, 0x1.A3C02790045CAp-11, 0x1.3A1BB58B4D7B7p-11, 0x1.EF28233D69860p-12, 0x1.955F694EA34B5p-12, 0x1.557B342DAEFFAp-12 },
-	{ 0x1.7D7D9D4A2A62Ep-2, 0x1.0B882799925C4p-5, 0x1.11E789E5C9B8Dp-7, 0x1.BBFC65DA27459p-9, 0x1.D4783B3F168E1p-10, 0x1.2384198E19D8Ap-10, 0x1.9459B976469D6p-11, 0x1.2DFAAA19438CFp-11, 0x1.DB4F16F8B7AE1p-12, 0x1.84A931F9FB392p-12, 0x1.4718539722D2Dp-12 },
-	{ 0x1.7BD448BB97C80p-2, 0x1.08247673536BEp-5, 0x1.0C6D546E046D3p-7, 0x1.B0744CED52ED2p-9, 0x1.C624B9A000A6Bp-10, 0x1.1997F230C3BF4p-10, 0x1.858B6A40C158Ap-11, 0x1.2256028F4C7E1p-11, 0x1.C8476A5DD63A5p-12, 0x1.74A7262D4C650p-12, 0x1.39533BF5D89B6p-12 },
-	{ 0x1.7A30529540347p-2, 0x1.04D211EEF9656p-5, 0x1.071774A6A6787p-7, 0x1.A546529F51653p-9, 0x1.B84DE363E43E8p-10, 0x1.1008B6544A0A8p-10, 0x1.774F22C3BC794p-11, 0x1.17289F58CC3C3p-11, 0x1.B6084D0019676p-12, 0x1.65518E71A49AFp-12, 0x1.2C251316FE4FFp-12 },
-	{ 0x1.78919F85642CEp-2, 0x1.0190878F4108Ap-5, 0x1.01E4CF1A9CFF1p-7, 0x1.9A6F67BA5240Dp-9, 0x1.AAEF2A37894EDp-10, 0x1.06D2D2324E5CAp-10, 0x1.699F0C03E984Bp-11, 0x1.0C6D9812D1C66p-11, 0x1.A4894F0FBF7EFp-12, 0x1.56A109150D7A2p-12, 0x1.1F874BD102156p-12 },
-	{ 0x1.76F814EEA5A86p-2, 0x1.FCBED0A4FD1F9p-6, 0x1.F9A8A3E21CFCDp-8, 0x1.8FEC99A072E87p-9, 0x1.9E042CA5C10B2p-10, 0x1.FBE5AD3C4FE0Ep-11, 0x1.5C758C832337Fp-11, 0x1.0220392F49A4Ep-11, 0x1.93C25D285FF0Fp-12, 0x1.488E866681A83p-12, 0x1.1373A2996AB95p-12 },
-	{ 0x1.756398E28DD17p-2, 0x1.F67C9128DAF1Fp-6, 0x1.EFC9E92740934p-8, 0x1.85BB11325E5C1p-9, 0x1.9188B44C9C829p-10, 0x1.EACAEF0761E4Dp-11, 0x1.4FCD45AAC163Dp-11, 0x1.F0780364DE83Dp-12, 0x1.83ABBC4E7AA62p-12, 0x1.3B13451C9B562p-12, 0x1.07E41A41BDB4Bp-12 },
-	{ 0x1.73D4121C4230Ep-2, 0x1.F0597FE233C78p-6, 0x1.E62B6EB05CA89p-8, 0x1.7BD811C1286EEp-9, 0x1.8578B4257D720p-10, 0x1.DA4F14EC86AE0p-11, 0x1.43A1115238844p-11, 0x1.DD794212AC894p-12, 0x1.743E061A10FD9p-12, 0x1.2E28CEE5138B8p-12, 0x1.F9A5F1B362225p-13 },
-	{ 0x1.724967FB6789Fp-2, 0x1.EA54D251B169Dp-6, 0x1.DCCB465BA4314p-8, 0x1.7240F80AEE629p-9, 0x1.79D046DF3690Dp-10, 0x1.CA6C0A9E6814Cp-11, 0x1.37EBFF60CAF93p-11, 0x1.CB3BE9F0E43DCp-12, 0x1.6572250C49C44p-12, 0x1.21C8F51B3FA27p-12, 0x1.E4758969F7C5Ep-13 },
-	{ 0x1.70C3827F30BE1p-2, 0x1.E46DC40A883E1p-6, 0x1.D3A7929A2DAE2p-8, 0x1.68F33941CBBD4p-9, 0x1.6E8BAD49794ACp-10, 0x1.BB1BF9B646091p-11, 0x1.2CA953891F8CEp-11, 0x1.B9B80F421CF23p-12, 0x1.5741510E38467p-12, 0x1.15EDCDA3CF5B5p-12, 0x1.D02C832656E55p-13 },
-	{ 0x1.6F424A41981F2p-2, 0x1.DEA3967E6534Ap-6, 0x1.CABE85D675A1Fp-8, 0x1.5FEC621CB6F41p-9, 0x1.63A74CD0D724Cp-10, 0x1.AC59472AFC475p-11, 0x1.21D4831D9E1F0p-11, 0x1.A8E61B396E296p-12, 0x1.49A50C16F45D7p-12, 0x1.0A91AFEC21F40p-12, 0x1.BCC0DBCFEB771p-13 },
-	{ 0x1.6DC5A872C1A8Ap-2, 0x1.D8F590CB3D737p-6, 0x1.C20E61E0BCE5Cp-8, 0x1.572A15F1DE114p-9, 0x1.591FAE0AA4F6Ap-10, 0x1.9E1E90E337693p-11, 0x1.176932FC7FE18p-11, 0x1.98BEC85B32412p-12, 0x1.3C971EF7462A9p-12, 0x1.FF5E6417379E7p-13, 0x1.AA2900852727Fp-13 },
-	{ 0x1.6C4D86D484A47p-2, 0x1.D362FF8AED5C4p-6, 0x1.B995776107505p-8, 0x1.4EAA0DDA1FD41p-9, 0x1.4EF17B5015BB1p-10, 0x1.9066AB61B08E2p-11, 0x1.0D6335928C999p-11, 0x1.893B1F05E5BB0p-12, 0x1.301196493C0CDp-12, 0x1.EA824C0AF0F43p-13, 0x1.985BC9A57B707p-13 },
-	{ 0x1.6AD9CFB61B504p-2, 0x1.CDEB34A49549Ap-6, 0x1.B152254E8194Dp-8, 0x1.466A17DD41F4Ap-9, 0x1.45197F67E9F8Bp-10, 0x1.832C9F8A53AE5p-11, 0x1.03BE88F389D77p-11, 0x1.7A54722161ACCp-12, 0x1.240EBF8214559p-12, 0x1.D6852E534C992p-13, 0x1.87507613F01E4p-13 },
-	{ 0x1.696A6DEFF725Dp-2, 0x1.C88D871FA3102p-6, 0x1.A942D86C178FDp-8, 0x1.3E68162689321p-9, 0x1.3B94A43E17B76p-10, 0x1.766BA87F40F12p-11, 0x1.F4EEAA0ED8262p-12, 0x1.6C045BF2C3BCCp-12, 0x1.18892624F661Dp-12, 0x1.C35D8F26930E2p-13, 0x1.76FEA6AFCBC63p-13 },
-	{ 0x1.67FF4CDFB875Cp-2, 0x1.C34952F877FEAp-6, 0x1.A1660ACA0679Ap-8, 0x1.36A1FE415BA22p-9, 0x1.325FF1A8D59C4p-10, 0x1.6A1F3194A51D7p-11, 0x1.E313D396C839Ep-12, 0x1.5E44BB13690BCp-12, 0x1.0D7B91150808Bp-12, 0x1.B1025B872967Ap-13, 0x1.675E5A00E0F58p-13 },
-	{ 0x1.6698586448106p-2, 0x1.BE1DF8F69BBA3p-6, 0x1.99BA434C38957p-8, 0x1.2F15D85D99629p-9, 0x1.29788C3A7A1F8p-10, 0x1.5E42D45A70739p-11, 0x1.D1E57B4BDAB55p-12, 0x1.510FAF89738ECp-12, 0x1.02E100057CD9Fp-12, 0x1.9F6AE4AF66801p-13, 0x1.5867E8152F036p-13 },
-	{ 0x1.65357CDA11C67p-2, 0x1.B90ADE846CF3Bp-6, 0x1.923E15353A065p-8, 0x1.27C1BE9B5B4A4p-9, 0x1.20DBB41FA5E54p-10, 0x1.52D256BAFDFE1p-11, 0x1.C15CD79A15C07p-12, 0x1.445F980062B15p-12, 0x1.F169520C98DC6p-13, 0x1.8E8EDBB1237C3p-13, 0x1.4A13FE8DA02A9p-13 },
-	{ 0x1.63D6A7175E951p-2, 0x1.B40F6D884189Fp-6, 0x1.8AF01FB59866Bp-8, 0x1.20A3DC5DCA93Fp-9, 0x1.1886C40936158p-10, 0x1.47C9A92DC7A7Bp-11, 0x1.B173657BD5434p-12, 0x1.382F0F2058A5Dp-12, 0x1.DDE3EC589843Cp-13, 0x1.7E664D46BA317p-13, 0x1.3C5B9CD7C8211p-13 },
-	{ 0x1.627BC468CD5C9p-2, 0x1.AF2B143EE83DFp-6, 0x1.83CF0D7F80A52p-8, 0x1.19BA6DA4C7B0Bp-9, 0x1.10773021811E2p-10, 0x1.3D24E4FD4D3A4p-11, 0x1.A222E58A5D79Cp-12, 0x1.2C78E902B59C7p-12, 0x1.CB2906A6EDF01p-13, 0x1.6EE99DD33E695p-13, 0x1.2F3810929EC89p-13 },
-	{ 0x1.6124C28DE90D6p-2, 0x1.AA5D45177EA9Ep-6, 0x1.7CD9945E70755p-8, 0x1.1303BE6D19830p-9, 0x1.08AA850C65A12p-10, 0x1.32E04A9F5DCA0p-11, 0x1.9365592E4A7ADp-12, 0x1.213830C2C1368p-12, 0x1.B93037F4784C6p-13, 0x1.6011858FD83A9p-13, 0x1.22A2F21C49DEFp-13 },
-	{ 0x1.5FD18FB5DB3FBp-2, 0x1.A5A576908EB15p-6, 0x1.760E74D2D260Fp-8, 0x1.0C7E2A16E134Cp-9, 0x1.011E66F1B867Cp-10, 0x1.28F8401EFC0D9p-11, 0x1.8534FFEE7D790p-12, 0x1.1668262928FD6p-12, 0x1.A7F1726973DC1p-13, 0x1.51D70CE43DC76p-13, 0x1.169621471ED09p-13 },
-	{ 0x1.5E821A7C3A33Cp-2, 0x1.A10323166721Bp-6, 0x1.6F6C79B15D2BCp-8, 0x1.06281AD211AABp-9, 0x1.F3A12123462D5p-11, 0x1.1F694F971EB93p-11, 0x1.778C54DC37D46p-12, 0x1.0C043B7128726p-12, 0x1.9764FF6DADED0p-13, 0x1.443388E861B28p-13, 0x1.0B0BC2341B08Ap-13 },
-	{ 0x1.5D3651E5F1459p-2, 0x1.9C75C8E2A3B53p-6, 0x1.68F277C610D69p-8, 0x1.00000910AC4C6p-9, 0x1.E57DA4C51411Ap-11, 0x1.163025BD9629Bp-11, 0x1.6A660C1B22B8Cp-12, 0x1.020813263C7C1p-12, 0x1.87837BE870A80p-13, 0x1.3720980D81973p-13, 0x1.FFFC74A24ABF2p-14 },
-	{ 0x1.5BEE255E42E3Cp-2, 0x1.97FCE9DCD9201p-6, 0x1.629F4D7AAD127p-8, 0x1.F408F5FD0ED5Ap-10, 0x1.D7CE2370285FEp-11, 0x1.0D49907D68874p-11, 0x1.5DBD10841000Ep-12, 0x1.F0DEFC32A120Dp-13, 0x1.7845D4AA3BC70p-13, 0x1.2A981EECD4C8Dp-13, 0x1.EAD05AF2FD421p-14 },
-	{ 0x1.5AA984B3E3258p-2, 0x1.93980B7C5A428p-6, 0x1.5C71E2807E6BFp-8, 0x1.E86807FCCA17Bp-10, 0x1.CA8E8FE5E83EEp-11, 0x1.04B27D9FFD0ADp-11, 0x1.518C81614E78Ep-12, 0x1.DE6CF2D8C00A5p-13, 0x1.69A542FE7319Dp-13, 0x1.1E94453A2FA9Ep-13, 0x1.D688F66DB331Dp-14 },
-	{ 0x1.596860162A22Ap-2, 0x1.8F46B6AB0C051p-6, 0x1.5669277D60DC3p-8, 0x1.DD1A885846792p-10, 0x1.BDBB03722AFDDp-11, 0x1.F8CFF308EC84Cp-12, 0x1.45CFB04378647p-12, 0x1.CCB2596722E68p-13, 0x1.5B9B496340E87p-13, 0x1.130F72D9030C3p-13, 0x1.C31C78434977Dp-14 },
-	{ 0x1.582AA8125D394p-2, 0x1.8B0877A93DCF8p-6, 0x1.508415BBD7C6Bp-8, 0x1.D21DCFC7A2A8Bp-10, 0x1.B14FBC6BAC180p-11, 0x1.E8CE5BC9441A8p-12, 0x1.3A821EEDAF670p-12, 0x1.BBA7D055BA2F4p-13, 0x1.4E21B065FE3C5p-13, 0x1.08044D1231514p-13, 0x1.B0817EBE40A73p-14 },
-	{ 0x1.56F04D910E745p-2, 0x1.86DCDDF27CEC9p-6, 0x1.4AC1AEDE1CB29p-8, 0x1.C76F4E9AEF79Ap-10, 0x1.A5491CC3EA259p-11, 0x1.D95AC14DD93F0p-12, 0x1.2F9F7D58449BAp-12, 0x1.AB4645FEB33E8p-13, 0x1.413283A286299p-13, 0x1.FADB67D288E91p-14, 0x1.9EAF1077D852Ap-14 },
-	{ 0x1.55B941D3914E6p-2, 0x1.82C37C23598E8p-6, 0x1.4520FC94074BDp-8, 0x1.BD0C8BDAC3D2Dp-10, 0x1.99A3A8A5CFB5Bp-11, 0x1.CA6FE57994475p-12, 0x1.2523A7C8D6DA3p-12, 0x1.9B86F356A9ADCp-13, 0x1.34C80EE3EB6CBp-13, 0x1.E68D7F1F41A9Dp-14, 0x1.8D9C97C38E079p-14 },
-	{ 0x1.548576718412Cp-2, 0x1.7EBBE7E014845p-6, 0x1.3FA11053B2668p-8, 0x1.B2F32471784E3p-10, 0x1.8E5C052289ECBp-11, 0x1.BC08BE1A212E1p-12, 0x1.1B0AA4FEFBD2Cp-12, 0x1.8C6358C8CE9F3p-13, 0x1.28DCDB6519186p-13, 0x1.D3157BE8C0F6Bp-14, 0x1.7D41DE4E91E26p-14 },
-	{ 0x1.5354DD566D25Cp-2, 0x1.7AC5B9BC2D082p-6, 0x1.3A410314C2E0Dp-8, 0x1.A920CA5CB1AB3p-10, 0x1.836EF6EBF7537p-11, 0x1.AE2072D3827AFp-12, 0x1.1150A47492E31p-12, 0x1.7DD53B35766C8p-13, 0x1.1D6BAD2FF7B08p-13, 0x1.C06A60DF23A01p-14, 0x1.6D9708F0DEA9Cp-14 },
-	{ 0x1.522768BF6B85Ap-2, 0x1.76E08D22C663Ep-6, 0x1.34FFF50E36580p-8, 0x1.9F9343E6E4E2Ap-10, 0x1.78D9611C1F90Ap-11, 0x1.A0B25B218D165p-12, 0x1.07F1FCB0EA4B8p-12, 0x1.6FD6A1118EBD2p-13, 0x1.126F8099BFF2Cp-13, 0x1.AE83930F4666Dp-14, 0x1.5E9493ADBE14Fp-14 },
-	{ 0x1.50FD0B38F9D87p-2, 0x1.730C003FDD7C4p-6, 0x1.2FDD0D76A0AE3p-8, 0x1.96486AE88327Fp-10, 0x1.6E9844092ACB0p-11, 0x1.93B9FC6E614DBp-12, 0x1.FDD6535BD1832p-13, 0x1.6261CFA58FC98p-13, 0x1.07E387DB33BA6p-13, 0x1.9D58D59FA59ABp-14, 0x1.50334DE19B60Ep-14 },
-	{ 0x1.4FD5B79CC3662p-2, 0x1.6F47B3EA469F2p-6, 0x1.2AD77A46C05F2p-8, 0x1.8D3E2C107F839p-10, 0x1.64A8BC2555370p-11, 0x1.8733083CFF614p-12, 0x1.EC71969CEC957p-13, 0x1.5571486A8B927p-13, 0x1.FB86518707DB0p-14, 0x1.8CE245BD0E43Ep-14, 0x1.426C569B1EB24p-14 },
-	{ 0x1.4EB1610F8A5F4p-2, 0x1.6B934B8E6C3E3p-6, 0x1.25EE6FFE52991p-8, 0x1.84728633E2E6Dp-10, 0x1.5B0800EA60D83p-11, 0x1.7B195A671F974p-12, 0x1.DBAF47CACFA84p-13, 0x1.48FFC6840D230p-13, 0x1.E813F50970771p-14, 0x1.7D1856B503412p-14, 0x1.3539191DA3012p-14 },
-	{ 0x1.4D8FFAFF1EDACp-2, 0x1.67EE6D19C787Ep-6, 0x1.2121296B10F75p-8, 0x1.7BE389A426B11p-10, 0x1.51B363D00CC74p-11, 0x1.6F68F76D7F085p-12, 0x1.CB892D98724D1p-13, 0x1.3D083C5588924p-13, 0x1.D5678730F564Ap-14, 0x1.6DF3CE3BD0EAAp-14, 0x1.2893498B2E7E2p-14 },
-	{ 0x1.4C71792065F76p-2, 0x1.6458C0E70C13Dp-6, 0x1.1C6EE771C3A14p-8, 0x1.738F578C1090Bp-10, 0x1.48A84F4D1E5C2p-11, 0x1.641E0AD9DB2E1p-12, 0x1.BBF94E11D145Cp-13, 0x1.3185D1322A775p-13, 0x1.C378EF786BA67p-14, 0x1.5F6DC0DC60DCFp-14, 0x1.1C74E1B42A93Dp-14 },
-	{ 0x1.4B55CF6D70953p-2, 0x1.60D1F1AB001D8p-6, 0x1.17D6F0D953664p-8, 0x1.6B742152CD7EEp-10, 0x1.3FE445E28D747p-11, 0x1.5934E5B1DEA9Fp-12, 0x1.ACF9EC049F57Ep-13, 0x1.2673DF25E2DDFp-13, 0x1.B2406C06FFCE6p-14, 0x1.517F8E8FF5960p-14, 0x1.10D81E0B2CE1Ap-14 },
-	{ 0x1.4A3CF223A11EAp-2, 0x1.5D59AC61FB053p-6, 0x1.13589217C8409p-8, 0x1.639028050C4C6p-10, 0x1.3764E13069B06p-11, 0x1.4EA9FCFA49D17p-12, 0x1.9E858484B387Ap-13, 0x1.1BCDF0D6948E4p-13, 0x1.A1B68DFFB3B6Cp-14, 0x1.4422DF7C0A9B0p-14, 0x1.05B77ABB35E35p-14 },
-	{ 0x1.4926D5C1DFDF9p-2, 0x1.59EFA03E040E4p-6, 0x1.0EF31D21216E7p-8, 0x1.5BE1BBC3DACD4p-10, 0x1.2F27D11412F19p-11, 0x1.4479E849A943Bp-12, 0x1.9096CC8B0670Ap-13, 0x1.118FBF7C5DB26p-13, 0x1.91D435F9A5EFEp-14, 0x1.3751A0D4A9F71p-14, 0x1.F61B61BDB8D36p-15 },
-	{ 0x1.48136F06DD6BFp-2, 0x1.56937E958B8C8p-6, 0x1.0AA5E937F5126p-8, 0x1.54673B390B2EAp-10, 0x1.272ADACF63A67p-11, 0x1.3AA16069F433Dp-12, 0x1.8328AEAE1D7E3p-13, 0x1.07B530EFFA8C8p-13, 0x1.8292909F5A975p-14, 0x1.2B0601E19B164p-14, 0x1.E1AB67ADDD4FAp-15 },
-	{ 0x1.4702B2EF629C6p-2, 0x1.5344FAD2B8EABp-6, 0x1.067052BFC5FFDp-8, 0x1.4D1F1310E965Fp-10, 0x1.1F6BD8386F7F8p-11, 0x1.311D3E087323Dp-12, 0x1.763648F2CF436p-13, 0x1.FC74AB9C9C354p-14, 0x1.73EB137351725p-14, 0x1.1F3A7124E1559p-14, 0x1.CE155D7E44D87p-15 },
-	{ 0x1.45F496B4ADACAp-2, 0x1.5003CA63482AAp-6, 0x1.0251BB10FF0B1p-8, 0x1.4607BD790AF02p-10, 0x1.17E8B6F17D106p-11, 0x1.27EA787356926p-12, 0x1.69BAEAB458212p-13, 0x1.EA36CF604E562p-14, 0x1.65D779B848616p-14, 0x1.13E999A112265p-14, 0x1.BB5003FEFC590p-15 },
-	{ 0x1.44E90FCADC0ACp-2, 0x1.4CCFA4A8F1B49p-6, 0x1.FC93109D07B77p-9, 0x1.3F1FC1A405493p-10, 0x1.109F77A8E49A1p-11, 0x1.1F0624646B971p-12, 0x1.5DB212A2C1D44p-13, 0x1.D8A98EEAC5322p-14, 0x1.5851C17B9BA7Fp-14, 0x1.090E603E1B5CCp-14, 0x1.A95281F267C45p-15 },
-	{ 0x1.43E013DF606A2p-2, 0x1.49A842EA577C2p-6, 0x1.F4AE4A798FC37p-9, 0x1.3865B351D99D0p-10, 0x1.098E2D6081CEBp-11, 0x1.166D72D8629B0p-12, 0x1.52176CD6AB71Cp-13, 0x1.C7C5F7452A48Cp-14, 0x1.4B5428C047117p-14, 0x1.FD47C296447E0p-15, 0x1.98145F9B6AB95p-15 },
-	{ 0x1.42D998D784B1Ep-2, 0x1.468D604472B2Bp-6, 0x1.ECF40234B951Fp-9, 0x1.31D8325CE6374p-10, 0x1.02B2FCBC69C98p-11, 0x1.0E1DAFF2224A8p-12, 0x1.46E6D0F989C6Cp-13, 0x1.B7855DA0E14F8p-14, 0x1.3ED92AC91BC8Ap-14, 0x1.E94ADC386655Ep-15, 0x1.878D827DAF54Ap-15 },
-	{ 0x1.41D594CEF761Ep-2, 0x1.437EB99C7D6CBp-6, 0x1.E5631EF3D2B86p-9, 0x1.2B75EA4B30225p-10, 0x1.F81836B1337D1p-12, 0x1.061441E9A6890p-12, 0x1.3C1C408182103p-13, 0x1.A7E15C5842B2Cp-14, 0x1.32DB7D80CEC02p-14, 0x1.D61D158510815p-15, 0x1.77B6294DD12A2p-15 },
-	{ 0x1.40D3FE16640C9p-2, 0x1.407C0D9253CBFp-6, 0x1.DDFA903AFBACFp-9, 0x1.253D91E3D9423p-10, 0x1.EB2F9E4AAC0C2p-12, 0x1.FC9D500BE13E5p-13, 0x1.31B3E5000A8B8p-13, 0x1.98D3D00FD083Fp-14, 0x1.27560EFE92DD0p-14, 0x1.C3B5D7BC76D84p-15, 0x1.6886E80F4BE36p-15 },
-	{ 0x1.3FD4CB321687Ep-2, 0x1.3D851C73486C5p-6, 0x1.D6B94DA66857Ap-9, 0x1.1F2DEAC898FA3p-10, 0x1.DEA8DB93E855Fp-12, 0x1.ED94F34326185p-13, 0x1.27AA0E828582Ep-13, 0x1.8A56D4F68076Bp-14, 0x1.1C44032600BDAp-14, 0x1.B20CE9108AED6p-15, 0x1.59F8A45E255D3p-15 },
-	{ 0x1.3ED7F2D8A87ABp-2, 0x1.3A99A82D67F7Fp-6, 0x1.CF9E56A628291p-9, 0x1.1945C1130F218p-10, 0x1.D280B81B9B050p-12, 0x1.DF0ACA72D0BE9p-13, 0x1.1DFB320414375p-13, 0x1.7C64C423C519Dp-14, 0x1.11A0B1611BF24p-14, 0x1.A11A68A771003p-15, 0x1.4C0491E26262Cp-15 },
-	{ 0x1.3DDD6BF1B8EF8p-2, 0x1.37B9744327F11p-6, 0x1.C8A8B23C584BAp-9, 0x1.1383EAF5CAA97p-10, 0x1.C6B41A8E352B8p-12, 0x1.D0FA5F0A127CAp-13, 0x1.14A3E7EFE7637p-13, 0x1.6EF831120F5A6p-14, 0x1.0767A27352DFDp-14, 0x1.90D6CACA60C33p-15, 0x1.3EA42EEB6B5C9p-15 },
-	{ 0x1.3CE52D94AD981p-2, 0x1.34E445BF7CE4Bp-6, 0x1.C1D76EBDAA73Ep-9, 0x1.0DE74860DEE89p-10, 0x1.BB40059EF4918p-12, 0x1.C35F6531349C0p-13, 0x1.0BA0EAB35B13Dp-13, 0x1.620BE7348F951p-14, 0x1.FB291CC8C697Fp-15, 0x1.813AD53EFE314p-15, 0x1.31D141319B81Fp-15 },
-	{ 0x1.3BEF2F077D708p-2, 0x1.3219E32A545DCp-6, 0x1.BB29A19429C06p-9, 0x1.086EC2A9E3FBCp-10, 0x1.B02196FBD4634p-12, 0x1.B635BA1F1E1A4p-13, 0x1.02EF155F3333Dp-13, 0x1.559AE7A70B127p-14, 0x1.E846B5043393Bp-15, 0x1.723F9BC94CD3Fp-15, 0x1.2585D2BC495E6p-15 },
-	{ 0x1.3AFB67BD84745p-2, 0x1.2F5A147D6F138p-6, 0x1.B49E670428346p-9, 0x1.03194C37401E8p-10, 0x1.A556064BEFFDFp-12, 0x1.A979628005BDEp-13, 0x1.F516C4AEAB03Ap-14, 0x1.49A066F6A7CA1p-14, 0x1.D6202EEFDBD37p-15, 0x1.63DE7CD4750A6p-15, 0x1.19BC2EEAAAD80p-15 },
-	{ 0x1.3A09CF5660187p-2, 0x1.2CA4A31997EFAp-6, 0x1.AE34E1F34032Ap-9, 0x1.FBCBC05D3272Fp-11, 0x1.9ADAA437EC39Fp-12, 0x1.9D2688EC9B026p-13, 0x1.E4E5D420C9353p-14, 0x1.3E17CB029CB2Dp-14, 0x1.C4ADFEF7106FCp-15, 0x1.56111E40A7195p-15, 0x1.0E6EDF9E095DBp-15 },
-	{ 0x1.391A5D9CD4426p-2, 0x1.29F959BC34A90p-6, 0x1.A7EC3BB156277p-9, 0x1.F1A7044C9E749p-11, 0x1.90ACD97C0004Cp-12, 0x1.91397C70F7F71p-13, 0x1.D545C3B54CFCBp-14, 0x1.32FCA8F3C0CC0p-14, 0x1.B3E8E91A937D2p-15, 0x1.48D16A547B1EBp-15, 0x1.0398AA83CC8C0p-15 },
-	{ 0x1.382D0A85B875Ap-2, 0x1.275804752CCECp-6, 0x1.A1C3A3C38758Cp-9, 0x1.E7C27BB3C20FBp-11, 0x1.86CA2603395D6p-12, 0x1.85AEAF22B5807p-13, 0x1.C63135734EB0Ap-14, 0x1.284AC349FE60Ep-14, 0x1.A3C9FD97EDE1Bp-15, 0x1.3C198CD03F7B4p-15, 0x1.F2691CFBE4E63p-16 },
-	{ 0x1.3741CE2EECF37p-2, 0x1.24C0709D243D2p-6, 0x1.9BBA4FB0F38ECp-9, 0x1.DE1C4DC23E3E6p-11, 0x1.7D30200B9FD8Cp-12, 0x1.7A82B4C5826C6p-13, 0x1.B7A300901EE57p-14, 0x1.1DFE07FEBAEA8p-14, 0x1.944A95B563412p-15, 0x1.2FE3F021B8E47p-15, 0x1.DE7B825139816p-16 },
-	{ 0x1.3658A0DE578B9p-2, 0x1.22326CCC06132p-6, 0x1.95CF7AD14FFDAp-9, 0x1.D4B2B0D420181p-11, 0x1.73DC7352D9BCAp-12, 0x1.6FB2417DA47E2p-13, 0x1.A9962F4E52387p-14, 0x1.14128EBB4E50Dp-14, 0x1.856450B0EDE10p-15, 0x1.242B3AB6E82CEp-15, 0x1.CB5F58F6D2E65p-16 },
-	{ 0x1.35717B00E7DE5p-2, 0x1.1FADC8CFDD5A6p-6, 0x1.9002661D3287Bp-9, 0x1.CB83E9EAD81D6p-11, 0x1.6ACCE04AFC7C4p-12, 0x1.653A288FD1034p-13, 0x1.9C05FCF331BF2p-14, 0x1.0A849722AE3CAp-14, 0x1.771110D0BE331p-15, 0x1.18EA4C6E79EA0p-15, 0x1.B90BD90AB8D34p-16 },
-	{ 0x1.348C5529A2D35p-2, 0x1.1D3255A3F8AE1p-6, 0x1.8A52580005155p-9, 0x1.C28E4C2B2CA25p-11, 0x1.61FF3B5734F6Cp-12, 0x1.5B175B2DD0A7Fp-13, 0x1.8EEDD3D19F95Fp-14, 0x1.0150872D7BAA6p-14, 0x1.694AF893CAB40p-15, 0x1.0E1C3C24937D1p-15, 0x1.A7789A845A583p-16 },
-	{ 0x1.33A92810B50A1p-2, 0x1.1ABFE5685646Dp-6, 0x1.84BE9C2B91628p-9, 0x1.B9D0385FF6284p-11, 0x1.59716C0FF747Ep-12, 0x1.5146E74F68239p-13, 0x1.82494B69894C5p-14, 0x1.F0E5D32F54002p-15, 0x1.5C0C68010D0CCp-15, 0x1.03BC555ABFBAFp-15, 0x1.969D910FB3593p-16 },
-	{ 0x1.32C7EC928C0A5p-2, 0x1.18564B5955EA6p-6, 0x1.7F46836D163A3p-9, 0x1.B1481C81766EFp-11, 0x1.51216C8E6943Cp-12, 0x1.47C5F69704F74p-13, 0x1.7614269B0BBE7p-14, 0x1.DFD0D8BDFF317p-15, 0x1.4F4FFA1418F08p-15, 0x1.F38C2BF396EA6p-16, 0x1.86730816D71CFp-16 },
-	{ 0x1.31E89BAEF5FF2p-2, 0x1.15F55BC7AE54Fp-6, 0x1.79E96383D7AD5p-9, 0x1.A8F473411CE4Fp-11, 0x1.490D48BEBDDEEp-12, 0x1.3E91CD41B2DE4p-13, 0x1.6A4A51EC75502p-14, 0x1.CF5BBEA370082p-15, 0x1.43108245C8073p-15, 0x1.E06A5858DF25Dp-16, 0x1.76F19EF7D3722p-16 },
-	{ 0x1.310B2E8847C61p-2, 0x1.139CEC10A3C91p-6, 0x1.74A696F91C602p-9, 0x1.A0D3C3998CF15p-11, 0x1.41331DB93AC6Dp-12, 0x1.35A7C921E3B8Ep-13, 0x1.5EE7E1E25C7AEp-14, 0x1.BF80655930526p-15, 0x1.37490A2FC468Bp-15, 0x1.CE0AE8A3666FDp-16, 0x1.68124564F7515p-16 },
-	{ 0x1.302F9E62891FAp-2, 0x1.114CD2967D889p-6, 0x1.6F7D7CF98A925p-9, 0x1.98E4A062BC469p-11, 0x1.39911921A4567p-12, 0x1.2D0560A498AC5p-13, 0x1.53E911690939Bp-14, 0x1.B038EB8F98267p-15, 0x1.2BF4CF49C8BBEp-15, 0x1.BC65EE0BF972Ap-16, 0x1.59CE37ED9E2D0p-16 },
-	{ 0x1.2F55E4A2A6D05p-2, 0x1.0F04E6B9380EAp-6, 0x1.6A6D792FD8089p-9, 0x1.9125A7EA011DEp-11, 0x1.3225788CCED4Bp-12, 0x1.24A821E07FEC5p-13, 0x1.494A404E7817Bp-14, 0x1.A17FABA3DAE07p-15, 0x1.210F40BF7A064p-15, 0x1.AB73CE83A7A1Dp-16, 0x1.4C1EFCADB66F6p-16 },
-	{ 0x1.2E7DFACDAA814p-2, 0x1.0CC500CF71F5Ep-6, 0x1.6575F3A0C07C1p-9, 0x1.8995838DE9CC6p-11, 0x1.2AEE88EC1695Fp-12, 0x1.1C8DB1AE9F2E8p-13, 0x1.3F07F1CC45867p-14, 0x1.934F39313179Ep-15, 0x1.1693FD5DCB9D3p-15, 0x1.9B2D411AC55F5p-16, 0x1.3EFE60224DFE9p-16 },
-	{ 0x1.2DA7DA87F8337p-2, 0x1.0A8CFA1F918AAp-6, 0x1.6096588836AE0p-9, 0x1.8232E75DB8AF7p-11, 0x1.23EAA5FE8323Ap-12, 0x1.14B3CACC271A3p-13, 0x1.351ECB20D7AA6p-14, 0x1.85A25EBBFB76Cp-15, 0x1.0C7ED196E982Dp-15, 0x1.8B8B4A8F9C7EAp-16, 0x1.32667221830F4p-16 },
-	{ 0x1.2CD37D9491180p-2, 0x1.085CACD9211A4p-6, 0x1.5BCE1837C4B13p-9, 0x1.7AFC91BC60E0Ep-11, 0x1.1D1839C75BFD2p-12, 0x1.0D183D0510327p-13, 0x1.2B8B923723FEBp-14, 0x1.78741B75BC578p-15, 0x1.02CBB59BB0CE8p-15, 0x1.7C873A03102EEp-16, 0x1.265182F44A1ECp-16 },
-	{ 0x1.2C00DDD45BA33p-2, 0x1.0633F40E60237p-6, 0x1.571CA6F6106A1p-9, 0x1.73F14B06E18F1p-11, 0x1.1675BC09F7DD1p-12, 0x1.05B8EC6725B06p-13, 0x1.224B2C5C751BBp-14, 0x1.6BBFA118E7A47p-15, 0x1.F2ED971391253p-16, 0x1.6E1AA5D18CD9Bp-16, 0x1.1ABA20908BA9Fp-16 },
-	{ 0x1.2B2FF54570B0Ap-2, 0x1.0412ABAE079D3p-6, 0x1.52817CDF79B28p-9, 0x1.6D0FE53DDF2B4p-11, 0x1.1001B1CA91AB1p-12, 0x1.FD27A0FA4D295p-14, 0x1.195A9D039B814p-14, 0x1.5F8051DB7944Fp-15, 0x1.E0F8BB5AF0182p-16, 0x1.603F688EAF27Dp-16, 0x1.0F9B13F22D272p-16 },
-	{ 0x1.2A60BE026D8F5p-2, 0x1.01F8B07D3F990p-6, 0x1.4DFC15C7C7F41p-9, 0x1.66573BB25AEE9p-11, 0x1.09BAACD3F0663p-12, 0x1.EF4DE72351B71p-14, 0x1.10B70494FA9B6p-14, 0x1.53B1BE7762F23p-15, 0x1.CFB1B9ACC19CAp-16, 0x1.52EF9E221F2E4p-16, 0x1.04EF5E91A8F76p-16 },
-	{ 0x1.29933241CAD0Dp-2, 0x1.FFCBC023892CAp-7, 0x1.498BF11CDD6F3p-9, 0x1.5FC632B56A711p-11, 0x1.039F4B41B1668p-12, 0x1.E1E0E3F2DC7CFp-14, 0x1.085D9F4AE93FBp-14, 0x1.484FA447E2341p-15, 0x1.BF11BD7C9A25Ap-16, 0x1.4625A1042DCD8p-16, 0x1.F5646FEDD0F4Ap-17 },
-	{ 0x1.28C74C5537B38p-2, 0x1.FBB4319875D89p-7, 0x1.453091CA66C3Bp-9, 0x1.595BB74AD2426p-11, 0x1.FB5C6E1E0C92Cp-13, 0x1.D4DCF2C9BA8C1p-14, 0x1.004BC419E2AE4p-14, 0x1.3D55EB7ADC826p-15, 0x1.AF12390296BEBp-16, 0x1.39DC0798D28FFp-16, 0x1.E1BE16CE44663p-17 },
-	{ 0x1.27FD06A8FA061p-2, 0x1.F7AA73A55D7A4p-7, 0x1.40E97E1E7DABAp-9, 0x1.5316BEDE67946p-11, 0x1.EFCC4B5373854p-13, 0x1.C83E9070A947Fp-14, 0x1.F0FDC7481551Ep-15, 0x1.32C0A55568DC6p-15, 0x1.9FACE24CB2B79p-16, 0x1.2E0DA1A7B7E2Bp-16, 0x1.CEE2EB5918127p-17 },
-	{ 0x1.27345BC3525FBp-2, 0x1.F3AE46167DEAEp-7, 0x1.3CB63FAF362F8p-9, 0x1.4CF646FC1E24Cp-11, 0x1.E48BAF12A0B87p-13, 0x1.BC0259D623BBDp-14, 0x1.E1E90E6F19008p-15, 0x1.288C0A8AB7762p-15, 0x1.90DBB06FCFE80p-16, 0x1.22B575F0125ECp-16, 0x1.BCCA85ED7E549p-17 },
-	{ 0x1.266D4643E48B5p-2, 0x1.EFBF6A2DE3CD0p-7, 0x1.389663410DF03p-9, 0x1.46F9550AA89CEp-11, 0x1.D9982F9437D30p-13, 0x1.B0250AD8CE84Ap-14, 0x1.D3549FAEC4131p-15, 0x1.1EB479A490FFCp-15, 0x1.8298D8D715944p-16, 0x1.17CEBFD70E0BCp-16, 0x1.AB6CD9A56FE27p-17 },
-	{ 0x1.25A7C0E324059p-2, 0x1.EBDDA29964320p-7, 0x1.348978AE35733p-9, 0x1.411EF60892A36p-11, 0x1.CEEF7798343E5p-13, 0x1.A4A37D1DFFE44p-14, 0x1.C53BEA9C28951p-15, 0x1.1536757CAF8DBp-15, 0x1.74DECCB059170p-16, 0x1.0D54ED2FAA174p-16, 0x1.9AC23072D10A4p-17 },
-	{ 0x1.24E3C671C46DFp-2, 0x1.E808B368E401Ep-7, 0x1.308F12CEABABBp-9, 0x1.3B663E4BBCD25p-11, 0x1.C48F45AAF0B07p-13, 0x1.997AA6F3E6F64p-14, 0x1.B79A8A94189BEp-15, 0x1.0C0EA3C63B4B4p-15, 0x1.67A8367451E90p-16, 0x1.03439C1AE8746p-16, 0x1.8AC32767C1428p-17 },
-	{ 0x1.242151D82DCBFp-2, 0x1.E4406204EA920p-7, 0x1.2CA6C76124467p-9, 0x1.35CE494323B2Cp-11, 0x1.BA756B713032Fp-13, 0x1.8EA79A3EDA29Ep-14, 0x1.AA6C45061E0C9p-15, 0x1.0339CBA6BCEC0p-15, 0x1.5AEFF789686EDp-16, 0x1.F32D31FE86791p-17, 0x1.7B68AB283064Bp-17 },
-	{ 0x1.23605E15F48ABp-2, 0x1.E08475257CEC6p-7, 0x1.28D02EF4B183Ap-9, 0x1.3056393ADBC40p-11, 0x1.B09FCCFAE2B54p-13, 0x1.842783715A16Ep-14, 0x1.9DAD07D106CD2p-15, 0x1.F569A8BBBE83Dp-16, 0x1.4EB125FFFC2B5p-16, 0x1.E093B92CCB038p-17, 0x1.6CABF482EA5EBp-17 },
-	{ 0x1.22A0E641550FAp-2, 0x1.DCD4B4C93F61Dp-7, 0x1.250AE4D32AB25p-9, 0x1.2AFD37222D6E8p-11, 0x1.A70C601C620D8p-13, 0x1.79F7A88E5A811p-14, 0x1.9158E7B04BD6Cp-15, 0x1.E4F987F6C0FDFp-16, 0x1.42E70A670A95Ep-16, 0x1.CEB31420612D9p-17, 0x1.5E8685305EA37p-17 },
-	{ 0x1.21E2E586B2CE9p-2, 0x1.D930EA2CDB158p-7, 0x1.215686EC48A10p-9, 0x1.25C27253BC95Ap-11, 0x1.9DB92BCDE6F90p-13, 0x1.7015683567E74p-14, 0x1.856C1EB9A16C0p-15, 0x1.D51D7C4534F28p-16, 0x1.378D1DB82BE89p-16, 0x1.BD83DA944344Fp-17, 0x1.50F224B57C3AEp-17 },
-	{ 0x1.212657281AC25p-2, 0x1.D598DFC2A5461p-7, 0x1.1DB2B5C17196Bp-9, 0x1.20A5205FA8467p-11, 0x1.94A44790F8475p-13, 0x1.667E38B844559p-14, 0x1.79E30AEA062D6p-15, 0x1.C5D005B61F9E5p-16, 0x1.2C9F0759E6C4Ep-16, 0x1.ACFEF2346B587p-17, 0x1.43E8DD690E042p-17 },
-	{ 0x1.206B367CC92F1p-2, 0x1.D20C612A862CDp-7, 0x1.1A1F14522EA62p-9, 0x1.1BA47CD78FC18p-11, 0x1.8BCBDADB98D2Fp-13, 0x1.5D2FA7399A5C4p-14, 0x1.6EBA2CC1ADED1p-15, 0x1.B70BDADAE40B8p-16, 0x1.22189B376699Bp-16, 0x1.9D1D8B58E862Cp-17, 0x1.3764F99A149D2p-17 },
-	{ 0x1.1FB17EF0B2953p-2, 0x1.CE8B3B2A1D5E8p-7, 0x1.169B48094466Ep-9, 0x1.16BFC91C6AD98p-11, 0x1.832E1C88FB4CEp-13, 0x1.542756D4690B5p-14, 0x1.63EE25EE2BFC6p-15, 0x1.A8CBE69935674p-16, 0x1.17F5D7ECAB438p-16, 0x1.8DD91DE4A38E2p-17, 0x1.2B6100D5AC782p-17 },
-	{ 0x1.1EF92C040FBD8p-2, 0x1.CB153BA521ABBp-7, 0x1.1326F8AA6958Ap-9, 0x1.11F64C2E24527p-11, 0x1.7AC9524F85274p-13, 0x1.4B62FFCBCFA4Bp-14, 0x1.597BB8024737Ep-15, 0x1.9B0B4613EF014p-16, 0x1.0E32E50652799p-16, 0x1.7F2B66464AA66p-17, 0x1.1FD7B54B1EF5Bp-17 },
-	{ 0x1.1E42394AECC60p-2, 0x1.C7AA3195FA91Fp-7, 0x1.0FC1D040946BBp-9, 0x1.0D47527CE5989p-11, 0x1.729BD03BEC1B6p-13, 0x1.42E06EC2E362Bp-14, 0x1.4F5FC33AE85FFp-15, 0x1.8DC546A9DC733p-16, 0x1.04CC115425419p-16, 0x1.710E6299E6132p-17, 0x1.14C4114CCCF4Cp-17 },
-	{ 0x1.1D8CA26CBB19Cp-2, 0x1.C449ED06915E9p-7, 0x1.0C6B7B0CDE5D8p-9, 0x1.08B22DBC03CC1p-11, 0x1.6AA3F8313BE05p-13, 0x1.3A9D83FC3D31Dp-14, 0x1.45974550994C1p-15, 0x1.80F5640986E3Bp-16, 0x1.F77BA29B39BDAp-17, 0x1.637C4FE9B1362p-17, 0x1.0A2144ECB02C6p-17 },
-	{ 0x1.1CD86323E63D6p-2, 0x1.C0F43F095835Dp-7, 0x1.0923A775F0CAFp-9, 0x1.043634B67EBA0p-11, 0x1.62E0396D93A91p-13, 0x1.329832A0F09A0p-14, 0x1.3C1F585511468p-15, 0x1.7497465926593p-16, 0x1.E6097B0F37116p-17, 0x1.566FA78CDBCD4p-17, 0x1.FFD567667DC26p-18 },
-	{ 0x1.1C25773D6B5ADp-2, 0x1.BDA8F9B285410p-7, 0x1.05EA05F7FE099p-9, 0x1.FFA5864A05EC3p-12, 0x1.5B4F10136CF08p-13, 0x1.2ACE800EA04DFp-14, 0x1.32F5319C50608p-15, 0x1.68A6C071DFA31p-16, 0x1.D53B22753B44Ep-17, 0x1.49E31CA2EA0E7p-17, 0x1.EC37E4DF1642Ap-18 },
-	{ 0x1.1B73DA9873788p-2, 0x1.BA67F01180559p-7, 0x1.02BE49153D088p-9, 0x1.F70E730AC1B0Ep-12, 0x1.53EF04B73EF1Cp-13, 0x1.233E832C67EB9p-14, 0x1.2A1620B0D0D40p-15, 0x1.5D1FCE2D80895p-16, 0x1.C50A51B16089Bp-17, 0x1.3DD199AA779D0p-17, 0x1.D9618A3F075FDp-18 },
-	{ 0x1.1AC38925F0471p-2, 0x1.B730F62A81753p-7, 0x1.FF404A8DC94A1p-10, 0x1.EEA5F9E6D55CCp-12, 0x1.4CBEABF153F18p-13, 0x1.1BE663C655711p-14, 0x1.217F8E525A948p-15, 0x1.51FE92C5F4B76p-16, 0x1.B571016503439p-17, 0x1.32363E322F3E8p-17, 0x1.C74A39DE926CFp-18 },
-	{ 0x1.1A147EE83B73Bp-2, 0x1.B403E0F05E97Bp-7, 0x1.F91EA1DD44175p-10, 0x1.E66AEE0659EABp-12, 0x1.45BCA5F3A7321p-13, 0x1.14C459EF2FBC9p-14, 0x1.192EFB7F0A05Ap-15, 0x1.473F5745B6374p-16, 0x1.A6696755CE5A0p-17, 0x1.270C5CA2D662Ap-17, 0x1.B5EA2C9D2C5C0p-18 },
-	{ 0x1.1966B7F2B86ADp-2, 0x1.B0E0863E873A3p-7, 0x1.F31708910BCB2p-10, 0x1.DE5C2B38E7ED2p-12, 0x1.3EE79E23A40BCp-13, 0x1.0DD6AD684A277p-14, 0x1.112200861F6E2p-15, 0x1.3CDE8908845C3p-16, 0x1.97EDF3F0790CBp-17, 0x1.1C4F782158282p-17, 0x1.A539EE368693Cp-18 },
-	{ 0x1.18BA3069787AFp-2, 0x1.ADC6BCD32C3F2p-7, 0x1.ED28F2BAC8782p-10, 0x1.D67895AF252CAp-12, 0x1.383E4AB7A0355p-13, 0x1.071BB50F27E72p-14, 0x1.09564C24312E9p-15, 0x1.32D8B84BB3A7Fp-16, 0x1.89F94FE609C5Dp-17, 0x1.11FB4287C7930p-17, 0x1.953259BFFA094p-18 },
-	{ 0x1.180EE480E1450p-2, 0x1.AAB65C4992B5Dp-7, 0x1.E753D7EB4641Bp-10, 0x1.CEBF19B6BD432p-12, 0x1.31BF6C57ECC81p-13, 0x1.0091D650B45C2p-14, 0x1.01C9A2A85EFEBp-15, 0x1.292A96CD70902p-16, 0x1.7C8659E27E52Ep-17, 0x1.080B9A745C29Ap-17, 0x1.85CC964C92924p-18 },
-	{ 0x1.1764D07D55692p-2, 0x1.A7AF3D14902D4p-7, 0x1.E1973318E89D3p-10, 0x1.C72EAB78AEAB7p-12, 0x1.2B69CDC35AFD5p-13, 0x1.F46F0943AFBC7p-15, 0x1.F4F3BA44510D8p-16, 0x1.1FD0F67A56124p-16, 0x1.6F90245BC6488p-17, 0x1.FCF912DAEE5FEp-18, 0x1.770213B60C307p-18 },
-	{ 0x1.16BBF0B2DF611p-2, 0x1.A4B138792F423p-7, 0x1.DBF28286EC32Fp-10, 0x1.BFC646B9D69ADp-12, 0x1.253C43771301Dp-13, 0x1.E81681FA65B9Fp-15, 0x1.E6C9D12F1B1B5p-16, 0x1.16C8C828BFBF9p-16, 0x1.6311F37808294p-17, 0x1.EA94843394765p-18, 0x1.68CC878926FEEp-18 },
-	{ 0x1.16144184DE763p-2, 0x1.A1BC28897B22Dp-7, 0x1.D66547AD70501p-10, 0x1.B884EE9DA6CA9p-12, 0x1.1F35AB599C938p-13, 0x1.DC1732CB96C1Bp-15, 0x1.D9118A86435EFp-16, 0x1.0E0F1A61455C4p-16, 0x1.57073B0A35377p-17, 0x1.D8E23D1783CFAp-18, 0x1.5B25EA13C87FAp-18 },
-	{ 0x1.156DBF65B5C5Cp-2, 0x1.9ECFE81F70CEDp-7, 0x1.D0EF0722411E5p-10, 0x1.B169AD6AF1258p-12, 0x1.1954EC68FA5F8p-13, 0x1.D06E50DCF625Dp-15, 0x1.CBC70BB382420p-16, 0x1.05A11833D4565p-16, 0x1.4B6B9CA3FAAA7p-17, 0x1.C7DB3D3EC2310p-18, 0x1.4E087393724B6p-18 },
-	{ 0x1.14C866D67D438p-2, 0x1.9BEC52D814E4Bp-7, 0x1.CB8F48825C12Fp-10, 0x1.AA739452B60CEp-12, 0x1.1398F66BBA524p-13, 0x1.C519298BDBECAp-15, 0x1.BEE69DAF2EE1Ap-16, 0x1.FAF81031C284Bp-17, 0x1.403AE5BC29595p-17, 0x1.B778CCD384AA8p-18, 0x1.416E9982A6A81p-18 },
-	{ 0x1.14243466B4AC0p-2, 0x1.9911450EACD6Bp-7, 0x1.C645965C28456p-10, 0x1.A3A1BB38E2A50p-12, 0x1.0E00C1A4DE348p-13, 0x1.BA15218E07DC8p-15, 0x1.B26CABA858F8Dp-16, 0x1.EB3A95BC625C1p-17, 0x1.35710DE8B6D40p-17, 0x1.A7B47972FB596p-18, 0x1.35530C03E3533p-18 },
-	{ 0x1.138124B3F859Bp-2, 0x1.963E9BD81A6D6p-7, 0x1.C1117E1A5C95Ap-10, 0x1.9CF3407EED4CFp-12, 0x1.088B4E8A81129p-13, 0x1.AF5FB41AD20CCp-15, 0x1.A655C1BA5DE66p-16, 0x1.DC04B53D800A3p-17, 0x1.2B0A352B845A6p-17, 0x1.9888134E73BF8p-18, 0x1.29B0B368E9DE5p-18 },
-	{ 0x1.12DF3469B7EECp-2, 0x1.937434FE5885Ep-7, 0x1.BBF28FEF8DC59p-10, 0x1.966748D03F11Ep-12, 0x1.0337A57F1EFD0p-13, 0x1.A4F6721C7473Dp-15, 0x1.9A9E8BAF6D829p-16, 0x1.CD51938A9CDCAp-17, 0x1.2102A2512131Fp-17, 0x1.89EDAA6B6F534p-18, 0x1.1E82ADD51B67Cp-18 },
-	{ 0x1.123E6040EEC5Dp-2, 0x1.90B1EEFC18041p-7, 0x1.B6E85EC25EDAEp-10, 0x1.8FFCFEF059930p-12, 0x1.FC09AD1ACB781p-14, 0x1.9AD701691C56Fp-15, 0x1.8F43D3CF793C5p-16, 0x1.BF1C84324CF8Fp-17, 0x1.1756C160C6827p-17, 0x1.7BDF8C015B45Dp-18, 0x1.13C44CF9BB3D2p-18 },
-	{ 0x1.119EA4FFDE1EBp-2, 0x1.8DF7A8F87BF88p-7, 0x1.B1F2801A4E56Ap-10, 0x1.89B3938AA96CFp-12, 0x1.F1E3F24CEC1ACp-14, 0x1.90FF1C0375C1Cp-15, 0x1.844281BB0D769p-16, 0x1.B16107A95698Ap-17, 0x1.0E03221CD32EDp-17, 0x1.6E583FF3A532Dp-18, 0x1.097113EAF9220p-18 },
-	{ 0x1.10FFFF79C8F8Cp-2, 0x1.8B4542C2F404Cp-7, 0x1.AD108C0D1AFECp-10, 0x1.838A3D03F5D9Bp-12, 0x1.E7FC57C4FBEF8p-14, 0x1.876C8F626650Cp-15, 0x1.799799519A683p-16, 0x1.A41AC98A9864Cp-17, 0x1.05047693160BDp-17, 0x1.61528666F673Dp-18, 0x1.FF096A19610D5p-19 },
-	{ 0x1.10626C8EB190Dp-2, 0x1.889A9CCF340EDp-7, 0x1.A8421D2CBB27Ap-10, 0x1.7D80374D5EC77p-12, 0x1.DE5128872B532p-14, 0x1.7E1D3BBFAF98Ap-15, 0x1.6F4039A2B6CE5p-16, 0x1.97459EE8F0E7Fp-17, 0x1.F8AF237878DC2p-18, 0x1.54C955706D446p-18, 0x1.EBF6202BAC08Fp-19 },
-	{ 0x1.0FC5E92B1875Fp-2, 0x1.85F79831485D1p-7, 0x1.A386D075E198Fp-10, 0x1.7794C3B8DB356p-12, 0x1.D4E0BCF592734p-14, 0x1.750F136D34589p-15, 0x1.65399BE9EB9B4p-16, 0x1.8ADD84B2695F4p-17, 0x1.E7F2CC5384932p-18, 0x1.48B7D6DDB7B93p-18, 0x1.D9A060532FE47p-19 },
-	{ 0x1.0F2A7247BD2A1p-2, 0x1.835C1699C53C8p-7, 0x1.9EDE453F0B569p-10, 0x1.71C728CF2A2D6p-12, 0x1.CBA97A5E74EFFp-14, 0x1.6C401A309E662p-15, 0x1.5B8112949C6EFp-16, 0x1.7EDE9E23EE285p-17, 0x1.D7CE098390209p-18, 0x1.3D19661500D58p-18, 0x1.C800940A83BF5p-19 },
-	{ 0x1.0E9004E960442p-2, 0x1.80C7FA521159Dp-7, 0x1.9A481D2811C0Ap-10, 0x1.6C16B22729344p-12, 0x1.C2A9D28E8D986p-14, 0x1.63AE64A525EA0p-15, 0x1.52140851A51A5p-16, 0x1.7345334CE6AB9p-17, 0x1.C83B371072435p-18, 0x1.31E98E0BABCA5p-18, 0x1.B70F7483FA8FFp-19 },
-	{ 0x1.0DF69E208708Dp-2, 0x1.7E3B2638C9FC7p-7, 0x1.95C3FC0A3CA71p-10, 0x1.6682B03E8387Bp-12, 0x1.B9E043673BCB5p-14, 0x1.5B5817A33D0CAp-15, 0x1.48EFFF2A48AFCp-16, 0x1.680DAFA205ED0p-17, 0x1.B934E8E967F16p-18, 0x1.27240752E4A2Cp-18, 0x1.A6C6075327AA4p-19 },
-	{ 0x1.0D5E3B09406F6p-2, 0x1.7BB57DBE405B3p-7, 0x1.915187E8D014Fp-10, 0x1.610A7853ADF9Dp-12, 0x1.B14B56786D819p-14, 0x1.533B67ADE5A40p-15, 0x1.40128FA412BACp-16, 0x1.5D34A09EB3ECCp-17, 0x1.AAB5E8A956B6Bp-18, 0x1.1CC4B63918631p-18, 0x1.971D9B3AC24ABp-19 },
-	{ 0x1.0CC6D8CAEB89Cp-2, 0x1.7936E4E10F475p-7, 0x1.8CF068E211BE6p-10, 0x1.5BAD644123AE9p-12, 0x1.A8E9A09E2276Fp-14, 0x1.4B56986578C78p-15, 0x1.377967EB4F1EEp-16, 0x1.52B6B47476AE9p-17, 0x1.9CB933727B3FDp-18, 0x1.12C7A8FF70E14p-18, 0x1.880FC51D56619p-19 },
-	{ 0x1.0C307497FF44Cp-2, 0x1.76BF402AC8717p-7, 0x1.88A04920C2201p-10, 0x1.566AD259D86DEp-12, 0x1.A0B9C1A16646Bp-14, 0x1.43A7FBFFAA6D4p-15, 0x1.2F224B05C0E1Dp-16, 0x1.4890B8C7C829Fp-17, 0x1.8F39F7E0895E7p-18, 0x1.092916227A733p-18, 0x1.79965D0F42645p-19 },
-	{ 0x1.0B9B0BADD378Ep-2, 0x1.744E74ACB8935p-7, 0x1.8460D4CE05837p-10, 0x1.51422546D5A9Bp-12, 0x1.98BA63DCA0A11p-14, 0x1.3C2DF2C4955ACp-15, 0x1.270B100D43B73p-16, 0x1.3EBF9979CC84Ap-17, 0x1.823394104D7C4p-18, 0x1.FFCAB56A45E6Fp-19, 0x1.6BAB7B8892AB4p-19 },
-	{ 0x1.0B069B546B412p-2, 0x1.71E467FCC1CD1p-7, 0x1.8031BA03B93C5p-10, 0x1.4C32C3E5F7BD3p-12, 0x1.90EA3BE31C060p-14, 0x1.34E6EA909DC11p-15, 0x1.1F31A1720799Fp-16, 0x1.35405F7E61DAAp-17, 0x1.75A193BBE9A54p-18, 0x1.EDF1F19A95310p-19, 0x1.5E4976B55AEB2p-19 },
-	{ 0x1.0A7320DE408FEp-2, 0x1.6F8100324B8C9p-7, 0x1.7C12A8BF31966p-10, 0x1.473C1929C14ECp-12, 0x1.8948082BA4A54p-14, 0x1.2DD15E5AFAD79p-15, 0x1.1793FC4419087p-16, 0x1.2C102FBE08745p-17, 0x1.697FAE6AD213Bp-18, 0x1.DCC12C024F670p-19, 0x1.516ADFE33DA98p-19 },
-	{ 0x1.09E099A810F99p-2, 0x1.6D2423E3475A0p-7, 0x1.780352D45D07Bp-10, 0x1.425D93FA3B1BFp-12, 0x1.81D290BE2232Bp-14, 0x1.26EBD5C0B9AD6p-15, 0x1.10302F83EBA2Fp-16, 0x1.232C4A0327AEEp-17, 0x1.5DC9C5B4B67FBp-18, 0x1.CC31F3E98D458p-19, 0x1.450A810AE0309p-19 },
-	{ 0x1.094F0318ABAC2p-2, 0x1.6ACDBA2149E9Bp-7, 0x1.74036BE1495C6p-10, 0x1.3D96A716D6D3Bp-12, 0x1.7A88A6E4109A3p-14, 0x1.2034E4940D3A3p-15, 0x1.09045B799FF27p-16, 0x1.1A9207F23903Bp-17, 0x1.527BE3968E632p-18, 0x1.BC3E19EDEE41Fp-19, 0x1.39235A7417873p-19 },
-	{ 0x1.08BE5AA0C08BDp-2, 0x1.687DAA76B7D9Ap-7, 0x1.7012A94207AD4p-10, 0x1.38E6C8F94BFB2p-12, 0x1.736924DBBC936p-14, 0x1.19AB2A6FC177Cp-15, 0x1.020EB112C0060p-16, 0x1.123EDC0C6789Ap-17, 0x1.479238D906F18p-18, 0x1.ACDFAD59FF3DAp-19, 0x1.2DB0A073A8536p-19 },
-	{ 0x1.082E9DBAB06D7p-2, 0x1.6633DCE405856p-7, 0x1.6C30C204EC0F7p-10, 0x1.344D73B9662C5p-12, 0x1.6C72ED8E2A1E0p-14, 0x1.134D524EA8F6Cp-15, 0x1.F69AE28C62B7Ep-17, 0x1.0A3050BC37076p-17, 0x1.3D091B8799B17p-18, 0x1.9E10F998ED0A4p-19, 0x1.22ADB941805A8p-19 },
-	{ 0x1.079FC9EA5E66Ep-2, 0x1.63F039DD095FDp-7, 0x1.685D6EDF26054p-10, 0x1.2FCA24F1BC528p-12, 0x1.65A4EC478BEDDp-14, 0x1.0D1A1226DDFF1p-15, 0x1.E97DD8FC3A6C0p-17, 0x1.0264076BCA346p-17, 0x1.32DD05779A7BCp-18, 0x1.8FCC83C5503FAp-19, 0x1.18163AE65C8C1p-19 },
-	{ 0x1.0711DCBD022DAp-2, 0x1.61B2AA466046Fp-7, 0x1.64986A21AED4Fp-10, 0x1.2B5C5DA548D32p-12, 0x1.5EFE147233C23p-14, 0x1.07102A88B1D4Dp-15, 0x1.DCC3040F26100p-17, 0x1.F5AF6F48C8364p-18, 0x1.290A92DE93227p-18, 0x1.820D0851ED08Dp-19, 0x1.0DE5E93FDA390p-19 },
-	{ 0x1.0684D3C8FB7D8p-2, 0x1.5F7B1772E34ADp-7, 0x1.60E16FAE8B00Ep-10, 0x1.2703A225DAE08p-12, 0x1.587D6153E48E9p-14, 0x1.012E66412634Dp-15, 0x1.D0673F0F56415p-17, 0x1.E7125C6D89738p-18, 0x1.1F8E80F74A2F5p-18, 0x1.74CD78CB4E289p-19, 0x1.0418B419FD44Bp-19 },
-	{ 0x1.05F8ACADA67FAp-2, 0x1.5D496B212E648p-7, 0x1.5D383CEE5C376p-10, 0x1.22BF79FB59798p-12, 0x1.5221D5CD703B4p-14, 0x1.F6E733FF9D0ECp-16, 0x1.C46780EBE40EBp-17, 0x1.D8EC98D809E79p-18, 0x1.1665ACB4D9086p-18, 0x1.6808F9B12E7B2p-19, 0x1.F5556ABA7FA18p-20 },
-	{ 0x1.056D6513312BBp-2, 0x1.5B1D8F79379EEp-7, 0x1.599C90C64125Dp-10, 0x1.1E8F6FCBD0E16p-12, 0x1.4BEA7C1C8B9F6p-14, 0x1.EBBD47FFEF476p-16, 0x1.B8C0DB37CE900p-17, 0x1.CB3A0E7D3376Ap-18, 0x1.0D8D11833C592p-18, 0x1.5BBAE066AFC3Cp-19, 0x1.E3305EA094377p-20 },
-	{ 0x1.04E2FAAA719C7p-2, 0x1.58F76F09F6357p-7, 0x1.560E2B8E00B34p-10, 0x1.1A731144439C0p-12, 0x1.45D6659FC4223p-14, 0x1.E0DCD769EC975p-16, 0x1.AD707932B91F8p-17, 0x1.BDF6CD3653F71p-18, 0x1.0501C814CFED5p-18, 0x1.4FDEB13868969p-19, 0x1.D1BB15D8F623Bp-20 },
-	{ 0x1.04596B2CBD51Fp-2, 0x1.56D6F4C719343p-7, 0x1.528CCF067E3AEp-10, 0x1.1669EF02383D1p-12, 0x1.3FE4AA9C833CBp-14, 0x1.D643C2F2FB931p-16, 0x1.A2739EDB081A4p-17, 0x1.B11F0951CC9BAp-18, 0x1.F9820A785A56Fp-19, 0x1.44701D775DBA5p-19, 0x1.C0EEAC88E6CD4p-20 },
-	{ 0x1.03D0B45BC15A0p-2, 0x1.54BC0C06CD23Fp-7, 0x1.4F183E507474Fp-10, 0x1.12739C7DFD957p-12, 0x1.3A146A070CD1Bp-14, 0x1.CBEFFC83C2976p-16, 0x1.97C7A808FE054p-17, 0x1.A4AF1A3229B7Cp-18, 0x1.E99031A3D24A7p-19, 0x1.396B01A805727p-19, 0x1.B0C485F7BBFCFp-20 },
-	{ 0x1.0348D4015B5B3p-2, 0x1.52A6A07F90552p-7, 0x1.4BB03DE374D08p-10, 0x1.0E8FAFF59F070p-12, 0x1.3464C94C660DAp-14, 0x1.C1DF86A247832p-16, 0x1.8D6A07927EC1Dp-17, 0x1.98A378FB0E0D0p-18, 0x1.DA28D94B6969Fp-19, 0x1.2ECB63C47CC82p-19, 0x1.A136499F71F4Ep-20 },
-	{ 0x1.02C1C7EF7379Dp-2, 0x1.50969E46155C3p-7, 0x1.485493852913Ap-10, 0x1.0ABDC25882FF0p-12, 0x1.2ED4F41E132DAp-14, 0x1.B81073E17631Bp-16, 0x1.83584677221F3p-17, 0x1.8CF8BF4B62F3Ap-18, 0x1.CB4706F4CCD2Bp-19, 0x1.248D719120224p-19, 0x1.923DE05CD5C68p-20 },
-	{ 0x1.023B8DFFD713Cp-2, 0x1.4E8BF1CB33581p-7, 0x1.45050640D52BAp-10, 0x1.06FD6F33ADD0Ap-12, 0x1.29641C3F9B39Fp-14, 0x1.AE80E655D9926p-16, 0x1.799003144296Bp-17, 0x1.81ABA60444958p-18, 0x1.BCE5F018F61C9p-19, 0x1.1AAD7F02C1513p-19, 0x1.83D571BDEE83Fp-20 },
-	{ 0x1.01B62414144C4p-2, 0x1.4C8687D9E39D8p-7, 0x1.41C15E5F17279p-10, 0x1.034E549EA35C4p-12, 0x1.24117955C1620p-14, 0x1.A52F0F0F5543Ep-16, 0x1.700EF060B8591p-17, 0x1.76B9041C2712Fp-18, 0x1.AF00F8453CF19p-19, 0x1.112804B5BDA56p-19, 0x1.75F7616D5AD7Ep-20 },
-	{ 0x1.013188155662Fp-2, 0x1.4A864D954C64Cp-7, 0x1.3E89655DE3695p-10, 0x1.FF602651C44A7p-13, 0x1.1EDC48B764465p-14, 0x1.9C192D97AF8E8p-16, 0x1.66D2D52FF4081p-17, 0x1.6C1DCD7DB6D2Dp-18, 0x1.A193AF4FA5BCDp-19, 0x1.07F99E753EBC3p-19, 0x1.689E4CB966DAAp-20 },
-	{ 0x1.00ADB7F442D0Ep-2, 0x1.488B3076D81BAp-7, 0x1.3B5CE5E8BB2C3p-10, 0x1.F8449B8FE54EAp-13, 0x1.19C3CD3FF412Fp-14, 0x1.933D8F75BD797p-16, 0x1.5DD98B7C2F8DBp-17, 0x1.61D711F1FB684p-18, 0x1.9499CF9DA2DF5p-19, 0x1.FE3E13A3F0D56p-20, 0x1.5BC50835ABA40p-20 },
-	{ 0x1.002AB1A8D7268p-2, 0x1.46951E4C58FF8p-7, 0x1.383BABD11B8C1p-10, 0x1.F149538C0BDCDp-13, 0x1.14C74F2370DE6p-14, 0x1.8A9A8FB504845p-16, 0x1.5520FFB76E741p-17, 0x1.57E1FC1549715p-18, 0x1.880F3C7C8658Ep-19, 0x1.ED2A498F7B269p-20, 0x1.4F669D76172B4p-20 },
-	{ 0x1.FF50E6648F4B9p-3, 0x1.44A4053638A66p-7, 0x1.35258407234D4p-10, 0x1.EA6D9D623D3E9p-13, 0x1.0FE61BC3E34D2p-14, 0x1.822E9671A7489p-16, 0x1.4CA7302309F80p-17, 0x1.4E3BD056948DBp-18, 0x1.7BF0008AE9F52p-19, 0x1.DCB1D8E2998E3p-20, 0x1.437E48E247841p-20 },
-	{ 0x1.FE4DF52DBD27Cp-3, 0x1.42B7D3A5B3212p-7, 0x1.321A3C926DAF3p-10, 0x1.E3B0CC957F993p-13, 0x1.0B1F858841FF1p-14, 0x1.79F8186873EFDp-16, 0x1.446A2C2D87C40p-17, 0x1.44E1EC00B71D9p-18, 0x1.70384C325BD48p-19, 0x1.CCCEF79378B52p-20, 0x1.380777A0307CAp-20 },
-	{ 0x1.FD4C8BC7B87B1p-3, 0x1.40D0785B1D62Cp-7, 0x1.2F19A48B20A64p-10, 0x1.DD1238F03A3BAp-13, 0x1.0672E3B4B6CCEp-14, 0x1.71F5968AED04Cp-16, 0x1.3C6813D67CDF2p-17, 0x1.3BD1C44D49D0Ep-18, 0x1.64E47430A49F4p-19, 0x1.BD7C14F5E81E3p-20, 0x1.2CFDC5950E0CFp-20 },
-	{ 0x1.FC4CA65AAF545p-3, 0x1.3EEDE264369C3p-7, 0x1.2C238C132CE61p-10, 0x1.D6913E658FED3p-13, 0x1.01DF92443758Cp-14, 0x1.6A259D9726AA4p-16, 0x1.349F171840D8Bp-17, 0x1.3308E580A9406p-18, 0x1.59F0F03003D15p-19, 0x1.AEB3D771514F8p-20, 0x1.225CFB7BB0F62p-20 },
-	{ 0x1.FB4E411C3FF1Bp-3, 0x1.3D10011A843DFp-7, 0x1.2937C44FBE316p-10, 0x1.D02D3CF3AAE79p-13, 0x1.FAC9E386C9D6Cp-15, 0x1.6286C5B353BDFp-16, 0x1.2D0D7557379D3p-17, 0x1.2A84F20ECBC79p-18, 0x1.4F5A596DC565Ap-19, 0x1.A0711A4EA75A8p-20, 0x1.18210D0F3D64Cp-20 },
-	{ 0x1.FA51584F3CC66p-3, 0x1.3B36C421B853Ep-7, 0x1.26561F62DA75Dp-10, 0x1.C9E59886F272Ap-13, 0x1.F204CE5950118p-15, 0x1.5B17B20CDFD4Cp-16, 0x1.25B17CD67AB0Cp-17, 0x1.2243A1C88DAF1p-18, 0x1.451D696E9AB0Ep-19, 0x1.92AEEB9D4EA92p-20, 0x1.0E4617497D68Fp-20 },
-	{ 0x1.F955E84371C4Ap-3, 0x1.39621B6621F09p-7, 0x1.237E70652E413p-10, 0x1.C3B9B8DE22629p-13, 0x1.E96EB78AF92F6p-15, 0x1.53D7107AF4588p-16, 0x1.1E898A31ACBA6p-17, 0x1.1A42C1111D621p-18, 0x1.3B36F8C02680Fp-19, 0x1.85688A2E07D1Dp-20, 0x1.04C85EB3F2A69p-20 },
-	{ 0x1.F85BED556AE2Dp-3, 0x1.3791F71B27620p-7, 0x1.20B08B60052F6p-10, 0x1.BDA9096F3CFBAp-13, 0x1.E10679F9C7BE3p-15, 0x1.4CC39924485D1p-16, 0x1.179407DBC46B9p-17, 0x1.1280301B34F03p-18, 0x1.31A3FDC732953p-19, 0x1.789963A2F29D4p-20, 0x1.F7489B95B788Bp-21 },
-	{ 0x1.F76363EE3BD4Bp-3, 0x1.35C647B9C9E96p-7, 0x1.1DEC45476CF76p-10, 0x1.B7B2F94D50062p-13, 0x1.D8CAF895E4057p-15, 0x1.45DC0E281C018p-16, 0x1.10CF6DA29DD55p-17, 0x1.0AF9E22DD17D7p-18, 0x1.28618B9A0A437p-19, 0x1.6C3D1293C85B3p-20, 0x1.E5ACE6E2D5C64p-21 },
-	{ 0x1.F66C488348F1Ap-3, 0x1.33FEFDFF32B33p-7, 0x1.1B3173F481CC5p-10, 0x1.B1D6FB0F061B5p-13, 0x1.D0BB1E22DA15Dp-15, 0x1.3F1F3B4A41651p-16, 0x1.0A3A4037232C5p-17, 0x1.03ADDCF01C7D5p-18, 0x1.1F6CD0E67B9E4p-19, 0x1.604F5CC5762A5p-20, 0x1.D4B702ECE5814p-21 },
-	{ 0x1.F5769796113F7p-3, 0x1.323C0AEB48CECp-7, 0x1.187FEE1FE2D0Bp-10, 0x1.AC1484B5FD73Ap-13, 0x1.C8D5DCFAE7C0Bp-15, 0x1.388BF5A2165ECp-16, 0x1.03D310B9DFDD3p-17, 0x1.F9346F787B60Fp-19, 0x1.16C316E305B47p-19, 0x1.54CC317448F5Bp-20, 0x1.C4609651B05A2p-21 },
-	{ 0x1.F4824DB3F99B6p-3, 0x1.307D5FBF4FE55p-7, 0x1.15D78B5C4D64Dp-10, 0x1.A66B0F96DDBA7p-13, 0x1.C11A2ED447FFEp-15, 0x1.32211B4C53411p-16, 0x1.FB30F897A5333p-18, 0x1.EB7A35F19FA9Dp-19, 0x1.0E61C04ABF900p-19, 0x1.49AFA7AFE5A2Cp-20, 0x1.B4A387F63A43Ap-21 },
-	{ 0x1.F38F677618FAFp-3, 0x1.2EC2EDFC8F744p-7, 0x1.133824115E244p-10, 0x1.A0DA184226A6Ap-13, 0x1.B98714886A02Dp-15, 0x1.2BDD931F94035p-16, 0x1.EF125746A97F4p-18, 0x1.DE297EF169A35p-19, 0x1.06464863886D7p-19, 0x1.3EF5FCC850459p-20, 0x1.A579FC6AC4326p-21 },
-	{ 0x1.F29DE18105BC7p-3, 0x1.2D0CA763024EFp-7, 0x1.10A19176766F6p-10, 0x1.9B611E6DB14CFp-13, 0x1.B21B95DD02BDFp-15, 0x1.25C04C63822ECp-16, 0x1.E347A549DE438p-18, 0x1.D13EDBC211C3Ap-19, 0x1.FCDC841C2C8E4p-20, 0x1.349B92CB4D2DDp-20, 0x1.96DE536A8294Ap-21 },
-	{ 0x1.F1ADB884A4020p-3, 0x1.2B5A7DF00E2DDp-7, 0x1.0E13AD8DC567Dp-10, 0x1.95FFA4DEDE59Dp-13, 0x1.AAD6C14EE87A1p-15, 0x1.1FC83E8A86E9Ep-16, 0x1.D7CE5FFFEB930p-18, 0x1.C4B6FC29EDC13p-19, 0x1.EDAEADBEF87C8p-20, 0x1.2A9CEF116E46Ep-20, 0x1.88CB2575DC3CCp-21 },
-	{ 0x1.F0BEE93BF50FEp-3, 0x1.29AC63DD43142p-7, 0x1.0B8E531F734F1p-10, 0x1.90B531556B911p-13, 0x1.A3B7ABDEA87C8p-15, 0x1.19F468EDED6A3p-16, 0x1.CCA4199D8BA77p-18, 0x1.B88EAD4E64B46p-19, 0x1.DEFE8C878D54Ep-20, 0x1.20F6B8DA26961p-20, 0x1.7B3B4186133B9p-21 },
-	{ 0x1.EFD1706CE7A86p-3, 0x1.28024B9F2254Ep-7, 0x1.09115DB4EE416p-10, 0x1.8B814C76EB271p-13, 0x1.9CBD70DEC7746p-15, 0x1.1443D28C5F001p-16, 0x1.C1C6787503F1Dp-18, 0x1.ACC2D8A1BCD96p-19, 0x1.D0C7C9529D52Ep-20, 0x1.17A5B7F644A54p-20, 0x1.6E29AAD9456C4p-21 },
-	{ 0x1.EEE54AE8295F3p-3, 0x1.265C27E3ED035p-7, 0x1.069CA994574C5p-10, 0x1.866381BAD7B3Ep-13, 0x1.95E731C39DEABp-15, 0x1.0EB589CAA2CA8p-16, 0x1.B733364457725p-18, 0x1.A15082DB55A4Ep-19, 0x1.C3063568D5DD4p-20, 0x1.0EA6D3803B5D8p-20, 0x1.619196D5BE2EFp-21 },
-	{ 0x1.EDFA7588F8DE0p-3, 0x1.24B9EB92799BBp-7, 0x1.043013BC0EEC9p-10, 0x1.815B5F573FB25p-13, 0x1.8F3415F4C27A0p-15, 0x1.0948A4368BF96p-16, 0x1.ACE81F89F0F46p-18, 0x1.9634CAF9E5486p-19, 0x1.B5B5C8F64E98Dp-20, 0x1.05F710A1A7405p-20, 0x1.556E6B039E07Bp-21 },
-	{ 0x1.ED10ED34F9157p-3, 0x1.231B89C910B26p-7, 0x1.01CB79DE60025p-10, 0x1.7C68762E03A6Fp-13, 0x1.88A34A9FF4198p-15, 0x1.03FC3E4C02500p-16, 0x1.A2E312DF865D1p-18, 0x1.8B6CE94F55019p-19, 0x1.A8D2A19160097p-20, 0x1.FB2722CB082A5p-21, 0x1.49BBBB1BE795Fp-21 },
-	{ 0x1.EC28AEDC0553Cp-3, 0x1.2180F5DC507A0p-7, 0x1.FEDD74BA90AEAp-11, 0x1.778A59BAA237Fp-13, 0x1.8234028D77451p-15, 0x1.FD9EF67822BDEp-17, 0x1.9922005AF8B16p-18, 0x1.80F62E95DB9CFp-19, 0x1.9C5900D042B5Bp-20, 0x1.EAF3272D1A037p-21, 0x1.3E75472C0B9EFp-21 },
-	{ 0x1.EB41B778063CDp-3, 0x1.1FEA235616F1Cp-7, 0x1.FA33688CBBAB4p-11, 0x1.72C0A0008DA72p-13, 0x1.7BE575F5D946Cp-15, 0x1.F383096BD755Ap-17, 0x1.8FA2E8F4F6D6Dp-18, 0x1.76CE030DF97C0p-19, 0x1.90454AECDE502p-20, 0x1.DB4CDF528D4C8p-21, 0x1.3396F9CD17B7Dp-21 },
-	{ 0x1.EA5C040CC79DDp-3, 0x1.1E5705F4728E1p-7, 0x1.F5988E9D9F2FFp-11, 0x1.6E0AE17A06482p-13, 0x1.75B6E2590D5D5p-15, 0x1.E9A315639F534p-17, 0x1.8663DDF52B574p-18, 0x1.6CF1E5A4FD278p-19, 0x1.8494057636B13p-20, 0x1.CC2F2F6270798p-21, 0x1.291CE66DB4875p-21 },
-	{ 0x1.E97791A7CF16Dp-3, 0x1.1CC791A89930Ep-7, 0x1.F10CA79F0402Cp-11, 0x1.6968B90775B32p-13, 0x1.6FA78A56D7EACp-15, 0x1.DFFD867B7A61Cp-17, 0x1.7D630063BF9D3p-18, 0x1.635F6B23BB0D5p-19, 0x1.7941D60EEA745p-20, 0x1.BD952CC1BBC1Dp-21, 0x1.1F0347AE2992Ap-21 },
-	{ 0x1.E8945D6033971p-3, 0x1.1B3BBA95E545Cp-7, 0x1.EC8F75828A243p-11, 0x1.64D9C3DF46994p-13, 0x1.69B6B5887C45Fp-15, 0x1.D690D497D52A4p-17, 0x1.749E808001366p-18, 0x1.5A143D652676Bp-19, 0x1.6E4B81383CCC9p-20, 0x1.AF7A1C27C6364p-21, 0x1.15467DCDA5280p-21 },
-	{ 0x1.E7B2645675A4Cp-3, 0x1.19B37510D8D96p-7, 0x1.E820BB72486A9p-11, 0x1.605DA17E3543Dp-13, 0x1.63E3B05BA2309p-15, 0x1.CD5B8305D2BC5p-17, 0x1.6C149D3BF7ABCp-18, 0x1.510E1A947D0E5p-19, 0x1.63ADE92929AD9p-20, 0x1.A1D96FC673036p-21, 0x1.0BE30D280F354p-21 },
-	{ 0x1.E6D1A3B4586D8p-3, 0x1.182EB59E26839p-7, 0x1.E3C03DC99D931p-11, 0x1.5BF3F39814EAFp-13, 0x1.5E2DCBEE685A1p-15, 0x1.C45C201ED61B9p-17, 0x1.63C3A3BCBB6B1p-18, 0x1.484AD472B975Ep-19, 0x1.59660CB108B15p-20, 0x1.94AEC58547993p-21, 0x1.02D59CC3B5BA9p-21 },
-	{ 0x1.E5F218ACBB9A3p-3, 0x1.16AD70F1BFFD6p-7, 0x1.DF6DC20E31586p-11, 0x1.579C5E09062FBp-13, 0x1.58945DEC99B88p-15, 0x1.BB9144EF2E16Dp-17, 0x1.5BA9EEDF60186p-18, 0x1.3FC84FA304709p-19, 0x1.4F71062548332p-20, 0x1.87F5E54EA41CEp-21, 0x1.F435E9DC52286p-22 },
-	{ 0x1.E513C07B75E17p-3, 0x1.152F9BEDEA3CFp-7, 0x1.DB290EE9242ADp-11, 0x1.535686C71B27Ap-13, 0x1.5316C06DFBDE5p-15, 0x1.B2F994DFC6AF5p-17, 0x1.53C5E6C24663Ap-18, 0x1.378482FDDF103p-19, 0x1.45CC0A59CEF8Cp-20, 0x1.7BAABF6E5FD85p-21, 0x1.E35FFBCF4B1EAp-22 },
-	{ 0x1.E43698653054Ep-3, 0x1.13B52BA256F30p-7, 0x1.D6F1EC206C311p-11, 0x1.4F2215D465857p-13, 0x1.4DB451D5ACCE4p-15, 0x1.AA93BD62C465Dp-17, 0x1.4C160052AB331p-18, 0x1.2F7D76EAC3198p-19, 0x1.3C7467A397671p-20, 0x1.6FC96B01134EBp-21, 0x1.D3237D38DD45Fp-22 },
-	{ 0x1.E35A9DB742648p-3, 0x1.123E154B43451p-7, 0x1.D2C822905E42Cp-11, 0x1.4AFEB5316B889p-13, 0x1.486C74B28724Dp-15, 0x1.A25E75A2EECF7p-17, 0x1.4498BCDE4B967p-18, 0x1.27B144BFF9809p-19, 0x1.336784E51BB7Bp-20, 0x1.644E2473613B6p-21, 0x1.C37AB6D70D8AEp-22 },
-	{ 0x1.E27FCDC78E945p-3, 0x1.10CA4E509BA39p-7, 0x1.CEAB7C256199Bp-11, 0x1.46EC10D0007BBp-13, 0x1.433E8FA083C43p-15, 0x1.9A587E35D0D06p-17, 0x1.3D4CA9A8F687Cp-18, 0x1.201E1628696D4p-19, 0x1.2AA2E0A42EECEp-20, 0x1.59354C10970C0p-21, 0x1.B46029F46A4EDp-22 },
-	{ 0x1.E1A625F45FE04p-3, 0x1.0F59CC4524986p-7, 0x1.CA9BC3D5CCFFDp-11, 0x1.42E9D6867DA25p-13, 0x1.3E2A0D2B107CEp-15, 0x1.9280A0D075D0Bp-17, 0x1.36305F85E702Fp-18, 0x1.18C2248F24ABEp-19, 0x1.22241028E2575p-20, 0x1.4E7B64A004606p-21, 0x1.A5CE8E27A1575p-22 },
-	{ 0x1.E0CDA3A447CA0p-3, 0x1.0DEC84E5A86DEp-7, 0x1.C698C59BEC4A9p-11, 0x1.3EF7B60358956p-13, 0x1.392E5BB0537E2p-15, 0x1.8AD5AFFEAC290p-17, 0x1.2F428274C26D5p-18, 0x1.119BB89078C94p-19, 0x1.19E8BEA51B71Fp-20, 0x1.441D12106FCD2p-21, 0x1.97C0CF2A9A7C7p-22 },
-	{ 0x1.DFF64445FD0D6p-3, 0x1.0C826E18298F0p-7, 0x1.C2A24E702CFD0p-11, 0x1.3B1560C114236p-13, 0x1.344AED4553A17p-15, 0x1.835686DCB5E87p-17, 0x1.2881C14218ACDp-18, 0x1.0AA929704E5B7p-19, 0x1.11EEAC6481988p-20, 0x1.3A17183115839p-21, 0x1.8A320AC81C6F3p-22 },
-	{ 0x1.DF2005503AF77p-3, 0x1.0B1B7DEB1980Fp-7, 0x1.BEB82C4370F36p-11, 0x1.374289FA88E68p-13, 0x1.2F7F379AFDED7p-15, 0x1.7C0208D351EE6p-17, 0x1.21ECD52B44A1Ep-18, 0x1.03E8DC95A2236p-19, 0x1.0A33AE046EBB4p-20, 0x1.30665977A2A3Dp-21, 0x1.7D1D8EDF0B8ECp-22 },
-	{ 0x1.DE4AE441A15C6p-3, 0x1.09B7AA949458Ap-7, 0x1.BADA2DF98604Dp-11, 0x1.337EE69F82D62p-13, 0x1.2ACAB3E400F0Dp-15, 0x1.74D7215608211p-17, 0x1.1B8281858D017p-18, 0x1.FAB28A15CB8E2p-20, 0x1.02B5ABB391A57p-20, 0x1.2707D5D2A5DDDp-21, 0x1.707ED77A5CEB6p-22 },
-	{ 0x1.DD76DEA095292p-3, 0x1.0856EA71A08EAp-7, 0x1.B7082363C18DDp-11, 0x1.2FCA2D49B1354p-13, 0x1.262CDEBB76D99p-15, 0x1.6DD4C3A3A4580p-17, 0x1.1541936866C6Cp-18, 0x1.EDF1C6062FC65p-20, 0x1.F6E540F1E77BCp-21, 0x1.1DF8A987F3A62p-21, 0x1.64518CFCE14C5p-22 },
-	{ 0x1.DCA3F1FB218CEp-3, 0x1.06F9340573164p-7, 0x1.B341DD3BBEE1Bp-11, 0x1.2C241631E6516p-13, 0x1.21A5380C576C3p-15, 0x1.66F9EA88CC4C2p-17, 0x1.0F28E15ABBA21p-18, 0x1.E18C86C6CA36Dp-20, 0x1.E8D133042EA7Ap-21, 0x1.15360C1E81A51p-21, 0x1.58918260155DFp-22 },
-	{ 0x1.DBD21BE6D9B75p-3, 0x1.059E7DF8B79A1p-7, 0x1.AF872D1E3FA6Ap-11, 0x1.288C5B25A49E8p-13, 0x1.1D3342F9AB3C1p-15, 0x1.604598249D9F7p-17, 0x1.09374B0317EEFp-18, 0x1.D57FFEA24B4FBp-20, 0x1.DB2B6AEFCD304p-21, 0x1.0CBD4F534231Bp-21, 0x1.4D3AB3852D115p-22 },
-	{ 0x1.DB015A00BB27Fp-3, 0x1.0446BF18DCC61p-7, 0x1.ABD7E5862D28Bp-11, 0x1.2502B77CF6CECp-13, 0x1.18D685C779C2Dp-15, 0x1.59B6D5AF41BBEp-17, 0x1.036BB8DAA4D0Ep-18, 0x1.C9C97788193EAp-20, 0x1.CDF047B45C967p-21, 0x1.048BDE188D98Ap-21, 0x1.4249439798C00p-22 },
-	{ 0x1.DA31A9ED108C5p-3, 0x1.02F1EE5764828p-7, 0x1.A833D9C7B9B78p-11, 0x1.2186E810909A7p-13, 0x1.148E89C46C2C1p-15, 0x1.534CB34265F77p-17, 0x1.FB8A37C5A847Bp-19, 0x1.BE665238BFDF1p-20, 0x1.C11C48C2C3EB8p-21, 0x1.F93E773F575ADp-22, 0x1.37B97B804ACC1p-22 },
-	{ 0x1.D963095755286p-3, 0x1.01A002C938087p-7, 0x1.A49ADE0BA12A3p-11, 0x1.1E18AB3035FFBp-13, 0x1.105ADB341EE49p-15, 0x1.4D0647A387105p-17, 0x1.F084DABB49DADp-19, 0x1.B354057A23253p-20, 0x1.B4AC0CCCD45E7p-21, 0x1.E9EA04D82954Ap-22, 0x1.2D87C8690C447p-22 },
-	{ 0x1.D89575F218C7Bp-3, 0x1.0050F3A5FFB61p-7, 0x1.A10CC74A87AA8p-11, 0x1.1AB7C09966D37p-13, 0x1.0C3B093A1C2DFp-15, 0x1.46E2B00FFFB30p-17, 0x1.E5C55D10CFE9Ep-19, 0x1.A8901D53283DCp-20, 0x1.A89C50A080110p-21, 0x1.DB15C6E0097B4p-22, 0x1.23B0BA4F36900p-22 },
-	{ 0x1.D7C8ED76E4332p-3, 0x1.FE09708EFD175p-8, 0x1.9D896B4875F0Cp-11, 0x1.1763E96E4C8FAp-13, 0x1.082EA5C57A2E0p-15, 0x1.40E1100ACA53Bp-17, 0x1.DB49D0B1DA29Ep-19, 0x1.9E183A4E8C9B5p-20, 0x1.9CE9EE0E364C3p-21, 0x1.CCBD4A6403928p-22, 0x1.1A3102A52F47Cp-22 },
-	{ 0x1.D6FD6DA61E292p-3, 0x1.FB769051E2727p-8, 0x1.9A10A090721F3p-11, 0x1.141CE82CE85D3p-13, 0x1.0435457D1720Bp-15, 0x1.3B00912BE739Cp-17, 0x1.D110567A057A8p-19, 0x1.93EA10C4A502Dp-20, 0x1.9191DAD9F4E63p-21, 0x1.BEDC45F5EDAFFp-22, 0x1.110573020A434p-22 },
-	{ 0x1.D632F446F0D51p-3, 0x1.F8E935CCE14E1p-8, 0x1.96A23E7034732p-11, 0x1.10E280A67F667p-13, 0x1.004E7FAC6E83Bp-15, 0x1.354062F158278p-17, 0x1.C7171DB863F1Ap-19, 0x1.8A03682BC16C6p-20, 0x1.869127B6A3325p-21, 0x1.B16E98191936Dp-22, 0x1.082AFBDEBC689p-22 },
-	{ 0x1.D5697F272FC36p-3, 0x1.F6615078AFC58p-8, 0x1.933E1CF3F7069p-11, 0x1.0DB477F74391Dp-13, 0x1.F8F3DC62047EEp-16, 0x1.2F9FBA91A3921p-17, 0x1.BD5C63B744378p-19, 0x1.80621A6EF52D3p-20, 0x1.7BE4FF4B4F2B7p-21, 0x1.A47045BED3DD3p-22, 0x1.FF3D56C0A02FBp-23 },
-	{ 0x1.D4A10C1B3E4FAp-3, 0x1.F3DED00D5AB6Cp-8, 0x1.8FE414E25FE4Ep-11, 0x1.0A92947E36D23p-13, 0x1.F16E5AD0A6000p-16, 0x1.2A1DD2CFD1DE3p-17, 0x1.B3DE734820140p-19, 0x1.7704134B05695p-20, 0x1.718AA541E9B2Ep-21, 0x1.97DD78D215B32p-22, 0x1.EEBB585D241A2p-23 },
-	{ 0x1.D3D998FDF689Cp-3, 0x1.F161A4811EB04p-8, 0x1.8C93FFB884B94p-11, 0x1.077C9DD5474ADp-13, 0x1.EA0BB83CC62F3p-16, 0x1.24B9EBD0D7974p-17, 0x1.AA9BA4538B91Ep-19, 0x1.6DE74FB142394p-20, 0x1.677F755F22BABp-21, 0x1.8BB27ED1BFDB3p-22, 0x1.DECA88AD66A77p-23 },
-	{ 0x1.D31323B090901p-3, 0x1.EEE9BE07472A7p-8, 0x1.894DB7A607643p-11, 0x1.04725CC9A291Bp-13, 0x1.E2CB36F97EDF7p-16, 0x1.1F734AF2600C9p-17, 0x1.A1925B6CFF909p-19, 0x1.6509DD3011429p-20, 0x1.5DC0E2A30A082p-21, 0x1.7FEBC778D6128p-22, 0x1.CF65A872C4D3Ap-23 },
-	{ 0x1.D24DAA1A8A5BCp-3, 0x1.EC770D0F13E6Fp-8, 0x1.861117894ACA4p-11, 0x1.01739B543E6BFp-13, 0x1.DBAC1DF4146A4p-16, 0x1.1A493AA2EC37Ep-17, 0x1.98C1096A5C081p-19, 0x1.5C69D960F2C1Bp-20, 0x1.544C76721CE37p-21, 0x1.7485E374234EEp-22, 0x1.C087AB07C5EB9p-23 },
-	{ 0x1.D1892A298FFD2p-3, 0x1.EA098242A44E3p-8, 0x1.82DDFAEBBF332p-11, 0x1.FD0049252AD3Ap-14, 0x1.D4ADB894061F1p-16, 0x1.153B0A3B3A3D5p-17, 0x1.90262AFEFF989p-19, 0x1.5405715BCC272p-20, 0x1.4B1FCFC66C91Bp-21, 0x1.697D8324BFA17p-22, 0x1.B22BB46761001p-23 },
-	{ 0x1.D0C5A1D164453p-3, 0x1.E7A10E85E8A7Bp-8, 0x1.7FB43DFE45961p-11, 0x1.F72F897F2BB22p-14, 0x1.CDCF569C11B94p-16, 0x1.10480DD8EA44Dp-17, 0x1.87C0485A534BEp-19, 0x1.4BDAE12F457AAp-20, 0x1.4238A2688CD37p-21, 0x1.5ECF756EF3343p-22, 0x1.A44D17487AEB3p-23 },
-	{ 0x1.D0030F0BC9DA7p-3, 0x1.E53DA2F599070p-8, 0x1.7C93BD95A934Dp-11, 0x1.F1749259831B5p-14, 0x1.C7104C0C220F8p-16, 0x1.0B6F9E3A55D15p-17, 0x1.7F8DF4C9AAAEBp-19, 0x1.43E8735E08B11p-20, 0x1.3994B62FFCE03p-21, 0x1.5478A694F7A47p-22, 0x1.96E7534CC8B64p-23 },
-	{ 0x1.CF416FD86CB6Ep-3, 0x1.E2DF30E631CBAp-8, 0x1.797C57272EEAAp-11, 0x1.EBCF0076FA1E3p-14, 0x1.C06FF10421751p-16, 0x1.06B1189B8F1FDp-17, 0x1.778DCE5D5998Ap-19, 0x1.3C2C8060B4081p-20, 0x1.3131E64AC0707p-21, 0x1.4A761F1D1E2D1p-22, 0x1.89F613424B0CCp-23 },
-	{ 0x1.CE80C23CCC0C4p-3, 0x1.E085A9E2F590Cp-8, 0x1.766DE8C5399AEp-11, 0x1.E63E72AD1987Ep-14, 0x1.B9EDA1A7A886Fp-16, 0x1.020BDE947E79Bp-17, 0x1.6FBE7D90E220Ap-19, 0x1.34A56E2C524D9p-20, 0x1.290E208BE1632p-21, 0x1.40C502C2E60DAp-22, 0x1.7D752B769FE37p-23 },
-	{ 0x1.CDC10444248D2p-3, 0x1.DE30FFACF46C1p-8, 0x1.7368511C032D9p-11, 0x1.E0C289D77D810p-14, 0x1.B388BE02825DAp-16, 0x1.FAFEABF0277E4p-18, 0x1.681EB4F61E57Bp-19, 0x1.2D51AFBD2DB8Bp-20, 0x1.212764C095644p-21, 0x1.37628F7293614p-22, 0x1.7160981B6F9EEp-23 },
-	{ 0x1.CD0233FF5B187p-3, 0x1.DBE1243A185ADp-8, 0x1.706B6F6E698CCp-11, 0x1.DB5AE8CB7FD0Cp-14, 0x1.AD40A9EDFF5A6p-16, 0x1.F215D16905960p-18, 0x1.60AD30E34A720p-19, 0x1.262FC4A5D3A87p-20, 0x1.197BC40BC5B8Ep-21, 0x1.2E4C1C4EDB281p-22, 0x1.65B47BBB42CAAp-23 },
-	{ 0x1.CC444F84E7C57p-3, 0x1.D99609B436BD4p-8, 0x1.6D772392CF1B8p-11, 0x1.D607344C363C1p-14, 0x1.A714CCF710013p-16, 0x1.E95C0969034B7p-18, 0x1.5968B723D50D0p-19, 0x1.1F3E38A22139Cp-20, 0x1.12096047B9F42p-21, 0x1.257F18C03DA8Dp-22, 0x1.5A6D1DBE14E85p-23 },
-	{ 0x1.CB8754F0C14DFp-3, 0x1.D74FA27826C2Fp-8, 0x1.6A8B4DF00E206p-11, 0x1.D0C712FEC28A5p-14, 0x1.A104924521893p-16, 0x1.E0D03782FF9DEp-18, 0x1.525016ABDC3D4p-19, 0x1.187BA32E32317p-20, 0x1.0ACE6B6DA8DD7p-21, 0x1.1CF90B8DAC81Cp-22, 0x1.4F86E8FD00009p-23 },
-	{ 0x1.CACB426448D52p-3, 0x1.D50DE114DCA81p-8, 0x1.67A7CF7A7EA3Bp-11, 0x1.CB9A2D5EF1CDBp-14, 0x1.9B0F6881B604Cp-16, 0x1.D87146CD9C6D9p-18, 0x1.4B62274E3EFE2p-19, 0x1.11E6A7210D363p-20, 0x1.03C92702F53B8p-21, 0x1.14B791FE1DC65p-22, 0x1.44FE6A6463761p-23 },
-	{ 0x1.CA1016063608Ep-3, 0x1.D2D0B84A89A8Fp-8, 0x1.64CC89B10E443p-11, 0x1.C6802DB428A04p-14, 0x1.9534C1C0B236Fp-16, 0x1.D03E29AB5F95Bp-18, 0x1.449DC9752B886p-19, 0x1.0B7DF24AE9C1Fp-20, 0x1.F9EFC717BD0E9p-22, 0x1.0CB85F02B1610p-22, 0x1.3AD04FA3EF27Bp-23 },
-	{ 0x1.C955CE02839BDp-3, 0x1.D0981B09C08D2p-8, 0x1.61F95E9A6988Dp-11, 0x1.C178C0069A1A0p-14, 0x1.8F7413695B5EAp-16, 0x1.C835D994958A6p-18, 0x1.3E01E5DD13F25p-19, 0x1.05403D16ED920p-20, 0x1.ECB20006DF8B6p-22, 0x1.04F93A6911A40p-22, 0x1.30F965EC02324p-23 },
-	{ 0x1.C89C688A5C163p-3, 0x1.CE63FC729EAFEp-8, 0x1.5F2E30C23639Bp-11, 0x1.BC839214C7551p-14, 0x1.89CCD61FFF71Dp-16, 0x1.C05756E2E665Fp-18, 0x1.378D6D51F3539p-19, 0x1.FE589460815E0p-21, 0x1.DFD5D2B0F1CB1p-22, 0x1.FAF0002B76F87p-23, 0x1.277698B7D2A66p-23 },
-	{ 0x1.C7E3E3D406FC3p-3, 0x1.CC344FD3F96B1p-8, 0x1.5C6AE3365E4E9p-11, 0x1.B7A0534945682p-14, 0x1.843E85B042718p-16, 0x1.B8A1A89E8ED88p-18, 0x1.313F586ECE753p-19, 0x1.F281CC54B0D0Bp-21, 0x1.D35833DEC21C6p-22, 0x1.EC653E8BBC430p-23, 0x1.1E44F0A3D9456p-23 },
-	{ 0x1.C72C3E1AD646Ep-3, 0x1.CA0908AA8FC9Bp-8, 0x1.59AF59846B025p-11, 0x1.B2CEB4B0C7CDFp-14, 0x1.7EC8A0F80BADDp-16, 0x1.B113DC4D2EF0Ep-18, 0x1.2B16A75F5BDD1p-19, 0x1.E6F9CE58B5AF0p-21, 0x1.C7363251447F1p-22, 0x1.DE4E33B10AB95p-23, 0x1.1561925001DBCp-23 },
-	{ 0x1.C675759F142F9p-3, 0x1.C7E21AA04068Ap-8, 0x1.56FB77B6EFA0Fp-11, 0x1.AE0E68F06D433p-14, 0x1.796AA9D30DFD6p-16, 0x1.A9AD05C221351p-18, 0x1.251261A3BFC27p-19, 0x1.DBBE593EFB50Ep-21, 0x1.BB6CF5D7810DEp-22, 0x1.D0A7073D893BDp-23, 0x1.0CC9BD4D26161p-23 },
-	{ 0x1.C5BF88A5F14B0p-3, 0x1.C5BF798B436D9p-8, 0x1.544F225303A67p-11, 0x1.A95F243C4D324p-14, 0x1.74242506E614Bp-16, 0x1.A26C3EF04CFA4p-18, 0x1.1F3195D64931Fp-19, 0x1.D0CD3DC08808Dp-21, 0x1.AFF9BE6D21B78p-22, 0x1.C36C036538319p-23, 0x1.047ACB155DBBFp-23 },
-	{ 0x1.C50A757972F2Bp-3, 0x1.C3A1196D687ABp-8, 0x1.51AA3E55CBC92p-11, 0x1.A4C09C4E43D34p-14, 0x1.6EF49A2FCA55Ap-16, 0x1.9B50A7BD6761Cp-18, 0x1.197359731E567p-19, 0x1.C6245DE5011FEp-21, 0x1.A4D9E3614AE11p-22, 0x1.B69993A8A7F3Dp-23, 0x1.F8E45C1D68277p-24 },
-	{ 0x1.C4563A6861FB4p-3, 0x1.C186EE7358890p-8, 0x1.4F0CB132118C5p-11, 0x1.A032885CFB37Bp-14, 0x1.69DB93ADC7940p-16, 0x1.945965D696D2Ap-18, 0x1.13D6C8A1C687Bp-19, 0x1.BBC1AC7002E9Ep-21, 0x1.9A0AD2856DE2Cp-22, 0x1.AA2C439C19143p-23, 0x1.E95AE12FADA90p-24 },
-	{ 0x1.C3A2D5C639B64p-3, 0x1.BF70ECF3DB90Bp-8, 0x1.4C7660CDE8FB4p-11, 0x1.9BB4A1132F843p-14, 0x1.64D89E928674Ep-16, 0x1.8D85A4866D334p-18, 0x1.0E5B060081620p-19, 0x1.B1A32C539AE0Dp-21, 0x1.8F8A0F63C77E8p-22, 0x1.9E20BDBA89681p-23, 0x1.DA54683CAEFE7p-24 },
-	{ 0x1.C2F045EB173DBp-3, 0x1.BD5F096F21EACp-8, 0x1.49E73380642F4p-11, 0x1.9746A0872CAA7p-14, 0x1.5FEB4A8F9530Fp-16, 0x1.86D4948C2D909p-18, 0x1.08FF3A715AC78p-19, 0x1.A7C6F027B39FDp-21, 0x1.8555327D3F82Ap-22, 0x1.9273CA4435D1Ep-23, 0x1.CBCC607C386E6p-24 },
-	{ 0x1.C23E8933A9078p-3, 0x1.BB51388E11551p-8, 0x1.475F100F54461p-11, 0x1.92E842328402Bp-14, 0x1.5B1329E531A83p-16, 0x1.80456BF45245Fp-18, 0x1.03C294E8EC42Bp-19, 0x1.9E2B19A644695p-21, 0x1.7B69E88E61B90p-22, 0x1.87224E281D988p-23, 0x1.BDBE63D3428F9p-24 },
-	{ 0x1.C18D9E011EC04p-3, 0x1.B9476F219583Fp-8, 0x1.44DDDDAD17709p-11, 0x1.8E9942E9F82FFp-14, 0x1.564FD1518FD4Dp-16, 0x1.79D765F24918Dp-18, 0x1.FD48947D79A81p-20, 0x1.94CDD92C17A92p-21, 0x1.71C5F1DB2B174p-22, 0x1.7C2949F818C0Fp-23, 0x1.B026353560D8Cp-24 },
-	{ 0x1.C0DD82B9196B9p-3, 0x1.B741A221F42CBp-8, 0x1.426383F673C3Ap-11, 0x1.8A5960D59DC73p-14, 0x1.51A0D80098CF6p-16, 0x1.7389C2BB5B1B6p-18, 0x1.F34729FE617E3p-20, 0x1.8BAD6D3DFD92Ep-21, 0x1.6867218168D8Cp-22, 0x1.7185D8E71751Dp-23, 0x1.A2FFBF166D5C1p-24 },
-	{ 0x1.C02E35C59BC80p-3, 0x1.B53FC6AE2474Dp-8, 0x1.3FEFEAF07E78Dp-11, 0x1.86285B692F3E0p-14, 0x1.4D05D77C1EB3Cp-16, 0x1.6D5BC762B6822p-18, 0x1.E97F6A7DF6E6Ap-20, 0x1.82C82212419DAp-21, 0x1.5F4B5CD169C4Cp-22, 0x1.67352FD123AEFp-23, 0x1.964711EBCA80Fp-24 },
-	{ 0x1.BF7FB594FAF63p-3, 0x1.B341D20B29B25p-8, 0x1.3D82FB068F4D7p-11, 0x1.8205F35C92AFEp-14, 0x1.487E6B9C81D65p-16, 0x1.674CBDB690F11p-18, 0x1.DFEFE0E00C5A2p-20, 0x1.7A1C511E3B2E6p-21, 0x1.56709AACC460Ep-22, 0x1.5D349C4CC6503p-23, 0x1.89F862BC9A6E3p-24 },
-	{ 0x1.BED20099CF614p-3, 0x1.B147B9A37169Dp-8, 0x1.3B1C9D083FB0Fp-11, 0x1.7DF1EAA490156p-14, 0x1.440A3279C3D78p-16, 0x1.615BF41E5917Dp-18, 0x1.D697226F7CD2Bp-20, 0x1.71A860A7D3422p-21, 0x1.4DD4E2EAF7366p-22, 0x1.538183C56D05Bp-23, 0x1.7E1009C0526BAp-24 },
-	{ 0x1.BE25154AE5E76p-3, 0x1.AF51730634782p-8, 0x1.38BCBA2775775p-11, 0x1.79EC046BB6931p-14, 0x1.3FA8CC5D053E7p-16, 0x1.5B88BD79EEC6Dp-18, 0x1.CD73CE8D7F7A2p-20, 0x1.696AC35ADA5A0p-21, 0x1.45764DC3AA9ACp-22, 0x1.4A19629E7BBE3p-23, 0x1.728A810B16D19p-24 },
-	{ 0x1.BD78F22331416p-3, 0x1.AD5EF3E6DB549p-8, 0x1.36633BF678C47p-11, 0x1.75F4050B6F905p-14, 0x1.3B59DBB26A61Ap-16, 0x1.55D27101D8F3Dp-18, 0x1.C4848E639A2A6p-20, 0x1.6161F7E20B4F3p-21, 0x1.3D53033E5DA3Ap-22, 0x1.40F9CB5EB05FCp-23, 0x1.676463475227Ep-24 },
-	{ 0x1.BCCD95A1BBA7Dp-3, 0x1.AB70321C655B0p-8, 0x1.34100C6614E80p-11, 0x1.7209B2053E505p-14, 0x1.371D04FB647DEp-16, 0x1.50386A2871715p-18, 0x1.BBC814981BA72p-20, 0x1.598C888399094p-21, 0x1.35693AA74A08Cp-22, 0x1.382065E386BA9p-23, 0x1.5C9A6A7BFFE09p-24 },
-	{ 0x1.BC22FE4998B4Dp-3, 0x1.A98523A0D30BAp-8, 0x1.31C315C3C3E47p-11, 0x1.6E2CD1FC2AD22p-14, 0x1.32F1EEC15BF5Dp-16, 0x1.4ABA087BFE62Fp-18, 0x1.B33D1D05074DEp-20, 0x1.51E90AC12657Ap-21, 0x1.2DB73A094CC21p-22, 0x1.2F8AEE9C4CEE2p-23, 0x1.52296EDF28A82p-24 },
-	{ 0x1.BB792AA1D780Fp-3, 0x1.A79DBE9093303p-8, 0x1.2F7C42B7E45C3p-11, 0x1.6A5D2CAE56C4Ep-14, 0x1.2ED84188B8CE2p-16, 0x1.4556AF89B1C0Ep-18, 0x1.AAE26C715CC80p-20, 0x1.4A761EFB086DBp-21, 0x1.263B55ACA321Fp-22, 0x1.273735CC9BC81p-23, 0x1.480E65B413954p-24 },
-	{ 0x1.BAD0193574FA6p-3, 0x1.A5B9F929F2D5Dp-8, 0x1.2D3B7E43F9A2Cp-11, 0x1.669A8AEEBB678p-14, 0x1.2ACFA7C44691Dp-16, 0x1.400DC6C1877E4p-18, 0x1.A2B6D04CA70EEp-20, 0x1.43327016B5AADp-21, 0x1.1EF3EF9A4E0AEp-22, 0x1.1F231ED5E9B2Dp-23, 0x1.3E466034B49CEp-24 },
-	{ 0x1.BA27C8934E755p-3, 0x1.A3D9C9CC900B8p-8, 0x1.2B00B3C0F5B17p-11, 0x1.62E4B69F0F33Ep-14, 0x1.26D7CDC8F0E1Cp-16, 0x1.3ADEB95AFB279p-18, 0x1.9AB91E6CBED1Fp-20, 0x1.3C1CB328437EFp-21, 0x1.17DF7723EEAD9p-22, 0x1.174C9F87F1B70p-23, 0x1.34CE8A85E58FFp-24 },
-	{ 0x1.B980374E14741p-3, 0x1.A1FD26F8CF562p-8, 0x1.28CBCEDD8CC05p-11, 0x1.5F3B7AA9D23DDp-14, 0x1.22F061C1D6093p-16, 0x1.35C8F63A8E0E7p-18, 0x1.92E834CDAD058p-20, 0x1.3533A71ED7522p-21, 0x1.10FC686FF1F57p-22, 0x1.0FB1BF77AAE16p-23, 0x1.2BA42AB5FB975p-24 },
-	{ 0x1.B8D963FC3DA61p-3, 0x1.A024074F53CA0p-8, 0x1.269CBB9C92476p-11, 0x1.5B9EA2FC8036Cp-14, 0x1.1F1913A4AD06Cp-16, 0x1.30CBEFD817523p-18, 0x1.8B42F9539B102p-20, 0x1.2E761473EF61Ep-21, 0x1.0A494C09E172Fp-22, 0x1.0850975C8F129p-23, 0x1.22C49FC54FA07p-24 },
-	{ 0x1.B8334D37FA1CEp-3, 0x1.9E4E619079BB6p-8, 0x1.247366535F2B2p-11, 0x1.580DFC81E70F5p-14, 0x1.1B5195267C8DEp-16, 0x1.2BE71C25D7504p-18, 0x1.83C8598EBEB92p-20, 0x1.27E2CCDD698A8p-21, 0x1.03C4B676B228Cp-22, 0x1.01275073F2D12p-23, 0x1.1A2D60B85476Cp-24 },
-	{ 0x1.B78DF19F26B60p-3, 0x1.9C7C2C9BD3F7Dp-8, 0x1.224FBBA840DC1p-11, 0x1.5489551CA136Ep-14, 0x1.179999B0A099Fp-16, 0x1.2719F478483FBp-18, 0x1.7C774A81309B2p-20, 0x1.2178AB022EEBBp-21, 0x1.FADA8F99D656Fp-23, 0x1.F46847D464680p-24, 0x1.11DBFBB2D9688p-24 },
-	{ 0x1.B6E94FD340B83p-3, 0x1.9AAD5F6FAB79Dp-8, 0x1.2031A890F1300p-11, 0x1.51107BA1B2829p-14, 0x1.13F0D6561C3F3p-16, 0x1.2263F56EA5F0Ap-18, 0x1.754EC8669C7DBp-20, 0x1.1B3692316C451p-21, 0x1.EE8356A0FEEFDp-23, 0x1.E6EAB492F2B35p-24, 0x1.09CE151C1C467p-24 },
-	{ 0x1.B645667959A43p-3, 0x1.98E1F1288188Fp-8, 0x1.1E191A5116BF2p-11, 0x1.4DA33FD346CA0p-14, 0x1.105701C93578Ep-16, 0x1.1DC49EDC26DCFp-18, 0x1.6E4DD67DBB8E8p-20, 0x1.151B6E1C3FCE1p-21, 0x1.E2812E246F9DCp-23, 0x1.D9D295DBE2556p-24, 0x1.020166CB51590p-24 },
-	{ 0x1.B5A2343A0B369p-3, 0x1.9719D90094390p-8, 0x1.1C05FE78CD8F1p-11, 0x1.4A41725B9151Bp-14, 0x1.0CCBD45158C62p-16, 0x1.193B73B1E0E9Dp-18, 0x1.67737ED389064p-20, 0x1.0F263291C6292p-21, 0x1.D6D1972515801p-23, 0x1.CD1CB6FE36AAEp-24, 0x1.F4E77E7897096p-25 },
-	{ 0x1.B4FFB7C16B9B6p-3, 0x1.95550E4F653BCp-8, 0x1.19F842E337D86p-11, 0x1.46EAE4C7CC1FBp-14, 0x1.094F07C142790p-16, 0x1.14C7F9E9546ACp-18, 0x1.60BED21022507p-20, 0x1.0955DB3D70E71p-21, 0x1.CB7226CF84B26p-23, 0x1.C0C5FEDC5515Ep-24, 0x1.E6460197E4A90p-25 },
-	{ 0x1.B45DEFBF01D0Fp-3, 0x1.9393888942F75p-8, 0x1.17EFD5B516B4Cp-11, 0x1.439F698356601p-14, 0x1.05E0576D6BAC5p-16, 0x1.1069BA6F9824Bp-18, 0x1.5A2EE7454455Fp-20, 0x1.03A96B6791DAAp-21, 0x1.C06085CEA05F9p-23, 0x1.B4CB6EF24C120p-24, 0x1.D81A41F86DE99p-25 },
-	{ 0x1.B3BCDAE5BA3A8p-3, 0x1.91D53F3ED3D55p-8, 0x1.15ECA55B6A836p-11, 0x1.405ED3D2F1024p-14, 0x1.027F8022B8E49p-16, 0x1.0C204111213DDp-18, 0x1.53C2DBBE580B8p-20, 0x1.FC3FDB700E83Dp-22, 0x1.B59A6FA4635BAp-23, 0x1.A92A226552D84p-24, 0x1.CA604F7E78B9Dp-25 },
-	{ 0x1.B31C77EBDB607p-3, 0x1.901A2A1CA3BEEp-8, 0x1.13EEA08A1AD57p-11, 0x1.3D28F7D018C1Ap-14, 0x1.FE58803AD0E3Ap-17, 0x1.07EB1C662231Dp-18, 0x1.4D79D2D200E2Dp-20, 0x1.F170E7F5EB0E3p-22, 0x1.AB1DB2088F627p-23, 0x1.9DDF4D1C273EBp-24, 0x1.BD145D92D3ECEp-25 },
-	{ 0x1.B27CC58AFADECp-3, 0x1.8E6240EAB3B92p-8, 0x1.11F5B63AA5B35p-11, 0x1.39FDAA647CCF9p-14, 0x1.F7CCAE007D6C6p-17, 0x1.03C9DDBF7C0CDp-18, 0x1.4752F5B520372p-20, 0x1.E6E42DCEF820Ap-22, 0x1.A0E82C4D0B527p-23, 0x1.92E83ADFF30F2p-24, 0x1.B032C1D446008p-25 },
-	{ 0x1.B1DDC27FF27EFp-3, 0x1.8CAD7B8C0B969p-8, 0x1.1001D5AAD60D3p-11, 0x1.36DCC145915C0p-14, 0x1.F15B0B97DD091p-17, 0x1.FF7832287AADAp-19, 0x1.414D734F4140Cp-20, 0x1.DC97EBD0A68A1p-22, 0x1.96F7CEC7BAD8Bp-23, 0x1.88424E85657A0p-24, 0x1.A3B7F2D5BF7BBp-25 },
-	{ 0x1.B13F6D8AD57EBp-3, 0x1.8AFBD1FE4DB1Fp-8, 0x1.0E12EE5B812C0p-11, 0x1.33C612F03D3EEp-14, 0x1.EB031DAD77B22p-17, 0x1.F782C9DF54842p-19, 0x1.3B688010618BFp-20, 0x1.D28A6DCC852D7p-22, 0x1.8D4A9A419C113p-23, 0x1.7DEB011DB0945p-24, 0x1.97A086E8D06CDp-25 },
-	{ 0x1.B0A1C56EE600Bp-3, 0x1.894D3C594CA87p-8, 0x1.0C28F00F4AF6Fp-11, 0x1.30B976A4A20B2p-14, 0x1.E4C46B88AE772p-17, 0x1.EFB2B4BF93A6Cp-19, 0x1.35A355C80A5C4p-20, 0x1.C8BA0C28BBFB3p-22, 0x1.83DE9F6AF9906p-23, 0x1.73DFE12F1DF19p-24, 0x1.8BE932F3E5BC8p-25 },
-	{ 0x1.B004C8F28AA7Fp-3, 0x1.87A1B2CEA306Dp-8, 0x1.0A43CAC970E42p-11, 0x1.2DB6C461FDD6Fp-14, 0x1.DE9E7EFBE04FEp-17, 0x1.E80729C8E7C04p-19, 0x1.2FFD337DAFCC4p-20, 0x1.BF252B7BF5E7Dp-22, 0x1.7AB1FE5481330p-23, 0x1.6A1E91F4F0734p-24, 0x1.808EC953D8011p-25 },
-	{ 0x1.AF6876DF445C6p-3, 0x1.85F92DA94CE09p-8, 0x1.08636ECC9B6C0p-11, 0x1.2ABDD4E2A60DEp-14, 0x1.D890E454F9D04p-17, 0x1.E07F64BDB7C2Ap-19, 0x1.2A755D4A4ADE9p-20, 0x1.B5CA3C2C9B22Ep-22, 0x1.71C2E5ED11DB4p-23, 0x1.60A4CAA64C4B0p-24, 0x1.758E38C85A42Dp-25 },
-	{ 0x1.AECCCE01A437Fp-3, 0x1.8453A54D43455p-8, 0x1.0687CC99B5D82p-11, 0x1.27CE81981AA27p-14, 0x1.D29B2A4E6CAA4p-17, 0x1.D91AA6032978Bp-19, 0x1.250B1C3324155p-20, 0x1.ACA7BA133DEF2p-22, 0x1.690F938414050p-23, 0x1.577055C3E0F54p-24, 0x1.6AE48B6ADBB14p-25 },
-	{ 0x1.AE31CD29419BCp-3, 0x1.82B11237198BDp-8, 0x1.04B0D4EECC460p-11, 0x1.24E8A4A730FCAp-14, 0x1.CCBCE2008C060p-17, 0x1.D1D832821386Cp-19, 0x1.1FBDBE05C482Ap-20, 0x1.A3BC2C201D932p-22, 0x1.6096525032C2Ep-23, 0x1.4E7F106C139E4p-24, 0x1.608EE5AF73AAAp-25 },
-	{ 0x1.AD977328B06BFp-3, 0x1.81116CFB9C679p-8, 0x1.02DE78C5EFB97p-11, 0x1.220C18E45605Cp-14, 0x1.C6F59ED34ACBBp-17, 0x1.CAB75388D29CDp-19, 0x1.1A8C9535039DEp-20, 0x1.9B062403A3E20p-22, 0x1.58557AFA4C532p-23, 0x1.45CEE9B56AF2Cp-24, 0x1.568A856F73AA6p-25 },
-	{ 0x1.ACFDBED577727p-3, 0x1.7F74AE4772C06p-8, 0x1.0110A9542019Ap-11, 0x1.1F38B9CFE6B75p-14, 0x1.C144F6705914Bp-17, 0x1.C3B756ADFADA2p-19, 0x1.1576F8B728803p-20, 0x1.92843DD9C2DECp-22, 0x1.504B732C7306Cp-23, 0x1.3D5DE20EFFD38p-24, 0x1.4CD4C0FD3EB9Ap-25 },
-	{ 0x1.AC64AF0806E75p-3, 0x1.7DDACEDEC041Ap-8, 0x1.FE8EB01077E9Dp-12, 0x1.1C6E63929E973p-14, 0x1.BBAA80B59E0DCp-17, 0x1.BCD78DB3DE9CAp-19, 0x1.107C43E5157DAp-20, 0x1.8A351FD818F0Dp-22, 0x1.4876AD24D8B05p-23, 0x1.352A0AA6B8BF4p-24, 0x1.436B064109D96p-25 },
-	{ 0x1.ABCC429BAF1DDp-3, 0x1.7C43C79CC9992p-8, 0x1.FB04ED13EBD28p-12, 0x1.19ACF2FA1B8E7p-14, 0x1.B625D7A80BA9Bp-17, 0x1.B6174E6CE42F6p-19, 0x1.0B9BD65A75613p-20, 0x1.821779FEC30F0p-22, 0x1.40D5A74C803C9p-23, 0x1.2D3184D5180B0p-24, 0x1.3A4AD9DE2C92Dp-25 },
-	{ 0x1.AB34786E97561p-3, 0x1.7AAF91739A5B8p-8, 0x1.F783ED719F1F5p-12, 0x1.16F44575768E5p-14, 0x1.B0B69766C9996p-17, 0x1.AF75F2A0A4028p-19, 0x1.06D513D6E1DDCp-20, 0x1.7A2A05CBC52A7p-22, 0x1.3966EBD192778p-23, 0x1.2572818E672E5p-24, 0x1.3171D660AC662p-25 },
-	{ 0x1.AA9D4F61B4B2Bp-3, 0x1.791E256BAC86Ap-8, 0x1.F40B955633921p-12, 0x1.14443911F0787p-14, 0x1.AB5C5E1EB5104p-17, 0x1.A8F2D7F1C94BBp-19, 0x1.0227641FFB137p-20, 0x1.726B85F0F1FDFp-22, 0x1.32291045344FDp-23, 0x1.1DEB40D90B7E4p-24, 0x1.28DDAB72B13A5p-25 },
-	{ 0x1.AA06C658C1513p-3, 0x1.778F7CA391986p-8, 0x1.F09BC959F49A9p-12, 0x1.119CAC77B2C5Bp-14, 0x1.A616CBFE32F1Cp-17, 0x1.A28D5FC4AF222p-19, 0x1.FB2465C8D098Dp-21, 0x1.6ADAC60C3C3ABp-22, 0x1.2B1AB53CBE2F1p-23, 0x1.169A1148D2B4Ep-24, 0x1.208C1D1994330p-25 },
-	{ 0x1.A970DC3A3384Bp-3, 0x1.7603904F9D324p-8, 0x1.ED346E7EECB9Ep-12, 0x1.0EFD7EE6A368Fp-14, 0x1.A0E583295214Fp-17, 0x1.9C44EF26B458Ap-19, 0x1.F229DF3F74BBCp-21, 0x1.63769A625BD5Bp-22, 0x1.243A85F63535Fp-23, 0x1.0F7D4F7F078FBp-24, 0x1.187B02FA3D752p-25 },
-	{ 0x1.A8DB8FEF3532Ep-3, 0x1.747A59B991418p-8, 0x1.E9D56A2F04EE6p-12, 0x1.0C6690334B6FEp-14, 0x1.9BC827AE3B5F3p-17, 0x1.9618EEB6408ABp-19, 0x1.E95E1AFE50B25p-21, 0x1.5C3DDF9BB2FE6p-22, 0x1.1D8737FFE8551p-23, 0x1.089365AF20A7Fp-24, 0x1.10A847A48863Ap-25 },
-	{ 0x1.A846E0639B51Fp-3, 0x1.72F3D2404BA39p-8, 0x1.E67EA23A2DED4p-12, 0x1.09D7C0C3CFE64p-14, 0x1.96BE5F79ED86Ep-17, 0x1.9008CA8B74FD3p-19, 0x1.E0C0068E3EF68p-21, 0x1.552F7A835F021p-22, 0x1.16FF8AE3145C1p-23, 0x1.01DACB27DD6F0p-24, 0x1.0911E7E568C21p-25 },
-	{ 0x1.A7B2CC85DD876p-3, 0x1.716FF357753F9p-8, 0x1.E32FFCD492EF7p-12, 0x1.0750F18CFC85Bp-14, 0x1.91C7D24D42611p-17, 0x1.8A13F2218420Ep-19, 0x1.D84E96733F0CCp-21, 0x1.4E4A57C86216Bp-22, 0x1.10A247D1732D1p-23, 0x1.F6A407C14DDA5p-25, 0x1.01B5F21F8DEB4p-25 },
-	{ 0x1.A71F53470DE66p-3, 0x1.6FEEB687328CAp-8, 0x1.DFE96094D5DADp-12, 0x1.04D2040F5FBC3p-14, 0x1.8CE429B23BACBp-17, 0x1.8439D840AAB03p-19, 0x1.D008C5FAB9D95p-21, 0x1.478D6BC0D3B4Cp-22, 0x1.0A6E41559B4C8p-23, 0x1.E9EF401617087p-25, 0x1.F5250B5487EB4p-26 },
-	{ 0x1.A68C739AD0CE6p-3, 0x1.6E70156BD57E8p-8, 0x1.DCAAB472548F5p-12, 0x1.025ADA54779A5p-14, 0x1.881310F1955E8p-17, 0x1.7E79F2E8C589Cp-19, 0x1.C7ED970B44DADp-21, 0x1.40F7B22F05D20p-22, 0x1.046253061604Cp-23, 0x1.DD9477505D12Bp-25, 0x1.E74BA46CAA50Ap-26 },
-	{ 0x1.A5FA2C7754E83p-3, 0x1.6CF409B590D04p-8, 0x1.D973DFC37723Ep-12, 0x1.FFD6ADD7DE740p-15, 0x1.835435089B7EBp-17, 0x1.78D3BB3C7F937p-19, 0x1.BFFC11F5D7FB5p-21, 0x1.3A882E088DEEAp-22, 0x1.FCFAC2762696Bp-24, 0x1.D190FC440C19Cp-25, 0x1.D9DC2E71612B3p-26 },
-	{ 0x1.A5687CD54B418p-3, 0x1.6B7A8D282CA6Cp-8, 0x1.D644CA3C06DEFp-12, 0x1.FB06B9D1D868Ep-15, 0x1.7EA7449F41BAAp-17, 0x1.7346AD6D13165p-19, 0x1.B83345486A133p-21, 0x1.343DE93F21841p-22, 0x1.F17CB18D47030p-24, 0x1.C5E233D085320p-25, 0x1.CCD346B53A101p-26 },
-	{ 0x1.A4D763AFDF866p-3, 0x1.6A03999ABC83Bp-8, 0x1.D31D5BEB8DB6Bp-12, 0x1.F6459FBED77D1p-15, 0x1.7A0BEFFE7AD83p-17, 0x1.6DD248A69A2A1p-19, 0x1.B09245A1E8A31p-21, 0x1.2E17F48B35F9Cp-22, 0x1.E6485D5EC01A8p-24, 0x1.BA8598217C2A5p-25, 0x1.C02DA7DE835D3p-26 },
-	{ 0x1.A446E004B0584p-3, 0x1.688F28F756828p-8, 0x1.CFFD7D3BBE295p-12, 0x1.F19327C35E0F6p-15, 0x1.7581E906CE48Fp-17, 0x1.68760EFCE9EBDp-19, 0x1.A9182D877FABCp-21, 0x1.2815673854D50p-22, 0x1.DB5BBFDAD945Ep-24, 0x1.AF78B7F6A0A4Cp-25, 0x1.B3E828DCA038Fp-26 },
-	{ 0x1.A3B6F0D3C7C17p-3, 0x1.671D353ACBD85p-8, 0x1.CCE516EEE33B9p-12, 0x1.ECEF1AFB6CF15p-15, 0x1.7108E3272A278p-17, 0x1.63318558F45C5p-19, 0x1.A1C41D3B26EB4p-21, 0x1.22355EF31564Ap-22, 0x1.D0B4E25377D19p-24, 0x1.A4B935F1D21ABp-25, 0x1.A7FFBBE73A86Dp-26 },
-	{ 0x1.A327951F93C56p-3, 0x1.65ADB87462911p-8, 0x1.C9D4121E586FBp-12, 0x1.E859437596E69p-15, 0x1.6CA09353EFF5Dp-17, 0x1.5E043366ACE65p-19, 0x1.9A953A936A23Ep-21, 0x1.1C76FF98ADAE0p-22, 0x1.C651DCFF05D13p-24, 0x1.9A44C7EBA0DE0p-25, 0x1.9C716D86F2176p-26 },
-	{ 0x1.A298CBECDF0C7p-3, 0x1.6440ACC59082Cp-8, 0x1.C6CA583909861p-12, 0x1.E3D16C2E306C8p-15, 0x1.6848AFFE3A81Bp-17, 0x1.58EDA3836BACAp-19, 0x1.938AB0D4626B2p-21, 0x1.16D973080CE37p-22, 0x1.BC30D67F8F0C6p-24, 0x1.9019364DE0875p-25, 0x1.913A63A72C29Cp-26 },
-	{ 0x1.A20A9442C9AB1p-3, 0x1.62D60C61B7715p-8, 0x1.C3C7D301F9DB4p-12, 0x1.DF57610A9B156p-15, 0x1.6400F10B5B5EEp-17, 0x1.53ED62ACCBDEDp-19, 0x1.8CA3B089D6D39p-21, 0x1.115BE8F472277p-22, 0x1.B250036DEDD6Dp-24, 0x1.86345B7412889p-25, 0x1.8657DCB0A9FD8p-26 },
-	{ 0x1.A17CED2AC2046p-3, 0x1.616DD18DE25CAp-8, 0x1.C0CC6C8ED3386p-12, 0x1.DAEAEED4ABC7Fp-15, 0x1.5FC90FCC8E73Ep-17, 0x1.4F03007001737p-19, 0x1.85DF6F627B1A1p-21, 0x1.0BFD96B972D7Ep-22, 0x1.A8ADA5E8E31E5p-24, 0x1.7C94231171CB4p-25, 0x1.7BC72EAC90B66p-26 },
-	{ 0x1.A0EFD5B07DC68p-3, 0x1.6007F6A083F31p-8, 0x1.BDD80F467BEA3p-12, 0x1.D68BE3362B391p-15, 0x1.5BA0C6F6E21F9p-17, 0x1.4A2E0ED9A2C24p-19, 0x1.7F3D280C434CDp-21, 0x1.06BDB73064101p-22, 0x1.9F480D27F652Cp-24, 0x1.7336899C6A5A5p-25, 0x1.7185C66F9031Bp-26 },
-	{ 0x1.A0634CE1F3013p-3, 0x1.5EA476013622Bp-8, 0x1.BAEAA5DFB3F65p-12, 0x1.D23A0CB46FF89p-15, 0x1.5787D29B528C7p-17, 0x1.456E2265E296Ap-19, 0x1.78BC1A11C3B18p-21, 0x1.019B8A871B7FAp-22, 0x1.961D9511FB180p-24, 0x1.6A199BBF4A1E6p-25, 0x1.679126CCD9A96p-26 },
-	{ 0x1.9FD751CF51566p-3, 0x1.5D434A287AC37p-8, 0x1.B8041B5FB9461p-12, 0x1.CDF53AAC11707p-15, 0x1.537DF01F16CC8p-17, 0x1.40C2D1F1376D0p-19, 0x1.725B89B8947A2p-21, 0x1.F92CAC2FF83C4p-23, 0x1.8D2CA5D71BF3Cp-24, 0x1.613B75CDF9A20p-25, 0x1.5DE6E7D09A1A6p-26 },
-	{ 0x1.9F4BE38AFB430p-3, 0x1.5BE46D9F7D54Cp-8, 0x1.B5245B18F29F4p-12, 0x1.C9BD3D4CB3390p-15, 0x1.4F82DE341E67Ep-17, 0x1.3C2BB6A96CA97p-19, 0x1.6C1ABFE0B1204p-21, 0x1.EF5AC8868757Fp-23, 0x1.8473B38E4A5A3p-24, 0x1.589A43408DB16p-25, 0x1.5484B601AF5FFp-26 },
-	{ 0x1.9EC101297F819p-3, 0x1.5A87DAFFD5C9Ap-8, 0x1.B24B50A9A1447p-12, 0x1.C591E594E8291p-15, 0x1.4B965CD1BE0DEp-17, 0x1.37A86BFF1AAE9p-19, 0x1.65F909E4CB83Ep-21, 0x1.E5C008931CA69p-23, 0x1.7BF13DD5F5A79p-24, 0x1.50343E328472Bp-25, 0x1.4B6851AA51CEDp-26 },
-	{ 0x1.9E36A9C192840p-3, 0x1.592D8CF34C5D8p-8, 0x1.AF78E7FA99178p-12, 0x1.C173054E2C8D9p-15, 0x1.47B82D2D8A263p-17, 0x1.33388F9782D4Fp-19, 0x1.5FF5B97B8B2E0p-21, 0x1.DC5B144F0C365p-23, 0x1.73A3CF77EBAFCp-24, 0x1.4807AEE6824E5p-25, 0x1.428F8E276EDD8p-26 },
-	{ 0x1.9DACDC6C0805Fp-3, 0x1.57D57E339E6C7p-8, 0x1.ACAD0D3DFF19Ap-12, 0x1.BD606F08F6F75p-15, 0x1.43E811B45E055p-17, 0x1.2EDBC13ECC5B9p-19, 0x1.5A102499B1589p-21, 0x1.D32A9CE56879Dp-23, 0x1.6B89FE10469F2p-24, 0x1.4012EB4E64A29p-25, 0x1.39F8513E74050p-26 },
-	{ 0x1.9D239843CCB66p-3, 0x1.567FA98A444AAp-8, 0x1.A9E7ACEE0E251p-12, 0x1.B959F618DF127p-15, 0x1.4025CE038E946p-17, 0x1.2A91A2DA9F801p-19, 0x1.5447A5551A9AFp-21, 0x1.CA2D5C6ED583Ep-23, 0x1.63A269B74CF0Bp-24, 0x1.3854569781D86p-25, 0x1.31A092794B8F9p-26 },
-	{ 0x1.9C9ADC65DFF87p-3, 0x1.552C09D038155p-8, 0x1.A728B3CBE1BE0p-12, 0x1.B55F6E90D9FE4p-15, 0x1.3C7126E247419p-17, 0x1.2659D85D1C056p-19, 0x1.4E9B99C897574p-21, 0x1.C16215AF7A50Bp-23, 0x1.5BEBBCAE293AEp-24, 0x1.30CA60BAEFF38p-25, 0x1.29865A884F78Ap-26 },
-	{ 0x1.9C12A7F14DBA7p-3, 0x1.53DA99EDBD78Bp-8, 0x1.A4700EDE46D85p-12, 0x1.B170AD3F8B9FCp-15, 0x1.38C9E23B101A1p-17, 0x1.223407B82883Cp-19, 0x1.490B63F8943E8p-21, 0x1.B8C793D6FE3A1p-23, 0x1.5464AB0E6087Fp-24, 0x1.29738611AC2FEp-25, 0x1.21A7C2A9F8D28p-26 },
-	{ 0x1.9B8AFA072863Fp-3, 0x1.528B54DA2A663p-8, 0x1.A1BDAB7092711p-12, 0x1.AD8D87ABAC6D2p-15, 0x1.352FC7157BF59p-17, 0x1.1E1FD8D117F31p-19, 0x1.439669B88C7A5p-21, 0x1.B05CAA428156Bp-23, 0x1.4D0BF27BEEDAAp-24, 0x1.224E4EEC7FA8Dp-25, 0x1.1A02F41814675p-26 },
-	{ 0x1.9B03D1CA82D90p-3, 0x1.513E359BB0B65p-8, 0x1.9F1177117DDBEp-12, 0x1.A9B5D4108333Bp-15, 0x1.31A29D8FFDA23p-17, 0x1.1A1CF574A2F34p-19, 0x1.3E3C14913F404p-21, 0x1.A82034407F1A2p-23, 0x1.45E059D9F261Ep-24, 0x1.1B594F2F7E608p-25, 0x1.1296277A476DDp-26 },
-	{ 0x1.9A7D2E606A939p-3, 0x1.4FF3374728B15p-8, 0x1.9C6B5F9208A3Bp-12, 0x1.A5E9695A725CBp-15, 0x1.2E222ED9E30A5p-17, 0x1.162B094B326CBp-19, 0x1.38FBD1A7A2C8Dp-21, 0x1.A01114D68B213p-23, 0x1.3EE0B101CEB7Ap-24, 0x1.149325F0FF4AAp-25, 0x1.0B5FA45DB13AEp-26 },
-	{ 0x1.99F70EEFE1D1Cp-3, 0x1.4EAA54FFDC7B5p-8, 0x1.99CB53045FE0Ep-12, 0x1.A2281F23983A2p-15, 0x1.2AAE452D75525p-17, 0x1.1249C1CD79329p-19, 0x1.33D511A48ED4Cp-21, 0x1.982E3688D8A43p-23, 0x1.380BD07CB2584p-24, 0x1.0DFA7D1BED405p-25, 0x1.045DC0B178D50p-26 },
-	{ 0x1.997172A1D9D91p-3, 0x1.4D6389F7545DDp-8, 0x1.97313FBACAE6Ap-12, 0x1.9E71CDB081E56p-15, 0x1.2746ABCA3CF62p-17, 0x1.0E78CE395A65Ap-19, 0x1.2EC7489D191D9p-21, 0x1.90768B237D909p-23, 0x1.3160993F694A5p-24, 0x1.078E091551F5Ap-25, 0x1.FB1DC0902E68Ap-27 },
-	{ 0x1.98EC58A12D4E1p-3, 0x1.4C1ED16D23EC8p-8, 0x1.949D14469D294p-12, 0x1.9AC64DECF03F2p-15, 0x1.23EB2EEF68F41p-17, 0x1.0AB7DF871A668p-19, 0x1.29D1EDFB9E3D6p-21, 0x1.88E90B8562D0Fp-23, 0x1.2ADDF46868AFEp-24, 0x1.014C8864FD30Ep-25, 0x1.EDE2E8BA619A6p-27 },
-	{ 0x1.9867C01A9AA09p-3, 0x1.4ADC26AEB7FEDp-8, 0x1.920EBF772D424p-12, 0x1.97257968AEA18p-15, 0x1.209B9BD658198p-17, 0x1.0706A85ED8384p-19, 0x1.24F47C6971C5Dp-21, 0x1.8184B76CD3C97p-23, 0x1.2482D2FFFFB50p-24, 0x1.F66986C257464p-26, 0x1.E107F63FA58B2p-27 },
-	{ 0x1.97E3A83CBE8B1p-3, 0x1.499B8517257CBp-8, 0x1.8F863058D0F4Fp-12, 0x1.938F2A547AD8Ap-15, 0x1.1D57C0AD438D5p-17, 0x1.0364DD0E4D443p-19, 0x1.202E71B9306C9p-21, 0x1.7A4895459F88Ep-23, 0x1.1E4E2DBA9B045p-24, 0x1.EA8B17BA23A0Cp-26, 0x1.D489FE81D3C54p-27 },
-	{ 0x1.976010380EA64p-3, 0x1.485CE80EF8F89p-8, 0x1.8D035633DE18Dp-12, 0x1.90033B7EFDF86p-15, 0x1.1A1F6C9209BA0p-17, 0x1.FFA466FDA301Bp-20, 0x1.1B7F4ED1AF5C6p-21, 0x1.7333B1F8BEA5Ap-23, 0x1.183F04BD08960p-24, 0x1.DEFB79B460FD0p-26, 0x1.C8662F0B95B63p-27 },
-	{ 0x1.96DCF73ED40F4p-3, 0x1.47204B0C07139p-8, 0x1.8A86208BB04F2p-12, 0x1.8C818851D5A9Ap-15, 0x1.16F26F8D18BF9p-17, 0x1.F89CC65744182p-20, 0x1.16E6979983E28p-21, 0x1.6C4520BD7130Ap-23, 0x1.12545F62AA54Ep-24, 0x1.D3B87478B23ECp-26, 0x1.BC99CCBD4A90Fp-27 },
-	{ 0x1.965A5C8526215p-3, 0x1.45E5A9913DA8Cp-8, 0x1.880E7F1DB3696p-12, 0x1.8909ECCEAD8AFp-15, 0x1.13D09A8C779BDp-17, 0x1.F1B24A30D0B18p-20, 0x1.1263D2E31ED9Fp-21, 0x1.657BFAEBC8943p-23, 0x1.0C8D4C0586B67p-24, 0x1.C8BFE100933A0p-26, 0x1.B122330177DBEp-27 },
-	{ 0x1.95D83F40E5419p-3, 0x1.44ACFF2E75B9Cp-8, 0x1.859C61E072675p-12, 0x1.859C458C68443p-15, 0x1.10B9BF5EED3CEp-17, 0x1.EAE46790003CEp-20, 0x1.0DF68A597759Bp-21, 0x1.5ED75FD091A25p-23, 0x1.06E8DFC826FB8p-24, 0x1.BE0FA8E98FB2Ap-26, 0x1.A5FCD3087CF7Dp-27 },
-	{ 0x1.95569EA9B5BD2p-3, 0x1.43764780461BEp-8, 0x1.832FB902AAF3Fp-12, 0x1.82386FB457EDCp-15, 0x1.0DADB0AF44B8Dp-17, 0x1.E4329666F48E4p-20, 0x1.099E4A6D4051Fp-21, 0x1.5856748293780p-23, 0x1.0166366133655p-24, 0x1.B3A5C5EC4C273p-26, 0x1.9B27330B44ACDp-27 },
-	{ 0x1.94D579F8FAB9Ap-3, 0x1.42417E2FD6DF5p-8, 0x1.80C874EA65488p-12, 0x1.7EDE48FF85705p-15, 0x1.0AAC41FFADE8Bp-17, 0x1.DD9C5182B64BDp-20, 0x1.055AA242A4E6Bp-21, 0x1.51F863B91842Dp-23, 0x1.F808E3D17C740p-25, 0x1.A9804158347D8p-26, 0x1.909EED94B26DBp-27 },
-	{ 0x1.9454D069D136Fp-3, 0x1.410E9EF2B56F2p-8, 0x1.7E668634105F3p-12, 0x1.7B8DAFB40682Dp-15, 0x1.07B547A539AD7p-17, 0x1.D721167A249ACp-20, 0x1.012B239F8779Bp-21, 0x1.4BBC5DA3B5505p-23, 0x1.ED85754E5DF7Ep-25, 0x1.9F9D3393A6455p-26, 0x1.8661B0D18B8F7p-27 },
-	{ 0x1.93D4A1390B225p-3, 0x1.3FDDA58AA965Cp-8, 0x1.7C09DDB1A25CDp-12, 0x1.784682A261EF8p-15, 0x1.04C896C371275p-17, 0x1.D0C0659D54D41p-20, 0x1.FA1EC5B47EEC5p-22, 0x1.45A197C3482E4p-23, 0x1.E3407DCB7F7C6p-25, 0x1.95FAC3A06DD82p-26, 0x1.7C6D3DE69F1ECp-27 },
-	{ 0x1.9354EBA52A7B4p-3, 0x1.3EAE8DC58A123p-8, 0x1.79B26C69BD1C1p-12, 0x1.7508A12301CB0p-15, 0x1.01E6054807303p-17, 0x1.CA79C1E55F225p-20, 0x1.F20DED91A4224p-22, 0x1.3FA74CC41EF9Bp-23, 0x1.D9386580FDFDAp-25, 0x1.8C9726A46F1BDp-26, 0x1.72BF684CF158Cp-27 },
-	{ 0x1.92D5AEEE5C887p-3, 0x1.3D81537D14AB9p-8, 0x1.77602396D6C3Bp-12, 0x1.71D3EB13B349Fp-15, 0x1.FE1AD3CD46D9Dp-18, 0x1.C44CB0E495021p-20, 0x1.EA22F16144A10p-22, 0x1.39CCBC5942502p-23, 0x1.CF6B9FF391D69p-25, 0x1.83709F765421Fp-26, 0x1.69561533B20A3p-27 },
-	{ 0x1.9256EA56751DCp-3, 0x1.3C55F296C32F7p-8, 0x1.7512F4A666527p-12, 0x1.6EA840D533E54p-15, 0x1.F87D38298C9B2p-18, 0x1.BE38BAB71EB33p-20, 0x1.E25D086D2991Fp-22, 0x1.34112B18D7A95p-23, 0x1.C5D8AB9E56D4Fp-25, 0x1.7A857E2E1D411p-26, 0x1.602F3AE7C7432p-27 },
-	{ 0x1.91D89D20E9F29p-3, 0x1.3B2C6703A3E7Ap-8, 0x1.72CAD138140B6p-12, 0x1.6B858348CB7D8p-15, 0x1.F2F2E80B8AB75p-18, 0x1.B83D69F3FCC42p-20, 0x1.DABB6E9F473EFp-22, 0x1.2E73E259932E9p-23, 0x1.BC7E119F51726p-25, 0x1.71D41FB96F9A9p-26, 0x1.5748E040B7E0Cp-27 },
-	{ 0x1.915AC692CE07Ep-3, 0x1.3A04ACC031947p-8, 0x1.7087AB1CEDAE4p-12, 0x1.686B93CDF330Ap-15, 0x1.ED7B954DBE6E6p-18, 0x1.B25A4B9E6AF0Dp-20, 0x1.D33D6463BEEF4p-22, 0x1.28F430113072Ep-23, 0x1.B35A656699A95p-25, 0x1.695AED73804BFp-26, 0x1.4EA11C12C36D5p-27 },
-	{ 0x1.90DD65F2CD1E6p-3, 0x1.38DEBFD42C388p-8, 0x1.6E4974569E67Bp-12, 0x1.655A54400897Fp-15, 0x1.E816F336CD532p-18, 0x1.AC8EEF17A1A88p-20, 0x1.CBE22E8BB4266p-22, 0x1.239166B3E9B6Dp-23, 0x1.AA6C446814B0Fp-25, 0x1.61185CC07BC4Bp-26, 0x1.463614A5F6C2Cp-27 },
-	{ 0x1.90607A89273C3p-3, 0x1.37BA9C5272837p-8, 0x1.6C101F16AA65Fp-12, 0x1.6251A6F40D245p-15, 0x1.E2C4B67208723p-18, 0x1.A6DAE610F39F0p-20, 0x1.C4A91630EF020p-22, 0x1.1E4ADD14E5AC7p-23, 0x1.A1B255CFA7B78p-25, 0x1.590AEEAC49EC6p-26, 0x1.3E05FF320EB28p-27 },
-	{ 0x1.8FE4039FAC41Ep-3, 0x1.36983E58DBD7Dp-8, 0x1.69DB9DBDADFE3p-12, 0x1.5F516EB671526p-15, 0x1.DD8495081B568p-18, 0x1.A13DC47E44E34p-20, 0x1.BD91689A45A5Cp-22, 0x1.191FEE4793F41p-23, 0x1.992B4A37CE760p-25, 0x1.51312F8C90E9Fp-26, 0x1.360F1F5EFBBC1p-27 },
-	{ 0x1.8F680081B78E2p-3, 0x1.3577A21012EA8p-8, 0x1.67ABE2DAA0510p-12, 0x1.5C598EC8EB718p-15, 0x1.D8564657E5D26p-18, 0x1.9BB72088D9074p-20, 0x1.B69A7720C6D65p-22, 0x1.140FF981F0CB8p-23, 0x1.90D5DB6281382p-25, 0x1.4989B6A5D9762p-26, 0x1.2E4FC6C9DB8EEp-27 },
-	{ 0x1.8EEC707C2BB10p-3, 0x1.3458C3AB70F78p-8, 0x1.6580E12A195A0p-12, 0x1.5969EAE059B8Cp-15, 0x1.D339830F7F791p-18, 0x1.9646928275F91p-20, 0x1.AFC39715A0129p-22, 0x1.0F1A61FFA8AC5p-23, 0x1.88B0CBF456A7Cp-25, 0x1.421325D3B8B58p-26, 0x1.26C6548E3EB65p-27 },
-	{ 0x1.8E7152DD6E2D2p-3, 0x1.333B9F68D98A9p-8, 0x1.635A8B959B5A8p-12, 0x1.56826722AF69Ep-15, 0x1.CE2E052563BE0p-18, 0x1.90EBB4D8D93C9p-20, 0x1.A90C21A8B9A87p-22, 0x1.0A3E8EE614D10p-23, 0x1.80BAE731CE5D2p-25, 0x1.3ACC2933E497Ap-26, 0x1.1F7134D392625p-27 },
-	{ 0x1.8DF6A6F56347Ap-3, 0x1.3220319096D8Dp-8, 0x1.6138D532DF8C6p-12, 0x1.53A2E824ECBFFp-15, 0x1.C93387D1C5B60p-18, 0x1.8BA624097D49Bp-20, 0x1.A27373D0036FEp-22, 0x1.057BEB2909D63p-23, 0x1.78F300BEB1DD3p-25, 0x1.33B376D418B92p-26, 0x1.184EE05E87C08p-27 },
-	{ 0x1.8D7C6C1569E60p-3, 0x1.3106767536A7Fp-8, 0x1.5F1BB143260CBp-12, 0x1.50CB52E9216D1p-15, 0x1.C449C7880A7CCp-18, 0x1.86757E95ACE0Bp-20, 0x1.9BF8EE2F6CFF8p-22, 0x1.00D1E57071E5Ep-23, 0x1.7157F45F7A53Fp-25, 0x1.2CC7CE62B2B41p-26, 0x1.115DDC2653CE4p-27 },
-	{ 0x1.8D02A190577A5p-3, 0x1.2FEE6A7367C13p-8, 0x1.5D03133288ED6p-12, 0x1.4DFB8CDC79690p-15, 0x1.BF7081F069498p-18, 0x1.815964F6E2390p-20, 0x1.959BF50184589p-22, 0x1.F87FDFFD58266p-24, 0x1.69E8A5BCA9F53p-25, 0x1.2607F8E1EDB6Cp-26, 0x1.0A9CB8EDA3F1Dp-27 },
-	{ 0x1.8C8946BA73FC4p-3, 0x1.2ED809F1D7EDEp-8, 0x1.5AEEEE97525D2p-12, 0x1.4B337BD553D4Ap-15, 0x1.BAA775E1B0425p-18, 0x1.7C5179936FFD2p-20, 0x1.8F5BF000B631Ap-22, 0x1.EF8B012F5582Ep-24, 0x1.62A400280887Cp-25, 0x1.1F72C85DA6160p-26, 0x1.040A12DF24FE3p-27 },
-	{ 0x1.8C105AE975F0Dp-3, 0x1.2DC351611279Fp-8, 0x1.58DF373155D6Cp-12, 0x1.4873061163B9Ep-15, 0x1.B5EE635B2D25Fp-18, 0x1.775D60B372160p-20, 0x1.89384A512B29Cp-22, 0x1.E6C420D1964DDp-24, 0x1.5B88F663B32EEp-25, 0x1.190717A38E69Fp-26, 0x1.FB49225AF724Dp-28 },
-	{ 0x1.8B97DD747E7E8p-3, 0x1.2CB03D3B5F3B2p-8, 0x1.56D3E0E94C468p-12, 0x1.45BA1233DA6E1p-15, 0x1.B1450B7EB8E94p-18, 0x1.727CC07604573p-20, 0x1.8330726B3D58Ep-22, 0x1.DE2A37E2C058Bp-24, 0x1.5496826AF0151p-25, 0x1.12C3C9FDC092Cp-26, 0x1.EED5CB6D1BFE4p-28 },
-	{ 0x1.8B1FCDB4158EAp-3, 0x1.2B9ECA04A21A0p-8, 0x1.54CCDFD033184p-12, 0x1.430887439B5FAp-15, 0x1.ACAB308AE56B4p-18, 0x1.6DAF40C6BD2B8p-20, 0x1.7D43DA0681D0Bp-22, 0x1.D5BC45D7D6360p-24, 0x1.4DCBA53CB721Cp-25, 0x1.0CA7CAEF95CB7p-26, 0x1.E2B7995402235p-28 },
-	{ 0x1.8AA82B0225FC0p-3, 0x1.2A8EF44A3B1ABp-8, 0x1.52CA281EAE1DFp-12, 0x1.405E4CA9791A0p-15, 0x1.A82095D54C6A0p-18, 0x1.68F48B536A6F6p-20, 0x1.7771F60561C91p-22, 0x1.CD79506FF9747p-24, 0x1.472766A7E167Cp-25, 0x1.06B20DF4B1B01p-26, 0x1.D6EC1865948BDp-28 },
-	{ 0x1.8A30F4B9F9CDCp-3, 0x1.2980B8A2E6E2Ap-8, 0x1.50CBAE346C408p-12, 0x1.3DBB4A2E7B4ADp-15, 0x1.A3A4FFC4FEE63p-18, 0x1.644C4B820EB3Fp-20, 0x1.71BA3E613F512p-22, 0x1.C56063897352Dp-24, 0x1.40A8D518F1778p-25, 0x1.00E18E422CD74p-26, 0x1.CB70E84775FA0p-28 },
-	{ 0x1.89BA2A38367F2p-3, 0x1.287413AE9FB9Ep-8, 0x1.4ED166978EED2p-12, 0x1.3B1F67FA2D946p-15, 0x1.9F3833CD142B3p-18, 0x1.5FB62E671D32Bp-20, 0x1.6C1C2E172181Ep-22, 0x1.BD7090F7F9E09p-24, 0x1.3A4F05696739Fp-25, 0x1.F66A9D1398A05p-27, 0x1.C043BB4DD2C83p-28 },
-	{ 0x1.8943CADAD9531p-3, 0x1.276902167F054p-8, 0x1.4CDB45F414306p-12, 0x1.388A8E90F6FCFp-15, 0x1.9AD9F86757B51p-18, 0x1.5B31E2BBF2C6Ep-20, 0x1.66974314E44C2p-22, 0x1.B5A8F05C27CF0p-24, 0x1.341912B0926FDp-25, 0x1.EB58B17E68043p-27, 0x1.B56255DFB9785p-28 },
-	{ 0x1.88CDD60133B49p-3, 0x1.265F808C9F374p-8, 0x1.4AE9411B43723p-12, 0x1.35FCA6D279C87p-15, 0x1.968A150F15340p-18, 0x1.56BF18D58A4CCp-20, 0x1.612AFE26E81C9p-22, 0x1.AE089EFC1D8C1p-24, 0x1.2E061E15D7603p-25, 0x1.E08B7BBE05204p-27, 0x1.AACA8DE0C75C0p-28 },
-	{ 0x1.88584B0BE7A22p-3, 0x1.25578BCBFE35Cp-8, 0x1.48FB4D031CC4Ap-12, 0x1.337599F7FB8E7p-15, 0x1.9248523C01F16p-18, 0x1.525D829B6AD47p-20, 0x1.5BD6E2E63DAC4p-22, 0x1.A68EBF9D428B9p-24, 0x1.28154EA459B01p-25, 0x1.D6012B6F8C045p-27, 0x1.A07A4A1FF88DFp-28 },
-	{ 0x1.87E3295CE425Ep-3, 0x1.245120986032Bp-8, 0x1.47115EC5CAB93p-12, 0x1.30F55192D55CBp-15, 0x1.8E14795D42E0Bp-18, 0x1.4E0CD37ECE1FAp-20, 0x1.569A77A74A72Fp-22, 0x1.9F3A7A5F1DEF8p-24, 0x1.2245D12001C48p-25, 0x1.CBB7FD69721BFp-27, 0x1.966F81CB6C449p-28 },
-	{ 0x1.876E705761D86p-3, 0x1.234C3BBE32F50p-8, 0x1.452B6BA116AFCp-12, 0x1.2E7BB78AEBB9Bp-15, 0x1.89EE54D48EA96p-18, 0x1.49CCC071FDEEEp-20, 0x1.51754568E2493p-22, 0x1.980AFC973E0AAp-24, 0x1.1C96D7DBD1779p-25, 0x1.C1AE3B5472DCEp-27, 0x1.8CA83BE8F0445p-28 },
-	{ 0x1.86FA1F5FDF6FCp-3, 0x1.2248DA1271910p-8, 0x1.434968F5DF920p-12, 0x1.2C08B61D2E5B1p-15, 0x1.85D5AFF16AFD9p-18, 0x1.459CFFDFE6ABCp-20, 0x1.4C66D7C3D2E64p-22, 0x1.90FF78AE267D9p-24, 0x1.17079A917D496p-25, 0x1.B7E23B47D08A3p-27, 0x1.83228ED327E3Dp-28 },
-	{ 0x1.868635DC1E592p-3, 0x1.2146F872888D2p-8, 0x1.416B4C4792EFFp-12, 0x1.299C37DA1F641p-15, 0x1.81CA56EC84948p-18, 0x1.417D49A3DE096p-20, 0x1.476EBCDADDFDBp-22, 0x1.8A1725FD3CF39p-24, 0x1.1197563A3F95Ep-25, 0x1.AE525F68CC156p-27, 0x1.79DC9FBB24B19p-28 },
-	{ 0x1.8612B3331F5DAp-3, 0x1.204693C43A71Ap-8, 0x1.3F910B3BA8716p-12, 0x1.273627A46202Ap-15, 0x1.7DCC16E321253p-18, 0x1.3D6D57019C3E4p-20, 0x1.428C854B1EDA1p-22, 0x1.835140ADACC59p-24, 0x1.0C454CE8DBB0Dp-25, 0x1.A4FD158D382F4p-27, 0x1.70D4A22E48569p-28 },
-	{ 0x1.859F96CD1F528p-3, 0x1.1F47A8F584C1Dp-8, 0x1.3DBA9B991F909p-12, 0x1.24D670AF5041Ap-15, 0x1.79DABDD2AAC0Cp-18, 0x1.396CE29D66840p-20, 0x1.3DBFC41CD86B4p-22, 0x1.7CAD09983A0A8p-24, 0x1.0710C5A4C724Ap-25, 0x1.9BE0D6E10C974p-27, 0x1.6808D7A048CEFp-28 },
-	{ 0x1.852CE01393D33p-3, 0x1.1E4A34FC855C2p-8, 0x1.3BE7F347FF92Ap-12, 0x1.227CFE7D97E87p-15, 0x1.75F61A9453F16p-18, 0x1.357BA87469941p-20, 0x1.39080EB4A8D58p-22, 0x1.7629C625FCD82p-24, 0x1.01F90C466FA21p-25, 0x1.92FC278EDFACDp-27, 0x1.5F778EF931804p-28 },
-	{ 0x1.84BA8E712806Ep-3, 0x1.1D4E34D760403p-8, 0x1.3A190850D9B29p-12, 0x1.2029BCDFDE3FFp-15, 0x1.721DFCD8D4069p-18, 0x1.319965D542E06p-20, 0x1.3464FCC51FA55p-22, 0x1.6FC6C031FDB47p-24, 0x1.F9FAE2A929053p-26, 0x1.8A4D966B2D30Ap-27, 0x1.571F24273D178p-28 },
-	{ 0x1.8448A151B96FDp-3, 0x1.1C53A58C25B85p-8, 0x1.384DD0DC4D745p-12, 0x1.1DDC97F36A983p-15, 0x1.6E5235243AFA0p-18, 0x1.2DC5D958B751Fp-20, 0x1.2FD62840B3E2Ep-22, 0x1.698345EBAC6F8p-24, 0x1.F03A93C5561ADp-26, 0x1.81D3BCA252086p-27, 0x1.4EFDFFB46569Fp-28 },
-	{ 0x1.83D7182254C50p-3, 0x1.1B5A8428B8E54p-8, 0x1.368643328F149p-12, 0x1.1B957C20D7678p-15, 0x1.6A9294C9DC5ECp-18, 0x1.2A00C2DA965D6p-20, 0x1.2B5B2D4C17547p-22, 0x1.635EA9BA2AD6Fp-24, 0x1.E6AFDEE089F49p-26, 0x1.798D3D6925AF8p-27, 0x1.4712965F87DCAp-28 },
-	{ 0x1.8365F25132D66p-3, 0x1.1A62CDC2B6AA6p-8, 0x1.34C255BAF00B4p-12, 0x1.1954561AC9E0Ap-15, 0x1.66DEEDE850CD8p-18, 0x1.2649E372C848Cp-20, 0x1.26F3AA30E4544p-22, 0x1.5D58422064E76p-24, 0x1.DD597F92E1F16p-26, 0x1.7178C5B01AD41p-27, 0x1.3F5B68B8FE0FCp-28 },
-	{ 0x1.82F52F4DB57A5p-3, 0x1.196C7F775CF8Bp-8, 0x1.3301FEFB69969p-12, 0x1.171912DCAFDA8p-15, 0x1.633713658D460p-18, 0x1.22A0FD6E86849p-20, 0x1.229F3F50A3B18p-22, 0x1.576F69A1F0571p-24, 0x1.D43639D01A8BDp-26, 0x1.69950BD8D167Bp-27, 0x1.37D702C28BB9Ap-28 },
-	{ 0x1.8284CE886485Ap-3, 0x1.1877966B7276Cp-8, 0x1.3145359829445p-12, 0x1.14E39FA983E87p-15, 0x1.5F9AD8EB10011p-18, 0x1.1F05D449BD010p-20, 0x1.1E5D8F1828291p-22, 0x1.51A37EA8AD836p-24, 0x1.CB44D9AC09472p-26, 0x1.61E0CF6E05314p-27, 0x1.3083FB9283BEEp-28 },
-	{ 0x1.8214CF72EACCAp-3, 0x1.17840FCB2E847p-8, 0x1.2F8BF0531F6FBp-12, 0x1.12B3EA0A977FCp-15, 0x1.5C0A12E222309p-18, 0x1.1B782CA89373Ap-20, 0x1.1A2E3DF33D13Dp-22, 0x1.4BF3E36B23FEEp-24, 0x1.C2843320DC7FEp-26, 0x1.5A5AD8DDC4A73p-27, 0x1.2960F4FA07AFFp-28 },
-	{ 0x1.81A53180132E2p-3, 0x1.1691E8CA2198Dp-8, 0x1.2DD6260B8FAA5p-12, 0x1.1089DFCE630A7p-15, 0x1.588496702E30Fp-18, 0x1.17F7CC511D849p-20, 0x1.1610F240A5FB4p-22, 0x1.465FFDD395295p-24, 0x1.B9F321D712C3Ep-26, 0x1.5301F935DC8FAp-27, 0x1.226C9B2E45DD4p-28 },
-	{ 0x1.8135F423C5A7Ap-3, 0x1.15A11EA31DF82p-8, 0x1.2C23CDBDA306Ap-12, 0x1.0E656F075BC64p-15, 0x1.550A397329B00p-18, 0x1.14847A2530E57p-20, 0x1.120554466CD69p-22, 0x1.40E73767BF69Ap-24, 0x1.B19088EF1BD00p-26, 0x1.4BD509E26592Cp-27, 0x1.1BA5A4749B3B2p-28 },
-	{ 0x1.80C716D30472Bp-3, 0x1.14B1AE9820C14p-8, 0x1.2A74DE81FC3B1p-12, 0x1.0C46860ACF507p-15, 0x1.519AD27E13514p-18, 0x1.111DFE1C60599p-20, 0x1.0E0B0E267CC34p-22, 0x1.3B88FD314CCE6p-24, 0x1.A95B52CC95C7Ap-26, 0x1.44D2EC6E6193Dp-27, 0x1.150AD0D17F43Cp-28 },
-	{ 0x1.80589903E92BDp-3, 0x1.13C395F23B504p-8, 0x1.28C94F8D4D945p-12, 0x1.0A2D136FC4C01p-15, 0x1.4E3638D5835C7p-18, 0x1.0DC4213E1ABD6p-20, 0x1.0A21CBD3871D5p-22, 0x1.3644BFA6E8011p-24, 0x1.A15270E319AD2p-26, 0x1.3DFA8A4657464p-27, 0x1.0E9AE9BA20F89p-28 },
-	{ 0x1.7FEA7A2DA201Ap-3, 0x1.12D6D2017CF5Ep-8, 0x1.2721182FF0AEAp-12, 0x1.0819060DE32FDp-15, 0x1.4ADC446C4F02Dp-18, 0x1.0A76AD9BED238p-20, 0x1.06493B0630EA4p-22, 0x1.3119F295F2A3Cp-24, 0x1.9974DB848A8F5p-26, 0x1.374AD47CDB13Bp-27, 0x1.0854C1C89D094p-28 },
-	{ 0x1.7F7CB9C86EEDBp-3, 0x1.11EB601CDD008p-8, 0x1.257C2FD57FECEp-12, 0x1.060A4CFC5D9ABp-15, 0x1.478CCDE03DCD4p-18, 0x1.07356E4BE7220p-20, 0x1.02810B32869A5p-22, 0x1.2C080D0CD856Ep-24, 0x1.91C191B0DB4C8p-26, 0x1.30C2C390F4FA5p-27, 0x1.02373472B6071p-28 },
-	{ 0x1.7F0F574D9EF54p-3, 0x1.11013DA22517Fp-8, 0x1.23DA8E0471A57p-12, 0x1.0400D790E3EE6p-15, 0x1.4447AE76D0C77p-18, 0x1.04002F6320732p-20, 0x1.FD91DAFB68643p-23, 0x1.270E8945F9CB4p-24, 0x1.8A3798E73F303p-26, 0x1.2A615736539F3p-27, 0x1.F8824B85F0BBDp-29 },
-	{ 0x1.7EA252378D737p-3, 0x1.101867F5DBE7Cp-8, 0x1.223C2A5DB4FC7p-12, 0x1.01FC955E99378p-15, 0x1.410CC01A1AFE3p-18, 0x1.00D6BDF05F107p-20, 0x1.F6412967FFF90p-23, 0x1.222CE4932B699p-24, 0x1.82D5FCF8BA15Bp-26, 0x1.2425961F3D5B3p-27, 0x1.ECE30428693C8p-29 },
-	{ 0x1.7E35AA019F6B1p-3, 0x1.0F30DC8330196p-8, 0x1.20A0FC9C50631p-12, 0x1.FFFAEC6A1D98Fp-16, 0x1.3DDBDD55AAEA4p-18, 0x1.FB71CFEDB9EDDp-21, 0x1.EF0F6A7E0BEA0p-23, 0x1.1D629F49C33C0p-24, 0x1.7B9BCFDC0517Dp-26, 0x1.1E0E8DC8308F2p-27, 0x1.E18E7B9E76CD0p-29 },
-	{ 0x1.7DC95E2840E14p-3, 0x1.0E4A98BBE39B0p-8, 0x1.1F08FC9501B4Fp-12, 0x1.FC06D43E88B76p-16, 0x1.3AB4E1538464Ap-18, 0x1.F54CF8D25990Cp-21, 0x1.E7FC0A38644A5p-23, 0x1.18AF3CAF31E99p-24, 0x1.74882982BD33Ap-26, 0x1.181B5245250FDp-27, 0x1.D682AA558DF4Dp-29 },
-	{ 0x1.7D5D6E28E2408p-3, 0x1.0D659A1837328p-8, 0x1.1D742235DFEA5p-12, 0x1.F81CC2C55986Bp-16, 0x1.3797A7D92AC14p-18, 0x1.EF3E964879041p-21, 0x1.E10677A6F07F9p-23, 0x1.141242E622B34p-24, 0x1.6D9A27AFD19CEp-26, 0x1.124AFE1060F4Fp-27, 0x1.CBBD97DAFE9CBp-29 },
-	{ 0x1.7CF1D981F5C35p-3, 0x1.0C81DE16D65BAp-8, 0x1.1BE26585FE58Fp-12, 0x1.F43C98FC6F32Ep-16, 0x1.34840D44BAB2Ap-18, 0x1.E94649D4EB10Ap-21, 0x1.DA2E24DC8D9FBp-23, 0x1.0F8B3ADC1E84Bp-24, 0x1.66D0EDCF27D97p-26, 0x1.0C9CB1DAD392Ap-27, 0x1.C13D5A640BFBBp-29 },
-	{ 0x1.7C869FB2ECE72p-3, 0x1.0B9F623CC36F6p-8, 0x1.1A53BEA5117B7p-12, 0x1.F0663852BE94Ap-16, 0x1.3179EE8A13988p-18, 0x1.E363B6BDF2967p-21, 0x1.D37286DD68BB0p-23, 0x1.0B19B037AE47Cp-24, 0x1.602BA4CE6C0A7p-26, 0x1.070F945DE9D5Ap-27, 0x1.B7001659F09C0p-29 },
-	{ 0x1.7C1BC03C35E72p-3, 0x1.0ABE24154413Dp-8, 0x1.18C825CB15381p-12, 0x1.EC9982A6776C7p-16, 0x1.2E7929300FDFFp-18, 0x1.DD968201F3988p-21, 0x1.CCD3158DC9F12p-23, 0x1.06BD3146F8C9Fp-24, 0x1.59A97AF7041D6p-26, 0x1.01A2D22ECFADAp-27, 0x1.AD03FDE9AC027p-29 },
-	{ 0x1.7BB13A9F393EEp-3, 0x1.09DE2131CDF34p-8, 0x1.173F9347F49FAp-12, 0x1.E8D65A43326B0p-16, 0x1.2B819B4DCC1C0p-18, 0x1.D7DE524E5AA81p-21, 0x1.C64F4BA14D43Cp-23, 0x1.02754EEED89EAp-24, 0x1.5349A3C91CE9Bp-26, 0x1.F8AB3B262538Ep-28, 0x1.A347509778BE5p-29 },
-	{ 0x1.7B470E5E57347p-3, 0x1.08FF5729F3B91p-8, 0x1.15B9FF83331E0p-12, 0x1.E51CA1E027D85p-16, 0x1.28932387FC824p-18, 0x1.D23ACFF6B9553p-21, 0x1.BFE6A68A8634Bp-23, 0x1.FC833934CD0DEp-25, 0x1.4D0B57D7C88CBp-26, 0x1.EE4E5CAD33D0Ep-28, 0x1.99C85AD5CAD7Ap-29 },
-	{ 0x1.7ADD3AFCE56A1p-3, 0x1.0821C39B52543p-8, 0x1.143762FB97150p-12, 0x1.E16C3C9E6EAC9p-16, 0x1.25ADA10E50764p-18, 0x1.CCABA4EC1652Ap-21, 0x1.B998A66B0B4DFp-23, 0x1.F4436055EA01Ap-25, 0x1.46EDD4A6259C4p-26, 0x1.E42D8345D2AD0p-28, 0x1.9085759FB7B5Dp-29 },
-	{ 0x1.7A73BFFF2C778p-3, 0x1.074564297E7C3p-8, 0x1.12B7B646D5DACp-12, 0x1.DDC50E0743EE3p-16, 0x1.22D0F398E3D25p-18, 0x1.C7307CB47005Dp-21, 0x1.B364CE03E6CBBp-23, 0x1.EC2A43D0F3790p-25, 0x1.40F05C8587105p-26, 0x1.DA4733AF47608p-28, 0x1.877D0616A9B3Fp-29 },
-	{ 0x1.7A0A9CEA658A7p-3, 0x1.066A367DF27A3p-8, 0x1.113AF2114115Fp-12, 0x1.DA26FA0A5A28Cp-16, 0x1.1FFCFB65BD9F3p-18, 0x1.C1C9046270430p-21, 0x1.AD4AA2A669B2Dp-23, 0x1.E43718E4C39D4p-25, 0x1.3B12367495053p-26, 0x1.D099FCC88571Dp-28, 0x1.7EAD7D2342A63p-29 },
-	{ 0x1.79A1D144B80E8p-3, 0x1.05903847FC329p-8, 0x1.0FC10F1D75705p-12, 0x1.D691E4FC30D39p-16, 0x1.1D3199365BEB4p-18, 0x1.BC74EA8D4FFF8p-21, 0x1.A749AC255EB1Dp-23, 0x1.DC6919619B1E0p-25, 0x1.3552ADFF5EBABp-26, 0x1.C7247745F51B5p-28, 0x1.761557195199Ap-29 },
-	{ 0x1.79395C95375BCp-3, 0x1.04B7673CAB6F6p-8, 0x1.0E4A06440A9A2p-12, 0x1.D305B394737D8p-16, 0x1.1A6EAE4D4C768p-18, 0x1.B733DF48E9CB0p-21, 0x1.A16174C69A3F3p-23, 0x1.D4BF838C62587p-25, 0x1.2FB1132056736p-26, 0x1.BDE545697D8B2p-28, 0x1.6DB31B5EC113Dp-29 },
-	{ 0x1.78D13E63E06D2p-3, 0x1.03DFC116C06A9p-8, 0x1.0CD5D0734497Cp-12, 0x1.CF824AEC60958p-16, 0x1.17B41C6BD1E92p-18, 0x1.B205941DF9EA0p-21, 0x1.9B918934E5795p-23, 0x1.CD399A02AE260p-25, 0x1.2A2CBA2230128p-26, 0x1.B4DB12BCBFF13p-28, 0x1.65855C156409Ep-29 },
-	{ 0x1.78697639979CDp-3, 0x1.030943969A95Fp-8, 0x1.0B6466AEC653Ep-12, 0x1.CC07907D37A90p-16, 0x1.1501C5CF954CAp-18, 0x1.ACE9BC028AF2Ap-21, 0x1.95D97872415EEp-23, 0x1.C5D6A39F82BD8p-25, 0x1.24C4FB829B94Ap-26, 0x1.AC0493CD714DFp-28, 0x1.5D8AB5C788AFBp-29 },
-	{ 0x1.780203A026686p-3, 0x1.0233EC8227A17p-8, 0x1.09F5C20F45700p-12, 0x1.C8956A1EAEEFEp-16, 0x1.12578D306380Fp-18, 0x1.A7E00B528DD4Cp-21, 0x1.9038D3CA80090p-23, 0x1.BE95EB60CF3D2p-25, 0x1.1F7933D5D4B50p-26, 0x1.A36085EBC1900p-28, 0x1.55C1CF1739225p-29 },
-	{ 0x1.779AE622393B0p-3, 0x1.015FB9A4D2BD4p-8, 0x1.0889DBC23F4DCp-12, 0x1.C52BBE057001Ap-16, 0x1.0FB555BDF6690p-18, 0x1.A2E837C89C3E7p-21, 0x1.8AAF2EC6319F4p-23, 0x1.B776C04D9C9DEp-25, 0x1.1A48C3AB014A0p-26, 0x1.9AEDAEEABF251p-28, 0x1.4E29587012C83p-29 },
-	{ 0x1.77341D4B5D3EAp-3, 0x1.008CA8CF74177p-8, 0x1.0720AD09AF4B1p-12, 0x1.C1CA72C19B8DBp-16, 0x1.0D1B031DC98C7p-18, 0x1.9E01F876E4536p-21, 0x1.853C1F1DE2D0Ap-23, 0x1.B078755CEAF98p-25, 0x1.15330F715818Ap-26, 0x1.92AADCE2A6B59p-28, 0x1.46C00BBB9E12Fp-29 },
-	{ 0x1.76CDA8A7FE33Cp-3, 0x1.FF756FB081292p-9, 0x1.05BA2F3BC62C1p-12, 0x1.BE716F3D53F32p-16, 0x1.0A887968F9EB8p-18, 0x1.992D05C03CB6Dp-21, 0x1.7FDF3CADAAABCp-23, 0x1.A99A615D3833Ap-25, 0x1.10377F5E0A104p-26, 0x1.8A96E5F50F4D3p-28, 0x1.3F84AC1811181p-29 },
-	{ 0x1.766787C5644F4p-3, 0x1.FDD3C9357382Bp-9, 0x1.04565BC2A2ACBp-12, 0x1.BB209ABB4E939p-16, 0x1.07FD9D2A30C7Dp-18, 0x1.946919515FED1p-21, 0x1.7A98216905BEFp-23, 0x1.A2DBDEDCAB3C4p-25, 0x1.0B557F52E813Ap-26, 0x1.82B0A812E3BB2p-28, 0x1.387605916836Fp-29 },
-	{ 0x1.7601BA31B21F5p-3, 0x1.FC3459EF3BFAFp-9, 0x1.02F52C1C0B352p-12, 0x1.B7D7DCD56BC03p-16, 0x1.057A535B99213p-18, 0x1.8FB5EE1A4E1FFp-21, 0x1.7566694EFC79Ep-23, 0x1.9C3C4C11DF47Bp-25, 0x1.068C7EC5BFA1Dp-26, 0x1.7AF708C41A76Dp-28, 0x1.3192ECDCC0BE3p-29 },
-	{ 0x1.759C3F7BE275Dp-3, 0x1.FA971DA9B1BBCp-9, 0x1.019699D928AC1p-12, 0x1.B4971D7B551CEp-16, 0x1.02FE8164DFAC5p-18, 0x1.8B134047D459Bp-21, 0x1.7049B25E92D78p-23, 0x1.95BB0AC54A7ADp-25, 0x1.01DBF0A868E26p-26, 0x1.7368F4F11DD42p-28, 0x1.2ADA3F15E2357p-29 },
-	{ 0x1.75371733C659Bp-3, 0x1.F8FC103AE78C5p-9, 0x1.003A9E9E42608p-12, 0x1.B15E44F1225A4p-16, 0x1.008A0D193D05Cp-18, 0x1.8680CD3D384DFp-21, 0x1.6B419C8B7F66Cp-23, 0x1.8F57803B3BADDp-25, 0x1.FA8696A301846p-27, 0x1.6C0560ADD6CCAp-28, 0x1.244AE17EE39EBp-29 },
-	{ 0x1.74D240EA02FDDp-3, 0x1.F7632D830D6FCp-9, 0x1.FDC26844F60F3p-13, 0x1.AE2D3BCE0424Fp-16, 0x1.FC39B96B13D3Ap-19, 0x1.81FE538E07CF7p-21, 0x1.664DC9B327D3Ep-23, 0x1.8911151E6B084p-25, 0x1.F18410CB93F70p-27, 0x1.64CB47064D16Bp-28, 0x1.1DE3C141DAA96p-29 },
-	{ 0x1.746DBC300FBE4p-3, 0x1.F5CC716C52AE1p-9, 0x1.FB14A85F1D917p-13, 0x1.AB03EAFAF52AEp-16, 0x1.F76DADBCBA6D4p-19, 0x1.7D8B92F80B17Dp-21, 0x1.616DDD91E124Cp-23, 0x1.82E7356B195ADp-25, 0x1.E8AF4984601A2p-27, 0x1.5DB9A9CCCFB7Cp-28, 0x1.17A3D33483715p-29 },
-	{ 0x1.7409889834235p-3, 0x1.F437D7EAC8462p-9, 0x1.F86BF14324A5Bp-13, 0x1.A7E23BB17117Ep-16, 0x1.F2AFC53C67066p-19, 0x1.79284C5D590A9p-21, 0x1.5CA17DB871E48p-23, 0x1.7CD9505ABA397p-25, 0x1.E00740CCCE974p-27, 0x1.56CF916999A90p-28, 0x1.118A139DD000Ep-29 },
-	{ 0x1.73A5A5B585EABp-3, 0x1.F2A55CFC43C63p-9, 0x1.F5C836CD65EE9p-13, 0x1.A4C8177A316A7p-16, 0x1.EDFFCEC740299p-19, 0x1.74D441BE8CA3Cp-21, 0x1.57E85181D4897p-23, 0x1.76E6D85024F7Bp-25, 0x1.D78AFCC04AC37p-27, 0x1.500C0CABE6926p-28, 0x1.0B9585FD4F60Fp-29 },
-	{ 0x1.7342131BE715Fp-3, 0x1.F114FCA8428A9p-9, 0x1.F3296CFDEF881p-13, 0x1.A1B5682BF003Ep-16, 0x1.E95D99FF0DFCAp-19, 0x1.708F36351AC71p-21, 0x1.53420209386B4p-23, 0x1.710F42C448C65p-25, 0x1.CF39896DDB6B5p-27, 0x1.496E309C6C031p-28, 0x1.05C534D45C934p-29 },
-	{ 0x1.72DED06003FF5p-3, 0x1.EF86B2FFCD5F1p-9, 0x1.F08F87F807351p-13, 0x1.9EAA17EA2F568p-16, 0x1.E4C8F746C06D5p-19, 0x1.6C58EDEDC7AA3p-21, 0x1.4EAE3A203FAC3p-23, 0x1.6B520833604D3p-25, 0x1.C711F8B0DAA7Bp-27, 0x1.42F518512BF35p-28, 0x1.00183171065D3p-29 },
-	{ 0x1.727BDD1751738p-3, 0x1.EDFA7C1D5C841p-9, 0x1.EDFA7C01B079Fp-13, 0x1.9BA611240814Fp-16, 0x1.E041B7BF06E88p-19, 0x1.68312E233B192p-21, 0x1.4A2CA64578823p-23, 0x1.65AEA40AA139Ap-25, 0x1.BF13620AC43A5p-27, 0x1.3C9FE4C295B89p-28, 0x1.F51B277542A13p-30 },
-	{ 0x1.721938D80AD1Ap-3, 0x1.EC705424BC130p-9, 0x1.EB6A3D83349E3p-13, 0x1.98A93E92FC484p-16, 0x1.DBC7AD42F9389p-19, 0x1.6417BD18B2DA3p-21, 0x1.45BCF49B1059Ep-23, 0x1.602494966451Fp-25, 0x1.B73CE27E12394p-27, 0x1.366DBCA1EAF13p-28, 0x1.EA48F3FFEBFE4p-30 },
-	{ 0x1.71B6E33930305p-3, 0x1.EAE83742F0C34p-9, 0x1.E8DEC106AC8A4p-13, 0x1.95B38B39CFAFDp-16, 0x1.D75AAA64D12DFp-19, 0x1.600C6214D2795p-21, 0x1.415ED4DDBF560p-23, 0x1.5AB35AF0C2BB2p-25, 0x1.AF8D9C6A200F6p-27, 0x1.305DCC30DE46Bp-28, 0x1.DFB8118DFB874p-30 },
-	{ 0x1.7154DBD284882p-3, 0x1.E96221AE1D0BFp-9, 0x1.E657FB378C7ACp-13, 0x1.92C4E2636551Cp-16, 0x1.D2FA826AB4B36p-19, 0x1.5C0EE55C8FCA5p-21, 0x1.3D11F85BEABA7p-23, 0x1.555A7AF0A534Cp-25, 0x1.A804B7680C18Dp-27, 0x1.2A6F451A6237Ep-28, 0x1.D566D53C42051p-30 },
-	{ 0x1.70F3223C8BE39p-3, 0x1.E7DE0FA566A28p-9, 0x1.E3D5E0E231806p-13, 0x1.8FDD2FA1A2220p-16, 0x1.CEA7094B8FF37p-19, 0x1.581F102E3B735p-21, 0x1.38D611ECFCDA4p-23, 0x1.50197B194228Ep-25, 0x1.A0A1602890613p-27, 0x1.24A15E4C9E72Cp-28, 0x1.CB539FDDD4701p-30 },
-	{ 0x1.7091B61089945p-3, 0x1.E65BFD70DC540p-9, 0x1.E15866F370C3Cp-13, 0x1.8CFC5ECC54A54p-16, 0x1.CA6013ABFF36Ep-19, 0x1.543CACBCA4D6Dp-21, 0x1.34AAD5E8F12C2p-23, 0x1.4AEFE48A0784Fp-25, 0x1.9962C852CB427p-27, 0x1.1EF353D402922p-28, 0x1.C17CDDA443312p-30 },
-	{ 0x1.703096E87E6D9p-3, 0x1.E4DBE7615C380p-9, 0x1.DEDF82782886Dp-13, 0x1.8A225C0021786p-16, 0x1.C62576DB48250p-19, 0x1.5067862A58B93p-21, 0x1.308FFA20132F8p-23, 0x1.45DD42EEED667p-25, 0x1.92482663F0DF3p-27, 0x1.196466B76D61Ep-28, 0x1.B7E105CA8AEA0p-30 },
-	{ 0x1.6FCFC45F27036p-3, 0x1.E35DC9D07A3B9p-9, 0x1.DC6B289CD2DA5p-13, 0x1.874F139D74A34p-16, 0x1.C1F708D06211Fp-19, 0x1.4C9F6884F9FFAp-21, 0x1.2C8535D2EED99p-23, 0x1.40E124712EBE5p-25, 0x1.8B50B58FDEAA6p-27, 0x1.13F3DCD560167p-28, 0x1.AE7E9A42A7F56p-30 },
-	{ 0x1.6F6F3E0FF9EF7p-3, 0x1.E1E1A1206702Ep-9, 0x1.D9FB4EAD1A011p-13, 0x1.84827247779EFp-16, 0x1.BDD4A0270D079p-19, 0x1.48E420C0B3EE1p-21, 0x1.288A41AA71461p-23, 0x1.3BFB19A86521Bp-25, 0x1.847BB5A28A63Cp-27, 0x1.0EA100C2352B8p-28, 0x1.A5542765B698Bp-30 },
-	{ 0x1.6F0F0397261A8p-3, 0x1.E06769BBD7205p-9, 0x1.D78FEA136E78Dp-13, 0x1.81BC64E30BF8Dp-16, 0x1.B9BE141CF7394p-19, 0x1.45357CB3C5494p-21, 0x1.249ED7B03874Ep-23, 0x1.372AB58C0513Fp-25, 0x1.7DC86AE246255p-27, 0x1.096B21A752E49p-28, 0x1.9C6043A68A9FBp-30 },
-	{ 0x1.6EAF1491910ABp-3, 0x1.DEEF2015EA9FFp-9, 0x1.D528F0589EA20p-13, 0x1.7EFCD895CA7AAp-16, 0x1.B5B33C8EF092Ep-19, 0x1.41934B1223CAAp-21, 0x1.20C2B34710E28p-23, 0x1.326F8D65382A7p-25, 0x1.77361DF2D3508p-27, 0x1.0451932351AA6p-28, 0x1.93A18F46A9D77p-30 },
-	{ 0x1.6E4F709CD5374p-3, 0x1.DD78C0AA14E57p-9, 0x1.D2C657236FFEAp-13, 0x1.7C43BAC506C26p-16, 0x1.B1B3F1F62C172p-19, 0x1.3DFD5B693753Bp-21, 0x1.1CF591239FD42p-23, 0x1.2DC938C1127DBp-25, 0x1.70C41BB93E5A4p-27, 0x1.FEA75A561D86Fp-29, 0x1.8B16B40D958E9p-30 },
-	{ 0x1.6DF0175740603p-3, 0x1.DC0447FC04DBDp-9, 0x1.D06814383A015p-13, 0x1.7990F914D732Dp-16, 0x1.ADC00D658EC14p-19, 0x1.3A737E1BAC53Cp-21, 0x1.19372F4539367p-23, 0x1.2937516320EDFp-25, 0x1.6A71B5407DA4Ap-27, 0x1.F4E197D748471p-29, 0x1.82BE65024FEF4p-30 },
-	{ 0x1.6D91085FD1EB7p-3, 0x1.DA91B2978D754p-9, 0x1.CE0E1D7882667p-13, 0x1.76E481672128Dp-16, 0x1.A9D768870BA10p-19, 0x1.36F5845D5CD6Ep-21, 0x1.15874CEEDFF70p-23, 0x1.24B973384DD4Ep-25, 0x1.643E3F9ECDC2Dp-27, 0x1.EB509F5A7C90Bp-29, 0x1.7A975E270AADEp-30 },
-	{ 0x1.6D32435639464p-3, 0x1.D920FD108E7ABp-9, 0x1.CBB868E29B0F6p-13, 0x1.743E41DAA95F1p-16, 0x1.A5F9DD990CE9Bp-19, 0x1.3383402F4FB7Cp-21, 0x1.11E5AAA06FC7Dp-23, 0x1.204F3C4A19CEDp-25, 0x1.5E2913DBC5AFFp-27, 0x1.E1F3396D92AF7p-29, 0x1.72A06436ED27Cp-30 },
-	{ 0x1.6CD3C7DAD44B5p-3, 0x1.D7B22402DDA85p-9, 0x1.C966EC91415A1p-13, 0x1.719E28CA286C8p-16, 0x1.A227476BE9AD3p-19, 0x1.301C845BCD711p-21, 0x1.0E520A0FEF431p-23, 0x1.1BF84CB22656Ap-25, 0x1.58318ED71DAC3p-27, 0x1.D8C83664DDD00p-29, 0x1.6AD84465E0A9Ep-30 },
-	{ 0x1.6C75958EADAD9p-3, 0x1.D64524123017Bp-9, 0x1.C7199EBB3EEE5p-13, 0x1.6F0424CB63497p-16, 0x1.9E5F815F68001p-19, 0x1.2CC124728A0F8p-21, 0x1.0ACC2E23096CAp-23, 0x1.17B4468E10020p-25, 0x1.52571130239DBp-27, 0x1.CFCE6E25BC289p-29, 0x1.633DD422522B2p-30 },
-	{ 0x1.6C17AC137B671p-3, 0x1.D4D9F9EA03F52p-9, 0x1.C4D075B30BF9Dp-13, 0x1.6C7024AE47C70p-16, 0x1.9AA267604B423p-19, 0x1.2970F4C4E3C75p-21, 0x1.0753DAE8AD96Dp-23, 0x1.1382CDF3963A5p-25, 0x1.4C98FF2DD7FA0p-27, 0x1.C704BFF2AF62Ep-29, 0x1.5BCFF0D8D9584p-30 },
-	{ 0x1.6BBA0B0B9D2CFp-3, 0x1.D370A23D8A7F5p-9, 0x1.C28B67E672D5Ep-13, 0x1.69E2177C0CE6Ep-16, 0x1.96EFD5E5EE4C6p-19, 0x1.262BCA6235B4Dp-21, 0x1.03E8D592D4B4Dp-23, 0x1.0F6388E50E5E6p-25, 0x1.46F6C0A7AE63Fp-27, 0x1.BE6A1238F158Ap-29, 0x1.548D7FB9B55A1p-30 },
-	{ 0x1.6B5CB21A1AE71p-3, 0x1.D20919C792508p-9, 0x1.C04A6BDE350F2p-13, 0x1.6759EC7656FF1p-16, 0x1.9347A9EFE941Ap-19, 0x1.22F17B143E510p-21, 0x1.008AE4706B2D8p-23, 0x1.0B561F4620491p-25, 0x1.416FC0EEED4FFp-27, 0x1.B5FD525F7993Ep-29, 0x1.4D756D8010445p-30 },
-	{ 0x1.6AFFA0E2A32C8p-3, 0x1.D0A35D4A71F03p-9, 0x1.BE0D783DB1CA8p-13, 0x1.64D793165F98Bp-16, 0x1.8FA9C103C2C6Dp-19, 0x1.1FC1DD5B99276p-21, 0x1.FA739DCEBC8C0p-24, 0x1.075A3AD0CA46Ep-25, 0x1.3C036EB8A8247p-27, 0x1.ADBD74976864Dp-29, 0x1.4686AE3AFA9EBp-30 },
-	{ 0x1.6AA2D70989C40p-3, 0x1.CF3F698FF2AB1p-9, 0x1.BBD483C28D813p-13, 0x1.625AFB0C20F67p-16, 0x1.8C15F92AAC638p-19, 0x1.1C9CC86C4B5BCp-21, 0x1.F3EABADD98874p-24, 0x1.036F870AAA941p-25, 0x1.36B13C084F6F5p-27, 0x1.A5A973ADCCB96p-29, 0x1.3FC03D1810F5Fp-30 },
-	{ 0x1.6A465433C628Ap-3, 0x1.CDDD3B693BB23p-9, 0x1.B99F85445B0D1p-13, 0x1.5FE4143D85323p-16, 0x1.888C30EF49D01p-19, 0x1.1982142A6293Ap-21, 0x1.ED7AB312ACD19p-24, 0x1.FF2B627519111p-26, 0x1.31789E1AD2EC5p-27, 0x1.9DC050DEBA3BDp-29, 0x1.39211C2FBDDB5p-30 },
-	{ 0x1.69EA1806F212Dp-3, 0x1.CC7CCFAEBD7E4p-9, 0x1.B76E73B446013p-13, 0x1.5D72CEC598DF9p-16, 0x1.850C475B82F77p-19, 0x1.16719926A5D69p-21, 0x1.E7231B7F27EEEp-24, 0x1.F798D0BC6F4D0p-26, 0x1.2C590D525137Bp-27, 0x1.960113A9A5938p-29, 0x1.32A854530B2EAp-30 },
-	{ 0x1.698E222948054p-3, 0x1.CB1E23401D776p-9, 0x1.B541461CBE47Dp-13, 0x1.5B071AF3C1231p-16, 0x1.81961BF660738p-19, 0x1.136B309B57FE6p-21, 0x1.E0E38B354AD22p-24, 0x1.F026BA40FD9A6p-26, 0x1.27520522512A3p-27, 0x1.8E6AC9A6FCF44p-29, 0x1.2C54F4DAF5FDFp-30 },
-	{ 0x1.69327241A1DDFp-3, 0x1.C9C1330421DFDp-9, 0x1.B317F3A12500Ap-13, 0x1.58A0E94AF52D0p-16, 0x1.7E298EC1F24C3p-19, 0x1.106EB4690B511p-21, 0x1.DABB9B3DCE23Bp-24, 0x1.E8D4839F1BB8Dp-26, 0x1.226303FC80F8Cp-27, 0x1.86FC865EF37ADp-29, 0x1.2626137938B42p-30 },
-	{ 0x1.68D707F7776B3p-3, 0x1.C865FBE89E009p-9, 0x1.B0F2737D7A9A2p-13, 0x1.56402A80FB07Bp-16, 0x1.7AC6803940C40p-19, 0x1.0D7BFF1385E0Bp-21, 0x1.D4AAE68D84D2Ep-24, 0x1.E1A194A6E847Cp-26, 0x1.1D8B8B3DF7517p-27, 0x1.7FB5632176207p-29, 0x1.201ACC0A7FB6Ep-30 },
-	{ 0x1.687BE2F2DD048p-3, 0x1.C70C7AE25E971p-9, 0x1.AED0BD060E20Ap-13, 0x1.53E4CF7DA7A9Ap-16, 0x1.776CD14E46FB3p-19, 0x1.0A92EBBEB6513p-21, 0x1.CEB109FB3A73Bp-24, 0x1.DA8D5849D407Ap-26, 0x1.18CB1F1CF2CBBp-27, 0x1.78947EDF415ACp-29, 0x1.1A324069FCFB8p-30 },
-	{ 0x1.682102DC8227Bp-3, 0x1.C5B4ACED16831p-9, 0x1.ACB2C7A72DBDCp-13, 0x1.518EC95A223BBp-16, 0x1.741C6367F737Bp-19, 0x1.07B3562BB8A46p-21, 0x1.C8CDA435CBF20p-24, 0x1.D3973C88A060Cp-26, 0x1.14214697141D5p-27, 0x1.7198FE040EC62p-29, 0x1.146B98464F794p-30 },
-	{ 0x1.67C6675DB0192p-3, 0x1.C45E8F0B4BB36p-9, 0x1.AA988AE4D8638p-13, 0x1.4F3E09602A83Ap-16, 0x1.70D51860489DAp-19, 0x1.04DD1AB5EAB1Ep-21, 0x1.C30055BA792F6p-24, 0x1.CCBEB261CE290p-26, 0x1.0F8D8B600FA2Cp-27, 0x1.6AC20A51D27D0p-29, 0x1.0EC600F7B3C09p-30 },
-	{ 0x1.676C10204888Bp-3, 0x1.C30A1E4644514p-9, 0x1.A881FE5A709DBp-13, 0x1.4CF281096264Fp-16, 0x1.6D96D2824E275p-19, 0x1.021016500FEE8p-21, 0x1.BD48C0CB6E27Ap-24, 0x1.C6032DC079B81p-26, 0x1.0B0F79D0D2E10p-27, 0x1.640ED2BD00040p-29, 0x1.0940AD577358Ap-30 },
-	{ 0x1.6711FCCEC439Ap-3, 0x1.C1B757ADF4288p-9, 0x1.A66F19BA7084Bp-13, 0x1.4AAC21FE9A68Bp-16, 0x1.6A61748856AC8p-19, 0x1.FE984D03085BCp-22, 0x1.B7A689668243Fp-24, 0x1.BF64256BA16DAp-26, 0x1.06A6A0D71AC37p-27, 0x1.5D7E8B49CEF25p-29, 0x1.03DAD59888DADp-30 },
-	{ 0x1.66B82D1431AE9p-3, 0x1.C0663858EA4CAp-9, 0x1.A45FD4CE1ECD8p-13, 0x1.486ADE17213E3p-16, 0x1.6734E19A15C95p-19, 0x1.F92252C6FA0D6p-22, 0x1.B219553C2C8C7p-24, 0x1.B8E112F5D3E28p-26, 0x1.025291E5776E7p-27, 0x1.57106CEA77BD7p-29, 0x1.FD276E42DE386p-31 },
-	{ 0x1.665EA09C33D94p-3, 0x1.BF16BD643EF8Cp-9, 0x1.A254277544F16p-13, 0x1.462EA75816266p-16, 0x1.6410FD4AD5767p-19, 0x1.F3BDFB3CB30E5p-22, 0x1.ACA0CBA6AB6FFp-24, 0x1.B27972AD43116p-26, 0x1.FC25C1C77532Ep-28, 0x1.50C3B55E614D4p-29, 0x1.F2D528CE24055p-31 },
-	{ 0x1.6605571300CD7p-3, 0x1.BDC8E3F381AB1p-9, 0x1.A04C09A5E6690p-13, 0x1.43F76FF3BE3C4p-16, 0x1.60F5AB97B0252p-19, 0x1.EE6B04CDFFCF8p-22, 0x1.A73C95A15EE3Cp-24, 0x1.AC2CC38C39D6Dp-26, 0x1.F3CE483F9AF21p-28, 0x1.4A97A71238372p-29, 0x1.E8BD6991AFEC4p-31 },
-	{ 0x1.65AC50256077Cp-3, 0x1.BC7CA930A7792p-9, 0x1.9E47736BF8F6Fp-13, 0x1.41C52A48DC8CFp-16, 0x1.5DE2D0E5D333Bp-19, 0x1.E9292EF891D8Fp-22, 0x1.A1EC5DC053A52p-24, 0x1.A5FA8729F13A6p-26, 0x1.EB9DE87DD6B07p-28, 0x1.448B8900E8B83p-29, 0x1.DEDEC8DB76507p-31 },
-	{ 0x1.65538B80AB57Ep-3, 0x1.BB320A4BF99DDp-9, 0x1.9C465CE91DFBEp-13, 0x1.3F97C8E20CF1Fp-16, 0x1.5AD85200C98DDp-19, 0x1.E3F83A48F14F3p-22, 0x1.9CAFD027FE6CDp-24, 0x1.9FE241ABC306Dp-26, 0x1.E393D85E7C2D1p-28, 0x1.3E9EA69574BF4p-29, 0x1.D537E844D46E7p-31 },
-	{ 0x1.64FB08D2C93E5p-3, 0x1.B9E9047C043F2p-9, 0x1.9A48BE545CD15p-13, 0x1.3D6F3E7521A0Ep-16, 0x1.57D61418CE4F4p-19, 0x1.DED7E85588A27p-22, 0x1.97869A8525EF1p-24, 0x1.99E379B6B745Ep-26, 0x1.DBAF5233B3A9Dp-28, 0x1.38D04F8D9F8A1p-29, 0x1.CBC77270CFF19p-31 },
-	{ 0x1.64A2C7CA300D8p-3, 0x1.B8A194FD856B5p-9, 0x1.984E8FF9DE263p-13, 0x1.3B4B7DE28363Bp-16, 0x1.54DBFCC1273F7p-19, 0x1.D9C7FBB9C9D50p-22, 0x1.92706C04FA88Ap-24, 0x1.93FDB8616A488p-26, 0x1.D3EF94AA2A605p-28, 0x1.331FD7DD688F4p-29, 0x1.C28C1ACC44F97p-31 },
-	{ 0x1.644AC815E27E2p-3, 0x1.B75BB9135C4C8p-9, 0x1.9657CA3AA8588p-13, 0x1.392C7A34946D6p-16, 0x1.51E9F1EE86FD4p-19, 0x1.D4C838116CC7Dp-22, 0x1.8D6CF54D5A80Ap-24, 0x1.8E30892648F22p-26, 0x1.CC53E2AE76F69p-28, 0x1.2D8C97934F9F6p-29, 0x1.B9849D4FF336Ap-31 },
-	{ 0x1.63F309656EE75p-3, 0x1.B6176E0678921p-9, 0x1.9464658C5CC8Ep-13, 0x1.3712269F15BEBp-16, 0x1.4EFFD9F576B33p-19, 0x1.CFD861F3C5FFDp-22, 0x1.887BE87541CFEp-24, 0x1.887B79D6210FEp-26, 0x1.C4DB83532CFE9p-28, 0x1.2815EABD5C579p-29, 0x1.B0AFBE445B44Ap-31 },
-	{ 0x1.639B8B68EE098p-3, 0x1.B4D4B125CA0F2p-9, 0x1.92745A78F6237p-13, 0x1.34FC767E8F0EBp-16, 0x1.4C1D9B88C72E2p-19, 0x1.CAF83EEF355BBp-22, 0x1.839CF8FD6462Bp-24, 0x1.82DE1A8B0392Ap-26, 0x1.BD85C1B79AB1Bp-28, 0x1.22BB314EE32F9p-29, 0x1.A80C4A075DE3Dp-31 },
-	{ 0x1.63444DD101DCCp-3, 0x1.B3937FC6308CEp-9, 0x1.9087A19E87996p-13, 0x1.32EB5D57B92C9p-16, 0x1.49431DB8092F6p-19, 0x1.C6279584AC323p-22, 0x1.7ECFDBC8F1D43p-24, 0x1.7D57FD9B76938p-26, 0x1.B651ECEF2C3B5p-28, 0x1.1D7BCF0702999p-29, 0x1.9F9914D38F2CEp-31 },
-	{ 0x1.62ED504ED462Ap-3, 0x1.B253D7426BD0Ap-9, 0x1.8E9E33AEFD092p-13, 0x1.30DECED6EACD4p-16, 0x1.467047EE0CD64p-19, 0x1.C1662D234A576p-22, 0x1.7A14471681A5Cp-24, 0x1.77E8B78DF5175p-26, 0x1.AF3F57E9700AEp-28, 0x1.18572B57D2D73p-29, 0x1.9754FA89304C4p-31 },
-	{ 0x1.62969294167AFp-3, 0x1.B115B4FB0BD4Bp-9, 0x1.8CB8096FDC0EFp-13, 0x1.2ED6BECF87BC1p-16, 0x1.43A501EF67FC8p-19, 0x1.BCB3CE241187Ap-22, 0x1.7569F27926FD7p-24, 0x1.728FDF0CBA952p-26, 0x1.A84D595AB7C54p-28, 0x1.134CB14E434F4p-29, 0x1.8F3EDE78C2C1Ap-31 },
-	{ 0x1.62401452FEBB7p-3, 0x1.AFD916566132Cp-9, 0x1.8AD51BBA05FC2p-13, 0x1.2CD3213B72613p-16, 0x1.40E133D90361Ap-19, 0x1.B81041C5AEBC1p-22, 0x1.70D096D1AAFC5p-24, 0x1.6D4D0CD9D852Ap-26, 0x1.A17B4BA551907p-28, 0x1.0E5BCF7AA05B3p-29, 0x1.8755AB2F288E3p-31 },
-	{ 0x1.61E9D53E484B1p-3, 0x1.AE9DF8C06DC00p-9, 0x1.88F563797AB03p-13, 0x1.2AD3EA3A7F946p-16, 0x1.3E24C61EAE833p-19, 0x1.B37B522858EE0p-22, 0x1.6C47EE47ECC32p-24, 0x1.681FDBC392B32p-26, 0x1.9AC88CC355923p-28, 0x1.0983F7D9BCA90p-29, 0x1.7F98524345214p-31 },
-	{ 0x1.6193D50931BFEp-3, 0x1.AD6459AAD559Bp-9, 0x1.8718D9AD1C500p-13, 0x1.28D90E11ECB17p-16, 0x1.3B6FA189B9FFFp-19, 0x1.AEF4CA49C4D2Cp-22, 0x1.67CFB44466423p-24, 0x1.6307E89904A85p-26, 0x1.94347E31039A3p-28, 0x1.04C49FBEB9758p-29, 0x1.7805CC25133A7p-31 },
-	{ 0x1.613E13677C003p-3, 0x1.AC2C368CCEE17p-9, 0x1.853F776673D8Bp-13, 0x1.26E2812BD7E31p-16, 0x1.38C1AF3798641p-19, 0x1.AA7C76012D1ABp-22, 0x1.6367A569D4F66p-24, 0x1.5E04D21F077B0p-26, 0x1.8DBE84D7AD0E1p-28, 0x1.001D3FBD6907Fp-29, 0x1.709D17EE24583p-31 },
-	{ 0x1.60E8900D6926Dp-3, 0x1.AAF58CE31568Fp-9, 0x1.836935C976892p-13, 0x1.24F03816BA9B3p-16, 0x1.361AD898853F1p-19, 0x1.A61221FB6EC2Cp-22, 0x1.5F0F7F8F05BCAp-24, 0x1.591639055D335p-26, 0x1.876608F9274A2p-28, 0x1.F71AA72A8DF76p-30, 0x1.695D3B337EA85p-31 },
-	{ 0x1.60934AAFBB69Dp-3, 0x1.A9C05A2FD98BFp-9, 0x1.81960E0C4C1FBp-13, 0x1.23022784E62DEp-16, 0x1.337B076E3262Ap-19, 0x1.A1B59BB73908Fp-22, 0x1.5AC701B8C2E7Ap-24, 0x1.543BBFDC1BF02p-26, 0x1.812A761BC2C5Dp-28, 0x1.EE28B43A040FCp-30, 0x1.624541D8CEC9Ap-31 },
-	{ 0x1.603E4303B404Ap-3, 0x1.A88C9BFAB2F89p-9, 0x1.7FC5F97715E8Dp-13, 0x1.2118444C02857p-16, 0x1.30E225CA7B2BCp-19, 0x1.9D66B18150978p-22, 0x1.568DEC13E3CC6p-24, 0x1.4F750B09588B6p-26, 0x1.7B0B3AF6C3673p-28, 0x1.E563AA5D262B0p-30, 0x1.5B543DE4E3084p-31 },
-	{ 0x1.5FE978BF1224Ep-3, 0x1.A75A4FD092245p-9, 0x1.7DF8F163B69A5p-13, 0x1.1F3283648EE64p-16, 0x1.2E501E0E1DB7Dp-19, 0x1.99253270E57D3p-22, 0x1.5263FFEF7CFC0p-24, 0x1.4AC1C0BF0EF37p-26, 0x1.7507C95F56880p-28, 0x1.DCCA9327BB2D0p-30, 0x1.54894757660F3p-31 },
-	{ 0x1.5F94EB9811D9Ep-3, 0x1.A6297343B22E0p-9, 0x1.7C2EEF3D9AF8Fp-13, 0x1.1D50D9E964B8Ap-16, 0x1.2BC4DAE779E7Cp-19, 0x1.94F0EE63FB8B2p-22, 0x1.4E48FFB730692p-24, 0x1.462188F146AC3p-26, 0x1.6F1F9636034D2p-28, 0x1.D45C7DE7AA5DAp-30, 0x1.4DE37BFFCF600p-31 },
-	{ 0x1.5F409B456B077p-3, 0x1.A4FA03EB8AEBDp-9, 0x1.7A67EC8183446p-13, 0x1.1B733D173C4FFp-16, 0x1.294047515613Fp-19, 0x1.90C9B5FBE4B35p-22, 0x1.4A3CAEED9CBA0p-24, 0x1.41940D4C71F6Fp-26, 0x1.6952195492059p-28, 0x1.CC187F8049BE2p-30, 0x1.4761FF55802CEp-31 },
-	{ 0x1.5EEC877E505AAp-3, 0x1.A3CBFF64C3242p-9, 0x1.78A3E2BD4D678p-13, 0x1.1999A24C33A56p-16, 0x1.26C24E91A954Fp-19, 0x1.8CAF5A99CD050p-22, 0x1.463ED226EB0E2p-24, 0x1.3D18F92C06276p-26, 0x1.639ECD7C67609p-28, 0x1.C3FDB246A7FD8p-30, 0x1.4103FA5103802p-31 },
-	{ 0x1.5E98AFFA6E422p-3, 0x1.A29F635122F1Ap-9, 0x1.76E2CB8FBFE84p-13, 0x1.17C3FF0756FE4p-16, 0x1.244ADC386B449p-19, 0x1.88A1AE5B57E73p-22, 0x1.424F2F037A830p-24, 0x1.38AFF9914BBA5p-26, 0x1.5E0530455061Bp-28, 0x1.BC0B35DECADEEp-30, 0x1.3AC89B4668E5Fp-31 },
-	{ 0x1.5E451471E9E8Ep-3, 0x1.A1742D5786518p-9, 0x1.7524A0A855957p-13, 0x1.15F248E82B747p-16, 0x1.21D9DC1E691C0p-19, 0x1.84A084174E328p-22, 0x1.3E6D8C2AA8C7Dp-24, 0x1.3458BD1A64C80p-26, 0x1.5884C20CBC0EEp-28, 0x1.B4402F19DB1DAp-30, 0x1.34AF15C0B1143p-31 },
-	{ 0x1.5DF1B49D60332p-3, 0x1.A04A5B23CFDAFp-9, 0x1.73695BC709EF5p-13, 0x1.142475AE3B591p-16, 0x1.1F6F3A6420154p-19, 0x1.80ABAF5A5CCEEp-22, 0x1.3A99B145B713Ap-24, 0x1.3012F3F988792p-26, 0x1.531D05E55FEC7p-28, 0x1.AC9BC7D537102p-30, 0x1.2EB6A25E4451Ap-31 },
-	{ 0x1.5D9E9035E4BECp-3, 0x1.9F21EA66DB9FEp-9, 0x1.71B0F6BC2646Cp-13, 0x1.125A7B38A468Dp-16, 0x1.1D0AE3709CF42p-19, 0x1.7CC30463E37B4p-22, 0x1.36D366FACAD77p-24, 0x1.2BDE4FEC722CDp-26, 0x1.4DCD8187446E3p-28, 0x1.A51D2EDA657E5p-30, 0x1.28DE7EAE6AA07p-31 },
-	{ 0x1.5D4BA6F500E5Dp-3, 0x1.9DFAD8D67235Fp-9, 0x1.6FFB6B680F922p-13, 0x1.10944F85A7C98p-16, 0x1.1AACC3F0609ECp-19, 0x1.78E65822D367Cp-22, 0x1.331A76E809886p-24, 0x1.27BA843403070p-26, 0x1.4895BD40369B1p-28, 0x1.9DC397BFE252Fp-30, 0x1.2325ED0FBDF15p-31 },
-	{ 0x1.5CF8F894B2C3Ap-3, 0x1.9CD5242D3BE78p-9, 0x1.6E48B3BB14F31p-13, 0x1.0ED1E8B23BC97p-16, 0x1.1854C8D449AB8p-19, 0x1.751580329D4BCp-22, 0x1.2F6EAB9ECEE2Bp-24, 0x1.23A7458C14A88p-26, 0x1.437543E49C339p-28, 0x1.968E3ACABEFF4p-30, 0x1.1D8C348F8EE21p-31 },
-	{ 0x1.5CA684CF6C3C7p-3, 0x1.9BB0CA2AB40BEp-9, 0x1.6C98C9B53EEC0p-13, 0x1.0D133CF99F580p-16, 0x1.1602DF5082CC8p-19, 0x1.715052D82EA5Bp-22, 0x1.2BCFD09EFD09Ep-24, 0x1.1FA44A237BD8Dp-26, 0x1.3E6BA2C0A7BFAp-28, 0x1.8F7C54D11098Bp-30, 0x1.1810A0CA34C7Ep-31 },
-	{ 0x1.5C544B601207Ep-3, 0x1.9A8DC8931C863p-9, 0x1.6AEBA7661F418p-13, 0x1.0B5842B4EF30Bp-16, 0x1.13B6F4DB76002p-19, 0x1.6D96A6FEFDD0Fp-22, 0x1.283DB25265EF5p-24, 0x1.1BB1499439F3Cp-26, 0x1.39786989E9FABp-28, 0x1.888D271D25E4Cp-30, 0x1.12B281CC41FF0p-31 },
-	{ 0x1.5C024C01FABD8p-3, 0x1.996C1D2F716ADp-9, 0x1.694146ECA1852p-13, 0x1.09A0F05ABCAFDp-16, 0x1.1170F72CC46F7p-19, 0x1.69E8543624A3Ap-22, 0x1.24B81E084D6A8p-24, 0x1.17CDFCDBDBF33p-26, 0x1.349B2A513E275p-28, 0x1.81BFF7517FB43p-30, 0x1.0D712BF495B2Fp-31 },
-	{ 0x1.5BB08670EDE43p-3, 0x1.984BC5CD5CCA0p-9, 0x1.6799A276DC480p-13, 0x1.07ED3C7EA64ABp-16, 0x1.0F30D43C42E3Bp-19, 0x1.664532AD8944Bp-22, 0x1.213EE1F10373Fp-24, 0x1.13FA1E5405F6Bp-26, 0x1.2FD379750EE4Ep-28, 0x1.7B140F4D86199p-30, 0x1.084BF7D744889p-31 },
-	{ 0x1.5B5EFA6923036p-3, 0x1.972CC03F2AA06p-9, 0x1.65F4B441E2F0Bp-13, 0x1.063D1DD0F1A32p-16, 0x1.0CF67A40FABB6p-19, 0x1.62AD1B3314EECp-22, 0x1.1DD1CD1995F47p-24, 0x1.103569AB2A30Ep-26, 0x1.2B20ED93F1347p-28, 0x1.7488BD12F52FDp-30, 0x1.0342422151C7Fp-31 },
-	{ 0x1.5B0DA7A740B78p-3, 0x1.960F0A5BBCEB4p-9, 0x1.645276999833Bp-13, 0x1.04908B1E272FDp-16, 0x1.0AC1D7B02F4A8p-19, 0x1.5F1FE72FF8553p-22, 0x1.1A70AF6799A1Dp-24, 0x1.0C7F9BDD6A2AEp-26, 0x1.26831F7F93688p-28, 0x1.6E1D52ABFC4F1p-30, 0x1.FCA6D6FA65B06p-32 },
-	{ 0x1.5ABC8DE85BC83p-3, 0x1.94F2A1FE7FE21p-9, 0x1.62B2E3D8812ACp-13, 0x1.02E77B4EAF71Bp-16, 0x1.0892DB3C678EAp-19, 0x1.5B9D70A5FD620p-22, 0x1.171B59950960Ep-24, 0x1.08D8732DA1546p-26, 0x1.21F9AA2FFDCE0p-28, 0x1.67D126120AB38p-30, 0x1.F2FDB0F02E1E4p-32 },
-	{ 0x1.5A6BACE9F640Dp-3, 0x1.93D785075E52Cp-9, 0x1.6115F66799097p-13, 0x1.0141E56671B07p-16, 0x1.066973D47C22Fp-19, 0x1.5825922CE6059p-22, 0x1.13D19D2C3BAC4p-24, 0x1.053FAF1E97DEFp-26, 0x1.1D842AB722E9Ep-28, 0x1.61A3911544C0Ep-30, 0x1.E987E2CFDC0FDp-32 },
-	{ 0x1.5A1B0469FE8BDp-3, 0x1.92BDB15AB6218p-9, 0x1.5F7BA8BE256BCp-13, 0x1.FF3F8108E86D8p-17, 0x1.044590A2A95F0p-19, 0x1.54B826EFD7D29p-22, 0x1.10934C83ED7ECp-24, 0x1.01B5106C5CE85p-26, 0x1.19224034BD385p-28, 0x1.5B93F1449D313p-30, 0x1.E04444A44DC3Bp-32 },
-	{ 0x1.59CA9426CE8FDp-3, 0x1.91A524E14CEB9p-9, 0x1.5DE3F5618B3CFp-13, 0x1.FC0207C4FC0FFp-17, 0x1.0227210BA58C3p-19, 0x1.51550AAAD4221p-22, 0x1.0D603ABB6246Ep-24, 0x1.FC70B20B8DFF2p-27, 0x1.14D38BCA7867Bp-28, 0x1.55A1A7D68DA07p-30, 0x1.D731B5A645E89p-32 },
-	{ 0x1.597A5BDF2ACF7p-3, 0x1.908DDD8844CBFp-9, 0x1.5C4ED6E524342p-13, 0x1.F8CB4DA97410Dp-17, 0x1.000E14ADBB1D9p-19, 0x1.4DFC19A83C7D3p-22, 0x1.0A383BB69868Ep-24, 0x1.F592980C342DCp-27, 0x1.1097B09064194p-28, 0x1.4FCC19926A0A8p-30, 0x1.CE4F1C0CAD62Dp-32 },
-	{ 0x1.592A5B52418ABp-3, 0x1.8F77D9411141Dp-9, 0x1.5ABC47EA14E41p-13, 0x1.F59B4192B724Cp-17, 0x1.FBF4B6BFCDAE6p-20, 0x1.4AAD30BE630ADp-22, 0x1.071B241A91D97p-24, 0x1.EECF5B5DA3F1Bp-27, 0x1.0C6E5389AE3D6p-28, 0x1.4A12AEBA4AF01p-30, 0x1.C59B64DE2733Dp-32 },
-	{ 0x1.58DA923FA9E39p-3, 0x1.8E6316016C38Bp-9, 0x1.592C431F235C6p-13, 0x1.F271D29088E2Cp-17, 0x1.F7D7CA61F3A3Fp-20, 0x1.47682D4D26C2Ep-22, 0x1.0408C949B05DFp-24, 0x1.E82686C320C0Cp-27, 0x1.08571B99A3314p-28, 0x1.4474D2F589F97p-30, 0x1.BD1583C3EC9B5p-32 },
-	{ 0x1.588B00676303Bp-3, 0x1.8D4F91C34B310p-9, 0x1.579EC3408E594p-13, 0x1.EF4EEFE5587ABp-17, 0x1.F3C544CD7E917p-20, 0x1.442CED3B9B280p-22, 0x1.0101016025014p-24, 0x1.E197A7345BAB3p-27, 0x1.0451B178F1CEBp-28, 0x1.3EF1F53BCD0AEp-30, 0x1.B4BC72DDE7D6Dp-32 },
-	{ 0x1.583BA589D3450p-3, 0x1.8C3D4A84D4895p-9, 0x1.5613C317E500Ap-13, 0x1.EC32890592208p-17, 0x1.EFBD06FA4C397p-20, 0x1.40FB4EF5BB4B3p-22, 0x1.FC074660E49E1p-25, 0x1.DB224BD1D8F4Ep-27, 0x1.005DBFAB31AD5p-28, 0x1.398987C09BE00p-30, 0x1.AC8F32980430Ap-32 },
-	{ 0x1.57EC8167C75C4p-3, 0x1.8B2C3E4854E7Cp-9, 0x1.548B3D7BDF290p-13, 0x1.E91C8D96F31F5p-17, 0x1.EBBEF24ADC001p-20, 0x1.3DD3316A27DE3p-22, 0x1.F6210C8001D60p-25, 0x1.D4C605D997E91p-27, 0x1.F8F5E4E953BFBp-29, 0x1.343AFFDF7C5CFp-30, 0x1.A48CC980AA585p-32 },
-	{ 0x1.579D93C271856p-3, 0x1.8A1C6B1434C26p-9, 0x1.53052D503629Dp-13, 0x1.E60CED6FE08A0p-17, 0x1.E7CAE88AB066Cp-20, 0x1.3AB47407F01A0p-22, 0x1.F04F05878C34Bp-25, 0x1.CE82689BFB540p-27, 0x1.F151EFA0AD06Dp-29, 0x1.2F05D60891E33p-30, 0x1.9CB444206046Fp-32 },
-	{ 0x1.574EDC5B68B27p-3, 0x1.890DCEF2EE075p-9, 0x1.51818D857E312p-13, 0x1.E3039896C07D3p-17, 0x1.E3E0CBECB78E9p-20, 0x1.379EF6BC6541Cp-22, 0x1.EA90E339F7B45p-25, 0x1.C8570970F1133p-27, 0x1.E9CEFECC570A4p-29, 0x1.29E985ADBC139p-30, 0x1.9504B4D284344p-32 },
-	{ 0x1.57005AF4A7BC0p-3, 0x1.880067F301E38p-9, 0x1.50005919001EBp-13, 0x1.E0007F4155E74p-17, 0x1.E0007F09BA9DDp-20, 0x1.349299F0F8890p-22, 0x1.E4E658ABD43C9p-25, 0x1.C2437FAD573B3p-27, 0x1.E26C750326145p-29, 0x1.24E58D30317F5p-30, 0x1.8D7D339F1A664p-32 },
-	{ 0x1.56B20F508C946p-3, 0x1.86F43426EEA73p-9, 0x1.4E818B1493E0Cp-13, 0x1.DD0391D41ECCCp-17, 0x1.DC29E4DED3E97p-20, 0x1.318F3E8923285p-22, 0x1.DF4F1A3D81B06p-25, 0x1.BC4764989D59Cp-27, 0x1.DB29B8104BE82p-29, 0x1.1FF96DCE92E68p-30, 0x1.861CDE15A5E3Ap-32 },
-	{ 0x1.5663F931D77BFp-3, 0x1.85E931A525C94p-9, 0x1.4D051E8E7B516p-13, 0x1.DA0CC0E1B4FCDp-17, 0x1.D85CE0CBEBC10p-20, 0x1.2E94C5E0586ACp-22, 0x1.D9CADD9504CB9p-25, 0x1.B6625362A0649p-27, 0x1.D40630E13A097p-29, 0x1.1B24AB9373BA3p-30, 0x1.7EE2D7290450Ep-32 },
-	{ 0x1.5616185BAA383p-3, 0x1.84DF5E8802076p-9, 0x1.4B8B0EA93D92Ap-13, 0x1.D71BFD2A312C5p-17, 0x1.D49956923BBE2p-20, 0x1.2BA311C8017FAp-22, 0x1.D4595997FC185p-25, 0x1.B093E919BFEFEp-27, 0x1.CD014B73F25F0p-29, 0x1.1666CD4454B02p-30, 0x1.77CE470C457C2p-32 },
-	{ 0x1.55C86C91874C5p-3, 0x1.83D6B8EDBDA36p-9, 0x1.4A13569382E6Bp-13, 0x1.D431379A906D1p-17, 0x1.D0DF2A52D8784p-20, 0x1.28BA048582DEEp-22, 0x1.CEFA4665B4473p-25, 0x1.AADBC4A12B4FCp-27, 0x1.C61A76C5C35FDp-29, 0x1.11BF5C510D4FBp-30, 0x1.70DE5B1077547p-32 },
-	{ 0x1.557AF5975133Ep-3, 0x1.82CF3EF868BD8p-9, 0x1.489DF187F1033p-13, 0x1.D14C614C1BF63p-17, 0x1.CD2E408D417EFp-20, 0x1.25D980D04B0DAp-22, 0x1.C9AD5D515B380p-25, 0x1.A53986A7654FFp-27, 0x1.BF5124C26D0EDp-29, 0x1.0D2DE4C3A173Dp-30, 0x1.6A1245835F44Fp-32 },
-	{ 0x1.552DB331499F8p-3, 0x1.81C8EECDDFCB2p-9, 0x1.472ADACD07DD4p-13, 0x1.CE6D6B83D3358p-17, 0x1.C9867E1DF77BBp-20, 0x1.230169CFEA929p-22, 0x1.C47258DC51084p-25, 0x1.9FACD19CFD387p-27, 0x1.B8A4CA33AC1B3p-29, 0x1.08B1F5307FD65p-30, 0x1.63693D8F1A201p-32 },
-	{ 0x1.54E0A52410B33p-3, 0x1.80C3C697C2291p-9, 0x1.45BA0DB4FEEC6p-13, 0x1.CB9447B1D81DDp-17, 0x1.C5E7C83D185FFp-20, 0x1.2031A31A34EACp-22, 0x1.BF48F4B0967D6p-25, 0x1.9A3549AB7BDA9p-27, 0x1.B214DEB1288DCp-29, 0x1.044B1EA726CCDp-30, 0x1.5CE27F1A9BFD0p-32 },
-	{ 0x1.5493CB34A446Dp-3, 0x1.7FBFC48368C9Ep-9, 0x1.444B859DA2E2Ep-13, 0x1.C8C0E770DDAAEp-17, 0x1.C252047D01815p-20, 0x1.1D6A10B16A505p-22, 0x1.BA30ED9B58271p-25, 0x1.94D294AC836D3p-27, 0x1.ABA0DC90C57FAp-29, 0x1.FFF1E94658EA7p-31, 0x1.567D4AAB099DEp-32 },
-	{ 0x1.544725285F285p-3, 0x1.7EBCE6C1DCFF0p-9, 0x1.42DF3DF033D9Dp-13, 0x1.C5F33C85988FAp-17, 0x1.BEC518C8F788Ep-20, 0x1.1AAA97026A253p-22, 0x1.B52A018795990p-25, 0x1.8F845A212104Ep-27, 0x1.A54840D74F652p-29, 0x1.F77619FB4F475p-31, 0x1.5038E545E5255p-32 },
-	{ 0x1.53FAB2C4F85F9p-3, 0x1.7DBB2B87CF5D7p-9, 0x1.4175322143EE6p-13, 0x1.C32B38DE3206Ep-17, 0x1.BB40EB63D41A0p-20, 0x1.17F31AE2EDD69p-22, 0x1.B033EF78E41E3p-25, 0x1.8A4A43294E7D9p-27, 0x1.9F0A8B29868A3p-29, 0x1.EF21FFBDEDEE4p-31, 0x1.4A14985408123p-32 },
-	{ 0x1.53AE73D082747p-3, 0x1.7CBA910D8EBC0p-9, 0x1.400D5DB096500p-13, 0x1.C068CE91BCBCAp-17, 0x1.B7C562E6B9157p-20, 0x1.1543818FCC0C3p-22, 0x1.AB4E77864C4DFp-25, 0x1.8523FA7BA3B20p-27, 0x1.98E73DBD836EDp-29, 0x1.E6F4CF61C71B7p-31, 0x1.440FB18564A8Dp-32 },
-	{ 0x1.536268116AB64p-3, 0x1.7BBB158EFF4CCp-9, 0x1.3EA7BC28FEBC1p-13, 0x1.BDABEFDFABC75p-17, 0x1.B452663FC95F6p-20, 0x1.129BB0AB43F9Dp-22, 0x1.A6795AD541EC5p-25, 0x1.80112C5D35E57p-27, 0x1.92DDDD4C72BFCp-29, 0x1.DEEDC22239C6Ap-31, 0x1.3E2982B5891AEp-32 },
-	{ 0x1.53168F4E78858p-3, 0x1.7ABCB74B91CFAp-9, 0x1.3D44492041677p-13, 0x1.BAF48F2F4BA89p-17, 0x1.B0E7DCB0E70D5p-20, 0x1.0FFB8E3B50A95p-22, 0x1.A1B45B94B583Cp-25, 0x1.7B118699A44ABp-27, 0x1.8CEDF104A6B97p-29, 0x1.D70C158816EEDp-31, 0x1.386161D0DEEDFp-32 },
-	{ 0x1.52CAE94ECC9E9p-3, 0x1.79BF74863ADECp-9, 0x1.3BE30036F3525p-13, 0x1.B8429F0F3D4C4p-17, 0x1.AD85ADCE76E43p-20, 0x1.0D6300A80413Cp-22, 0x1.9CFF3CF83F299p-25, 0x1.7624B87B509A2p-27, 0x1.8717027BFBD0Dp-29, 0x1.CF4F0B4FEFD0Cp-31, 0x1.32B6A8BAA1489p-32 },
-	{ 0x1.527F75D9E066Fp-3, 0x1.78C34B856A540p-9, 0x1.3A83DD185B062p-13, 0x1.B5961234F2FDDp-17, 0x1.AA2BC17E290C1p-20, 0x1.0AD1EEB9E9E2Fp-22, 0x1.9859C33361E1Dp-25, 0x1.714A72C3C2B0Ap-27, 0x1.81589DA28E8CDp-29, 0x1.C7B5E9510886Fp-31, 0x1.2D28B53384F8Ap-32 },
-	{ 0x1.523434B7853BCp-3, 0x1.77C83A9302C75p-9, 0x1.3926DB7A51BB7p-13, 0x1.B2EEDB7C2F4BFp-17, 0x1.A6D9FFF5C6E33p-20, 0x1.08483F9871B38p-22, 0x1.93C3B374E71A7p-25, 0x1.6C8267A436354p-27, 0x1.7BB250B5C0896p-29, 0x1.C03FF964EAB10p-31, 0x1.27B6E8C10D2B4p-32 },
-	{ 0x1.51E925AFE3C20p-3, 0x1.76CE3FFC51257p-9, 0x1.37CBF71D24E65p-13, 0x1.B04CEDE685D1Ap-17, 0x1.A39051BA05D6Cp-20, 0x1.05C5DAC860B17p-22, 0x1.8F3CD3E251B90p-25, 0x1.67CC4AB6514D5p-27, 0x1.7623AC338AAB0p-29, 0x1.B8EC894F93E15p-31, 0x1.2260A89587F71p-32 },
-	{ 0x1.519E488B7B38Ap-3, 0x1.75D55A12045F4p-9, 0x1.36732BCB7827Bp-13, 0x1.ADB03C9ADDDD4p-17, 0x1.A04E9F9D5F2B7p-20, 0x1.034AA82A4A6ADp-22, 0x1.8AC4EB9368388p-25, 0x1.6327D0F50369Cp-27, 0x1.70AC42CE1A968p-29, 0x1.B1BAEAA83BAE6p-31, 0x1.1D255D78ADFDBp-32 },
-	{ 0x1.51539D1320CBFp-3, 0x1.74DD872825306p-9, 0x1.351C755A27A2Ap-13, 0x1.AB18BAE4F6EE0p-17, 0x1.9D14D2BEEC9E3p-20, 0x1.00D68FF910B23p-22, 0x1.865BC28DD5599p-25, 0x1.5E94B0B58B402p-27, 0x1.6B4BA95FB98F0p-29, 0x1.AAAA72C2AD61Fp-31, 0x1.180473B0E08CFp-32 },
-	{ 0x1.5109230FFEEB1p-3, 0x1.73E6C5960DFE2p-9, 0x1.33C7CFA82AB2Dp-13, 0x1.A8865C34EEFF2p-17, 0x1.99E2D48949C73p-20, 0x1.FCD2F590D4DF2p-23, 0x1.820121C0DEE7Dp-25, 0x1.5A12A1A0A3079p-27, 0x1.660176DEFAE6Fp-29, 0x1.A3BA7A99315EEp-31, 0x1.12FD5AED01CCDp-32 },
-	{ 0x1.50BEDA4B949EEp-3, 0x1.72F113B662CCEp-9, 0x1.3275369E7704Fp-13, 0x1.A5F9141ECA9ABp-17, 0x1.96B88EB17A28Bp-20, 0x1.F806A306E274Bp-23, 0x1.7DB4D301321C4p-25, 0x1.55A15CABD2179p-27, 0x1.60CD4453303F6p-29, 0x1.9CEA5EB702712p-31, 0x1.0E0F862EE2A6Dp-32 },
-	{ 0x1.5074C28FB4E21p-3, 0x1.71FC6FE7094D3p-9, 0x1.3124A62FE40D1p-13, 0x1.A370D659FEAB1p-17, 0x1.9395EB35D3D4Bp-20, 0x1.F347FAD66B382p-23, 0x1.7976A104C526Ap-25, 0x1.51409C12E30B7p-27, 0x1.5BAEACC921DB9p-29, 0x1.96397F234B573p-31, 0x1.093A6BB642366p-32 },
-	{ 0x1.502ADBA685FBDp-3, 0x1.7108D88920FF2p-9, 0x1.2FD61A590EDBCp-13, 0x1.A0ED96C0FC052p-17, 0x1.907AD45CEE93Dp-20, 0x1.EE96D02AB3B29p-23, 0x1.7546575ECD692p-25, 0x1.4CF01B517D93Dp-27, 0x1.56A54D4809599p-29, 0x1.8FA73F4CA8EEDp-31, 0x1.047D84EC5AAFEp-32 },
-	{ 0x1.4FE1255A80DACp-3, 0x1.70164C00FB6C1p-9, 0x1.2E898F203E4F2p-13, 0x1.9E6F4950BCA32p-17, 0x1.8D6734B497795p-20, 0x1.E9F2F6D56640Ep-23, 0x1.7123C27BC9F6Cp-25, 0x1.48AF971CE3245p-27, 0x1.51B0C4C6CD2F2p-29, 0x1.893305F52D881p-31, 0x1.FFB09C9FEF977p-33 },
-	{ 0x1.4F979F767072Bp-3, 0x1.6F24C8B61476Dp-9, 0x1.2D3F0095479F8p-13, 0x1.9BF5E2285289Dp-17, 0x1.8A5AF710C8CF6p-20, 0x1.E55C434BE1FC9p-23, 0x1.6D0EAF9DA1E58p-25, 0x1.447ECD5DCDB04p-27, 0x1.4CD0B4217B50Ap-29, 0x1.82DC3D1EE1FB4p-31, 0x1.F6948EC425C0Cp-33 },
-	{ 0x1.4F4E49C5711AFp-3, 0x1.6E344D130AC15p-9, 0x1.2BF66AD17345Ap-13, 0x1.9981558878505p-17, 0x1.8756068AA6484p-20, 0x1.E0D28AA495F10p-23, 0x1.6906ECD7D608Ap-25, 0x1.405D7D2A6FAF6p-27, 0x1.4804BE0F01775p-29, 0x1.7CA251F8C135Cp-31, 0x1.EDA5E525E1E5Cp-33 },
-	{ 0x1.4F052412EFEEAp-3, 0x1.6D44D7859827Ep-9, 0x1.2AAFC9F762395p-13, 0x1.971197D323448p-17, 0x1.84584E7F7D60Ap-20, 0x1.DC55A29468609p-23, 0x1.650C490BC5A9Fp-25, 0x1.3C4B66C094A79p-27, 0x1.434C87172181Dp-29, 0x1.7684B4CC2B0A4p-31, 0x1.E4E3AA5F7E43Bp-33 },
-	{ 0x1.4EBC2E2AAA2E7p-3, 0x1.6C56667E8A51Fp-9, 0x1.296B1A32F387Bp-13, 0x1.94A69D8B17254p-17, 0x1.8161BA8FC9DFAp-20, 0x1.D7E5616C29DC0p-23, 0x1.611E93E505DB3p-25, 0x1.38484B7FE17D0p-27, 0x1.3EA7B588A0782p-29, 0x1.7082D8EACB260p-31, 0x1.DC4CEEA153D35p-33 },
-	{ 0x1.4E7367D8ACA3Cp-3, 0x1.6B68F871BB578p-9, 0x1.282857B92A3F2p-13, 0x1.92405B537B6BCp-17, 0x1.7E72369E3E62Ep-20, 0x1.D3819E1613F27p-23, 0x1.5D3D9DD5CAFADp-25, 0x1.3453EDE433D0Bp-27, 0x1.3A15F16FAEC37p-29, 0x1.6A9C349CF124Bp-31, 0x1.D3E0C78ED7B65p-33 },
-	{ 0x1.4E2AD0E953055p-3, 0x1.6A7C8BD60A7B9p-9, 0x1.26E77EC813AFEp-13, 0x1.8FDEC5EF721D1p-17, 0x1.7B89AECED0E31p-20, 0x1.CF2A3013533FCp-23, 0x1.596938136409Ep-25, 0x1.306E11801FB77p-27, 0x1.3596E48C88344p-29, 0x1.64D0411056D0Cp-31, 0x1.CB9E501CA0EE4p-33 },
-	{ 0x1.4DE26929475D5p-3, 0x1.69911F2554FADp-9, 0x1.25A88BA6AE00Bp-13, 0x1.8D81D241B01EFp-17, 0x1.78A80F85CB1F8p-20, 0x1.CADEEF799CA14p-23, 0x1.55A13492C773Cp-25, 0x1.2C967AF78B194p-27, 0x1.312A3A4A4A7BEp-29, 0x1.5F1E7A4751B2Ep-31, 0x1.C384A86F4FF50p-33 },
-	{ 0x1.4D9A30658170Cp-3, 0x1.68A6B0DC6EEECp-9, 0x1.246B7AA4CF157p-13, 0x1.8B29754C17085p-17, 0x1.75CD4566DEDEEp-20, 0x1.C69FB4F0CD58Cp-23, 0x1.51E5660530E8Bp-25, 0x1.28CCEFFA660D5p-27, 0x1.2CCF9FB600C50p-29, 0x1.59865F086D283p-31, 0x1.BB92F5BB51FBAp-33 },
-	{ 0x1.4D52266B4628Cp-3, 0x1.67BD3F7B1C445p-9, 0x1.2330481B0BC6Cp-13, 0x1.88D5A42F50681p-17, 0x1.72F93D543DF4Bp-20, 0x1.C26C59B095E92p-23, 0x1.4E359FD4CFF09p-25, 0x1.2511373F7F8A1p-27, 0x1.2886C375E322Fp-29, 0x1.540770CE6A4A5p-31, 0x1.B3C8622579C57p-33 },
-	{ 0x1.4D0A4B0826FC7p-3, 0x1.66D4C98409C72p-9, 0x1.21F6F06A9F6A0p-13, 0x1.8686542A6A7C5p-17, 0x1.702BE46DB5F88p-20, 0x1.BE44B77E2F765p-23, 0x1.4A91B62186DB8p-25, 0x1.2163187F75C61p-27, 0x1.244F55C0C893Dp-29, 0x1.4EA133B8A3062p-31, 0x1.AC241CA468419p-33 },
-	{ 0x1.4CC29E0A015CFp-3, 0x1.65ED4D7CC63ECp-9, 0x1.20BF6FFD53A7Ep-13, 0x1.843B7A9A76538p-17, 0x1.6D65280FCFA0Ap-20, 0x1.BA28A8AA1B755p-23, 0x1.46F97DBDB9B90p-25, 0x1.1DC25C6FC1A98p-27, 0x1.20290855CA5EDp-29, 0x1.49532E7BCDD28p-31, 0x1.A4A558E2BF2F0p-33 },
-	{ 0x1.4C7B1F3EFE226p-3, 0x1.6506C9EDBBA0Ep-9, 0x1.1F89C34568A11p-13, 0x1.81F50CFA27527p-17, 0x1.6AA4F5D2F1AE1p-20, 0x1.B618080DED7A1p-23, 0x1.436CCC2B2D005p-25, 0x1.1A2ECCBDDCB47p-27, 0x1.1C138E74179B0p-29, 0x1.441CEA531F895p-31, 0x1.9D4B4F2218449p-33 },
-	{ 0x1.4C33CE7590FA7p-3, 0x1.64213D622854Fp-9, 0x1.1E55E6BD7D5F1p-13, 0x1.7FB300E174194p-17, 0x1.67EB3B8A875A9p-20, 0x1.B212B10A1EF04p-23, 0x1.3FEB7797F3958p-25, 0x1.16A8340A80C10p-27, 0x1.180E9CD2F7B73p-29, 0x1.3EFDF2F1C8F61p-31, 0x1.96153C1EBB7BEp-33 },
-	{ 0x1.4BECAB7C77D7Ep-3, 0x1.633CA668188B6p-9, 0x1.1D23D6E87890Dp-13, 0x1.7D754C0538C17p-17, 0x1.6537E7442A395p-20, 0x1.AE187F83EC8FAp-23, 0x1.3C7556DB6BDA3p-25, 0x1.132E5DE5010E1p-27, 0x1.1419E999FAE00p-29, 0x1.39F5D674CDBF3p-31, 0x1.8F0260F40F496p-33 },
-	{ 0x1.4BA5B622BA63Ep-3, 0x1.625903905FA71p-9, 0x1.1BF390517191Fp-13, 0x1.7B3BE436DA701p-17, 0x1.628AE746CF79Fp-20, 0x1.AA294FE33D5B2p-23, 0x1.390A41734B79Cp-25, 0x1.0FC116C6BC004p-27, 0x1.10352C59572ADp-29, 0x1.35042555325F0p-31, 0x1.88120301BDAEFp-33 },
-	{ 0x1.4B5EEE37A9705p-3, 0x1.6176536E91B93p-9, 0x1.1AC50F8B99BB2p-13, 0x1.7906BF63EC365p-17, 0x1.5FE42A11F87F4p-20, 0x1.A644FF1092FD8p-23, 0x1.35AA0F80B9A25p-25, 0x1.0C602C0EA50C5p-27, 0x1.0C601E0271715p-29, 0x1.3028725A7EF23p-31, 0x1.81436BD1893E1p-33 },
-	{ 0x1.4B18538ADE6B9p-3, 0x1.60949498FD0EDp-9, 0x1.1998513225FB0p-13, 0x1.76D5D395D53B3p-17, 0x1.5D439E5CE6BB4p-20, 0x1.A26B6A730353Fp-23, 0x1.325499C5775EEp-25, 0x1.090B6BFCE6410p-27, 0x1.089A78E090D34p-29, 0x1.2B62528D94AF3p-31, 0x1.7A95E8FDCD425p-33 },
-	{ 0x1.4AD1E5EC3AD57p-3, 0x1.5FB3C5A8A3D0Dp-9, 0x1.186D51E838B67p-13, 0x1.74A916F17829Ap-17, 0x1.5AA93315D2C0Fp-20, 0x1.9E9C6FEE3AFBCp-23, 0x1.2F09B9A115C72p-25, 0x1.05C2A5AE98E87p-27, 0x1.04E3F891BBD7Dp-29, 0x1.26B15D2BD3EB8p-31, 0x1.7408CC18A46F3p-33 },
-	{ 0x1.4A8BA52BE7B58p-3, 0x1.5ED3E53935B49p-9, 0x1.17440E58CBEF0p-13, 0x1.72807FB6DBDD2p-17, 0x1.5814D761267E8p-20, 0x1.9AD7EDE088B64p-23, 0x1.2BC9490E39BC8p-25, 0x1.0285A91994BF4p-27, 0x1.013C59FFBE315p-29, 0x1.22152B9A90A0Dp-31, 0x1.6D9B6A93B18F4p-33 },
-	{ 0x1.4A45911A55126p-3, 0x1.5DF4F1E909BF0p-9, 0x1.161C83369BAF3p-13, 0x1.705C0440D548Bp-17, 0x1.55867A98BA914p-20, 0x1.971DC320F177Cp-23, 0x1.2893229FECEC7p-25, 0x1.FEA88E10AA7DCp-28, 0x1.FB46B6B2AC548p-30, 0x1.1D8D595AD3724p-31, 0x1.674D1DA885D3Fp-33 },
-	{ 0x1.49FFA988396AEp-3, 0x1.5D16EA5918182p-9, 0x1.14F6AD3C10BAAp-13, 0x1.6E3B9B04B2927p-17, 0x1.52FE0C4B16A64p-20, 0x1.936DCEFD4CF90p-23, 0x1.2567217EFBD23p-25, 0x1.F85CA22BE8FF8p-28, 0x1.F43178171195Bp-30, 0x1.191983FD6540Fp-31, 0x1.611D4241A083Dp-33 },
-	{ 0x1.49B9EE46912FBp-3, 0x1.5C39CD2CF3EF9p-9, 0x1.13D2892B2B81Cp-13, 0x1.6C1F3A91E75FBp-17, 0x1.507B7C3AB4D91p-20, 0x1.8FC7F1386A9FEp-23, 0x1.2245216760742p-25, 0x1.F2273354766DFp-28, 0x1.ED38797637959p-30, 0x1.14B94B17236B1p-31, 0x1.5B0B38E403E57p-33 },
-	{ 0x1.49745F269E3EBp-3, 0x1.5B5D990AC5721p-9, 0x1.12B013CD6F585p-13, 0x1.6A06D991BA4C8p-17, 0x1.4DFEBA5D4804Cp-20, 0x1.8C2C0A083E98Dp-23, 0x1.1F2CFEA5B9995p-25, 0x1.EC07E7EB8AB2Fp-28, 0x1.E65B3E7C68D4Fp-30, 0x1.106C50359ADEAp-31, 0x1.551665995B63Bp-33 },
-	{ 0x1.492EFBF9E75F3p-3, 0x1.5A824C9B43CF8p-9, 0x1.118F49F3CDED2p-13, 0x1.67F26EC6F389Ep-17, 0x1.4B87B6DB04F92p-20, 0x1.8899FA1416F89p-23, 0x1.1C1E9614CE368p-25, 0x1.E5FE67DC75DE4p-28, 0x1.DF994D2C34A5Fp-30, 0x1.0C3236D3E8357p-31, 0x1.4F3E2FDAAF03Bp-33 },
-	{ 0x1.48E9C49237BFDp-3, 0x1.59A7E689AF510p-9, 0x1.107028769302Cp-13, 0x1.65E1F10D8C9DFp-17, 0x1.4916620DEE881p-20, 0x1.8511A272D8BFCp-23, 0x1.1919C51B1CD20p-25, 0x1.E00A5C9539489p-28, 0x1.D8F22DD23B470p-30, 0x1.080AA44FDB1C2p-31, 0x1.4982027BA0628p-33 },
-	{ 0x1.48A4B8C19E752p-3, 0x1.58CE6583CB7F4p-9, 0x1.0F52AC3550677p-13, 0x1.63D5575A61424p-17, 0x1.46AAAC81245DAp-20, 0x1.8192E4A9449A4p-23, 0x1.161E69A876A09p-25, 0x1.DA2B70FF47549p-28, 0x1.D2656AF93EAE6p-30, 0x1.03F53FDF5B525p-31, 0x1.43E14B962D8B8p-33 },
-	{ 0x1.485FD85A6DF95p-3, 0x1.57F5C839D9590p-9, 0x1.0E36D216CA2C6p-13, 0x1.61CC98BAE15B4p-17, 0x1.444486F034983p-20, 0x1.7E1DA2A84335Cp-23, 0x1.132C6233A61DEp-25, 0x1.D461517868F4Fp-28, 0x1.CBF2915E76686p-30, 0x1.FFE3650C1B392p-32, 0x1.3E5B7C76F613Cp-33 },
-	{ 0x1.481B232F3BADDp-3, 0x1.571E0D5E9198Dp-9, 0x1.0D1C9708E31B2p-13, 0x1.5FC7AC54C403Fp-17, 0x1.41E3E24670130p-20, 0x1.7AB1BECB390A0p-23, 0x1.10438DB820E50p-25, 0x1.CEABABCBC822Fp-28, 0x1.C5992FE624F3Dp-30, 0x1.F7FF4E166E1C7p-32, 0x1.38F00989FEFF7p-33 },
-	{ 0x1.47D69912DF5CFp-3, 0x1.564733A71F0B0p-9, 0x1.0C03F80089676p-13, 0x1.5DC68965BBAB5p-17, 0x1.3F88AF9E41583p-20, 0x1.774F1BD661710p-23, 0x1.0D63CBB3C48E3p-25, 0x1.C90A2F2B1E774p-28, 0x1.BF58D7906D136p-30, 0x1.F03D93DFBA327p-32, 0x1.339E6A47F2109p-33 },
-	{ 0x1.479239D872BDAp-3, 0x1.557139CB18F21p-9, 0x1.0AECF1F9A39DCp-13, 0x1.5BC927432B3D2p-17, 0x1.3D32E040862E8p-20, 0x1.73F59CF530E9Cp-23, 0x1.0A8CFC249E591p-25, 0x1.C37C8C280719Dp-28, 0x1.B9311B6E65929p-30, 0x1.E89D92CA41BF7p-32, 0x1.2E661923D5363p-33 },
-	{ 0x1.474E055350F7Ep-3, 0x1.549C1E847D7B2p-9, 0x1.09D781F6FDCDDp-13, 0x1.59CF7D59DC53Bp-17, 0x1.3AE265A3EBB76p-20, 0x1.70A525B8BE65Fp-23, 0x1.07BEFF86BD6AFp-25, 0x1.BE0274AD7343Cp-28, 0x1.B32190976A098p-30, 0x1.E11EAA85A8963p-32, 0x1.2946937936EAEp-33 },
-	{ 0x1.4709FB57162A0p-3, 0x1.53C7E08FAC40Fp-9, 0x1.08C3A50236EECp-13, 0x1.57D9832DB66D3p-17, 0x1.3897316C4D122p-20, 0x1.6D5D9A16337EBp-23, 0x1.04F9B6D20F6B0p-25, 0x1.B89B9BF940926p-28, 0x1.AD29CE1EA730Ap-30, 0x1.D9C03DFC8EEFDp-32, 0x1.243F597ACC68Bp-33 },
-	{ 0x1.46C61BB79EEFAp-3, 0x1.52F47EAB60DD8p-9, 0x1.07B1582BAE7DBp-13, 0x1.55E730597721Dp-17, 0x1.3651356A14799p-20, 0x1.6A1EDE654371Dp-23, 0x1.023D037847469p-25, 0x1.B347B695F06EDp-28, 0x1.A7496D08E1621p-30, 0x1.D281B3429A1E2p-32, 0x1.1F4FEE217EADEp-33 },
-	{ 0x1.4682664907E96p-3, 0x1.5221F798AD8AEp-9, 0x1.06A0988A72552p-13, 0x1.53F87C8E6B55Cp-17, 0x1.341063999ED0Ap-20, 0x1.66E8D75EA8C4Fp-23, 0x1.FF118EC59BD20p-26, 0x1.AE067A547FD2Dp-28, 0x1.A180084273EBDp-30, 0x1.CB627382E85C6p-32, 0x1.1A77D71BE3656p-33 },
-	{ 0x1.463EDADFAD457p-3, 0x1.51504A1AF5D1Ap-9, 0x1.0591633C2CBD2p-13, 0x1.520D5F942963Bp-17, 0x1.31D4AE22A194Bp-20, 0x1.63BB6A1AA9717p-23, 0x1.F9B9C9E179686p-26, 0x1.A8D79E465EB5Bp-28, 0x1.9BCD3C9587E1Cp-30, 0x1.C461EAEEED160p-32, 0x1.15B69CBE1ED89p-33 },
-	{ 0x1.45FB79502A49Bp-3, 0x1.507F74F7E9466p-9, 0x1.0483B56512B21p-13, 0x1.5025D1484C3BFp-17, 0x1.2F9E075793298p-20, 0x1.60967C0FA1789p-23, 0x1.F4727DE9C30F3p-26, 0x1.A3BADAB78673Bp-28, 0x1.9630A8A081247p-30, 0x1.BD7F88ADB30A7p-32, 0x1.110BC9F22C263p-33 },
-	{ 0x1.45B8416F58DEAp-3, 0x1.4FAF76F77E550p-9, 0x1.03778C2FD262Ep-13, 0x1.4E41C99E2F746p-17, 0x1.2D6C61B515769p-20, 0x1.5D79F31093C1Ep-23, 0x1.EF3B716798497p-26, 0x1.9EAFE928AE82Ep-28, 0x1.90A9ECCCA05ADp-30, 0x1.B6BABECB81CA2p-32, 0x1.0C76EC28890CEp-33 },
-	{ 0x1.45753312511B0p-3, 0x1.4EE04EE3ED199p-9, 0x1.026CE4CD81E4Fp-13, 0x1.4C61409EAC45Bp-17, 0x1.2B3FAFE162CA1p-20, 0x1.5A65B54BC1270p-23, 0x1.EA146BC3C9819p-26, 0x1.99B684499ECEEp-28, 0x1.8B38AB44D8A59p-30, 0x1.B0130229E4163p-32, 0x1.07F7934942AB9p-33 },
-	{ 0x1.45324E0E68D12p-3, 0x1.4E11FB89AA478p-9, 0x1.0163BC758E1D5p-13, 0x1.4A842E67D7722p-17, 0x1.2917E4ABBCF95p-20, 0x1.5759A949458EAp-23, 0x1.E4FD3543172ABp-26, 0x1.94CE67F39F173p-28, 0x1.85DC87ECD7D92p-30, 0x1.A987CA700CBEFp-32, 0x1.038D51A560AC6p-33 },
-	{ 0x1.44EF9239331CCp-3, 0x1.4D447BB7621E1p-9, 0x1.005C1065A9DE4p-13, 0x1.48AA8B2CC0122p-17, 0x1.26F4F30BDEB35p-20, 0x1.5455B5E9BAFB2p-23, 0x1.DFF5970282822p-26, 0x1.8FF7512402B17p-28, 0x1.809528584013Fp-30, 0x1.A31891FB97ADCp-32, 0x1.FE6F77D158C0Fp-34 },
-	{ 0x1.44ACFF687FF20p-3, 0x1.4C77CE3DF36A1p-9, 0x1.FEABBBC37A71Fp-14, 0x1.46D44F352F43Ep-17, 0x1.24D6CE216EFDEp-20, 0x1.5159C264E2706p-23, 0x1.DAFD5AF3AF996p-26, 0x1.8B30FDF6D0120p-28, 0x1.7B6233C2118E2p-30, 0x1.9CC4D5D1A4D3Cp-32, 0x1.F5ECD217A2CB6p-34 },
-	{ 0x1.446A95725BAD5p-3, 0x1.4BABF1F06A959p-9, 0x1.FCA24467AA046p-14, 0x1.450172DD68B9Ap-17, 0x1.22BD693376D25p-20, 0x1.4E65B64852955p-23, 0x1.D6144BD9584E5p-26, 0x1.867B2DA183837p-28, 0x1.764353044385Fp-30, 0x1.968C15904ACA0p-32, 0x1.ED91E48DAAFD9p-34 },
-	{ 0x1.4428542D0EA4Ap-3, 0x1.4AE0E5A3FCC39p-9, 0x1.FA9BB55825121p-14, 0x1.4331EE95EC23Dp-17, 0x1.20A8B7AFD8D20p-20, 0x1.4B7979762BF70p-23, 0x1.D13A3543CFDDFp-26, 0x1.81D5A06DEC778p-28, 0x1.7138308F8B33Bp-30, 0x1.906DD3605EFA6p-32, 0x1.E55DE607CAB0Ep-34 },
-	{ 0x1.43E63B6F1CB92p-3, 0x1.4A16A83002F9Ep-9, 0x1.F898094137000p-14, 0x1.4165BAE337740p-17, 0x1.1E98AD2ACB090p-20, 0x1.4894F423D2D22p-23, 0x1.CC6EE38D96BBBp-26, 0x1.7D4017B524E00p-28, 0x1.6C4078634FB77p-30, 0x1.8A6993E7913A8p-32, 0x1.DD5011A4E8093p-34 },
-	{ 0x1.43A44B0F44EA3p-3, 0x1.494D386DF556Bp-9, 0x1.F6973ADB142D2p-14, 0x1.3F9CD05D89F43p-17, 0x1.1C8D3D5E52B62p-20, 0x1.45B80ED8AE49Dp-23, 0x1.C7B223D7FE5B6p-26, 0x1.78BA55DAA2012p-28, 0x1.675BD805C9F87p-30, 0x1.847EDE3AD8CCDp-32, 0x1.D567A6B5560C8p-34 },
-	{ 0x1.436282E480E95p-3, 0x1.488495396653Ap-9, 0x1.F49944E9BA870p-14, 0x1.3DD727B0A830Dp-17, 0x1.1A865C29C2107p-20, 0x1.42E2B26CECF22p-23, 0x1.C303C407DC9DDp-26, 0x1.74441E475E32Dp-28, 0x1.6289FE7C4F74Ap-30, 0x1.7EAD3BD130CBCp-32, 0x1.CDA3E8A251AB5p-34 },
-	{ 0x1.4320E2C604AEDp-3, 0x1.47BCBD6FFE14Cp-9, 0x1.F29E223CD27DCp-14, 0x1.3C14B99BA0B17p-17, 0x1.1883FD913800Ep-20, 0x1.4014C8084E95Ap-23, 0x1.BE6392C24E904p-26, 0x1.6FDD35651B087p-28, 0x1.5DCA9C43C705Cp-30, 0x1.78F43876A20F9p-32, 0x1.C6041ED617A97p-34 },
-	{ 0x1.42DF6A8B3E0F9p-3, 0x1.46F5AFF175C44p-9, 0x1.F0A5CDAF90561p-14, 0x1.3A557EF0917C7p-17, 0x1.168615BD21C82p-20, 0x1.3D4E3920F31DCp-23, 0x1.B9D15F698A31Fp-26, 0x1.6B856099BB5B2p-28, 0x1.591D634946A6Fp-30, 0x1.7353623F98AAAp-32, 0x1.BE8794A48F725p-34 },
-	{ 0x1.429E1A0BD453Bp-3, 0x1.462F6B9F92F9Fp-9, 0x1.EEB0422895D85p-14, 0x1.389970946E649p-17, 0x1.148C98F9BE891p-20, 0x1.3A8EEF7A2E85Ep-23, 0x1.B54CFA19BEF3Cp-26, 0x1.673C6642B4B3Ep-28, 0x1.548206E2D94BEp-30, 0x1.6DCA497C8327Dp-32, 0x1.B72D993486FF8p-34 },
-	{ 0x1.425CF11FA7CE4p-3, 0x1.4569EF5E232F6p-9, 0x1.ECBD7A99D45B5p-14, 0x1.36E0877EC81ADp-17, 0x1.12977BB6A4AEBp-20, 0x1.37D6D52361C24p-23, 0x1.B0D633A604A8Ap-26, 0x1.63020DB09797Cp-28, 0x1.4FF83BC86BE04p-30, 0x1.685880ADB9BEAp-32, 0x1.AFF57F697C134p-34 },
-	{ 0x1.421BEF9ED1757p-3, 0x1.44A53A12F73F5p-9, 0x1.EACD72006F299p-14, 0x1.352ABCB994042p-17, 0x1.10A6B2864926Cp-20, 0x1.3525D476D8839p-23, 0x1.AC6CDD95589D7p-26, 0x1.5ED61F22AE39Ap-28, 0x1.4B7FB80CE08C3p-30, 0x1.62FD9C77ABC0Ap-32, 0x1.A8DE9DCDEF23Fp-34 },
-	{ 0x1.41DB1561A27C3p-3, 0x1.43E14AA5DEF15p-9, 0x1.E8E023649E3FCp-14, 0x1.33780960F4CE0p-17, 0x1.0EBA321D8868Cp-20, 0x1.327BD818ABC0Dp-23, 0x1.A810CA1FA8921p-26, 0x1.5AB863C2B1188p-28, 0x1.47183317475FBp-30, 0x1.5DB93397518C0p-32, 0x1.A1E84E7E3C6CBp-34 },
-	{ 0x1.419A6240A3EC7p-3, 0x1.431E2000A490Dp-9, 0x1.E6F589D991637p-14, 0x1.31C866A303C0Dp-17, 0x1.0CD1EF533141Dp-20, 0x1.2FD8CAF5A8F1Bp-23, 0x1.A3C1CC2AEB4E0p-26, 0x1.56A8A5A091146p-28, 0x1.42C1659C3B8C8p-30, 0x1.588ADED6E15B8p-32, 0x1.9B11EF13F7B20p-34 },
-	{ 0x1.4159D61496420p-3, 0x1.425BB90F088FCp-9, 0x1.E50DA07D53905p-14, 0x1.301BCDBF9ACB7p-17, 0x1.0AEDDF1F915E7p-20, 0x1.2D3C98423DE34p-23, 0x1.9F7FB748468C8p-26, 0x1.52A6AFAE5685Cp-28, 0x1.3E7B0997645AAp-30, 0x1.53723902C5583p-32, 0x1.945AE091C7604p-34 },
-	{ 0x1.411970B67106Ep-3, 0x1.419A14BEBD349p-9, 0x1.E3286278AEBBDp-14, 0x1.2E7238081F473p-17, 0x1.090DF69C038A3p-20, 0x1.2AA72B796912Bp-23, 0x1.9B4A5FB141FDCp-26, 0x1.4EB24DBC14E6Cp-28, 0x1.3A44DA451909Dp-30, 0x1.4E6EDEDED158Bp-32, 0x1.8DC2874FBBC1Ap-34 },
-	{ 0x1.40D931FF626FFp-3, 0x1.40D931FF62536p-9, 0x1.E145CAFF0FEC9p-14, 0x1.2CCB9EDF4D6F7p-17, 0x1.07322B027F9E6p-20, 0x1.2818705BAE78Fp-23, 0x1.97219A45071C5p-26, 0x1.4ACB4C73F29F4p-28, 0x1.361E941C26D66p-30, 0x1.49806F1BB6C82p-32, 0x1.87484AE81F1EEp-34 },
-	{ 0x1.409919C8CEFAAp-3, 0x1.40190FC281125p-9, 0x1.DF65D54E6BA5Fp-14, 0x1.2B27FBB9048BFp-17, 0x1.055A71AD2C193p-20, 0x1.259052EE10B28p-23, 0x1.93053C85AD966p-26, 0x1.46F1795644887p-28, 0x1.3207F4C7B85CEp-30, 0x1.44A68A4CB5350p-32, 0x1.80EB9624BBB57p-34 },
-	{ 0x1.405927EC510BCp-3, 0x1.3F59ACFB87B89p-9, 0x1.DD887CAF22A5Dp-14, 0x1.2987481A13CA2p-17, 0x1.0386C015F155Ap-20, 0x1.230EBF790E705p-23, 0x1.8EF51C95940CFp-26, 0x1.4324A2B5BCBDCp-28, 0x1.2E00BB215D9C9p-30, 0x1.3FE0D2DD8614Cp-32, 0x1.7AABD6EC9481Dp-34 },
-	{ 0x1.40195C43B88E9p-3, 0x1.3E9B089FC588Fp-9, 0x1.DBADBC73E6F3Ap-14, 0x1.27E97D9807C37p-17, 0x1.01B70BD60E5DCp-20, 0x1.2093A287A41DAp-23, 0x1.8AF11134C4EBBp-26, 0x1.3F6497B3AC542p-28, 0x1.2A08A72B33DE7p-30, 0x1.3B2EED088250Cp-32, 0x1.74887E320DF24p-34 },
-	{ 0x1.3FD9B6A90A951p-3, 0x1.3DDD21A666A64p-9, 0x1.D9D58FF9A13F7p-14, 0x1.264E95D8F8AD8p-17, 0x1.FFD6954B5EA0Fp-21, 0x1.1E1EE8E651A76p-23, 0x1.86F8F1BE671D6p-26, 0x1.3BB1283C57930p-28, 0x1.261F7A0A2CC8Bp-30, 0x1.36907ECD003BDp-32, 0x1.6E80FFE183A9Ep-34 },
-	{ 0x1.3F9A36F680F93p-3, 0x1.3D1FF7087002Fp-9, 0x1.D7FFF2A756909p-14, 0x1.24B68A9359327p-17, 0x1.FC46E4B70AAA1p-21, 0x1.1BB07FA22453Ap-23, 0x1.830C96263A632p-26, 0x1.380A25035C4BBp-28, 0x1.2244F60073EDFp-30, 0x1.32052FE5E8970p-32, 0x1.6894D2D0488FBp-34 },
-	{ 0x1.3F5ADD0689FE8p-3, 0x1.3C6387C0BB5AEp-9, 0x1.D62CDFEE0E421p-14, 0x1.2321558DC5EE0p-17, 0x1.F8BEF1D8C028Bp-21, 0x1.19485407C4948p-23, 0x1.7F2BD6F61F137p-26, 0x1.346F5F8029EF4p-28, 0x1.1E78DE67F2285p-30, 0x1.2D8CA9C08155Ep-32, 0x1.62C370AC0E792p-34 },
-	{ 0x1.3F1BA8B3C7F4Dp-3, 0x1.3BA7D2CBF337Bp-9, 0x1.D45C5348B84C7p-14, 0x1.218EF09ED58E2p-17, 0x1.F53EA8D591666p-21, 0x1.16E653A287C6Fp-23, 0x1.7B568D4BA90AFp-26, 0x1.30E0A9EA8B04Dp-28, 0x1.1ABAF7ACEE183p-30, 0x1.292697736CDBEp-32, 0x1.5D0C55EAB2CF8p-34 },
-	{ 0x1.3EDC99D910DBDp-3, 0x1.3AECD7288EFF2p-9, 0x1.D28E483C13DB7p-14, 0x1.1FFF55ACE9935p-17, 0x1.F1C5F60D3C8CDp-21, 0x1.148A6C3B85C97p-23, 0x1.778C92D5BD95Fp-26, 0x1.2D5DD7373FA32p-28, 0x1.170B0748C91F8p-30, 0x1.24D2A5B5DC726p-32, 0x1.576F01BA6DA58p-34 },
-	{ 0x1.3E9DB0516E070p-3, 0x1.3A3293D6CF0B7p-9, 0x1.D0C2BA56962EBp-14, 0x1.1E727EADFFAF6p-17, 0x1.EE54C6196775Dp-21, 0x1.12348BD8B25AAp-23, 0x1.73CDC1D23C1E1p-26, 0x1.29E6BB14A8943p-28, 0x1.1368D3BCD837Fp-30, 0x1.209082D6F4C18p-32, 0x1.51EAF5F260BFFp-34 },
-	{ 0x1.3E5EEBF81BC2Fp-3, 0x1.397907D8B8CE7p-9, 0x1.CEF9A53051C51p-14, 0x1.1CE865A783C04p-17, 0x1.EAEB05CCDE587p-21, 0x1.0FE4A0BBFA2E9p-23, 0x1.7019F50BB1670p-26, 0x1.267B29E782CAAp-28, 0x1.0FD4248D58065p-30, 0x1.1C5FDEB5631C1p-32, 0x1.4C7FB7038427Dp-34 },
-	{ 0x1.3E204CA888FADp-3, 0x1.38C0323212FD4p-9, 0x1.CD33046ADDD09p-14, 0x1.1B6104AE2263Ep-17, 0x1.E788A232D5450p-21, 0x1.0D9A996263A93p-23, 0x1.6C7107D71525Ep-26, 0x1.231AF8C7B2D1Fp-28, 0x1.0C4CC23C7B901p-30, 0x1.18406AB72276Cp-32, 0x1.472CCBE9EDEBAp-34 },
-	{ 0x1.3DE1D23E56DF3p-3, 0x1.380811E861C71p-9, 0x1.CB6ED3B13DF2Cp-14, 0x1.19DC55E59C23Cp-17, 0x1.E42D888E2C672p-21, 0x1.0B566483332E8p-23, 0x1.68D2D61191C25p-26, 0x1.1FC5FD7D1FE66p-28, 0x1.08D2764594FCFp-30, 0x1.1431D9C16EEBEp-32, 0x1.41F1BE1E72C5Fp-34 },
-	{ 0x1.3DA37C95588D1p-3, 0x1.3750A602E3149p-9, 0x1.C9AD0EB7CA406p-14, 0x1.185A538099353p-17, 0x1.E0D9A658B7001p-21, 0x1.0917F10F12F7Ap-23, 0x1.653F3C1E560D5p-26, 0x1.1C7C0E7C9E613p-28, 0x1.05650B1857D0Bp-30, 0x1.1033E030E6B08p-32, 0x1.3CCE19889D6EBp-34 },
-	{ 0x1.3D654B8992B60p-3, 0x1.3699ED8A8AD1Ap-9, 0x1.C7EDB13C178B1p-14, 0x1.16DAF7C07DCD2p-17, 0x1.DD8CE94285100p-21, 0x1.06DF2E2F3E5DCp-23, 0x1.61B616E470C00p-26, 0x1.193D02E4E9291p-28, 0x1.02044C14340E1p-30, 0x1.0C4633D1D76B4p-32, 0x1.37C16C70FA6C8p-34 },
-	{ 0x1.3D273EF73B48Ep-3, 0x1.35E3E789FF3FEp-9, 0x1.C630B704DFF12p-14, 0x1.155E3CF53F042p-17, 0x1.DA473F312FA21p-21, 0x1.04AC0B44B08A5p-23, 0x1.5E3743CCB5904p-26, 0x1.1608B27BA9D7Bp-28, 0x1.FD600B07936C3p-31, 0x1.08688BD8B6E0Fp-32, 0x1.32CB4773B6485p-34 },
-	{ 0x1.3CE956BAB91B6p-3, 0x1.352E930D9552Fp-9, 0x1.C4761BE1EBB12p-14, 0x1.13E41D7D38496p-17, 0x1.D708963F27B12p-21, 0x1.027E77E7567EAp-23, 0x1.5AC2A0BFABAE5p-26, 0x1.12DEF5AA8F479p-28, 0x1.F6D00930E835Cp-31, 0x1.049AA0DAC5F20p-32, 0x1.2DEB3D738C166p-34 },
-	{ 0x1.3CAB92B0A3946p-3, 0x1.3479EF234D159p-9, 0x1.C2BDDBABFA417p-14, 0x1.126C93C501626p-17, 0x1.D3D0DCBB079A2p-21, 0x1.005663E54462Ap-23, 0x1.57580C23857D2p-26, 0x1.0FBFA57C723E9p-28, 0x1.F0582ECBD8FFDp-31, 0x1.00DC2CC6DCEC4p-32, 0x1.2920E38D02535p-34 },
-	{ 0x1.3C6DF2B5C2568p-3, 0x1.33C5FADACE189p-9, 0x1.C107F244ABAABp-14, 0x1.10F79A4744F54p-17, 0x1.D0A00126E7120p-21, 0x1.FC677E83DC1ABp-24, 0x1.53F764DA21589p-26, 0x1.0CAA9B9A87EB8p-28, 0x1.E9F819BC070B5p-31, 0x1.FA59D5BCC0713p-33, 0x1.246BD109F422Ep-34 },
-	{ 0x1.3C3076A70CEC2p-3, 0x1.3312B54563E9Cp-9, 0x1.BF545B966A23Ep-14, 0x1.0F852B8C979BAp-17, 0x1.CD75F237B194Fp-21, 0x1.F82CF46AC56FEp-24, 0x1.50A08A3F133E2p-26, 0x1.099FB249A1EE7p-28, 0x1.E3AF6998E1C05p-31, 0x1.F3192F5CB8E62p-33, 0x1.1FCB9F55650A1p-34 },
-	{ 0x1.3BF31E61AA73Ap-3, 0x1.32601D75FA948p-9, 0x1.BDA3139453EF9p-14, 0x1.0E15422B4F7C3p-17, 0x1.CA529ED47F449p-21, 0x1.F3FD0A57179B2p-24, 0x1.4D535C25B72CCp-26, 0x1.069EC4677BA54p-28, 0x1.DD7DBFA571B89p-31, 0x1.EBF5E2119205Bp-33, 0x1.1B3FE9EF9D4C8p-34 },
-	{ 0x1.3BB5E9C2F14C6p-3, 0x1.31AE32811B2B0p-9, 0x1.BBF4163A2579Ap-14, 0x1.0CA7D8C75C691p-17, 0x1.C735F615F02B8p-21, 0x1.EFD7A186DD943p-24, 0x1.4A0FBAD74C128p-26, 0x1.03A7AD681477Ep-28, 0x1.D762BEC84E746p-31, 0x1.E4EF6BFBE0975p-33, 0x1.16C84E628D201p-34 },
-	{ 0x1.3B78D8A866C49p-3, 0x1.30FCF37CE8581p-9, 0x1.BA475F8C23B3Cp-14, 0x1.0B3CEA1220810p-17, 0x1.C41FE74589DCCp-21, 0x1.EBBC9B9CE4349p-24, 0x1.46D58711171DCp-26, 0x1.00BA495316DFCp-28, 0x1.D15E0B83BDCADp-31, 0x1.DE054DABF932Bp-33, 0x1.12646C3674F60p-34 },
-	{ 0x1.3B3BEAEFBEC77p-3, 0x1.304C5F811AF98p-9, 0x1.B89CEB9706B15p-14, 0x1.09D470CA49518p-17, 0x1.C11061DD1764Ap-21, 0x1.E7ABDA9F49E03p-24, 0x1.43A4A2028F4B2p-26, 0x1.FBACE98297D2Ap-29, 0x1.CB6F4BEDFC2E2p-31, 0x1.D7370A1551D61p-33, 0x1.0E13E4E6D1254p-34 },
-	{ 0x1.3AFF2076DB8CCp-3, 0x1.2F9C75A6FEC33p-9, 0x1.B6F4B66FE4806p-14, 0x1.086E67BBA9781p-17, 0x1.BE0755860B831p-21, 0x1.E3A540F613FBBp-24, 0x1.407CED4B9106Ep-26, 0x1.F5F819B435DD4p-29, 0x1.C59627A9ACE06p-31, 0x1.D084268229919p-33, 0x1.09D65BD7874CEp-34 },
-	{ 0x1.3AC2791BCD480p-3, 0x1.2EED35096EEABp-9, 0x1.B54EBC341C401p-14, 0x1.070AC9BF12C0Fp-17, 0x1.BB04B218E5249p-21, 0x1.DFA8B169CA17Bp-24, 0x1.3D5E4AFA99BCCp-26, 0x1.F055DEA22A975p-29, 0x1.BFD247DE713BBp-31, 0x1.C9EC2A8774A95p-33, 0x1.05AB764A53CF7p-34 },
-	{ 0x1.3A85F4BCD1D98p-3, 0x1.2E3E9CC4D2DA7p-9, 0x1.B3AAF90941732p-14, 0x1.05A991BA30C0Fp-17, 0x1.B808679C9612Ap-21, 0x1.DBB60F2216B6Ep-24, 0x1.3A489D8B0B2ECp-26, 0x1.EAC5F4C71B9DEp-29, 0x1.BA235731A634Ap-31, 0x1.C36E9FF90B976p-33, 0x1.0192DB5475D52p-34 },
-	{ 0x1.3A499338547EFp-3, 0x1.2D90ABF71AEE5p-9, 0x1.B209691D078DBp-14, 0x1.044ABA9F63E9Cp-17, 0x1.B5126645EBD09p-21, 0x1.D7CD3DA46D971p-24, 0x1.373BC7E3766F3p-26, 0x1.E54819AC7752Dp-29, 0x1.B48901BF47441p-31, 0x1.BD0B12DE1B641p-33, 0x1.FB1867A930952p-35 },
-	{ 0x1.3A0D546CED855p-3, 0x1.2CE361BFBD371p-9, 0x1.B06A08A52DBE1p-14, 0x1.02EE3F6D9D159p-17, 0x1.B2229E76FA9E0p-21, 0x1.D3EE20D2B764Bp-24, 0x1.3437AD53EE586p-26, 0x1.DFDC0BE5D1460p-29, 0x1.AF02F512F5E8Dp-31, 0x1.B6C11165D5D1Ep-33, 0x1.F32E54D1ECBCBp-35 },
-	{ 0x1.39D1383961FB6p-3, 0x1.2C36BD3FB2471p-9, 0x1.AECCD3DF6AEF5p-14, 0x1.01941B303989Bp-17, 0x1.AF3900BE8A954p-21, 0x1.D0189CEA02C0Ep-24, 0x1.313C3194615EAp-26, 0x1.DA818B0C54B2Bp-29, 0x1.A990E02124F84p-31, 0x1.B0902BDC5FE59p-33, 0x1.EB66D6CB7410Ep-35 },
-	{ 0x1.39953E7CA3649p-3, 0x1.2B8ABD997205Ep-9, 0x1.AD31C7115A050p-14, 0x1.003C48FEDF6D1p-17, 0x1.AC557DD786DD8p-21, 0x1.CC4C96813A82Fp-24, 0x1.2E4938C2FA9A7p-26, 0x1.D53857BA4CA0Bp-29, 0x1.A432734066F80p-31, 0x1.AA77F49FFD5B4p-33, 0x1.E3C14997265FDp-35 },
-	{ 0x1.39596715CF6C9p-3, 0x1.2ADF61F0F08C8p-9, 0x1.AB98DE88664FAp-14, 0x1.FDCD87FAB565Ap-18, 0x1.A97806A86EE82p-21, 0x1.C889F287E11E8p-24, 0x1.2B5EA76289E6Ep-26, 0x1.D0003386C13A7p-29, 0x1.9EE76022DEC05p-31, 0x1.A478001677A29p-33, 0x1.DC3D0C7D0C1B4p-35 },
-	{ 0x1.391DB1E42F9BDp-3, 0x1.2A34A96B9B08Dp-9, 0x1.AA021699B8389p-14, 0x1.FB270EB6F4EA5p-18, 0x1.A6A08C42C9B22p-21, 0x1.C4D09644D1176p-24, 0x1.287C6258F2F44p-26, 0x1.CAD8E10129EADp-29, 0x1.99AF59CFD1AA3p-31, 0x1.9E8FE4A2BF053p-33, 0x1.D4D981F9DEE6Bp-35 },
-	{ 0x1.38E21EC7390C4p-3, 0x1.298A933054A94p-9, 0x1.A86D6BA222257p-14, 0x1.F8851CA9DD820p-18, 0x1.A3CEFFE29AFFFp-21, 0x1.C1206755026DFp-24, 0x1.25A24EEDA32D2p-26, 0x1.C5C223AD33D8Dp-29, 0x1.948A149D5A924p-31, 0x1.98BF3A9AC4A22p-33, 0x1.CD960FAD7B4E1p-35 },
-	{ 0x1.38A6AD9E8C1EBp-3, 0x1.28E11E67738F7p-9, 0x1.A6DADA060D919p-14, 0x1.F5E7A8624D9E3p-18, 0x1.A10352EDDA8D2p-21, 0x1.BD794BAA54ED7p-24, 0x1.22D052C80E4DEp-26, 0x1.C0BBBFFE9C599p-29, 0x1.8F77462A3CFC1p-31, 0x1.93059C3D8BF26p-33, 0x1.C6721E49B9186p-35 },
-	{ 0x1.386B5E49F4314p-3, 0x1.28384A3ABDCB3p-9, 0x1.A54A5E31685D2p-14, 0x1.F34EA8865F548p-18, 0x1.9E3D76F3ED27Ep-21, 0x1.B9DB298A5F47Dp-24, 0x1.200653EE318EFp-26, 0x1.BBC57B551EF27p-29, 0x1.8A76A557D7A59p-31, 0x1.8D62A5A972918p-33, 0x1.BF6D1981A7B70p-35 },
-	{ 0x1.383030A96755Dp-3, 0x1.279015D5665BFp-9, 0x1.A3BBF4979251Bp-14, 0x1.F0BA13D326815p-18, 0x1.9B7D5DAD1FB01p-21, 0x1.B645E78D42E96p-24, 0x1.1D4438C31D42Fp-26, 0x1.B6DF1BF876879p-29, 0x1.8587EA4435E0Bp-31, 0x1.87D5F4D2AD0F0p-33, 0x1.B8866FF92C66Ep-35 },
-	{ 0x1.37F5249D06097p-3, 0x1.26E880640A3A6p-9, 0x1.A22F99B34ADAAp-14, 0x1.EE29E11C6FBD5p-18, 0x1.98C2F8FA23F35p-21, 0x1.B2B96C9C8470Ep-24, 0x1.1A89E80584CA2p-26, 0x1.B208691471566p-29, 0x1.80AACE443F096p-31, 0x1.825F2979F7925p-33, 0x1.B1BD9334FFA4Cp-35 },
-	{ 0x1.37BA3A051AEC3p-3, 0x1.26418914AD68Ep-9, 0x1.A0A54A069EF1Bp-14, 0x1.EB9E074C80242p-18, 0x1.960E3AE38F5DEp-21, 0x1.AF359FF1E8B71p-24, 0x1.17D748CE54BD9p-26, 0x1.AD412AB5175B9p-29, 0x1.7BDF0BDE03755p-31, 0x1.7CFDE52379250p-33, 0x1.AB11F78B07A81p-35 },
-	{ 0x1.377F70C21A79Bp-3, 0x1.259B2F16B80B5p-9, 0x1.9F1D021AD73E3p-14, 0x1.E9167D63D5E78p-18, 0x1.935F15995B79Dp-21, 0x1.ABBA691656526p-24, 0x1.152C428F4F34Bp-26, 0x1.A88929C2E2C7Ep-29, 0x1.77245EC3263D4p-31, 0x1.77B1CB0DD87CCp-33, 0x1.A48314130DA5Cp-35 },
-	{ 0x1.3744C8B4A2C23p-3, 0x1.24F5719AF3860p-9, 0x1.9D96BE8066670p-14, 0x1.E6933A78E9ADEp-18, 0x1.90B57B726834Dp-21, 0x1.A847AFE0BB832p-24, 0x1.1288BD11AE092p-26, 0x1.A3E02FFF0A286p-29, 0x1.727A83CB63424p-31, 0x1.727A802981263p-33, 0x1.9E106297CBAB3p-35 },
-	{ 0x1.370A41BD7B243p-3, 0x1.24504FD387A34p-9, 0x1.9C127BCED7963p-14, 0x1.E41435B7F0B85p-18, 0x1.8E115EEBFFE5Ep-21, 0x1.A4DD5C74F875Ep-24, 0x1.0FECA074CAFB6p-26, 0x1.9F4607FFDBE8Ap-29, 0x1.6DE138EF30D6Dp-31, 0x1.6D57AB1017F86p-33, 0x1.97B95F8850EFDp-35 },
-	{ 0x1.36CFDBBD94069p-3, 0x1.23ABC8F3F7C0Dp-9, 0x1.9A9036A4BD2DBp-14, 0x1.E19966629FCD5p-18, 0x1.8B72B2A95D0BFp-21, 0x1.A17B5742CDC87p-24, 0x1.0D57D52CCD9F1p-26, 0x1.9ABA7D2D2AD70p-29, 0x1.69583D427C75Ep-31, 0x1.6848F3FC1DBFFp-33, 0x1.917D89E9BA89Bp-35 },
-	{ 0x1.3695969606937p-3, 0x1.2307DC3120032p-9, 0x1.990FEBA79FACCp-14, 0x1.DF22C3CFEEE62p-18, 0x1.88D9697331BEEp-21, 0x1.9E218904CF3FCp-24, 0x1.0ACA44015EF1Bp-26, 0x1.963D5BBCCB567p-29, 0x1.64DF50EF81F57p-31, 0x1.634E04C0BF166p-33, 0x1.8B5C63493E7F5p-35 },
-	{ 0x1.365B722814737p-3, 0x1.226488C132900p-9, 0x1.97919783ECC55p-14, 0x1.DCB0456BDD9BBp-18, 0x1.8645763730CBCp-21, 0x1.9ACFDABF5A9CCp-24, 0x1.0843D60C62829p-26, 0x1.91CE70AF20E87p-29, 0x1.60763531BCA63p-31, 0x1.5E6688C1D0624p-33, 0x1.85556FAE873D3p-35 },
-	{ 0x1.36216E5527899p-3, 0x1.21C1CDDBB4CFFp-9, 0x1.961536ECE6A08p-14, 0x1.DA41E2B738501p-18, 0x1.83B6CC0798767p-21, 0x1.978635BF927E0p-24, 0x1.05C474B8B511Fp-26, 0x1.8D6D89CBBBBE6p-29, 0x1.5C1CAC50F1D3Fp-31, 0x1.59922CEBF500Cp-33, 0x1.7F68358E5D83Ep-35 },
-	{ 0x1.35E78AFED1AFCp-3, 0x1.211FAAB97CB63p-9, 0x1.949AC69C93525p-14, 0x1.D7D793475E128p-18, 0x1.812D5E1ABED9Ap-21, 0x1.9444839A5D3D8p-24, 0x1.034C09C0F08E0p-26, 0x1.891A759E06011p-29, 0x1.57D2799C541ECp-31, 0x1.54D09FACF0A1Ep-33, 0x1.79943DBD9EEDAp-35 },
-	{ 0x1.35ADC806CC739p-3, 0x1.207E1E94AE0EFp-9, 0x1.93224353AC7B2p-14, 0x1.D5714EC6073B2p-18, 0x1.7EA91FCA9FDF3p-21, 0x1.910AAE2B67B8Fp-24, 0x1.00DA7F2E3553Fp-26, 0x1.84D5037200805p-29, 0x1.53976165BF270p-31, 0x1.502190EC21E41p-33, 0x1.73D913647F399p-35 },
-	{ 0x1.3574254EF8D3Ep-3, 0x1.1FDD28A8B7D49p-9, 0x1.91ABA9D98F172p-14, 0x1.D30F0CF10CBBEp-18, 0x1.7C2A04946CCA6p-21, 0x1.8DD89F942BF45p-24, 0x1.FCDF7EADF13CBp-27, 0x1.809D03510E7D3p-29, 0x1.4F6B28FD0B09Cp-31, 0x1.4B84B20325434p-33, 0x1.6E3643F21292Fp-35 },
-	{ 0x1.353AA2B95EFF0p-3, 0x1.1F3CC832518B2p-9, 0x1.9036F6FC2B7A8p-14, 0x1.D0B0C59A30241p-18, 0x1.79B000181D4E5p-21, 0x1.8AAE423AFB85Fp-24, 0x1.F81769BBB00E7p-27, 0x1.7C7245FED043Dp-29, 0x1.4B4D96AB772E9p-31, 0x1.46F9B5B69F748p-33, 0x1.68AB5F101F1A5p-35 },
-	{ 0x1.350140282E110p-3, 0x1.1E9CFC6F78A20p-9, 0x1.8EC4278FF57A8p-14, 0x1.CE5670A6E4541p-18, 0x1.773B0618022A3p-21, 0x1.878B80CA0DBC6p-24, 0x1.F35C9560E40EFp-27, 0x1.78549CF60C4A9p-29, 0x1.473E71AF2BE8Dp-31, 0x1.4280502F2E4D9p-33, 0x1.6337F69733FD7p-35 },
-	{ 0x1.34C7FD7DBBD2Dp-3, 0x1.1DFDC49F6DDC3p-9, 0x1.8D53386FD4C20p-14, 0x1.CC00061016DF1p-18, 0x1.74CB0A785945Ap-21, 0x1.8470462E916DCp-24, 0x1.EEAED80C86B89p-27, 0x1.7443DA65A68E9p-29, 0x1.433D8236D2739p-31, 0x1.3E1836F27F5AEp-33, 0x1.5DDB9E8304794p-35 },
-	{ 0x1.348EDA9C847A0p-3, 0x1.1D5F2002B2BEDp-9, 0x1.8BE4267D15522p-14, 0x1.C9AD7DE1FA184p-18, 0x1.7260013EE3471p-21, 0x1.815C7D97C2617p-24, 0x1.EA0E08BF12779p-27, 0x1.703FD12DA5E70p-29, 0x1.3F4A915D42D07p-31, 0x1.39C120DC8B4F2p-33, 0x1.5895ECE705297p-35 },
-	{ 0x1.3455D7672A68Dp-3, 0x1.1CC10DDB07053p-9, 0x1.8A76EE9F582D3p-14, 0x1.C75ED03BCFC8Bp-18, 0x1.6FF9DE927A9ECp-21, 0x1.7E5012760244Dp-24, 0x1.E579FF0850864p-27, 0x1.6C4854DC47093p-29, 0x1.3B65692547147p-31, 0x1.357AC618F5794p-33, 0x1.536679E34A156p-35 },
-	{ 0x1.341CF3C075EEBp-3, 0x1.1C238D6B661C0p-9, 0x1.890B8DC4842C2p-14, 0x1.C513F54FB48C7p-18, 0x1.6D9896BAAC00Dp-21, 0x1.7B4AF079F51BFp-24, 0x1.E0F2930530101p-27, 0x1.685D39AB1CFA6p-29, 0x1.378DD47573B18p-31, 0x1.3144E01C8E74Ep-33, 0x1.4E4CDF99A3F19p-35 },
-	{ 0x1.33E42F8B55094p-3, 0x1.1B869DF804A19p-9, 0x1.87A200E0B6FE2p-14, 0x1.C2CCE5626BD41p-18, 0x1.6B3C1E1F50483p-21, 0x1.784D0393A11F2p-24, 0x1.DC779D5DA671Ap-27, 0x1.647E547C3EAC1p-29, 0x1.33C39F14144CEp-31, 0x1.2D1F299EF94D9p-33, 0x1.4948BA22FB1A1p-35 },
-	{ 0x1.33AB8AAADB266p-3, 0x1.1AEA3EC64DECCp-9, 0x1.863A44EE36515p-14, 0x1.C08998CB2C883p-18, 0x1.68E4694827BDFp-21, 0x1.755637F191F80p-24, 0x1.D808F742986BBp-27, 0x1.60AB7AD78182Bp-29, 0x1.300695A32CB54p-31, 0x1.29095E947250Ap-33, 0x1.4459A784E6D04p-35 },
-	{ 0x1.3373050240E5Dp-3, 0x1.1A4E6F1CE1995p-9, 0x1.84D456ED6123Fp-14, 0x1.BE4A07F36E4D8p-18, 0x1.66916CDC76BF0p-21, 0x1.726679FFFF4EDp-24, 0x1.D3A67A6BCC1F8p-27, 0x1.5CE482E7C085Ap-29, 0x1.2C56859C8D8E2p-31, 0x1.25033C27B6D04p-33, 0x1.3F7F47A77F529p-35 },
-	{ 0x1.333A9E74E3DC0p-3, 0x1.19B32E43911A7p-9, 0x1.837033E4A13EFp-14, 0x1.BC0E2B56B7661p-18, 0x1.64431DA2A3BAFp-21, 0x1.6F7DB667F69A4p-24, 0x1.CF500115E3AE1p-27, 0x1.592943782FFB7p-29, 0x1.28B33D4DFC487p-31, 0x1.210C80B40D1CFp-33, 0x1.3AB93C4B696BEp-35 },
-	{ 0x1.330256E646553p-3, 0x1.19187B835D52Ep-9, 0x1.820DD8E05CD71p-14, 0x1.B9D5FB826B2F2p-18, 0x1.61F9707FD6873p-21, 0x1.6C9BDA0E8824Ap-24, 0x1.CB0566006050Dp-27, 0x1.557993F1BD34Cp-29, 0x1.251C8BD56E01Fp-31, 0x1.1D24EBBF6BFFFp-33, 0x1.360729001A21Fp-35 },
-	{ 0x1.32CA2E3A0F18Cp-3, 0x1.187E56267432Ap-9, 0x1.80AD42F2E8566p-14, 0x1.B7A171159937Dp-18, 0x1.5FB45A7799014p-21, 0x1.69C0D213F7389p-24, 0x1.C6C6846BADC6Cp-27, 0x1.51D54C587A491p-29, 0x1.2192411D54E85p-31, 0x1.194C3DF4C104Cp-33, 0x1.3168B31A51325p-35 },
-	{ 0x1.32922454092D9p-3, 0x1.17E4BD782E5ACp-9, 0x1.7F4E6F34784C1p-14, 0x1.B57084C0CCEFFp-18, 0x1.5D73D0AB78FB0p-21, 0x1.66EC8BD2ED67Ep-24, 0x1.C293381735EFDp-27, 0x1.4E3C4549158C7p-29, 0x1.1E142DD8FFBDDp-31, 0x1.1582391E54E4Fp-33, 0x1.2CDD81AAC9167p-35 },
-	{ 0x1.325A3918239E1p-3, 0x1.174BB0C50CC66p-9, 0x1.7DF15AC31382Fp-14, 0x1.B3432F45DDEBEp-18, 0x1.5B37C85AAB6B9p-21, 0x1.641EF4DFB0DFEp-24, 0x1.BE6B5D3F7C708p-27, 0x1.4AAE57F65C838p-29, 0x1.1AA223810B210p-31, 0x1.11C6A0204D6D1p-33, 0x1.28653D751B4E8p-35 },
-	{ 0x1.32226C6A713DBp-3, 0x1.16B32F5AB6795p-9, 0x1.7C9602C2853DFp-14, 0x1.B1196977C0BC7p-18, 0x1.590036E1B0E15p-21, 0x1.6157FB075DBE5p-24, 0x1.BA4ED09C423A7p-27, 0x1.472B5E26CA1DAp-29, 0x1.173BF44FE4390p-31, 0x1.0E1936F34C343p-33, 0x1.23FF90E6D7BB2p-35 },
-	{ 0x1.31EABE2F286DEp-3, 0x1.161B3887F6344p-9, 0x1.7B3C645C4F99Dp-14, 0x1.AEF32C3A58579p-18, 0x1.56CD11B9FB2EBp-21, 0x1.5E978C4F225ACp-24, 0x1.B63D6F5EB0D56p-27, 0x1.43B332321FFECp-29, 0x1.13E1733E5C6C3p-31, 0x1.0A79C29F29863p-33, 0x1.1FAC280ECDD63p-35 },
-	{ 0x1.31B32E4AA2E43p-3, 0x1.1583CB9CB82E6p-9, 0x1.79E47CBF9E142p-14, 0x1.ACD0708248115p-18, 0x1.549E4E79944E2p-21, 0x1.5BDD96F37E773p-24, 0x1.B237172F8D463p-27, 0x1.4045AEFF0AA21p-29, 0x1.109274004DC7Cp-31, 0x1.06E80935CAE1Dp-33, 0x1.1B6AB09486A18p-35 },
-	{ 0x1.317BBCA15D70Bp-3, 0x1.14ECE7EA07D43p-9, 0x1.788E49213836Fp-14, 0x1.AAB12F54C621Ep-18, 0x1.5273E2D2C6784p-21, 0x1.592A0967854D0p-24, 0x1.AE3BA62D7270Cp-27, 0x1.3CE2B000D021Fp-29, 0x1.0D4ECB014FC0Cp-31, 0x1.0363D1CE14713p-33, 0x1.173AD9AFEE2A6p-35 },
-	{ 0x1.31446917F7C48p-3, 0x1.14568CC20D8BBp-9, 0x1.7739C6BB74683p-14, 0x1.A89561C76EB79p-18, 0x1.504DC493C5675p-21, 0x1.567CD25422697p-24, 0x1.AA4AFAEB12D3Ap-27, 0x1.398A1135096F6p-29, 0x1.0A164D617BF8Ap-31, 0x1.FFD9C8FDE9CC0p-34, 0x1.131C54212B86Fp-35 },
-	{ 0x1.310D339334393p-3, 0x1.13C0B9780C7E0p-9, 0x1.75E6F2CE2ADD7p-14, 0x1.A67D01001792Cp-18, 0x1.4E2BE9A658C48p-21, 0x1.53D5E097614E5p-24, 0x1.A664F46D817C5p-27, 0x1.363BAF2165C8Bp-29, 0x1.06E8D0F242B38p-31, 0x1.F90614B5164C5p-34, 0x1.0F0ED228A63B4p-35 },
-	{ 0x1.30D61BF7F7985p-3, 0x1.132B6D6060660p-9, 0x1.7495CA9EA8B27p-14, 0x1.A4680634A4297p-18, 0x1.4C0E480F87B96p-21, 0x1.51352343B7CBEp-24, 0x1.A289722A8212Ep-27, 0x1.32F766D1783B5p-29, 0x1.03C62C334EAC4p-31, 0x1.F24C1AD2CA73Ap-34, 0x1.0B12077F37F83p-35 },
-	{ 0x1.309F222B48E3Dp-3, 0x1.1296A7D07B640p-9, 0x1.73464B77A322Bp-14, 0x1.A2566AAADA518p-18, 0x1.49F4D5EF45A25p-21, 0x1.4E9A899F5307Dp-24, 0x1.9EB85406DFDEBp-27, 0x1.2FBD15D48F020p-29, 0x1.00AE364F77F7Fp-31, 0x1.EBAB714BAFDC4p-34, 0x1.0725A94E89AE9p-35 },
-	{ 0x1.30684612511E2p-3, 0x1.1202681EE3D6Bp-9, 0x1.71F872A92AE59p-14, 0x1.A04827B8376EEp-18, 0x1.47DF89801FDCEp-21, 0x1.4C0603236726Dp-24, 0x1.9AF17A54CBA34p-27, 0x1.2C8C9A3B948E6p-29, 0x1.FB418E338B550p-32, 0x1.E523AFEEDD475p-34, 0x1.03496E299AF73p-35 },
-	{ 0x1.303187925B139p-3, 0x1.116EADA332392p-9, 0x1.70AC3D889FAC9p-14, 0x1.9E3D36C1C624Ap-18, 0x1.45CE5916ECAE7p-21, 0x1.49777F7B818E0p-24, 0x1.9734C5D24037Bp-27, 0x1.2965D296FA0FCp-29, 0x1.F53B6E14FBDD7p-32, 0x1.DEB4705CE585Dp-34, 0x1.FEFA1C0AE5AB8p-36 },
-	{ 0x1.2FFAE690D3235p-3, 0x1.10DB77B60F058p-9, 0x1.6F61A970A3C2Cp-14, 0x1.9C35913BF486Fp-18, 0x1.43C13B227B3EAp-21, 0x1.46EEEE84DDB0Ep-24, 0x1.938217A76DBA2p-27, 0x1.26489DF4AB49Bp-29, 0x1.EF49BE788890Bp-32, 0x1.D85D4DFF14A74p-34, 0x1.F7808463F1C83p-36 },
-	{ 0x1.2FC462F347099p-3, 0x1.1048C5B1309D1p-9, 0x1.6E18B3C10FCE1p-14, 0x1.9A3130AA6ACC3p-18, 0x1.41B8262B44A1Bp-21, 0x1.446C404DBC621p-24, 0x1.8FD951652B424p-27, 0x1.2334DBDE0B8C7p-29, 0x1.E96C32D28B6BFp-32, 0x1.D21DE5FEDA6F2p-34, 0x1.F0258AA5EBEE5p-36 },
-	{ 0x1.2F8DFC9F65A99p-3, 0x1.0FB696EF5934Cp-9, 0x1.6CD159DEE6B0Ep-14, 0x1.98300E9FE27B5p-18, 0x1.3FB310D31DEEEp-21, 0x1.41EF6514BD9C4p-24, 0x1.8C3A55036EF4Dp-27, 0x1.202A6C55FBA44p-29, 0x1.E3A27FD0E4D77p-32, 0x1.CBF5D73D61173p-34, 0x1.E8E8A6B276AEEp-36 },
-	{ 0x1.2F57B37AFED86p-3, 0x1.0F24EACC54C69p-9, 0x1.6B8B9934498CCp-14, 0x1.963224BDFE16Ap-18, 0x1.3DB1F1D4EB5EBp-21, 0x1.3F784D483CB90p-24, 0x1.88A504DFCC5D1p-27, 0x1.1D292FD6E8945p-29, 0x1.DDEC5B5589BFFp-32, 0x1.C5E4C24B4F6A1p-34, 0x1.E1C952F7DF53Dp-36 },
-	{ 0x1.2F21876C0327Dp-3, 0x1.0E93C0A4F7083p-9, 0x1.6A476F306BE44p-14, 0x1.94376CB521401p-18, 0x1.3BB4C004546D5p-21, 0x1.3D06E985AF0B8p-24, 0x1.851943BBF8EF6p-27, 0x1.1A310750E2F29p-29, 0x1.D8497C712BCC2p-32, 0x1.BFEA4960B548Bp-34, 0x1.DAC70C64015A2p-36 },
-	{ 0x1.2EEB785883B1Ep-3, 0x1.0E0317D71965Bp-9, 0x1.6904D94787DD8p-14, 0x1.923FE0444956Cp-18, 0x1.39BB724D78FD7p-21, 0x1.3A9B2A9904D65p-24, 0x1.8196F4BC5699Dp-27, 0x1.1741D427BEBC0p-29, 0x1.D2B99B5DFB276p-32, 0x1.BA06105521B08p-34, 0x1.D3E1525771E6Dp-36 },
-	{ 0x1.2EB58626B1E4Dp-3, 0x1.0D72EFC199015p-9, 0x1.67C3D4F2D2A36p-14, 0x1.904B7938E68ACp-18, 0x1.37C5FFB4A777Ap-21, 0x1.3835017C0C90Ep-24, 0x1.7E1DFB6684483p-27, 0x1.145B78313B77Dp-29, 0x1.CD3C717A815E4p-32, 0x1.B437BC97E15F6p-34, 0x1.CD17A698F190Dp-36 },
-	{ 0x1.2E7FB0BCDF4F2p-3, 0x1.0CE347C454B7Ap-9, 0x1.66845FB070E60p-14, 0x1.8E5A316EB5673p-18, 0x1.35D45F5613E29p-21, 0x1.35D45F55D8753p-24, 0x1.7AAE3B9FF4409p-27, 0x1.117DD5B334825p-29, 0x1.C7D1B94494CC2p-32, 0x1.AE7EF52865370p-34, 0x1.C6698D4922E85p-36 },
-	{ 0x1.2E49F8017D6C6p-3, 0x1.0C541F402B28Bp-9, 0x1.654677036B796p-14, 0x1.8C6C02CF98CF2p-18, 0x1.33E688658FF0Fp-21, 0x1.3379357A264ADp-24, 0x1.774799AC883F5p-27, 0x1.0EA8CF61D9597p-29, 0x1.C2792E54641CFp-32, 0x1.A8DB628ECF853p-34, 0x1.BFD68CD684294p-36 },
-	{ 0x1.2E145BDB1D723p-3, 0x1.0BC57596F8C54p-9, 0x1.640A1873A4132p-14, 0x1.8A80E753746E3p-18, 0x1.31FC722E44009p-21, 0x1.31237568C9677p-24, 0x1.73E9FA2D33384p-27, 0x1.0BDC485DEDC29p-29, 0x1.BD328D579966Ap-32, 0x1.A34CAED4A75DDp-34, 0x1.B95E2DF1AA946p-36 },
-	{ 0x1.2DDEDC30701DBp-3, 0x1.0B374A2B95E09p-9, 0x1.62CF418DCA24Dp-14, 0x1.8898D90007988p-18, 0x1.3016141269083p-21, 0x1.2ED310CD16DAAp-24, 0x1.7095421EA0A51p-27, 0x1.0918243311A6Cp-29, 0x1.B7FD940C9462Cp-32, 0x1.9DD2857DB1362p-34, 0x1.B2FFFB81BDF0Bp-36 },
-	{ 0x1.2DA978E845815p-3, 0x1.0AA99C61D4C6Dp-9, 0x1.6195EFE34FD55p-14, 0x1.86B3D1E8C89B5p-18, 0x1.2E33658B03701p-21, 0x1.2C87F97D53BD6p-24, 0x1.6D4956D7E1479p-27, 0x1.065C46D6107F2p-29, 0x1.B2DA013DBB523p-32, 0x1.986C9380EBF67p-34, 0x1.ACBB829932C26p-36 },
-	{ 0x1.2D7431E98CD30p-3, 0x1.0A1C6B9E7FD7Fp-9, 0x1.605E210A5F15Fp-14, 0x1.84D1CC2EC07ADp-18, 0x1.2C545E279ED18p-21, 0x1.2A42217A259BDp-24, 0x1.6A061E091D48Cp-27, 0x1.03A894A3382E0p-29, 0x1.ADC794BCE216Dp-32, 0x1.931A8741B1BBCp-34, 0x1.A690526AC1CBBp-36 },
-	{ 0x1.2D3F071B543ABp-3, 0x1.098FB74757A66p-9, 0x1.5F27D29DCED55p-14, 0x1.82F2C200671CAp-18, 0x1.2A78F58E0A9B5p-21, 0x1.28017AEE04F0Dp-24, 0x1.66CB7DBA4B9C3p-27, 0x1.00FCF25CB721Bp-29, 0x1.A8C60F5EC7131p-32, 0x1.8DDC1088FB87Fp-34, 0x1.A07DFC3E9B758p-36 },
-	{ 0x1.2D09F864C8A17p-3, 0x1.09037EC3111AAp-9, 0x1.5DF3023D184E5p-14, 0x1.8116AD997FDD6p-18, 0x1.28A1237A17962p-21, 0x1.25C5F82CB1AB9p-24, 0x1.63995C49EE913p-27, 0x1.FCB28A52033CBp-30, 0x1.A3D532F6A5607p-32, 0x1.88B0E07EC7224p-34, 0x1.9A841367D5C68p-36 },
-	{ 0x1.2CD505AD35809p-3, 0x1.0877C179539AFp-9, 0x1.5CBFAD8C4C73Bp-14, 0x1.7F3D8942F68FFp-18, 0x1.26CCDFBD5646Fp-21, 0x1.238F8BB2A9B63p-24, 0x1.606FA06BD57B6p-27, 0x1.F77AE5227C1A5p-30, 0x1.9EF4C251DBF04p-32, 0x1.8398A9A39E6F6p-34, 0x1.94A22D3A1396Cp-36 },
-	{ 0x1.2CA02EDC04B18p-3, 0x1.07EC7ED2B736Cp-9, 0x1.5B8DD2340976Ap-14, 0x1.7D674F52BCE51p-18, 0x1.24FC223ED62BDp-21, 0x1.215E2824A175Ep-24, 0x1.5D4E3127E35BCp-27, 0x1.F252C0FF705EDp-30, 0x1.9A248133A92DAp-32, 0x1.7E931FCA3F8B8p-34, 0x1.8ED7E0FF63B67p-36 },
-	{ 0x1.2C6B73D8BE3DBp-3, 0x1.0761B638C2D72p-9, 0x1.5A5D6DE17069Bp-14, 0x1.7B93FA2BA839Cp-18, 0x1.232EE2FAE5CFCp-21, 0x1.1F31C04EFE3C7p-24, 0x1.5A34F5D8DA744p-27, 0x1.ED39EA7CB62B3p-30, 0x1.95643450FAB80p-32, 0x1.799FF81164F65p-34, 0x1.8924C7EE56C66p-36 },
-	{ 0x1.2C36D48B082F1p-3, 0x1.06D76715EA727p-9, 0x1.592E7E461AFEAp-14, 0x1.79C3843D4FCB8p-18, 0x1.21651A02D3B2Bp-21, 0x1.1D0A472552A35p-24, 0x1.5723D62B2CB18p-27, 0x1.E8302EEA63741p-30, 0x1.90B3A14C50D12p-32, 0x1.74BEE8DDAD223p-34, 0x1.83887D204A87Fp-36 },
-	{ 0x1.2C0250DAA660Cp-3, 0x1.064D90D58D44Fp-9, 0x1.58010118115F0p-14, 0x1.77F5E803EB507p-18, 0x1.1F9EBF7CB0030p-21, 0x1.1AE7AFC1DCC8Dp-24, 0x1.541ABA1BD0D47p-27, 0x1.E3355C51DC406p-30, 0x1.8C128EB1B51BDp-32, 0x1.6FEFA9D3A0BFCp-34, 0x1.7E029D87E9728p-36 },
-	{ 0x1.2BCDE8AF7A506p-3, 0x1.05C432E3F40CBp-9, 0x1.56D4F411C01F5p-14, 0x1.762B200831F31p-18, 0x1.1DDBCBA30F248p-21, 0x1.18C9ED6506673p-24, 0x1.511989F71C47Fp-27, 0x1.DE494172EDB45p-30, 0x1.8780C3F2C4483p-32, 0x1.6B31F3D1D71DCp-34, 0x1.7892C7E7DD625p-36 },
-	{ 0x1.2B999BF182EF5p-3, 0x1.053B4CAE4F49Dp-9, 0x1.55AA54F1EE4CCp-14, 0x1.746326DF39AF1p-18, 0x1.1C1C36C4CD032p-21, 0x1.16B0F374E6BF8p-24, 0x1.4E202E57A18DDp-27, 0x1.D96BADC0F5ABBp-30, 0x1.82FE0962CA50Bp-32, 0x1.668580EB37FDEp-34, 0x1.73389CC9B43D8p-36 },
-	{ 0x1.2B656A88DC74Bp-3, 0x1.04B2DDA2B5830p-9, 0x1.5481217BB3949p-14, 0x1.729DF72A570F2p-18, 0x1.1A5FF944D12DEp-21, 0x1.149CB57CC64F4p-24, 0x1.4B2E9025132F5p-27, 0x1.D49C716016AA7p-30, 0x1.7E8A2832F0E89p-32, 0x1.61EA0C615A3F1p-34, 0x1.6DF3BE74F5714p-36 },
-	{ 0x1.2B31545DC02F6p-3, 0x1.042AE530218D3p-9, 0x1.535957766E851p-14, 0x1.70DB8B96FD499p-18, 0x1.18A70B99D3B6Ep-21, 0x1.128D272CA44B5p-24, 0x1.484498932B1DAp-27, 0x1.CFDB5D2277E79p-30, 0x1.7A24EA6E7FC18p-32, 0x1.5D5F529EFEC31p-34, 0x1.68C3D0E667317p-36 },
-	{ 0x1.2AFD59588458Ap-3, 0x1.03A362C670D7Bp-9, 0x1.5232F4ADBAE87p-14, 0x1.6F1BDEDE9EBB1p-18, 0x1.16F1664E22D66p-21, 0x1.10823C58BDD80p-24, 0x1.45623120966F2p-27, 0x1.CB284285913C4p-30, 0x1.75CE1AF72E4EFp-32, 0x1.58E51132A6F8Ap-34, 0x1.63A879C78269Ep-36 },
-	{ 0x1.2AC979619BE6Ep-3, 0x1.031C55D661BC4p-9, 0x1.510DF6F16837Ep-14, 0x1.6D5EEBC68DBE5p-18, 0x1.153F01FF694DAp-21, 0x1.0E7BE8F916F7Cp-24, 0x1.42874395E566Dp-27, 0x1.C682F3AF82BDFp-30, 0x1.7185858186AF2p-32, 0x1.547B06C94675Cp-34, 0x1.5EA1606614587p-36 },
-	{ 0x1.2A95B46196610p-3, 0x1.0295BDD191D25p-9, 0x1.4FEA5C1570285p-14, 0x1.6BA4AD1FDDDF4p-18, 0x1.138FD75E7586Cp-21, 0x1.0C7A21290529Ap-24, 0x1.3FB3BA047FB2Dp-27, 0x1.C1EB436C77CDEp-30, 0x1.6D4AF6915964Cp-32, 0x1.5020F3290F11Ep-34, 0x1.59AE2DAC0CCC3p-36 },
-	{ 0x1.2A620A411FB1Bp-3, 0x1.020F9A2A7C468p-9, 0x1.4EC821F1ED4F4p-14, 0x1.69ED1DC745686p-18, 0x1.11E3DF2F016EFp-21, 0x1.0A7CD926BBB0Ep-24, 0x1.3CE77EC59CD07p-27, 0x1.BD61052C15689p-30, 0x1.691E3B76418CEp-32, 0x1.4BD6972C56F33p-34, 0x1.54CE8C17780CDp-36 },
-	{ 0x1.2A2E7AE8FFFB7p-3, 0x1.0189EA547835Fp-9, 0x1.4DA7466311DF6p-14, 0x1.683838A4FF49Ap-18, 0x1.103B12477B092p-21, 0x1.08840552D97F1p-24, 0x1.3A227C7940838p-27, 0x1.B8E40CFEF3816p-30, 0x1.64FF2248393F4p-32, 0x1.479BB4BC98042p-34, 0x1.500227B2A372Fp-36 },
-	{ 0x1.29FB06421B6C9p-3, 0x1.0104ADC3B70CCp-9, 0x1.4C87C7491E7E4p-14, 0x1.6685F8ACAD57Ap-18, 0x1.0E956990CDB54p-21, 0x1.068F9A2FF8BA0p-24, 0x1.37649E053B4FCp-27, 0x1.B4742F9421361p-30, 0x1.60ED79E43DC80p-32, 0x1.43700ECD884A5p-34, 0x1.4B48AE0C6BBF8p-36 },
-	{ 0x1.29C7AC357213Fp-3, 0x1.007FE3ED42E8Cp-9, 0x1.4B69A28859307p-14, 0x1.64D658DD3AE13p-18, 0x1.0CF2DE062C2A7p-21, 0x1.049F8C623FD7Cp-24, 0x1.34ADCE942EE2Ep-27, 0x1.B0114236B3A96p-30, 0x1.5CE911E9036CDp-32, 0x1.3F5369584A9B2p-34, 0x1.46A1CE30B446Dp-36 },
-	{ 0x1.29946CAC1FB5Ap-3, 0x1.FFF7188DF9FE6p-10, 0x1.4A4CD609045DBp-14, 0x1.63295440BF9B6p-18, 0x1.0B5368B4DB215p-21, 0x1.02B3D0AEF449Cp-24, 0x1.31FDF994965E7p-27, 0x1.ABBB1ACB5F522p-30, 0x1.58F1BAB3B86FAp-32, 0x1.3B458956B72C3p-34, 0x1.420D38A106093p-36 },
-	{ 0x1.2961478F5B9FFp-3, 0x1.FEEF4C8F380D7p-10, 0x1.49315FB755EC8p-14, 0x1.617EE5EC62E1Fp-18, 0x1.09B702BBFCAC7p-21, 0x1.00CC5BFC0EB16p-24, 0x1.2F550AB7D270Fp-27, 0x1.A7718FCE1B8F2p-30, 0x1.5507455CD703Cp-32, 0x1.374634BEBB819p-34, 0x1.3D8A9F4D55D7Ap-36 },
-	{ 0x1.292E3CC878815p-3, 0x1.FDE862CD5548Bp-10, 0x1.48173D836E73Ap-14, 0x1.5FD709003F4BEp-18, 0x1.081DA54C5C3B2p-21, 0x1.FDD2469FA12EEp-25, 0x1.2CB2EDF1392E3p-27, 0x1.A334784FD0510p-30, 0x1.512983B505EB4p-32, 0x1.3355327DD13E6p-34, 0x1.3919B58CF0A90p-36 },
-	{ 0x1.28FB4C40E43D7p-3, 0x1.FCE25A390BB84p-10, 0x1.46FE6D6150832p-14, 0x1.5E31B8A746922p-18, 0x1.068749A83B460p-21, 0x1.FA1437A0B7433p-25, 0x1.2A178F7529963p-27, 0x1.9F03ABF40DAA6p-30, 0x1.4D58484207741p-32, 0x1.2F724A748B5EDp-34, 0x1.34BA30178D49Ep-36 },
-	{ 0x1.28C875E227C41p-3, 0x1.FBDD31C4B70ADp-10, 0x1.45E6ED48D8037p-14, 0x1.5C8EF01725C88p-18, 0x1.04F3E9231EA17p-21, 0x1.F65E7586947D1p-25, 0x1.2782DBB822BBCp-27, 0x1.9ADF02EECD19Cp-30, 0x1.4993663BB68DFp-32, 0x1.2B9D45723964Ep-34, 0x1.306BC4FE82948p-36 },
-	{ 0x1.2895B995E6E6Bp-3, 0x1.FAD8E86451849p-10, 0x1.44D0BB35B1AA2p-14, 0x1.5AEEAA9029E65p-18, 0x1.03637D219C74Ap-21, 0x1.F2B0EB1A93889p-25, 0x1.24F4BF6DDE7ABp-27, 0x1.96C656023C601p-30, 0x1.45DAB18911B3Fp-32, 0x1.27D5ED30A0051p-34, 0x1.2C2E2BA621648p-36 },
-	{ 0x1.28631745E02FCp-3, 0x1.F9D57D0D70F53p-10, 0x1.43BBD52752854p-14, 0x1.5950E35D249F8p-18, 0x1.01D5FF192AD21p-21, 0x1.EF0B83636BF4Dp-25, 0x1.226D27886FAF2p-27, 0x1.92B97E7C91B84p-30, 0x1.422DFEBD5364Bp-32, 0x1.241C0C4FC6E17p-34, 0x1.28011CBF317ECp-36 },
-	{ 0x1.28308EDBECB98p-3, 0x1.F8D2EEB743B4Ap-10, 0x1.42A83920EF9BBp-14, 0x1.57B595D3518BBp-18, 0x1.004B688FEEF01p-21, 0x1.EB6E29A46C159p-25, 0x1.1FEC013763DE1p-27, 0x1.8EB85635E9449p-30, 0x1.3E8D231517E80p-32, 0x1.206F6E51DAE42p-34, 0x1.23E4524090A9Ap-36 },
-	{ 0x1.27FE204200052p-3, 0x1.F7D13C5A8DA67p-10, 0x1.4195E52975A35p-14, 0x1.561CBD523B9B0p-18, 0x1.FD87663919FCCp-22, 0x1.E7D8C95CB5A6Ap-25, 0x1.1D7139E6E841Bp-27, 0x1.8AC2B78E2B881p-30, 0x1.3AF7F473901E9p-32, 0x1.1CCFDF9724CDDp-34, 0x1.1FD78760F336Bp-36 },
-	{ 0x1.27CBCB6227D28p-3, 0x1.F6D064F1A543Ap-10, 0x1.4084D74B80CB9p-14, 0x1.54865543A2D77p-18, 0x1.FA7DB0CBF12E0p-22, 0x1.E44B4E467D26Ap-25, 0x1.1AFCBF3EF22ABp-27, 0x1.86D87D6AFCC1Dp-30, 0x1.376E495FC11E0p-32, 0x1.193D2D5A138DCp-34, 0x1.1BDA7890C5442p-36 },
-	{ 0x1.279990268BF81p-3, 0x1.F5D0677870AB2p-10, 0x1.3F750D95549DFp-14, 0x1.52F2591B6271Ep-18, 0x1.F779A4468B90Bp-22, 0x1.E0C5A4564BDEAp-25, 0x1.188E7F226AA7Bp-27, 0x1.82F98335B5031p-30, 0x1.33EFF901D0590p-32, 0x1.15B725AB59FC1p-34, 0x1.17ECE3742BFEEp-36 },
-	{ 0x1.27676E796E3B2p-3, 0x1.F4D142EC62B8Dp-10, 0x1.3E668618D3F23p-14, 0x1.5160C4575719Ap-18, 0x1.F47B3436F56BFp-22, 0x1.DD47B7BA448C0p-25, 0x1.162667AE5D66Ap-27, 0x1.7F25A4D960D68p-30, 0x1.307CDB205C167p-32, 0x1.123D976E1F911p-34, 0x1.140E86DD26343p-36 },
-	{ 0x1.273566452A27Ep-3, 0x1.F3D2F64C7822Ep-10, 0x1.3D593EEB78F75p-14, 0x1.4FD1927F459DFp-18, 0x1.F182544AC39CCp-22, 0x1.D9D174D96AA25p-25, 0x1.13C467392AC0Bp-27, 0x1.7B5CBEC0CA539p-30, 0x1.2D14C81DDFFBEp-32, 0x1.0ED0525443B5Ep-34, 0x1.103F22C5CB84Bp-36 },
-	{ 0x1.2703777434EACp-3, 0x1.F2D58099349D5p-10, 0x1.3C4D36264D510p-14, 0x1.4E44BF24C1D81p-18, 0x1.EE8EF84EB926Bp-22, 0x1.D662C852EC1B7p-25, 0x1.11686C51BCE4Dp-27, 0x1.779EADD48A75Bp-30, 0x1.29B798F625704p-32, 0x1.0B6F26DAB34E7p-34, 0x1.0C7E784AA98EFp-36 },
-	{ 0x1.26D1A1F11D290p-3, 0x1.F1D8E0D4A0044p-10, 0x1.3B4269E5E2483p-14, 0x1.4CBA45E315DD7p-18, 0x1.EBA1142E6DE6Ap-22, 0x1.D2FB9EFD6DCBBp-25, 0x1.0F1265BEC0132p-27, 0x1.73EB4F792293Dp-30, 0x1.2665273BBF9CCp-32, 0x1.0819E645D01D6p-34, 0x1.08CC49A53E6B5p-36 },
-	{ 0x1.269FE5A68ADA6p-3, 0x1.F0DD1602438BCp-10, 0x1.3A38D84A49109p-14, 0x1.4B32225F2978Ap-18, 0x1.E8B89BF3F6627p-22, 0x1.CF9BE5E65A308p-25, 0x1.0CC2427DDDDBDp-27, 0x1.7042818D1DD19p-30, 0x1.231D4D1592D36p-32, 0x1.04D0629DE9A4Cp-34, 0x1.05285A268FD7Dp-36 },
-	{ 0x1.266E427F3F225p-3, 0x1.EFE21F2726F65p-10, 0x1.39307F770B207p-14, 0x1.49AC504769E8Bp-18, 0x1.E5D583C78CB2Ap-22, 0x1.CC438A5132AF8p-25, 0x1.0A77F1C2FB565p-27, 0x1.6CA422673A678p-30, 0x1.1FDFE53C6724Cp-32, 0x1.01926EABC7299p-34, 0x1.01926E31DE74Cp-36 },
-	{ 0x1.263CB866142A5p-3, 0x1.EEE7FB49CDD16p-10, 0x1.38295D93229C8p-14, 0x1.4828CB53B1E56p-18, 0x1.E2F7BFEF3A816p-22, 0x1.C8F279B6E33E0p-25, 0x1.083362F77A42Cp-27, 0x1.691010D49A9D9p-30, 0x1.1CACCAF885ED2p-32, 0x1.FCBFBBEA85014p-35, 0x1.FC14966EE8EF4p-37 },
-	{ 0x1.260B4745FCFBBp-3, 0x1.EDEEA97234B78p-10, 0x1.372370C8F2D6Bp-14, 0x1.46A78F4531E82p-18, 0x1.E01F44CE841B7p-22, 0x1.C5A8A1C518657p-25, 0x1.05F485B97D0A9p-27, 0x1.65862C16FD565p-30, 0x1.1983DA1F62255p-32, 0x1.F6710973E69C0p-35, 0x1.F51F6F5F1E7A0p-37 },
-	{ 0x1.25D9EF0A055A4p-3, 0x1.ECF628A9CE995p-10, 0x1.361EB74640DFAp-14, 0x1.452897E658B83p-18, 0x1.DD4C06E6148F9p-22, 0x1.C265F05D979DEp-25, 0x1.03BB49DB2D938p-27, 0x1.620653E2FE081p-30, 0x1.1664EF114B420p-32, 0x1.F0386FDFD4C46p-35, 0x1.EE44F62AC64B1p-37 },
-	{ 0x1.25A8AF9D519ECp-3, 0x1.EBFE77FB820B3p-10, 0x1.351B2F3C2C2B0p-14, 0x1.43ABE10ABC39Cp-18, 0x1.DA7DFAD36AD7Ap-22, 0x1.BF2A539599F41p-25, 0x1.01879F6206DA4p-27, 0x1.5E90685E5C022p-30, 0x1.134FE6B72A6F1p-32, 0x1.EA159A80F9C2Ep-35, 0x1.E784BBC4725B5p-37 },
-	{ 0x1.257788EB1E923p-3, 0x1.EB079673A69A3p-10, 0x1.3418D6DF27463p-14, 0x1.4231668F027ECp-18, 0x1.D7B5155088091p-22, 0x1.BBF5B9B528F2Fp-25, 0x1.FEB2ED0C428F6p-28, 0x1.5B244A1E48DE9p-30, 0x1.10449E8049F4Ep-32, 0x1.E408360A3DC7Ep-35, 0x1.E0DE53114B65Bp-37 },
-	{ 0x1.25467ADEC148Dp-3, 0x1.EA11832002256p-10, 0x1.3317AC66F0A10p-14, 0x1.40B92458CB18Dp-18, 0x1.D4F14B339E886p-22, 0x1.B8C811367DC7Dp-25, 0x1.FA617F63036D7p-28, 0x1.57C1DA25BDFEDp-30, 0x1.0D42F46026968p-32, 0x1.DE0FF0889A7EEp-35, 0x1.DA5150DFAFB87p-37 },
-	{ 0x1.25158563A6FDAp-3, 0x1.E91C3D0FC63E0p-10, 0x1.3217AE0E8B694p-14, 0x1.3F43165698AB4p-18, 0x1.D232916EC23BCp-22, 0x1.B5A148C562988p-25, 0x1.F61AD6FED63D8p-28, 0x1.5468F9E3D8F4Bp-30, 0x1.0A4AC6CC4AB86p-32, 0x1.D82C795D0C577p-35, 0x1.D3DD4BDE02402p-37 },
-	{ 0x1.24E4A86554EE4p-3, 0x1.E827C3538D8D0p-10, 0x1.3118DA143876Ep-14, 0x1.3DCF387FBABCFp-18, 0x1.CF78DD0F99BABp-22, 0x1.B2814F3E96035p-25, 0x1.F1DED57765B09p-28, 0x1.51198B323EB7Fp-30, 0x1.075BF4BA33213p-32, 0x1.D25D8136A0EC1p-35, 0x1.CD81DC91A8C41p-37 },
-	{ 0x1.24B3E3CF6836Ep-3, 0x1.E73414FD593DAp-10, 0x1.301B2EB96F4AEp-14, 0x1.3C5D86D437C83p-18, 0x1.CCC4233F10757p-22, 0x1.AF6813AF30C05p-25, 0x1.EDAD5CC42EE08p-28, 0x1.4DD37053858A7p-30, 0x1.04765D9D3D264p-32, 0x1.CCA2BA0CA1F17p-35, 0x1.C73E9D4E3852Fp-37 },
-	{ 0x1.2483378D95AEAp-3, 0x1.E64131208E6EAp-10, 0x1.2F1EAA42D71F4p-14, 0x1.3AEDFD5CB7894p-18, 0x1.CA14594109D24p-22, 0x1.AC5585540D5C1p-25, 0x1.E9864F3B34005p-28, 0x1.4A968BF1A56D2p-30, 0x1.0199E1649E162p-32, 0x1.C6FBD718DC1BBp-35, 0x1.C1132A2CCEE40p-37 },
-	{ 0x1.2452A38BA9C3Ep-3, 0x1.E54F16D1F3A81p-10, 0x1.2E234AF84007Ep-14, 0x1.3980982A6D895p-18, 0x1.C7697474153C9p-22, 0x1.A949939932038p-25, 0x1.E5698F8FB4006p-28, 0x1.4762C11C6F081p-30, 0x1.FD8CC0F2C76BAp-33, 0x1.C1688CD2016ABp-35, 0x1.BAFF210399361p-37 },
-	{ 0x1.242227B588594p-3, 0x1.E45DC527AE56Fp-10, 0x1.2D290F249C252p-14, 0x1.3815535703E64p-18, 0x1.C4C36A512322Cp-22, 0x1.A6442E193C597p-25, 0x1.E15700D0E7127p-28, 0x1.4437F34808E8Dp-30, 0x1.F7F77778FB48Dp-33, 0x1.BBE890E626509p-35, 0x1.B502215D83FC8p-37 },
-	{ 0x1.23F1C3F72CA2Cp-3, 0x1.E36D3B39404EAp-10, 0x1.2C2FF515F8E6Bp-14, 0x1.36AC2B0486560p-18, 0x1.C222306B3ADF5p-22, 0x1.A345449CCF4DEp-25, 0x1.DD4E8668BFF94p-28, 0x1.4116064B72FBDp-30, 0x1.F273A9099EF61p-33, 0x1.B67B9A35592B5p-35, 0x1.AF1BCC72176EAp-37 },
-	{ 0x1.23C1783CA9029p-3, 0x1.E27D781F854EFp-10, 0x1.2B37FB1D785FAp-14, 0x1.35451B5D4D649p-18, 0x1.BF85BC6F318A9p-22, 0x1.A04CC71A02EF0p-25, 0x1.D950041AB2101p-28, 0x1.3DFCDE5F1023Ep-30, 0x1.ED01193A96FEDp-33, 0x1.B12160CC53888p-35, 0x1.A94BC51D7C536p-37 },
-	{ 0x1.2391447226E73p-3, 0x1.E18E7AF4B08FFp-10, 0x1.2A411F8F4AAADp-14, 0x1.33E02093E9EC9p-18, 0x1.BCEE042361B11p-22, 0x1.9D5AA5B3D62D6p-25, 0x1.D55B5E027BF66p-28, 0x1.3AEC601B35D50p-30, 0x1.E79F8C862B804p-33, 0x1.ABD99DDF44B26p-35, 0x1.A391AFD8A9A92p-37 },
-	{ 0x1.23612883E6A8Cp-3, 0x1.E0A042D44A530p-10, 0x1.294B60C2A75F6p-14, 0x1.327D36E310C90p-18, 0x1.BA5AFD6763EC9p-22, 0x1.9A6ED0B9A28B0p-25, 0x1.D1707892F6CD9p-28, 0x1.37E47076C198Bp-30, 0x1.E24EC8475EE49p-33, 0x1.A6A40BC4B5042p-35, 0x1.9DED32B1BA0D9p-37 },
-	{ 0x1.2331245E3F675p-3, 0x1.DFB2CEDB2D791p-10, 0x1.2856BD11C7159p-14, 0x1.311C5A8D86C00p-18, 0x1.B7CC9E33C85B6p-22, 0x1.978938A691AE9p-25, 0x1.CD8F3894E9F4Cp-28, 0x1.34E4F4C5B4602p-30, 0x1.DD0E92B654D3Ep-33, 0x1.A18065F08187Ep-35, 0x1.985DF544680EFp-37 },
-	{ 0x1.230137ED9EE8Fp-3, 0x1.DEC61E27851DDp-10, 0x1.276332D9DCFBFp-14, 0x1.2FBD87DE0CA55p-18, 0x1.B542DC99D0F46p-22, 0x1.94A9CE2114D38p-25, 0x1.C9B78325E330Bp-28, 0x1.31EDD2B7D38BCp-30, 0x1.D7DEB2E4C90C0p-33, 0x1.9C6E68EEEF63Bp-35, 0x1.92E3A0B2B094Cp-37 },
-	{ 0x1.22D1631E89785p-3, 0x1.DDDA2FD8CA386p-10, 0x1.2670C07B107B6p-14, 0x1.2E60BB274BB4Ap-18, 0x1.B2BDAEC32CB39p-22, 0x1.91D081FA5E0FCp-25, 0x1.C5E93DB7132E7p-28, 0x1.2EFEF0574F8E9p-30, 0x1.D2BEF0BA95D54p-33, 0x1.976DD25FD69C4p-35, 0x1.8D7DDF9D9A927p-37 },
-	{ 0x1.22A1A5DD99C37p-3, 0x1.DCEF030FC140Bp-10, 0x1.257F645876EC1p-14, 0x1.2D05F0C3C2224p-18, 0x1.B03D0AF1B39CBp-22, 0x1.8EFD452DDB691p-25, 0x1.C2244E0C2E4DBp-28, 0x1.2C1834077013Ep-30, 0x1.CDAF14F249C99p-33, 0x1.927E60F1E3B7Bp-35, 0x1.882C5E1E233BEp-37 },
-	{ 0x1.2272001780BA9p-3, 0x1.DC0496EE77DA4p-10, 0x1.248F1CD80D589p-14, 0x1.2BAD2515AFE24p-18, 0x1.ADC0E77F23919p-22, 0x1.8C3008E0B3B19p-25, 0x1.BE689A3A51A26p-28, 0x1.2939848345907p-30, 0x1.C8AEE915CCA54p-33, 0x1.8D9FD45DEFCCAp-35, 0x1.82EEC9BE4DF67p-37 },
-	{ 0x1.224271B9056F7p-3, 0x1.DB1AEA9842835p-10, 0x1.239FE862B2515p-14, 0x1.2A56548703A45p-18, 0x1.AB493ADCDDF88p-22, 0x1.8968BE6145269p-25, 0x1.BAB608A6EC1B6p-28, 0x1.2662C8DC60262p-30, 0x1.C3BE377B12DB3p-33, 0x1.88D1ED626E8C9p-35, 0x1.7DC4D17257480p-37 },
-	{ 0x1.2212FAAF04F4Bp-3, 0x1.DA31FD31BA49Ap-10, 0x1.22B1C5641FCE6p-14, 0x1.29017B8948056p-18, 0x1.A8D5FB93A6301p-22, 0x1.86A75726A5C9Cp-25, 0x1.B70C8006ABBEEp-28, 0x1.2393E8798BC2Ep-30, 0x1.BEDCCB40DFA5Ep-33, 0x1.84146DBEF1DA9p-35, 0x1.78AE25920A075p-37 },
-	{ 0x1.21E39AE6723D7p-3, 0x1.D949CDE0BA83Bp-10, 0x1.21C4B24AE5211p-14, 0x1.27AE969590F44p-18, 0x1.A667204360CE9p-22, 0x1.83EBC4D0256F4p-25, 0x1.B36BE75C6EE9Fp-28, 0x1.20CCCB1591647p-30, 0x1.BA0A704B9551Ap-33, 0x1.7F67182FC281Fp-35, 0x1.73AA77D23616Bp-37 },
-	{ 0x1.21B4524C55FD7p-3, 0x1.D8625BCC5E8E9p-10, 0x1.20D8AD8860F33p-14, 0x1.265DA22C694ABp-18, 0x1.A3FC9FA2D3A8Ap-22, 0x1.8135F924D1790p-25, 0x1.AFD425F839847p-28, 0x1.1E0D58BDFD69Dp-30, 0x1.B546F342137D2p-33, 0x1.7AC9B0698DA2Ap-35, 0x1.6EB97B3E47F58p-37 },
-	{ 0x1.218520CDCE88Ep-3, 0x1.D77BA61CFF916p-10, 0x1.1FEDB590BB565p-14, 0x1.250E9AD5C098Cp-18, 0x1.A196707F669E4p-22, 0x1.7E85E612FA3AEp-25, 0x1.AC4523762E18Cp-28, 0x1.1B5579D1EADC9p-30, 0x1.B092218AA30DBp-33, 0x1.763BFB15266B7p-35, 0x1.69DAE43200796p-37 },
-	{ 0x1.215606580FB4Cp-3, 0x1.D695ABFC32444p-10, 0x1.1F03C8DADFE04p-14, 0x1.23C17D20D922Ap-18, 0x1.9F3489BCE52A0p-22, 0x1.7BDB7DAFB9FF5p-25, 0x1.A8BEC7BD8ABF8p-28, 0x1.18A51700D39C6p-30, 0x1.ABEBC947EF98Bp-33, 0x1.71BDBDCB5BBC2p-35, 0x1.650E68534C033p-37 },
-	{ 0x1.212702D862B7Bp-3, 0x1.D5B06C94C4BD4p-10, 0x1.1E1AE5E077D6Ep-14, 0x1.227645A4360FFp-18, 0x1.9CD6E25540B10p-22, 0x1.7936B2367DA84p-25, 0x1.A540FAFFA9CF9p-28, 0x1.15FC194965571p-30, 0x1.A753B9560E00Ep-33, 0x1.6D4EBF10E14BBp-35, 0x1.6053BE8C38881p-37 },
-	{ 0x1.20F8163C260A6p-3, 0x1.D4CBE712BC40Ep-10, 0x1.1D330B1DE4694p-14, 0x1.212CF0FD89CCAp-18, 0x1.9A7D715853904p-22, 0x1.769776088EE57p-25, 0x1.A1CBA5B70643Fp-28, 0x1.135A69F85B38Ap-30, 0x1.A2C9C147900C0p-33, 0x1.68EEC6524BF14p-35, 0x1.5BAA9F0509CB0p-37 },
-	{ 0x1.20C94070CD48Dp-3, 0x1.D3E81AA353180p-10, 0x1.1C4C371238F78p-14, 0x1.1FE57BD1A4995p-18, 0x1.98282DEBA4E56p-22, 0x1.73FDBBAC9FF9Dp-25, 0x1.9E5EB0A643C78p-28, 0x1.10BFF2A75C3E6p-30, 0x1.9E4DB162A4B23p-33, 0x1.649D9BE020B04p-35, 0x1.5712C31E6B258p-37 },
-	{ 0x1.209A8163E1135p-3, 0x1.D3050674F669Bp-10, 0x1.1B66683F35683p-14, 0x1.1E9FE2CC634CDp-18, 0x1.95D70F4A2D102p-22, 0x1.716975CE590BCp-25, 0x1.9AFA04D73A588p-28, 0x1.0E2C9D3BDE193p-30, 0x1.99DF5A9E44ECCp-33, 0x1.605B08EAF629Bp-35, 0x1.528BE56BBE43Ap-37 },
-	{ 0x1.206BD902FEF01p-3, 0x1.D222A9B74419Fp-10, 0x1.1A819D29408B8p-14, 0x1.1D5C22A09E43Cp-18, 0x1.938A0CC41AEA1p-22, 0x1.6EDA973DE6F84p-25, 0x1.979D8B9A05758p-28, 0x1.0BA053E60C8B6p-30, 0x1.957E8E9F6CCA0p-33, 0x1.5C26D77FA8172p-35, 0x1.4E15C1AD86390p-37 },
-	{ 0x1.203D473BD92CCp-3, 0x1.D141039B08ACEp-10, 0x1.199DD457628BDp-14, 0x1.1C1A3808187FBp-18, 0x1.91411DBE99B21p-22, 0x1.6C5112EF8BA5Dp-25, 0x1.94492E8416C51p-28, 0x1.091B011FB52D8p-30, 0x1.912B1FB6608C4p-33, 0x1.5800D2839C760p-35, 0x1.49B014CBEE591p-37 },
-	{ 0x1.200ECBFC36C04p-3, 0x1.D06013523D2E3p-10, 0x1.18BB0C533F6C3p-14, 0x1.1ADA1FC36EF44p-18, 0x1.8EFC39B397A9Ap-22, 0x1.69CCDBFB2FCF7p-25, 0x1.90FCD76F4C2A5p-28, 0x1.069C8FAB37890p-30, 0x1.8CE4E0DBFD9D0p-33, 0x1.53E8C5B11A0A9p-35, 0x1.455A9CD16C400p-37 },
-	{ 0x1.1FE06731F32D0p-3, 0x1.CF7FD810051CFp-10, 0x1.17D943A911939p-14, 0x1.199BD69A0801Cp-18, 0x1.8CBB58318D60Fp-22, 0x1.674DE59BF643Ap-25, 0x1.8DB8707909391p-28, 0x1.0424EA927973Dp-30, 0x1.88ABA5AF171C7p-33, 0x1.4FDE7D93AFE53p-35, 0x1.411518E57C7C1p-37 },
-	{ 0x1.1FB218CAFE62Dp-3, 0x1.CEA05108AC5BFp-10, 0x1.16F878E7A4657p-14, 0x1.185F595A031D0p-18, 0x1.8A7E70DB45B01p-22, 0x1.64D4232FD091Ap-25, 0x1.8A7BE40153FB5p-28, 0x1.01B3FD25DF9C6p-30, 0x1.847F4271DDD79p-33, 0x1.4BE1C784AD94Ap-35, 0x1.3CDF4947794BBp-37 },
-	{ 0x1.1F83E0B55CA1Bp-3, 0x1.CDC17D71A5266p-10, 0x1.1618AAA04EE7Ap-14, 0x1.1724A4D828A3Bp-18, 0x1.88457B67A65ABp-22, 0x1.625F8837151F3p-25, 0x1.87471CA9F4FB8p-28, 0x1.FE9365F694646p-31, 0x1.805F8C075370Dp-33, 0x1.47F271A7ABB42p-35, 0x1.38B8EF498AE62p-37 },
-	{ 0x1.1F55BEDF265C8p-3, 0x1.CCE35C8186087p-10, 0x1.1539D766EE747p-14, 0x1.15EBB5EFD9DCDp-18, 0x1.86106FA1795C4p-22, 0x1.5FF0085416A2Cp-25, 0x1.841A05559A860p-28, 0x1.F9CBEFDA2B364p-31, 0x1.7C4C57F0C8862p-33, 0x1.44104AE72482Ep-35, 0x1.34A1CD4BB0C92p-37 },
-	{ 0x1.1F27B336881B7p-3, 0x1.CC05ED7007DC8p-10, 0x1.145BFDD1E17A4p-14, 0x1.14B489830124Ap-18, 0x1.83DF456736D9Fp-22, 0x1.5D85974ABCFB9p-25, 0x1.80F48926FF152p-28, 0x1.F51170323E446p-31, 0x1.78457C4B65A28p-33, 0x1.403B22F11C370p-35, 0x1.3099A6B6E3873p-37 },
-	{ 0x1.1EF9BDA9C25FBp-3, 0x1.CB292F7603CC4p-10, 0x1.137F1C7A02472p-14, 0x1.137F1C7A02433p-18, 0x1.81B1F4AACFB90p-22, 0x1.5B2029001F642p-25, 0x1.7DD6938012DB5p-28, 0x1.F063BFBF9B1FDp-31, 0x1.744ACFCDBEC94p-33, 0x1.3C72CA33D8BD5p-35, 0x1.2CA03FF84E96Ap-37 },
-	{ 0x1.1ECBDE2729863p-3, 0x1.CA4D21CD71563p-10, 0x1.12A331FAA1E10p-14, 0x1.124B6BC3AAEE4p-18, 0x1.7F88757178D6Cp-22, 0x1.58BFB17A1FF8Ap-25, 0x1.7AC01001285E6p-28, 0x1.EBC2B7C63B362p-31, 0x1.705C29C571693p-33, 0x1.38B711DAA89ADp-35, 0x1.28B55E7CA1A35p-37 },
-	{ 0x1.1E9E149D25AB5p-3, 0x1.C971C3B16456Fp-10, 0x1.11C83CF182EA6p-14, 0x1.1119745523740p-18, 0x1.7D62BFD376E02p-22, 0x1.566424DF088DDp-25, 0x1.77B0EA882418Dp-28, 0x1.E72E320B64423p-31, 0x1.6C796214CC88Fp-33, 0x1.3507CBCAB8A47p-35, 0x1.24D8C8AB78E7Cp-37 },
-	{ 0x1.1E7060FA328E9p-3, 0x1.C897145E0B16Ep-10, 0x1.10EE3BFED4936p-14, 0x1.0FE93329DF906p-18, 0x1.7B40CBFBEAC74p-22, 0x1.540D777528D24p-25, 0x1.74A90F2FAF139p-28, 0x1.E2A608D3D02CDp-31, 0x1.68A2513082FC6p-33, 0x1.3164CA9FF8452p-35, 0x1.210A45E2DC156p-37 },
-	{ 0x1.1E42C32CDF766p-3, 0x1.C7BD1310AC5BAp-10, 0x1.10152DC52D960p-14, 0x1.0EBAA5438F6AAp-18, 0x1.792292289ED41p-22, 0x1.51BB9DA275B68p-25, 0x1.71A86A4E6C6DFp-28, 0x1.DE2A16E1DC3CBp-31, 0x1.64D6D01D6775Dp-33, 0x1.2DCDE1AA0C0A4p-35, 0x1.1D499E72D3565p-37 },
-	{ 0x1.1E153B23CF142p-3, 0x1.C6E3BF07A57DDp-10, 0x1.0F3D10E9873FBp-14, 0x1.0D8DC7AA10BB7p-18, 0x1.77080AA9D44ECp-22, 0x1.4F6E8BEC2A168p-25, 0x1.6EAEE87631C76p-28, 0x1.D9BA3773BF767p-31, 0x1.6116B86E32451p-33, 0x1.2A42E4E94E303p-35, 0x1.19969B9911F50p-37 },
-	{ 0x1.1DE7C8CDB7687p-3, 0x1.C60B178268824p-10, 0x1.0E65E41338855p-14, 0x1.0C62976B601BDp-18, 0x1.74F12DE211C1Ep-22, 0x1.4D2636F668A02p-25, 0x1.6BBC7673427F8p-28, 0x1.D5564641C80E7p-31, 0x1.5D61E44150986p-33, 0x1.26C3A90BDCEB1p-35, 0x1.15F1077CB6391p-37 },
-	{ 0x1.1DBA6C1961A79p-3, 0x1.C5331BC17A37Cp-10, 0x1.0D8FA5EBF123Ep-14, 0x1.0B39119B8A7A4p-18, 0x1.72DDF445F1D1Fp-22, 0x1.4AE29383DEF26p-25, 0x1.68D1014B8DC18p-28, 0x1.D0FE1F7C9FCDEp-31, 0x1.59B82E3EBD13Dp-33, 0x1.2350036AB6281p-35, 0x1.1258AD2A1E0B5p-37 },
-	{ 0x1.1D8D24F5AA1E0p-3, 0x1.C45BCB0670581p-10, 0x1.0CBA551FB4CC4p-14, 0x1.0A1133549EB87p-18, 0x1.70CE565BF2A86p-22, 0x1.48A3967569F07p-25, 0x1.65EC763DEF505p-28, 0x1.CCB19FCB974DDp-31, 0x1.56197195E1941p-33, 0x1.1FE7CA06E0857p-35, 0x1.0ECD588ECFF46p-37 },
-	{ 0x1.1D5FF35180156p-3, 0x1.C3852493EFAD5p-10, 0x1.0BE5F05CD65ABp-14, 0x1.08EAF9B69F6E4p-18, 0x1.6EC24CBC45F0Bp-22, 0x1.466934C9BB452p-25, 0x1.630EC2C173077p-28, 0x1.C870A44AF7EACp-31, 0x1.528589FB81F2Ep-33, 0x1.1C8AD386A1413p-35, 0x1.0B4ED675780CDp-37 },
-	{ 0x1.1D32D71BE5B93p-3, 0x1.C2AF27ADAA3ACp-10, 0x1.0B127653F3193p-14, 0x1.07C661E774D43p-18, 0x1.6CB9D010A164Fp-22, 0x1.4433639D0010Dp-25, 0x1.6037D4849B072p-28, 0x1.C43B0A8A5C547p-31, 0x1.4EFC53A7AFA46p-33, 0x1.1938F732BEDEEp-35, 0x1.07DCF481F8770p-37 },
-	{ 0x1.1D05D043EFFC6p-3, 0x1.C1D9D3985D69Bp-10, 0x1.0A3FE5B7EE0DDp-14, 0x1.06A36912DED24p-18, 0x1.6AB4D9140FE8Fp-22, 0x1.4202182888BF9p-25, 0x1.5D67996CA880Dp-28, 0x1.C010B08B0F9DBp-31, 0x1.4B7DAB53C6042p-33, 0x1.15F20CF3D046Dp-35, 0x1.0477812D8CFDDp-37 },
-	{ 0x1.1CD8DEB8C67E5p-3, 0x1.C1052799D039Dp-10, 0x1.096E3D3DEB534p-14, 0x1.05820C6A67356p-18, 0x1.68B36092C3309p-22, 0x1.3FD547C272016p-25, 0x1.5A9DFF94E7190p-28, 0x1.BBF174BE72B10p-31, 0x1.48096E386F2BBp-33, 0x1.12B5ED4F9821Bp-35, 0x1.011E4BC30174Fp-37 },
-	{ 0x1.1CAC0269A3707p-3, 0x1.C03122F8D1757p-10, 0x1.089D7B9D4B7CFp-14, 0x1.046249255408Ep-18, 0x1.66B55F69E5F1Ap-22, 0x1.3DACE7DD4EE29p-25, 0x1.57DAF54DFAD5Cp-28, 0x1.B7DD3604680E4p-31, 0x1.449F7A0BB12ACp-33, 0x1.0F8471666C35Dp-35, 0x1.FBA248B5F4F43p-38 },
-	{ 0x1.1C7F3B45D37C1p-3, 0x1.BF5DC4FD35E97p-10, 0x1.07CD9F8FA7061p-14, 0x1.03441C809A146p-18, 0x1.64BACE876E9D4p-22, 0x1.3B88EE07D3FD7p-25, 0x1.551E691D308E5p-28, 0x1.B3D3D3A9C5B76p-31, 0x1.413FACFF037B0p-33, 0x1.0C5D72F0A88B9p-35, 0x1.F51FB7B0A0707p-38 },
-	{ 0x1.1C52893CB5A83p-3, 0x1.BE8B0CEFD6A07p-10, 0x1.06FEA7D0C9CACp-14, 0x1.022783BECF7E9p-18, 0x1.62C3A6E9F2A08p-22, 0x1.39694FEC83C4Bp-25, 0x1.526849BBD0D37p-28, 0x1.AFD52D66CD325p-31, 0x1.3DE9E5BD6C8B2p-33, 0x1.0940CC3C2E1F3p-35, 0x1.EEB487C8F59FBp-38 },
-	{ 0x1.1C25EC3DBB3F9p-3, 0x1.BDB8FA1A8F227p-10, 0x1.0630931EAE8CAp-14, 0x1.010C7C281E923p-18, 0x1.60CFE1A07A2A8p-22, 0x1.374E03515BDF2p-25, 0x1.4FB8861675455p-28, 0x1.ABE1235DA9854p-31, 0x1.3A9E0369A73B5p-33, 0x1.062E5829ECE98p-35, 0x1.E8605DD820141p-38 },
-	{ 0x1.1BF9643867B6Ep-3, 0x1.BCE78BC83BB6Dp-10, 0x1.056360397A814p-14, 0x1.FFE60614714F1p-19, 0x1.5EDF77CA5474Fp-22, 0x1.3536FE178393Ep-25, 0x1.4D0F0D4C604F5p-28, 0x1.A7F79618F3157p-31, 0x1.375BE59C50281p-33, 0x1.0325F22B79077p-35, 0x1.E222E036A3F98p-38 },
-	{ 0x1.1BCCF11C50936p-3, 0x1.BC16C144B7AB2p-10, 0x1.04970DE378EB8p-14, 0x1.FDB62B70925FDp-19, 0x1.5CF26296EC8F5p-22, 0x1.3324363AFB410p-25, 0x1.4A6BCEAED73E7p-28, 0x1.A418668A394EFp-31, 0x1.34236C621A9FDp-33, 0x1.00277640AACBDp-35, 0x1.DBFBB6B59C938p-38 },
-	{ 0x1.1BA092D91D512p-3, 0x1.BB4699DCDB9C7p-10, 0x1.03CB9AE116BF0p-14, 0x1.FB896315D1C73p-19, 0x1.5B089B459EA97p-22, 0x1.3115A1D24CDA4p-25, 0x1.47CEB9C07EAB0p-28, 0x1.A043760891FCEp-31, 0x1.30F4783A0D206p-33, 0x1.FA6581EA930A7p-36, 0x1.D5EA8A981B462p-38 },
-	{ 0x1.1B74495E874A0p-3, 0x1.BA7714DE7BC4Bp-10, 0x1.030105F8DE4D9p-14, 0x1.F95FA7C022242p-19, 0x1.59221B258DDCBp-22, 0x1.2F0B370E3D6B7p-25, 0x1.4537BE34B92AAp-28, 0x1.9C78A64F2E3B8p-31, 0x1.2DCEEA13C53B2p-33, 0x1.F48F5EBD818DBp-36, 0x1.CFEF068CA682Dp-38 },
-	{ 0x1.1B48149C599C9p-3, 0x1.B9A83198664B1p-10, 0x1.02374DF372FF3p-14, 0x1.F738F4361E26Dp-19, 0x1.573EDB957A724p-22, 0x1.2D04EC397F9B4p-25, 0x1.42A6CBEF0843Ep-28, 0x1.98B7D97BF4EADp-31, 0x1.2AB2A34DC2BE0p-33, 0x1.EECC3E33BFFDEp-36, 0x1.CA08D6A6D7F65p-38 },
-	{ 0x1.1B1BF48271132p-3, 0x1.B8D9EF5A61987p-10, 0x1.016E719B8D13Dp-14, 0x1.F5154348EFB66p-19, 0x1.555ED60398A3Cp-22, 0x1.2B02B7B8672AAp-25, 0x1.401BD3026F98Dp-28, 0x1.9500F20E228C2p-31, 0x1.279F85B3BA007p-33, 0x1.E91BDC914857Ap-36, 0x1.C437A85919583p-38 },
-	{ 0x1.1AEFE900BC0B0p-3, 0x1.B80C4D752AAE7p-10, 0x1.00A66FBDF56EBp-14, 0x1.F2F48FD437581p-19, 0x1.538203ED67D68p-22, 0x1.290490089D6D8p-25, 0x1.3D96C3B0DA40Cp-28, 0x1.9153D2E4EE735p-31, 0x1.2495737CED34Fp-33, 0x1.E37DF72016FABp-36, 0x1.BE7B2A6E7F3F0p-38 },
-	{ 0x1.1AC3F2073A5BFp-3, 0x1.B73F4B3A73826p-10, 0x1.FFBE8E5302D86p-15, 0x1.F0D6D4BDF3D73p-19, 0x1.51A85EDF8A4E3p-22, 0x1.270A6BC0D6B92p-25, 0x1.3B178E6A82494p-28, 0x1.8DB05F3E35359p-31, 0x1.21944F4A8C9F4p-33, 0x1.DDF24C2BE5681p-36, 0x1.B8D30D04C1612p-38 },
-	{ 0x1.1A980F85FD3FBp-3, 0x1.B672E7FCE15B1p-10, 0x1.FE31ED5E1D812p-15, 0x1.EEBC0CF66A2D7p-19, 0x1.4FD1E0759D566p-22, 0x1.2514419088C4Bp-25, 0x1.389E23CD5A54Fp-28, 0x1.8A167AB5283FBp-31, 0x1.1E9BFC261D907p-33, 0x1.D8789AFDF81E0p-36, 0x1.B33F01864FAB3p-38 },
-	{ 0x1.1A6C416D2739Fp-3, 0x1.B5A723100B32Bp-10, 0x1.FCA6FA42FEC1Fp-15, 0x1.ECA433780DAA4p-19, 0x1.4DFE825A11E0Bp-22, 0x1.2322083FA1F8Dp-25, 0x1.362A74A47950Ap-28, 0x1.86860941027EEp-31, 0x1.1BAC5D7FE80A4p-33, 0x1.D310A3D8FF363p-36, 0x1.ADBEBAA4839B0p-38 },
-	{ 0x1.1A4087ACEBFFCp-3, 0x1.B4DBFBC8781AEp-10, 0x1.FB1DB2AB6AEACp-15, 0x1.EA8F43476858Fp-19, 0x1.4C2E3E4605975p-22, 0x1.2133B6AE41AAFp-25, 0x1.33BC71E78836Dp-28, 0x1.82FEEF33C2062p-31, 0x1.18C5572D6AECFp-33, 0x1.CDBA27F5096CCp-36, 0x1.A851EC51ED4D8p-38 },
-	{ 0x1.1A14E23590604p-3, 0x1.B411717B9DA4Ep-10, 0x1.F99614451EA8Dp-15, 0x1.E87D377303A4Fp-19, 0x1.4A610E011C60Ap-22, 0x1.1F4943D47140Bp-25, 0x1.31540CBA31D92p-28, 0x1.7F811138E69C5p-31, 0x1.15E6CD67D690Dp-33, 0x1.C874E97B89382p-36, 0x1.A2F84BBCBBB5Ap-38 },
-	{ 0x1.19E950F76A2C6p-3, 0x1.B347837FDE4C9p-10, 0x1.F8101CC1C7100p-15, 0x1.E66E0B13513B1p-19, 0x1.4896EB615A546p-22, 0x1.1D62A6C1DE38Bp-25, 0x1.2EF1366B94A88p-28, 0x1.7C0C5454351E2p-31, 0x1.1310A4CA8DB10p-33, 0x1.C340AB836B9C8p-36, 0x1.9DB18F493F703p-38 },
-	{ 0x1.19BDD3E2E01F8p-3, 0x1.B27E312C87E69p-10, 0x1.F68BC9D6F9B75p-15, 0x1.E461B94A94274p-19, 0x1.46CFD04AFE1F8p-22, 0x1.1B7FD69D95154p-25, 0x1.2C93E075B673Cp-28, 0x1.78A09DE07F9FBp-31, 0x1.1042C251AC890p-33, 0x1.BE1D320D40651p-36, 0x1.987D6E8C87AFAp-38 },
-	{ 0x1.19926AE869C7Ep-3, 0x1.B1B579D9D211Ap-10, 0x1.F509193E2CE70p-15, 0x1.E2583D44CA2E7p-19, 0x1.450BB6B05BD61p-22, 0x1.19A0CAA5BD25Cp-25, 0x1.2A3BFC7CFA15Bp-28, 0x1.753DD38E723AEp-31, 0x1.0D7D0B58960B3p-33, 0x1.B90A41FF7371Fp-36, 0x1.935BA24718BB2p-38 },
-	{ 0x1.196715F88F6F5p-3, 0x1.B0ED5CE0DCAB4p-10, 0x1.F38808B4AFD94p-15, 0x1.E051923795631p-19, 0x1.434A9891B8319p-22, 0x1.17C57A2F552C0p-25, 0x1.27E97C4F970AFp-28, 0x1.71E3DB6364763p-31, 0x1.0ABF659887149p-33, 0x1.B407A12296C8Cp-36, 0x1.8E4BE45FBB801p-38 },
-	{ 0x1.193BD503EA044p-3, 0x1.B025D99BAE472p-10, 0x1.F20895FBA30C2p-15, 0x1.DE4DB36225F4Bp-19, 0x1.418C6FFD243A4p-22, 0x1.15EDDCA5F0DA7p-25, 0x1.259C51E512E8Ap-28, 0x1.6E929BB82F318p-31, 0x1.0809B7272F82Ep-33, 0x1.AF15161DBD18Dp-36, 0x1.894DEFDE65B7Dp-38 },
-	{ 0x1.1910A7FB23028p-3, 0x1.AF5EEF6532A9Ap-10, 0x1.F08ABED7F0A5Bp-15, 0x1.DC4C9C0D2438Ep-19, 0x1.3FD1370E595A7p-22, 0x1.1419E98B7727Ep-25, 0x1.23546F5DBCAB7p-28, 0x1.6B49FB3807068p-31, 0x1.055BE6755113Cp-33, 0x1.AA326872E4650p-36, 0x1.846180E73A24Fp-38 },
-	{ 0x1.18E58ECEF45C7p-3, 0x1.AE989D993945Bp-10, 0x1.EF0E811244E95p-15, 0x1.DA4E478A9AED9p-19, 0x1.3E18E7EE95D9Ep-22, 0x1.12499877E1762p-25, 0x1.2111C70229DA6p-28, 0x1.6809E0DF5B096p-31, 0x1.02B5DA4D63F28p-33, 0x1.A55F607B7086Dp-36, 0x1.7F8654B5A0707p-38 },
-	{ 0x1.18BA897028648p-3, 0x1.ADD2E39473BD6p-10, 0x1.ED93DA7706BE7p-15, 0x1.D852B135E1B3Dp-19, 0x1.3C637CD479C09p-22, 0x1.107CE118FB88Cp-25, 0x1.1ED44B42B5739p-28, 0x1.64D233FAB7D8Ep-31, 0x1.001779D240DC2p-33, 0x1.A09BC764B5403p-36, 0x1.7ABC2997742E6p-38 },
-	{ 0x1.188F97CF99B67p-3, 0x1.AD0DC0B474659p-10, 0x1.EC1AC8D650486p-15, 0x1.D659D47387C25p-19, 0x1.3AB0F003E41F4p-22, 0x1.0EB3BB322448Ap-25, 0x1.1C9BEEB7009E8p-28, 0x1.61A2DC25AEEB4p-31, 0x1.FB0158FBA1808p-34, 0x1.9BE7672C8F91Cp-36, 0x1.7602BEE84A976p-38 },
-	{ 0x1.1864B9DE3320Fp-3, 0x1.AC493457ACCC5p-10, 0x1.EAA34A03E78EFp-15, 0x1.D463ACB13ECF7p-19, 0x1.39013BCDD0BC5p-22, 0x1.0CEE1E9C0F524p-25, 0x1.1A68A41D751B4p-28, 0x1.5E7BC149C2072p-31, 0x1.F5E2B43F838EFp-34, 0x1.97420A9E0E0F2p-36, 0x1.7159D50CCE841p-38 },
-	{ 0x1.1839EF8CEF8FAp-3, 0x1.AB853DDD6C428p-10, 0x1.E92D5BD737383p-15, 0x1.D2703565C6318p-19, 0x1.37545A9036242p-22, 0x1.0B2C0344874AFp-25, 0x1.183A5E5AC969Cp-28, 0x1.5B5CCB9D52D6Dp-31, 0x1.F0D2D5B8834CFp-34, 0x1.92AB7D4E27E94p-36, 0x1.6CC12D6E323B7p-38 },
-	{ 0x1.180F38CCD9F48p-3, 0x1.AAC1DCA5DE686p-10, 0x1.E7B8FC2B4752Bp-15, 0x1.D07F6A10D6356p-19, 0x1.35AA46B5E41B8p-22, 0x1.096D612E30FB8p-25, 0x1.1611107986A0Cp-28, 0x1.5845E3A296855p-31, 0x1.EBD18E557A4F1p-34, 0x1.8E238B98826A3p-36, 0x1.68388A75B6A74p-38 },
-	{ 0x1.17E4958F0D328p-3, 0x1.A9FF101209BCAp-10, 0x1.E64628DEB62FDp-15, 0x1.CE91463B0BAA4p-19, 0x1.3402FAB66272Dp-22, 0x1.07B230704F2C8p-25, 0x1.13ECADA98FEFCp-28, 0x1.5536F2268D551p-31, 0x1.E6DEAFA949A5Fp-34, 0x1.89AA029C449EFp-36, 0x1.63BFAF8847830p-38 },
-	{ 0x1.17BA05C4B4075p-3, 0x1.A93CD783CE2E6p-10, 0x1.E4D4DFD3B14EFp-15, 0x1.CCA5C575D3A24p-19, 0x1.325E7115D038Ep-22, 0x1.05FA693687424p-25, 0x1.11CD293FABC48p-28, 0x1.522FE03FFE1F3p-31, 0x1.E1FA0BE86D3FDp-34, 0x1.853EB038F8EC2p-36, 0x1.5F5661022C1D9p-38 },
-	{ 0x1.178F895F08F5Cp-3, 0x1.A87B325DE3B28p-10, 0x1.E3651EEFEE587p-15, 0x1.CABCE35B57676p-19, 0x1.30BCA464C34C0p-22, 0x1.044603C0A695Dp-25, 0x1.0FB276B50E8E3p-28, 0x1.4F30974E75ABEp-31, 0x1.DD2375E6992FCp-34, 0x1.80E1630B7C4CCp-36, 0x1.5AFC6432CC463p-38 },
-	{ 0x1.1765204F56307p-3, 0x1.A7BA2003D8DB0p-10, 0x1.E1F6E41CA4286p-15, 0x1.C8D69B8E68A3Ap-19, 0x1.2F1D8F402848Ep-22, 0x1.0294F8626887Bp-25, 0x1.0D9C89A6E7189p-28, 0x1.4C3900F949D4Ap-31, 0x1.D85AC11460AE2p-34, 0x1.7C91EA6AFAFB3p-36, 0x1.56B17F5889015p-38 },
-	{ 0x1.173ACA86F5842p-3, 0x1.A6F99FDA1171Cp-10, 0x1.E08A2D4683E9Bp-15, 0x1.C6F2E9BA6DBCBp-19, 0x1.2D812C5122D4Bp-22, 0x1.00E73F833D4B2p-25, 0x1.0B8B55D5EC783p-28, 0x1.4949072EA05F9p-31, 0x1.D39FC17CE6A88p-34, 0x1.78501665FA459p-36, 0x1.5275799CA8A21p-38 },
-	{ 0x1.171087F75042Ap-3, 0x1.A639B145C5159p-10, 0x1.DF1EF85DB2406p-15, 0x1.C511C9934E61Ap-19, 0x1.2BE7764CEE433p-22, 0x1.FE79A33C22CC7p-26, 0x1.097ECF25ED82Dp-28, 0x1.4660942279867p-31, 0x1.CEF24BC397B69p-34, 0x1.741BB7BF6F4FBp-36, 0x1.4E481B0F55E8Ap-38 },
-	{ 0x1.16E65891DF2DDp-3, 0x1.A57A53ACFDDA4p-10, 0x1.DDB54355C0834p-15, 0x1.C33336D5604AEp-19, 0x1.2A5067F4BE95Bp-22, 0x1.FB2B4E822BC94p-26, 0x1.0776E99D61CD4p-28, 0x1.437F924DBE189p-31, 0x1.CA523521ED4BEp-34, 0x1.6FF49FEBE2876p-36, 0x1.4A292CA3B1C77p-38 },
-	{ 0x1.16BC3C482A624p-3, 0x1.A4BB867696EB4p-10, 0x1.DC4D0C25A6057p-15, 0x1.C1572D45542B1p-19, 0x1.28BBFC15A1D37p-22, 0x1.F7E3721B1276Bp-26, 0x1.05739964FC29Dp-28, 0x1.40A5EC6D512ADp-31, 0x1.C5BF536539FDBp-34, 0x1.6BDAA10E9F8E9p-36, 0x1.4618782BF771Ep-38 },
-	{ 0x1.1692330BC942Bp-3, 0x1.A3FD490A3B310p-10, 0x1.DAE650C7B96E8p-15, 0x1.BF7DA8B022D11p-19, 0x1.272A2D8861B99p-22, 0x1.F4A1FF6F01B3Cp-26, 0x1.0374D2C73EA0Bp-28, 0x1.3DD38D812545Ep-31, 0x1.C1397CEC7EB4Cp-34, 0x1.67CD8DF6F162Dp-36, 0x1.4215C855B25AFp-38 },
-	{ 0x1.16683CCE62634p-3, 0x1.A33F9AD063F8Ep-10, 0x1.D9810F39AA222p-15, 0x1.BDA6A4EAFA79Dp-19, 0x1.259AF73165C0Ep-22, 0x1.F166E80B66CF2p-26, 0x1.017A8A300FDDEp-28, 0x1.3B0860CB55053p-31, 0x1.BCC088A648A64p-34, 0x1.63CD3A1D6A880p-36, 0x1.3E20E8A605CAEp-38 },
-	{ 0x1.163E5981AB74Fp-3, 0x1.A2827B32579FFp-10, 0x1.D81D457C79B5Fp-15, 0x1.BBD21DD32C52Ap-19, 0x1.240E5400957A4p-22, 0x1.EE321DA28753Ap-26, 0x1.FF096858A41C1p-29, 0x1.384451CF3F192p-31, 0x1.B8544E0E97EAFp-34, 0x1.5FD979A138FF4p-36, 0x1.3A39A57605B4Cp-38 },
-	{ 0x1.1614891769310p-3, 0x1.A1C5E99A28400p-10, 0x1.D6BAF19475770p-15, 0x1.BA000F4E1A297p-19, 0x1.22843EF13B3E9p-22, 0x1.EB03920B1823Cp-26, 0x1.FB268AD2F64BDp-29, 0x1.35874C50A59D5p-31, 0x1.B3F4A52CCE91Dp-34, 0x1.5BF2214585D37p-36, 0x1.365FCBEF20775p-38 },
-	{ 0x1.15EACB816F44Dp-3, 0x1.A109E572B25F7p-10, 0x1.D55A11892FFCFp-15, 0x1.B8307549244D1p-19, 0x1.20FCB309E7325p-22, 0x1.E7DB373FD5DE5p-26, 0x1.F74C656A5D1CAp-29, 0x1.32D13C52D0B76p-31, 0x1.AFA16691A807Fp-34, 0x1.5817066EE0053p-36, 0x1.32932A0799359p-38 },
-	{ 0x1.15C120B1A03D9p-3, 0x1.A04E6E279BA3Ap-10, 0x1.D3FAA3657ACC5p-15, 0x1.B6634BB9979A5p-19, 0x1.1F77AB5C529C0p-22, 0x1.E4B8FF5F1E886p-26, 0x1.F37AE1F9B05FCp-29, 0x1.30220E17B46FDp-31, 0x1.AB5A6B5538B19p-34, 0x1.5447FF20B2A1Fp-36, 0x1.2ED38E7F12754p-38 },
-	{ 0x1.15978899ED747p-3, 0x1.9F9383255185Ep-10, 0x1.D29CA53760069p-15, 0x1.B4988E9C9BB7Dp-19, 0x1.1DF52305438B2p-22, 0x1.E19CDCAA8C786p-26, 0x1.EFB1EA9A91B25p-29, 0x1.2D79AE1F19B80p-31, 0x1.A71F8D14F5918p-34, 0x1.5084E1FAC5D33p-36, 0x1.2B20C8DB28B44p-38 },
-	{ 0x1.156E032C56FA5p-3, 0x1.9ED923D9080A9p-10, 0x1.D14015101C289p-15, 0x1.B2D039F7217E0p-19, 0x1.1C75152C70D01p-22, 0x1.DE86C186927D8p-26, 0x1.EBF169A4A7F4Cp-29, 0x1.2AD80925CA912p-31, 0x1.A2F0A5F1C3DC5p-34, 0x1.4CCD8636CAB1Fp-36, 0x1.277AA9641CA4Fp-38 },
-	{ 0x1.1544905AEB845p-3, 0x1.9E1F4FB0B87B8p-10, 0x1.CFE4F10417D72p-15, 0x1.B10A49D5D18C5p-19, 0x1.1AF77D0466436p-22, 0x1.DB76A07A193F9p-26, 0x1.E83949ACDD62Ep-29, 0x1.283D0C24C146Ep-31, 0x1.9ECD908E1053Ep-34, 0x1.4921C3A5F1AE5p-36, 0x1.23E101218CC67p-38 },
-	{ 0x1.151B3017C8580p-3, 0x1.9D66061B2023Ep-10, 0x1.CE8B372AE1B91p-15, 0x1.AF46BA4CFB0A7p-19, 0x1.197C55CA695B5p-22, 0x1.D86C6C2E1DD30p-26, 0x1.E4897584A0435p-29, 0x1.25A8A4505AB23p-31, 0x1.9AB6280BEE4B1p-34, 0x1.458172AE8B592p-36, 0x1.2053A1D73E0C9p-38 },
-	{ 0x1.14F1E25519380p-3, 0x1.9CAD4687BF0F3p-10, 0x1.CD32E59F285FAp-15, 0x1.AD8587788294Ep-19, 0x1.18039AC65E0EBp-22, 0x1.D568176D517D1p-26, 0x1.E0E1D8392624Cp-29, 0x1.231ABF178B770p-31, 0x1.96AA480B3E303p-34, 0x1.41EC6C49B3614p-36, 0x1.1CD25E01F34DDp-38 },
-	{ 0x1.14C8A70518502p-3, 0x1.9BF51066D6CAAp-10, 0x1.CBDBFA7EB43B7p-15, 0x1.ABC6AD7BD154Bp-19, 0x1.168D474AAC04Ap-22, 0x1.D2699523BAA3Cp-26, 0x1.DD425D12B19F0p-29, 0x1.20934A2318324p-31, 0x1.92A9CCA7DB7D9p-34, 0x1.3E628A0105948p-36, 0x1.195D08D453302p-38 },
-	{ 0x1.149F7E1A0E22Cp-3, 0x1.9B3D63296928Ap-10, 0x1.CA8673EA61A06p-15, 0x1.AA0A2881C442Ap-19, 0x1.151956B4240F9p-22, 0x1.CF70D85E56E5Ep-26, 0x1.D9AAEF93DA8EEp-29, 0x1.1E123354D08B0p-31, 0x1.8EB49277D1F0Bp-34, 0x1.3AE3A5EC5CB6Dp-36, 0x1.15F37633DC4C5p-38 },
-	{ 0x1.1476678651751p-3, 0x1.9A863E413706Fp-10, 0x1.C93250061AD53p-15, 0x1.A84FF4BC9B931p-19, 0x1.13A7C469E5F33p-22, 0x1.CC7DD44ABE578p-26, 0x1.D61B7B78D8C3Cp-29, 0x1.1B9768C6CD1CBp-31, 0x1.8ACA768999E92p-34, 0x1.376F9AAF9B034p-36, 0x1.12957AB5E7445p-38 },
-	{ 0x1.144D633C473C6p-3, 0x1.99CFA120BF16Ep-10, 0x1.C7DF8CF8D231Cp-15, 0x1.A6980E65EA4D4p-19, 0x1.12388BDD4673Ep-22, 0x1.C9907C36C7DE0p-26, 0x1.D293ECB6D115Cp-29, 0x1.1922D8CAB02D9p-31, 0x1.86EB56625BCFBp-34, 0x1.340643787C28Ep-36, 0x1.0F42EB9CB6874p-38 },
-	{ 0x1.1424712E628B2p-3, 0x1.99198B3B3CA83p-10, 0x1.C68E28EC7C492p-15, 0x1.A4E271BE860A8p-19, 0x1.10CBA889B5AF2p-22, 0x1.C6A8C3902EA8Ap-26, 0x1.CF142F7B24DBBp-29, 0x1.16B471E8E9278p-31, 0x1.83170FFC3A68Ep-34, 0x1.30A77BFC709A7p-36, 0x1.0BFB9ED49381Ap-38 },
-	{ 0x1.13FB914F247DFp-3, 0x1.9863FC04A6765p-10, 0x1.C53E220E0A21Ap-15, 0x1.A32F1B0E76DF3p-19, 0x1.0F6115F4A5BC2p-22, 0x1.C3C69DE438C25p-26, 0x1.CB9C302AC3B7Ap-29, 0x1.144C22DFFAC75p-31, 0x1.7F4D81C4A3F3Bp-34, 0x1.2D53207682040p-36, 0x1.08BF6AF0F8F78p-38 },
-	{ 0x1.13D2C3911C291p-3, 0x1.97AEF2F1AD774p-10, 0x1.C3EF768D6378Fp-15, 0x1.A17E06A4E76B5p-19, 0x1.0DF8CFAD71931p-22, 0x1.C0E9FEDF5EB73p-26, 0x1.C82BDB617FB23p-29, 0x1.11E9DAA3C3F86p-31, 0x1.7B8E8A9AA9F97p-34, 0x1.2A090DA540BEAp-36, 0x1.058E2729CA4A4p-38 },
-	{ 0x1.13AA07E6E685Ep-3, 0x1.96FA6F77BBADCp-10, 0x1.C2A2249D61156p-15, 0x1.9FCF30D81513Cp-19, 0x1.0C92D14D443B3p-22, 0x1.BE12DA4CF44C7p-26, 0x1.C4C31DF1639B4p-29, 0x1.0F8D885CCB513p-31, 0x1.77DA09CD5FB03p-34, 0x1.26C920C8BA186p-36, 0x1.0267AB5897697p-38 },
-	{ 0x1.13815E432E604p-3, 0x1.9646710CF2FCDp-10, 0x1.C1562A73C7236p-15, 0x1.9E22960540627p-19, 0x1.0B2F1677003D9p-22, 0x1.BB412416D244Fp-26, 0x1.C161E4E20BA8Cp-29, 0x1.0D371B678D27Dp-31, 0x1.742FDF1A3ED5Dp-34, 0x1.239337A077483p-36, 0x1.FE979FEBDA66Cp-39 },
-	{ 0x1.1358C698AC446p-3, 0x1.9592F7282BFE3p-10, 0x1.C00B86493F9FBp-15, 0x1.9C7832909D8DCp-19, 0x1.09CD9AD7275D6p-22, 0x1.B874D04501308p-26, 0x1.BE081D700049Dp-29, 0x1.0AE68353CC31Fp-31, 0x1.708FEAAB92E5Fp-34, 0x1.2067306984E71p-36, 0x1.F874DC2D640F8p-39 },
-	{ 0x1.133040DA266C7p-3, 0x1.94E00140F4DA7p-10, 0x1.BEC2365954CDBp-15, 0x1.9AD002E54526Dp-19, 0x1.086E5A23C292Ep-22, 0x1.B5ADD2FD65412p-26, 0x1.BAB5B50C13283p-29, 0x1.089BAFE3E4A87p-31, 0x1.6CFA0D16EA922p-34, 0x1.1D44E9DC82C6Cp-36, 0x1.F266BED31CA4Bp-39 },
-	{ 0x1.1307CCFA70AEBp-3, 0x1.942D8ECF9023Bp-10, 0x1.BD7A38E26BBA0p-15, 0x1.992A037524EDBp-19, 0x1.0711501C4A4A2p-22, 0x1.B2EC20836B23Ep-26, 0x1.B76A995ABE4DEp-29, 0x1.0656910C21E37p-31, 0x1.696E275B8F5FCp-34, 0x1.1A2C432BBC018p-36, 0x1.EC6CFC68C1A75p-39 },
-	{ 0x1.12DF6AEC6C6B4p-3, 0x1.937B9F4CF3B2Ap-10, 0x1.BC338C25BEC95p-15, 0x1.978630B8F0CB5p-19, 0x1.05B678898EE3Ap-22, 0x1.B02FAD37B5D8Ep-26, 0x1.B426B8338568Ap-29, 0x1.041716F21664Ep-31, 0x1.65EC1AE10352Cp-34, 0x1.171D1C01471C1p-36, 0x1.E6874AA37CDE3p-39 },
-	{ 0x1.12B71AA3087A7p-3, 0x1.92CA3232C784Ep-10, 0x1.BAEE2E675852Cp-15, 0x1.95E4873013F15p-19, 0x1.045DCF3DA175Dp-22, 0x1.AD786D97CD883p-26, 0x1.B0E9FFA05922Fp-29, 0x1.01DD31EBF6494p-31, 0x1.6273C975848AFp-34, 0x1.1417547D2E166p-36, 0x1.E0B5605CFA8E8p-39 },
-	{ 0x1.128EDC11411ACp-3, 0x1.921946FB649EAp-10, 0x1.B9AA1DEE0D469p-15, 0x1.94450360A21E7p-19, 0x1.03075013BCCFEp-22, 0x1.AAC6563DCF4F1p-26, 0x1.ADB45DDCFC8B5p-29, 0x1.FF51A4FFE8274p-32, 0x1.5F05154C96BB5p-34, 0x1.111ACD339E477p-36, 0x1.DAF6F58E95E38p-39 },
-	{ 0x1.1266AF2A1FDF8p-3, 0x1.9168DD21D3EDBp-10, 0x1.B867590377E03p-15, 0x1.92A7A1D749075p-19, 0x1.01B2F6F02EBBBp-22, 0x1.A8195BE01E038p-26, 0x1.AA85C1566C816p-29, 0x1.FAF3D2C73F98Dp-32, 0x1.5B9FE0FD92622p-34, 0x1.0E27672B1FDFBp-36, 0x1.D54BC34C9B1B7p-39 },
-	{ 0x1.123E93E0BB9F2p-3, 0x1.90B8F421CD2EBp-10, 0x1.B725DDF3F2644p-15, 0x1.910C5F2741E42p-19, 0x1.0060BFC0417F0p-22, 0x1.A571735113E9Ep-26, 0x1.A75E18AA4922Dp-29, 0x1.F6A0CEF690D3Fp-32, 0x1.58440F8239A9Ap-34, 0x1.0B3D03DAD4F12p-36, 0x1.CFB383C19F108p-39 },
-	{ 0x1.12168A283861Ep-3, 0x1.90098B77B5D49p-10, 0x1.B5E5AB0E91E99p-15, 0x1.8F7337EA43216p-19, 0x1.FE214CF44B368p-23, 0x1.A2CE917EB55A6p-26, 0x1.A43D52A6412FEp-29, 0x1.F2587BB2BEF2Bp-32, 0x1.54F1843552D9Cp-34, 0x1.085B8528BFDA6p-36, 0x1.CA2DF229EBB87p-39 },
-	{ 0x1.11EE91F3C7504p-3, 0x1.8F5AA2A09FF26p-10, 0x1.B4A6BEA5212E5p-15, 0x1.8DDC28C072349p-19, 0x1.FB854E39B7942p-23, 0x1.A030AB726451Fp-26, 0x1.A1235E477F60Dp-29, 0x1.EE1ABB7BBDFDDp-32, 0x1.51A822D148435p-34, 0x1.0582CD6810F37p-36, 0x1.C4BACACF0135Ep-39 },
-	{ 0x1.11C6AB36A6A21p-3, 0x1.8EAC391A49265p-10, 0x1.B369170C1B779p-15, 0x1.8C472E5055937p-19, 0x1.F8ED7B603E6E8p-23, 0x1.9D97B65094ED3p-26, 0x1.9E102ABA19A4Bp-29, 0x1.E9E7712B630C0p-32, 0x1.4E67CF6ECD8D6p-34, 0x1.02B2BF577B5BEp-36, 0x1.BF59CB032B18Dp-39 },
-	{ 0x1.119ED5E4218D5p-3, 0x1.8DFE4E631987Bp-10, 0x1.B22CB29AA77CCp-15, 0x1.8AB44546C6CE6p-19, 0x1.F659CC889FED5p-23, 0x1.9B03A75882C8Cp-26, 0x1.9B03A75882432p-29, 0x1.E5BE7FF438AE0p-32, 0x1.4B306E838A4E7p-34, 0x1.FFD67C3F2194Dp-37, 0x1.BA0AB11D296EEp-39 },
-	{ 0x1.117711EF9034Ep-3, 0x1.8D50E1FA2296Ap-10, 0x1.B0F18FAA925DDp-15, 0x1.89236A56E4CCDp-19, 0x1.F3CA39E4BB6A6p-23, 0x1.987473E3E7451p-26, 0x1.97FDC3AAFADA1p-29, 0x1.E19FCB605796Fp-32, 0x1.4801E4E0C9DB9p-34, 0x1.FA585AA2487C5p-37, 0x1.B4CD3C73ED441p-39 },
-	{ 0x1.114F5F4C57981p-3, 0x1.8CA3F35F1E2D6p-10, 0x1.AFB7AC984AA45p-15, 0x1.87949A3A062B5p-19, 0x1.F13EBBB765497p-23, 0x1.95EA1166B0AA4p-26, 0x1.94FE6F670930Ap-29, 0x1.DD8B375043704p-32, 0x1.44DC17B230367p-34, 0x1.F4EAE1C766E67p-37, 0x1.AFA12D5A68374p-39 },
-	{ 0x1.1127BDEDE9819p-3, 0x1.8BF782126D744p-10, 0x1.AE7F07C2DB4FBp-15, 0x1.8607D1AFABBBCp-19, 0x1.EEB74A543D435p-23, 0x1.9364756EBA292p-26, 0x1.92059A6EEDD8Ap-29, 0x1.D980A7F9CBC8Bp-32, 0x1.41BEEC7C7406Dp-34, 0x1.EF8DDA67ADF7Dp-37, 0x1.AA86451B6EC89p-39 },
-	{ 0x1.11002DC7C476Dp-3, 0x1.8B4B8D9517D6Ep-10, 0x1.AD479F8BE6EBBp-15, 0x1.847D0D7D73264p-19, 0x1.EC33DE1F85245p-23, 0x1.90E395A384B6Dp-26, 0x1.8F1334D11C97Dp-29, 0x1.D58001E6F10F3p-32, 0x1.3EAA491C1D880p-34, 0x1.EA410E0371C2Ap-37, 0x1.A57C45F5AD07Fp-39 },
-	{ 0x1.10D8AECD73A76p-3, 0x1.8AA01568C9FC4p-10, 0x1.AC117257A2B22p-15, 0x1.82F44A6F09AB1p-19, 0x1.E9B46F8DF7FB0p-23, 0x1.8E6767C5F0BF5p-26, 0x1.8C272EC7B6938p-29, 0x1.D18929F4CD88Ap-32, 0x1.3B9E13C44A57Cp-34, 0x1.E50446DF235B5p-37, 0x1.A082F317AD4C8p-39 },
-	{ 0x1.10B140F28EDCBp-3, 0x1.89F5190FD4BFBp-10, 0x1.AADC7E8CD1B6Ep-15, 0x1.816D85561F04Fp-19, 0x1.E738F724A1B75p-23, 0x1.8BEFE1AFF8ADAp-26, 0x1.894178B806368p-29, 0x1.CD9C05528232Ap-32, 0x1.389A32FD7610Cp-34, 0x1.DFD750005788Fp-37, 0x1.9B9A109BF09FFp-39 },
-	{ 0x1.1089E42ABA696p-3, 0x1.894A980D2C2CCp-10, 0x1.A9A8C294C01DFp-15, 0x1.7FE8BB0A586BCp-19, 0x1.E4C16D78B737Cp-23, 0x1.897CF9546C456p-26, 0x1.86620331FCCD3p-29, 0x1.C9B8798027823p-32, 0x1.359E8DA4479DCp-34, 0x1.DAB9F52AD9D75p-37, 0x1.96C1638518895p-39 },
-	{ 0x1.10629869A7195p-3, 0x1.88A091E4667C1p-10, 0x1.A8763CDB3E5CAp-15, 0x1.7E65E86943B68p-19, 0x1.E24DCB2F6EC49p-23, 0x1.870EA4BEACCBAp-26, 0x1.8388BEEFB1CF9p-29, 0x1.C5DE6C4DC1F11p-32, 0x1.32AB0AE863309p-34, 0x1.D5AC02DDCBD60p-37, 0x1.91F8B1BA21E5Bp-39 },
-	{ 0x1.103B5DA312210p-3, 0x1.87F70619BB130p-10, 0x1.A744EBCE9C844p-15, 0x1.7CE50A564A9D8p-19, 0x1.DFDE08FDD8F58p-23, 0x1.84A4DA1269FC8p-26, 0x1.80B59CD4E3D52p-29, 0x1.C20DC3DA3A4A0p-32, 0x1.2FBF924B40CB2p-34, 0x1.D0AD4650D04BEp-37, 0x1.8D3FC202B07D4p-39 },
-	{ 0x1.101433CAC50E2p-3, 0x1.874DF43201848p-10, 0x1.A614CDDFA5978p-15, 0x1.7B661DBAA61ADp-19, 0x1.DD721FA8BA03Cp-23, 0x1.823F8F8B5FCB0p-26, 0x1.7DE88DEE7B2AEp-29, 0x1.BE46669259A59p-32, 0x1.2CDC0B9F0745Fp-34, 0x1.CBBD8D71422BEp-37, 0x1.88965C036B070p-39 },
-	{ 0x1.0FED1AD495B70p-3, 0x1.86A55BB2B093Fp-10, 0x1.A4E5E1819AE99p-15, 0x1.79E91F8551EA1p-19, 0x1.DB0A08046383Dp-23, 0x1.7FDEBB7D14E77p-26, 0x1.7B2183720E071p-29, 0x1.BA883B2FC909Bp-32, 0x1.2A005F056BC2Bp-34, 0x1.C6DCA6DF77160p-37, 0x1.83FC483A674C4p-39 },
-	{ 0x1.0FC612B4662B1p-3, 0x1.85FD3C21DD3A5p-10, 0x1.A3B8252A2F872p-15, 0x1.786E0CAB00267p-19, 0x1.D8A5BAF48E88Bp-23, 0x1.7D8254529A0BCp-26, 0x1.78606EBD6653Ep-29, 0x1.B6D328B8149D5p-32, 0x1.272C74EE95780p-34, 0x1.C20A61EC0D31Dp-37, 0x1.7F714FFBA6212p-39 },
-	{ 0x1.0F9F1B5E24A2Fp-3, 0x1.8555950639AC8p-10, 0x1.A28B975183A9Ap-15, 0x1.76F4E2260D072p-19, 0x1.D645316C362D2p-23, 0x1.7B2A508E4A08Ep-26, 0x1.75A54156090C0p-29, 0x1.B327167BB262Cp-32, 0x1.2460361805C47p-34, 0x1.BD468E95442FDp-37, 0x1.7AF53D6D9EE6Bp-39 },
-	{ 0x1.0F7834C5CB70Dp-3, 0x1.84AE65E71463Bp-10, 0x1.A160367220341p-15, 0x1.757D9CF672B92p-19, 0x1.D3E8646D72834p-23, 0x1.78D6A6C98A951p-26, 0x1.72EFECE8BF230p-29, 0x1.AF83EC150C6B0p-32, 0x1.219B8B8B84771p-34, 0x1.B890FD8461413p-37, 0x1.7687DB85DA4E4p-39 },
-	{ 0x1.0F515EDF60F0Ep-3, 0x1.8407AE4C5727Ep-10, 0x1.A0360108F2391p-15, 0x1.74083A21BD56Bp-19, 0x1.D18F4D0953E80p-23, 0x1.76874DB48DD6Ap-26, 0x1.704063491FF4Cp-29, 0x1.ABE991678E74Ep-32, 0x1.1EDE5E9E103C6p-34, 0x1.B3E9800B1DD46p-37, 0x1.7228F6059C162p-39 },
-	{ 0x1.0F2A999EF779Dp-3, 0x1.83616DBE861BCp-10, 0x1.9F0CF595468B7p-15, 0x1.7294B6B2FEFC7p-19, 0x1.CF39E45FBEBAAp-23, 0x1.743C3C1614AA0p-26, 0x1.6D9696711D353p-29, 0x1.A857EE9EB6EA9p-32, 0x1.1C2898EED31E2p-34, 0x1.AF4FE82120E87p-37, 0x1.6DD859769B794p-39 },
-	{ 0x1.0F03E4F8AD4D6p-3, 0x1.82BBA3C6BECA5p-10, 0x1.9DE51298C5574p-15, 0x1.71230FBAC3FA7p-19, 0x1.CCE8239F47760p-23, 0x1.71F568CB31A08p-26, 0x1.6AF27880905C5p-29, 0x1.A4CEEC2D2B305p-32, 0x1.197A24661B05Cp-34, 0x1.AAC4086182C77p-37, 0x1.6995D327CA0D9p-39 },
-	{ 0x1.0EDD40E0AC893p-3, 0x1.82164FEEB736Bp-10, 0x1.9CBE56976DC50p-15, 0x1.6FB3424F0722Ap-19, 0x1.CA9A04050F2AFp-23, 0x1.6FB2CAC70CB49p-26, 0x1.6853FBBCC988Dp-29, 0x1.A14E72CBCF390p-32, 0x1.16D2EB3456306p-34, 0x1.A645B4085AFA7p-37, 0x1.6561312A28CC8p-39 },
-	{ 0x1.0EB6AD4B2B176p-3, 0x1.817171C0BCED3p-10, 0x1.9B98C01791A5Ep-15, 0x1.6E454B8B26335p-19, 0x1.C84F7EDCA05A7p-23, 0x1.6D745912A7B2Ap-26, 0x1.65BB12901FD3Bp-29, 0x1.9DD66B78E051Bp-32, 0x1.1432D7D11384Bp-34, 0x1.A1D4BEF0584AAp-37, 0x1.613A424DAB04Bp-39 },
-	{ 0x1.0E902A2C6A9FCp-3, 0x1.80CD08C7B4167p-10, 0x1.9A744DA1D1290p-15, 0x1.6CD9288FD65D4p-19, 0x1.C6088D7FCC2F1p-23, 0x1.6B3A0ACCA352Dp-26, 0x1.6327AF89830FEp-29, 0x1.9A66BF77131A6p-32, 0x1.1199D4FA06BA3p-34, 0x1.9D70FD9062A2Cp-37, 0x1.5D20D61E26F31p-39 },
-	{ 0x1.0E69B778B8788p-3, 0x1.8029148F168BFp-10, 0x1.9950FDC1169A3p-15, 0x1.6B6ED68318E61p-19, 0x1.C3C5295688135p-23, 0x1.6903D7290502Ap-26, 0x1.6099C55C0EF1Ap-29, 0x1.96FF584CB49DEp-32, 0x1.0F07CDB21042Ap-34, 0x1.991A44F946A62p-37, 0x1.5914BCE053C39p-39 },
-	{ 0x1.0E4355246D976p-3, 0x1.7F8594A2F2EEAp-10, 0x1.982ECF029229Bp-15, 0x1.6A0652902FE56p-19, 0x1.C1854BD6CBA57p-23, 0x1.66D1B570FD5AEp-26, 0x1.5E1146DE9F977p-29, 0x1.93A01FC2CE7E0p-32, 0x1.0C7CAD4048E62p-34, 0x1.94D06AD36AD28p-37, 0x1.5515C78ED4BBFp-39 },
-	{ 0x1.0E1D0323EE82Ep-3, 0x1.7EE2888FEBBEEp-10, 0x1.970DBFF5B5BC8p-15, 0x1.689F99E7931D7p-19, 0x1.BF48EE846F062p-23, 0x1.64A39D02AF413p-26, 0x1.5B8E270B6770Cp-29, 0x1.9048FFE44E27Dp-32, 0x1.09F85F2F11026p-34, 0x1.9093455C8E031p-37, 0x1.5123C7D751528p-39 },
-	{ 0x1.0DF6C16BAB438p-3, 0x1.7E3FEFE336764p-10, 0x1.95EDCF2C30C61p-15, 0x1.673AA9BEE4EEBp-19, 0x1.BD100AF10981Bp-23, 0x1.62798550F7B1Bp-26, 0x1.591058FF867CCp-29, 0x1.8CF9E2FD2F049p-32, 0x1.077ACF4B235F1p-34, 0x1.8C62AB658F2B5p-37, 0x1.4D3E901799F4Ep-39 },
-	{ 0x1.0DD08FF01F552p-3, 0x1.7D9DCA2A9AA2Ep-10, 0x1.94CEFB39EC2AAp-15, 0x1.65D77F50E7655p-19, 0x1.BADA9ABBD0937p-23, 0x1.605365E3362F9p-26, 0x1.5697CFFAA2DD3p-29, 0x1.89B2B399A79BDp-32, 0x1.0503E9A2AB878p-34, 0x1.883E74503E225p-37, 0x1.4965F35AD9447p-39 },
-	{ 0x1.0DAA6EA5D1986p-3, 0x1.7CFC16F471048p-10, 0x1.93B142B5062A1p-15, 0x1.647617DD7161Ap-19, 0x1.B8A8979177402p-23, 0x1.5E31365515D9Dp-26, 0x1.54247F5E82B81p-29, 0x1.86735C85599C1p-32, 0x1.02939A845F9C9p-34, 0x1.8426780D3555Fp-37, 0x1.4599C556D18DFp-39 },
-	{ 0x1.0D845D8154443p-3, 0x1.7C5AD5CFA2AB5p-10, 0x1.9294A435CE53Bp-15, 0x1.631670A963DA0p-19, 0x1.B679FB2C0DC93p-23, 0x1.5C12EE5657227p-26, 0x1.51B65AAEA7640p-29, 0x1.833BC8CA84BE2p-32, 0x1.0029CE7E9D8F7p-34, 0x1.801A8F19BC403p-37, 0x1.41D9DA6926442p-39 },
-	{ 0x1.0D5E5C7744D76p-3, 0x1.7BBA064BA817Fp-10, 0x1.91791E56C1823p-15, 0x1.61B886FE9F36Ep-19, 0x1.B44EBF52E1B52p-23, 0x1.59F885AA9A262p-26, 0x1.4F4D558FE9DA2p-29, 0x1.800BE3B13C78Bp-32, 0x1.FB8CE4BD17710p-35, 0x1.7C1A927DB2779p-37, 0x1.3E260794B1457p-39 },
-	{ 0x1.0D386B7C4C0A6p-3, 0x1.7B19A7F8885D7p-10, 0x1.905EAFB485E09p-15, 0x1.605C582BF8C7Ep-19, 0x1.B226DDDA5E2DEp-23, 0x1.57E1F42929A1Dp-26, 0x1.4CE963C8186A0p-29, 0x1.7CE398BEA079Ep-32, 0x1.F6D2E65E79771p-35, 0x1.78265BC98335Ep-37, 0x1.3A7E227EE3B6Cp-39 },
-	{ 0x1.0D128A851DC11p-3, 0x1.7A79BA66D8450p-10, 0x1.8F4556EDE6F74p-15, 0x1.5F01E18530524p-19, 0x1.B00250A3ECB39p-23, 0x1.55CF31BCC684Ep-26, 0x1.4A8A793D95AA0p-29, 0x1.79C2D3B417DBAp-32, 0x1.F2257C71AD5A1p-35, 0x1.743DC51421308p-37, 0x1.36E2016D323D0p-39 },
-	{ 0x1.0CECB98678FC9p-3, 0x1.79DA3D27B972Ap-10, 0x1.8E2D12A3D1C10p-15, 0x1.5DA92062E5B85p-19, 0x1.ADE1119DD6229p-23, 0x1.53C03663741D8p-26, 0x1.483089F6F8A0Bp-29, 0x1.76A9808E8F090p-32, 0x1.ED8481FF7AD4Bp-35, 0x1.7060A8F90A9DEp-37, 0x1.33517B428C61Cp-39 },
-	{ 0x1.0CC6F87527CD4p-3, 0x1.793B2FCCD98BDp-10, 0x1.8D15E17950C91p-15, 0x1.5C5212228EB96p-19, 0x1.ABC31AC3240BAp-23, 0x1.51B4FA2E44DD8p-26, 0x1.45DB8A1AAE230p-29, 0x1.73978B85B84A3p-32, 0x1.E8EFD28780308p-35, 0x1.6C8EE2965544Bp-37, 0x1.2FCC677CDEEF2p-39 },
-	{ 0x1.0CA14745FF44Bp-3, 0x1.789C91E871600p-10, 0x1.8BFFC2138850Cp-15, 0x1.5AFCB4266CCA0p-19, 0x1.A9A8661B825E4p-23, 0x1.4FAD754127B57p-26, 0x1.438B6DEE9B61Cp-29, 0x1.708CE10B4EED0p-32, 0x1.E46749FE93767p-35, 0x1.68C84D8AC2731p-37, 0x1.2C529E32A110Cp-39 },
-	{ 0x1.0C7BA5EDDF67Fp-3, 0x1.77FE630D4411Ep-10, 0x1.8AEAB319B27D3p-15, 0x1.59A903D58304Dp-19, 0x1.A790EDBB21631p-23, 0x1.4DA99FD2B6048p-26, 0x1.414029D7C1A40p-29, 0x1.6D896DCA5D005p-32, 0x1.DFEAC4CD29B93p-35, 0x1.650CC5F3DAB9Bp-37, 0x1.28E3F8106C07Dp-39 },
-	{ 0x1.0C561461B321Ap-3, 0x1.7760A2CE9E42Ap-10, 0x1.89D6B3351B8D4p-15, 0x1.5856FE9B8C32Cp-19, 0x1.A57CABC29805Dp-23, 0x1.4BA9722C021AFp-26, 0x1.3EF9B259E3296p-29, 0x1.6A8D1EA683986p-32, 0x1.DB7A1FCDC460Cp-35, 0x1.615C286C114B3p-37, 0x1.25804E569D41Dp-39 },
-	{ 0x1.0C30929670345p-3, 0x1.76C350C0553F0p-10, 0x1.88C3C1111E179p-15, 0x1.5706A1E8F0EB3p-19, 0x1.A36B9A5EC66EAp-23, 0x1.49ACE4A8664D9p-26, 0x1.3CB7FC17292FBp-29, 0x1.6797E0BB45932p-32, 0x1.D715384B645FCp-35, 0x1.5DB65208EEDDCp-37, 0x1.22277AD702A32p-39 },
-	{ 0x1.0C0B2081172CBp-3, 0x1.76266C76C62D1p-10, 0x1.87B1DB5B1F4FDp-15, 0x1.55B7EB32BDCB6p-19, 0x1.A15DB3C8B8E87p-23, 0x1.47B3EFB554981p-26, 0x1.3A7AFBCFCB198p-29, 0x1.64A9A15B54D28p-32, 0x1.D2BBEC0003395p-35, 0x1.5A1B205943EF2p-37, 0x1.1ED957F290D50p-39 },
-	{ 0x1.0BE5BE16B3545p-3, 0x1.7589F586D53C2p-10, 0x1.86A100C28B54Ap-15, 0x1.546AD7F299C50p-19, 0x1.9F52F2458B14Ep-23, 0x1.45BE8BD226CCBp-26, 0x1.3842A661B6AFFp-29, 0x1.61C24E0FE1E36p-32, 0x1.CE6E191311C1Dp-35, 0x1.568A7163624AAp-37, 0x1.1B95C097236AFp-39 },
-	{ 0x1.0BC06B4C5AA40p-3, 0x1.74EDEB85ECD60p-10, 0x1.85912FF8D1847p-15, 0x1.531F65A6BC840p-19, 0x1.9D4B50264B6BFp-23, 0x1.43CCB18FEF4FCp-26, 0x1.360EF0C8397D5p-29, 0x1.5EE1D497EE090p-32, 0x1.CA2B9E17FC813p-35, 0x1.530423A35DB31p-37, 0x1.185C903D46B14p-39 },
-	{ 0x1.0B9B28172DB67p-3, 0x1.74524E09FCD15p-10, 0x1.848267B160DA6p-15, 0x1.51D591D1E4EA7p-19, 0x1.9B46C7C7DF06Dp-23, 0x1.41DE59914A5C4p-26, 0x1.33DFD01BAB3BDp-29, 0x1.5C0822E79FA2Fp-32, 0x1.C5F45A0CB5A2Fp-35, 0x1.4F88160953908p-37, 0x1.152DA2E60AF92p-39 }
-};
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/jacobi.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/jacobi.h
deleted file mode 100644
index 66935e1..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/jacobi.h
+++ /dev/null
@@ -1,18 +0,0 @@
-#ifndef JACOBI_H_
-#define JACOBI_H_
-
-/* (2i+1) / ((4i-1) * (4i+3)) for i = 1...100 */
-extern const double r2[100];
-
-/* ((4i-3) * (4i+1) * square(4i-1)) / (2i * (2i+1) * square(2i-1)) for i = 1...100 */
-extern const double sinv[100];
-
-extern const double csmall[16];
-
-/* (4i * (2i+1) - 1) / ((4i+3) * (4i-1)) for i = 0...99 */
-extern const double ajac[100];
-
-/* (4*square(i) * (4*square(i) - 4*i + 1)) / ((4i-3) * (4i+1) * square(4i-1)) for i = 1...99 */
-extern const double bjac[99];
-
-#endif // JACOBI_H_
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/jacobi_table.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/jacobi_table.c
deleted file mode 100644
index 09f7ebd..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/jacobi_table.c
+++ /dev/null
@@ -1,128 +0,0 @@
-#include "jacobi.h"
-
-/* (2i+1) / ((4i-1) * (4i+3)) for i = 1...100 */
-const double r2[100] = {
-	0x1.2492492492492p-3,  0x1.09F959C427E56p-4,  0x1.5B8A15B8A15B9p-5,  0x1.02B1DA46102B2p-5,
-	0x1.9C69723BC0BB7p-6,  0x1.56FB77230A4E5p-6,  0x1.259EBD04967AFp-6,  0x1.00B5349D9C6E7p-6,
-	0x1.C81C81C81C81Dp-7,  0x1.9A552E4107C91p-7,  0x1.74EA97C02888Dp-7,  0x1.55C2B25B35146p-7,
-	0x1.3B69F598813B7p-7,  0x1.24D78774857BAp-7,  0x1.11497CBA81E4Ep-7,  0x1.002E941AED9F9p-7,
-	0x1.E22FAE3357050p-8,  0x1.C75E153FCBB1Cp-8,  0x1.AF604ECF22171p-8,  0x1.99C9933A723CDp-8,
-	0x1.8641DEBEF1FF1p-8,  0x1.7481366BAD59Cp-8,  0x1.644C29D01644Cp-8,  0x1.557134C75B288p-8,
-	0x1.47C6C277739C5p-8,  0x1.3B29A603642F2p-8,  0x1.2F7BEA5C0965Dp-8,  0x1.24A3E35C97DAFp-8,
-	0x1.1A8B7068752DAp-8,  0x1.111F64F825A37p-8,  0x1.084F0E80E8D7Fp-8,  0x1.000BD148ACB54p-8,
-	0x1.F091AE8F82B32p-9,  0x1.E1F59ABEF7724p-9,  0x1.D42F580E1D98Bp-9,  0x1.C72D1266C2AEBp-9,
-	0x1.BADEE374A2570p-9,  0x1.AF3691A05673Ep-9,  0x1.A427590D53C12p-9,  0x1.99A5BCD9FB14Bp-9,
-	0x1.8FA75F38795B1p-9,  0x1.8622DF3C12407p-9,  0x1.7D0FBB6CE49DDp-9,  0x1.7466385F84D36p-9,
-	0x1.6C1F4AB06B293p-9,  0x1.643483DF0DFB5p-9,  0x1.5CA0019B02B3Cp-9,  0x1.555C5F27CA470p-9,
-	0x1.4E64A88ADB029p-9,  0x1.47B44F43B642Fp-9,  0x1.41472057EC29Fp-9,  0x1.3B193B85442BFp-9,
-	0x1.35270B732B9DAp-9,  0x1.2F6D3EC24E7FCp-9,  0x1.29E8C1DE1052Cp-9,  0x1.2496B977A5E6Bp-9,
-	0x1.1F747D95F8BEDp-9,  0x1.1A7F95285CEBDp-9,  0x1.15B5B20C922A8p-9,  0x1.1114AD7A9B5CCp-9,
-	0x1.0C9A84CABB745p-9,  0x1.0845568B69400p-9,  0x1.04135FDE56B07p-9,  0x1.0002FA14C4B4Ep-9,
-	0x1.F8253108A3E3Bp-10, 0x1.F0818D1C8C883p-10, 0x1.E9184BA82880Dp-10, 0x1.E1E6D928D1B49p-10,
-	0x1.DAEAC85957304p-10, 0x1.D421CF76945F7p-10, 0x1.CD89C5BF27265p-10, 0x1.C720A12884FB9p-10,
-	0x1.C0E47444507B4p-10, 0x1.BAD36C515EA5Ep-10, 0x1.B4EBCF7457B2Dp-10, 0x1.AF2BFB144D4FAp-10,
-	0x1.A992625801390p-10, 0x1.A41D8CC0ECFBEp-10, 0x1.9ECC14E167C4Ap-10, 0x1.999CA72B8AA8Fp-10,
-	0x1.948E00D6AFDF7p-10, 0x1.8F9EEED99EC6Ep-10, 0x1.8ACE4CF7A641Ap-10, 0x1.861B04DF11733p-10,
-	0x1.81840D5788F3Fp-10, 0x1.7D08697F149B9p-10, 0x1.78A7281490884p-10, 0x1.745F62CE83714p-10,
-	0x1.70303DBD5CF1Fp-10, 0x1.6C18E6B838A79p-10, 0x1.681894D356F39p-10, 0x1.642E87DF8E39Fp-10,
-	0x1.605A07F207B98p-10, 0x1.5C9A64F3A9D26p-10, 0x1.58EEF6379EE38p-10, 0x1.55571A1873F7Cp-10,
-	0x1.51D2359B5571Fp-10, 0x1.4E5FB418F9D6Cp-10, 0x1.4AFF06EBD3E09p-10, 0x1.47AFA5232D413p-10
-};
-
-/* ((4i-3) * (4i+1) * square(4i-1)) / (2i * (2i+1) * square(2i-1)) for i = 1...100 */
-const double sinv[100] = {
-	0x1.E000000000000p+2, 0x1.8800000000000p+3, 0x1.AF7390D2A6C40p+3, 0x1.C305397829CBCp+3,
-	0x1.CEDBA0269D90Ap+3, 0x1.D6D1F15A53003p+3, 0x1.DC8D179665B52p+3, 0x1.E0E07A13AD46Ep+3,
-	0x1.E44253C3841C5p+3, 0x1.E6FA103FDCFD2p+3, 0x1.E9356C055E797p+3, 0x1.EB13112195BA8p+3,
-	0x1.ECA855C8F2102p+3, 0x1.EE048926E579Dp+3, 0x1.EF32F0D6440E5p+3, 0x1.F03C08D0A7C6Ep+3,
-	0x1.F126535C1FFA8p+3, 0x1.F1F6E4397B898p+3, 0x1.F2B1C039B5166p+3, 0x1.F35A20612EE64p+3,
-	0x1.F3F2A202F7430p+3, 0x1.F47D69D758588p+3, 0x1.F4FC3DFCEE79Ap+3, 0x1.F5709985DCA45p+3,
-	0x1.F5DBBB5C829DFp+3, 0x1.F63EB1BE9E296p+3, 0x1.F69A632FD6BE8p+3, 0x1.F6EF9584CD996p+3,
-	0x1.F73EF37B9EA9Dp+3, 0x1.F7891137BFBE7p+3, 0x1.F7CE6FE11F543p+3, 0x1.F80F8096834FDp+3,
-	0x1.F84CA6D795974p+3, 0x1.F8863A828631Ap+3, 0x1.F8BC897AD2947p+3, 0x1.F8EFD909FDAC9p+3,
-	0x1.F9206707676B7p+3, 0x1.F94E6AD1AFC7Dp+3, 0x1.F97A1621F0A08p+3, 0x1.F9A395BF7358Bp+3,
-	0x1.F9CB12193CC4Bp+3, 0x1.F9F0AFC9C62CCp+3, 0x1.FA1490086C7DAp+3, 0x1.FA36D10B7AF01p+3,
-	0x1.FA578E5D33430p+3, 0x1.FA76E125CC015p+3, 0x1.FA94E06C07CF5p+3, 0x1.FAB1A14DC3354p+3,
-	0x1.FACD37319D8BDp+3, 0x1.FAE7B3F2B30F7p+3, 0x1.FB01280737B17p+3, 0x1.FB19A2A2A26E5p+3,
-	0x1.FB3131D3FE840p+3, 0x1.FB47E2A0E1D9Ap+3, 0x1.FB5DC11D75759p+3, 0x1.FB72D881ED640p+3,
-	0x1.FB87333DC05DCp+3, 0x1.FB9ADB08E47A0p+3, 0x1.FBADD8F34CD51p+3, 0x1.FBC03572DC23Cp+3,
-	0x1.FBD1F86FF95F4p+3, 0x1.FBE32950EDE64p+3, 0x1.FBF3CF042F74Fp+3, 0x1.FC03F009B40EAp+3,
-	0x1.FC13927B6A3FDp+3, 0x1.FC22BC14ECF12p+3, 0x1.FC31723A873F7p+3, 0x1.FC3FB9FF9A672p+3,
-	0x1.FC4D982C75BA8p+3, 0x1.FC5B1143AECA5p+3, 0x1.FC682987064EFp+3, 0x1.FC74E4FBE4FE3p+3,
-	0x1.FC81476F7A40Fp+3, 0x1.FC8D547A85A77p+3, 0x1.FC990F84D30DBp+3, 0x1.FCA47BC870865p+3,
-	0x1.FCAF9C54A46C6p+3, 0x1.FCBA7410A9504p+3, 0x1.FCC505BE34E48p+3, 0x1.FCCF53FBCE892p+3,
-	0x1.FCD96146F9A19p+3, 0x1.FCE32FFE37787p+3, 0x1.FCECC262E4178p+3, 0x1.FCF61A9AF128Fp+3,
-	0x1.FCFF3AB281AACp+3, 0x1.FD08249D68FDBp+3, 0x1.FD10DA388F9A9p+3, 0x1.FD195D4B3F86Ap+3,
-	0x1.FD21AF885A6CDp+3, 0x1.FD29D28F7B18Ep+3, 0x1.FD31C7EE03E86p+3, 0x1.FD3991201BA47p+3,
-	0x1.FD412F919A15Ap+3, 0x1.FD48A49EE587Ep+3, 0x1.FD4FF195C259Ap+3, 0x1.FD5717B6159A1p+3,
-	0x1.FD5E18329BA56p+3, 0x1.FD64F43193994p+3, 0x1.FD6BACCD606BCp+3, 0x1.FD724315205E3p+3
-};
-
-const double csmall[16] = {
-	-0.8888888888888889e-1,  0.2902494331065760e-2,
-	-0.6150655501304852e-4,  0.9697564430413280e-6,
-	-0.1218995971140662e-7,  0.1274629327641546e-9,
-	-0.1141203534061737e-11, 0.8934294807029541e-14,
-	-0.6214538312345874e-16, 0.3889208875361482e-18,
-	-0.2212173840910540e-20, 0.1153219167688572e-22,
-	-0.5548593532844672e-25, 0.2478690843269028e-27,
-	-0.1033382005056540e-29, 0.4038684854215214e-32
-};
-
-/* (4i * (2i+1) - 1) / ((4i+3) * (4i-1)) for i = 0...99 */
-const double ajac[100] = {
-	0x1.5555555555555p-2, 0x1.0C30C30C30C31p-1, 0x1.03531DEC0D4C7p-1, 0x1.018D3018D3019p-1,
-	0x1.00E5F36CB00E6p-1, 0x1.0095F7CC72D1Cp-1, 0x1.006988736D3E4p-1, 0x1.004E4C76ABE3Ep-1,
-	0x1.003C66DF3424Dp-1, 0x1.0030030030030p-1, 0x1.0027144D8C49Ep-1, 0x1.00206D715E9F6p-1,
-	0x1.001B574177EFCp-1, 0x1.00175D2EA3001p-1, 0x1.0014322CA6EECp-1, 0x1.0011A1A4F3423p-1,
-	0x1.000F86B3A48A8p-1, 0x1.000DC6D91768Ep-1, 0x1.000C4EA6A0DC0p-1, 0x1.000B0F98FEBF4p-1,
-	0x1.0009FEAC2D220p-1, 0x1.000913646F9A7p-1, 0x1.0008472357B9Ep-1, 0x1.000794AF30008p-1,
-	0x1.0006F7DC8174Dp-1, 0x1.00066D4F1B70Bp-1, 0x1.0005F24B95CCCp-1, 0x1.000584948D4F5p-1,
-	0x1.0005225056F53p-1, 0x1.0004C9F4E365Dp-1, 0x1.00047A38366DCp-1, 0x1.000432044B306p-1,
-	0x1.0003F06D8EE71p-1, 0x1.0003B4AB55217p-1, 0x1.00037E11D126Ep-1, 0x1.00034C0D3D653p-1,
-	0x1.00031E1DEF2B7p-1, 0x1.0002F3D5249E2p-1, 0x1.0002CCD26671Ap-1, 0x1.0002A8C15FADEp-1,
-	0x1.00028758144F0p-1, 0x1.000268556494Cp-1, 0x1.00024B7FCEA8Cp-1, 0x1.000230A463335p-1,
-	0x1.00021795E3C5Cp-1, 0x1.0002002C03C85p-1, 0x1.0001EA42C6043p-1, 0x1.0001D5B9F1FEBp-1,
-	0x1.0001C2749D3C7p-1, 0x1.0001B058C53A0p-1, 0x1.00019F4EF776Cp-1, 0x1.00018F420565Dp-1,
-	0x1.0001801EC2769p-1, 0x1.000171D3CAB4Dp-1, 0x1.0001645150BEAp-1, 0x1.00015788F2026p-1,
-	0x1.00014B6D90635p-1, 0x1.00013FF330835p-1, 0x1.0001350EDC11Ep-1, 0x1.00012AB687951p-1,
-	0x1.000120E0FB37Ap-1, 0x1.00011785BE38Fp-1, 0x1.00010E9D04A75p-1, 0x1.0001061F9F1C9p-1,
-	0x1.0000FE06EC3C5p-1, 0x1.0000F64CCBBDEp-1, 0x1.0000EEEB92D21p-1, 0x1.0000E7DE01BBDp-1,
-	0x1.0000E11F3A780p-1, 0x1.0000DAAAB8555p-1, 0x1.0000D47C48616p-1, 0x1.0000CE9002927p-1,
-	0x1.0000C8E24399Dp-1, 0x1.0000C36FA74CCp-1, 0x1.0000BE350392Ap-1, 0x1.0000B92F63CB9p-1,
-	0x1.0000B45C04A27p-1, 0x1.0000AFB8503ECp-1, 0x1.0000AB41DACDDp-1, 0x1.0000A6F65F592p-1,
-	0x1.0000A2D3BCE33p-1, 0x1.00009ED7F3C3Dp-1, 0x1.00009B01233D2p-1, 0x1.0000974D8744Ep-1,
-	0x1.000093BB767BEp-1, 0x1.000090496050Bp-1, 0x1.00008CF5CB483p-1, 0x1.000089BF53699p-1,
-	0x1.000086A4A8C9Fp-1, 0x1.000083A48E356p-1, 0x1.000080BDD7F1Fp-1, 0x1.00007DEF6A9B1p-1,
-	0x1.00007B383A134p-1, 0x1.0000789748899p-1, 0x1.0000760BA5923p-1, 0x1.000073946D4EFp-1,
-	0x1.00007130C7A8Ap-1, 0x1.00006EDFE7957p-1, 0x1.00006CA10A6D8p-1, 0x1.00006A73774A9p-1
-};
-
-/* (4*square(i) * (4*square(i) - 4*i + 1)) / ((4i-3) * (4i+1) * square(4i-1)) for i = 1...99 */
-const double bjac[99] = {
-	0x1.6C16C16C16C17p-4, 0x1.0B7E6EC259DC8p-4, 0x1.0464E7198D19Ep-4, 0x1.02526768B8CDDp-4,
-	0x1.016FA82F87C49p-4, 0x1.00F9E59CFEEE1p-4, 0x1.00B4E9B7F8C3Fp-4, 0x1.008908584C2DDp-4,
-	0x1.006B6452F6180p-4, 0x1.00566E3610FB5p-4, 0x1.00470F9A1BF70p-4, 0x1.003B74DFB78A8p-4,
-	0x1.00327AF157606p-4, 0x1.002B64E5A9631p-4, 0x1.0025B3C89B75Ap-4, 0x1.00210FB8EB097p-4,
-	0x1.001D3A4FE07D8p-4, 0x1.001A064059CE5p-4, 0x1.00175202082FAp-4, 0x1.00150454900F2p-4,
-	0x1.001309E8D9540p-4, 0x1.001153C6C30C7p-4, 0x1.000FD62E64AE5p-4, 0x1.000E87CC186C8p-4,
-	0x1.000D612512D21p-4, 0x1.000C5C2B4ACE2p-4, 0x1.000B73ED270E5p-4, 0x1.000AA45913201p-4,
-	0x1.0009EA0F8A737p-4, 0x1.0009423FC6201p-4, 0x1.0008AA8C54518p-4, 0x1.000820F5A2D0Fp-4,
-	0x1.0007A3C90E2C6p-4, 0x1.00073193674CFp-4, 0x1.0006C916264A6p-4, 0x1.0006693EB33EDp-4,
-	0x1.0006111F5269Ep-4, 0x1.0005BFE95BEE4p-4, 0x1.000574E87B91Cp-4, 0x1.00052F7EC4065p-4,
-	0x1.0004EF216CB4Ap-4, 0x1.0004B35619BE8p-4, 0x1.00047BB094A83p-4, 0x1.000447D0E14A9p-4,
-	0x1.000417619EBC8p-4, 0x1.0003EA16A7106p-4, 0x1.0003BFABE341Ap-4, 0x1.000397E44AAB9p-4,
-	0x1.0003728906F69p-4, 0x1.00034F68B6ADEp-4, 0x1.00032E56C9B4Cp-4, 0x1.00030F2AF3A4Bp-4,
-	0x1.0002F1C0B0C9Fp-4, 0x1.0002D5F6DAFFBp-4, 0x1.0002BBAF4C1F7p-4, 0x1.0002A2CE8C153p-4,
-	0x1.00028B3B88F7Dp-4, 0x1.000274DF57C59p-4, 0x1.00025FA4FC9A4p-4, 0x1.00024B793960Ap-4,
-	0x1.0002384A62264p-4, 0x1.000226083658Dp-4, 0x1.000214A3BE4D7p-4, 0x1.0002040F2C89Ap-4,
-	0x1.0001F43DC257Cp-4, 0x1.0001E523B7411p-4, 0x1.0001D6B623156p-4, 0x1.0001C8EAEA33Ap-4,
-	0x1.0001BBB8ABD07p-4, 0x1.0001AF16B200Fp-4, 0x1.0001A2FCE3573p-4, 0x1.00019763B5E31p-4,
-	0x1.00018C4423715p-4, 0x1.000181979EE67p-4, 0x1.000177580A96Bp-4, 0x1.00016D7FAF816p-4,
-	0x1.0001640935577p-4, 0x1.00015AEF9B38Bp-4, 0x1.0001522E3114Ep-4, 0x1.000149C091A17p-4,
-	0x1.000141A29CD36p-4, 0x1.000139D072D29p-4, 0x1.000132466F58Cp-4, 0x1.00012B0125740p-4,
-	0x1.000123FD5BA15p-4, 0x1.00011D380838Fp-4, 0x1.000116AE4E23Ep-4, 0x1.0001105D79D41p-4,
-	0x1.00010A42FE79Ap-4, 0x1.0001045C736F7p-4, 0x1.0000FEA791DA7p-4, 0x1.0000F9223276Fp-4,
-	0x1.0000F3CA4B903p-4, 0x1.0000EE9DEF1EDp-4, 0x1.0000E99B490A6p-4, 0x1.0000E4C09D8B8p-4,
-	0x1.0000E00C47ABFp-4, 0x1.0000DB7CB7E1Ap-4, 0x1.0000D71072C37p-4
-};
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_1rw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_1rw.c
deleted file mode 100644
index 4aa8763..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_1rw.c
+++ /dev/null
@@ -1,130 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <assert.h>
-#include <math.h>
-
-#define MAX(a,b)    ((a) < (b) ? (b) : (a))
-#define MIN(a,b)    ((a) > (b) ? (b) : (a))
-
-void rys_1rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]) {
-  int jump1[34] =
-    { 1, 2, 2, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6,
-      6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7
-    };
-
-  double e;
-  int n;
-  double t, x, f1, r1, w1;
-  int tcase;
-  
-  for (n = 0; n < nt; ++n) {
-    t = tval[n];
-
-    if (t <= 3e-7) {
-      r1 = .5 - t * .2;
-      wts[n] *= 1. - t * .333333333333333;
-      rts[n] = r1 / (r1 + 1.);
-      goto L100;
-    }
-    tcase = (int) MIN ((t + 1.0), 34.);
-
-    switch (jump1[tcase - 1])
-      {
-      case 1:
-	goto L1100;
-      case 2:
-	goto L1200;
-      case 3:
-	goto L1300;
-      case 4:
-	goto L1400;
-      case 5:
-	goto L1500;
-      case 6:
-	goto L1600;
-      case 7:
-	goto L1700;
-      }
-
-  L1100:
-    f1 = ((((((((t * -8.36313918003957e-8 + 1.21222603512827e-6) * t -
-		1.15662609053481e-5) * t + 9.25197374512647e-5) * t -
-	      6.40994113129432e-4) * t + .00378787044215009) * t -
-	    .0185185172458485) * t + .0714285713298222) * t -
-	  .199999999997023) * t + .333333333333318;
-    w1 = (t + t) * f1 + exp (-t);
-    r1 = f1 / (w1 - f1);
-    wts[n] *= w1;
-    rts[n] = r1 / (r1 + 1.);
-    goto L100;
-
-  L1200:
-    x = t - 2.;
-    f1 = ((((((((((x * -1.61702782425558e-10 + 1.96215250865776e-9) * x -
-		  2.14234468198419e-8) * x + 2.17216556336318e-7) * x -
-		1.98850171329371e-6) * x + 1.62429321438911e-5) * x -
-	      1.16740298039895e-4) * x + 7.24888732052332e-4) * x -
-	    .00379490003707156) * x + .0161723488664661) * x -
-	  .0529428148329736) * x + .115702180856167;
-    w1 = (t + t) * f1 + exp (-t);
-    r1 = f1 / (w1 - f1);
-    wts[n] *= w1;
-    rts[n] = r1 / (r1 + 1.);
-    goto L100;
-
-  L1300:
-    x = t - 4.;
-    f1 = ((((((((((x * -2.62453564772299e-11 + 3.24031041623823e-10) * x
-		  - 3.614965656163e-9) * x + 3.760256799971e-8) * x -
-		3.553558319675e-7) * x + 3.022556449731e-6) * x -
-	      2.290098979647e-5) * x + 1.526537461148e-4) * x -
-	    8.81947375894379e-4) * x + .00433207949514611) * x -
-	  .0175257821619926) * x + .0528406320615584;
-    w1 = (t + t) * f1 + exp (-t);
-    r1 = f1 / (w1 - f1);
-    wts[n] *= w1;
-    rts[n] = r1 / (r1 + 1.);
-    goto L100;
-
-  L1400:
-    e = exp (-t);
-    x = 1. / t;
-    w1 = ((((((x * .46897511375022 - .69955602298985) * x +
-	      .53689283271887) * x - .32883030418398) * x +
-	    .24645596956002) * x - .49984072848436) * x -
-	  3.1501078774085e-6) * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) / (t + t);
-    r1 = f1 / (w1 - f1);
-    wts[n] *= w1;
-    rts[n] = r1 / (r1 + 1.);
-    goto L100;
-
-  L1500:
-    e = exp (-t);
-    x = 1. / t;
-    w1 = (((x * -.18784686463512 + .22991849164985) * x - .49893752514047)
-	  * x - 2.1916512131607e-5) * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) / (t + t);
-    r1 = f1 / (w1 - f1);
-    wts[n] *= w1;
-    rts[n] = r1 / (r1 + 1.);
-    goto L100;
-
-  L1600:
-    e = exp (-t);
-    x = 1. / t;
-    w1 = ((x * .1962326414943 - .4969524146449) * x - 6.0156581186481e-5)
-      * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) / (t + t);
-    r1 = f1 / (w1 - f1);
-    wts[n] *= w1;
-    rts[n] = r1 / (r1 + 1.);
-    goto L100;
-
-  L1700:
-    wts[n] *= sqrt (.785398163397448 / t);
-    rts[n] = .5 / t;
-  L100:
-    ;
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_1rw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_1rw.h
deleted file mode 100644
index c98f102..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_1rw.h
+++ /dev/null
@@ -1,6 +0,0 @@
-#ifndef RYS_1RW_H_
-#define RYS_1RW_H_
-
-void rys_1rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_2rw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_2rw.c
deleted file mode 100644
index 78459eb..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_2rw.c
+++ /dev/null
@@ -1,253 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <assert.h>
-#include <math.h>
-
-#define MAX(a,b)    ((a) < (b) ? (b) : (a))
-#define MIN(a,b)    ((a) > (b) ? (b) : (a))
-
-void rys_2rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]) {
-  int jump2[41] =
-    { 1, 2, 2, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6,
-      6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 8
-    };
-
-  double e;
-  int m, n;
-  double t, x, y, f1, r1, r2, w1, w2;
-  int tcase;
-
-  m = 0;
-  for (n = 0; n < nt; ++n) {
-    t = tval[n];
-    if (t <= 3e-7) {
-      r1 = .130693606237085 - t * .0290430236082028;
-      r2 = 2.86930639376291 - t * .637623643058102;
-      wts[m] *= .652145154862545 - t * .122713621927067;
-      wts[m + 1] *= .347854845137453 - t * .210619711404725;
-      rts[m] = r1 / (r1 + 1.);
-      rts[m + 1] = r2 / (r2 + 1.);
-      m += 2;
-      goto L200;
-    }
-
-    tcase = (int) MIN ((t + 1.0), 41.);
-    switch (jump2[tcase - 1])
-      {
-      case 1:
-	goto L2100;
-      case 2:
-	goto L2200;
-      case 3:
-	goto L2300;
-      case 4:
-	goto L2400;
-      case 5:
-	goto L2500;
-      case 6:
-	goto L2600;
-      case 7:
-	goto L2700;
-      case 8:
-	goto L2800;
-      }
-
-  L2100:
-    f1 = ((((((((t * -8.36313918003957e-8 + 1.21222603512827e-6) * t -
-		1.15662609053481e-5) * t + 9.25197374512647e-5) * t -
-	      6.40994113129432e-4) * t + .00378787044215009) * t -
-	    .0185185172458485) * t + .0714285713298222) * t -
-	  .199999999997023) * t + .333333333333318;
-    w1 = (t + t) * f1 + exp(-t);
-    r1 = (((((((t * -2.35234358048491e-9 + 2.49173650389842e-8) * t -
-	       4.558315364581e-8) * t - 2.447252174587e-6) * t +
-	     4.743292959463e-5) * t - 5.33184749432408e-4) * t +
-	   .00444654947116579) * t - .0290430236084697) * t +
-      .130693606237085;
-    r2 = (((((((t * -2.4740490232917e-8 + 2.36809910635906e-7) * t +
-	       1.83536773631e-6) * t - 2.066168802076e-5) * t -
-	     1.345693393936e-4) * t - 5.88154362858038e-5) * t +
-	   .0532735082098139) * t - .637623643056745) * t +
-      2.86930639376289;
-    w2 = ((f1 - w1) * r1 + f1) * (r2 + 1.) / (r2 - r1);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2200:
-    x = t - 2.;
-    f1 = ((((((((((x * -1.61702782425558e-10 + 1.96215250865776e-9) * x -
-		  2.14234468198419e-8) * x + 2.17216556336318e-7) * x -
-		1.98850171329371e-6) * x + 1.62429321438911e-5) * x -
-	      1.16740298039895e-4) * x + 7.24888732052332e-4) * x -
-	    .00379490003707156) * x + .0161723488664661) * x -
-	  .0529428148329736) * x + .115702180856167;
-    w1 = (t + t) * f1 + exp(-t);
-    r1 = (((((((((x * -6.36859636616415e-12 + 8.4741706477627e-11) * x -
-		 5.152207846962e-10) * x - 3.846389873308e-10) * x +
-	       8.47225338838e-8) * x - 1.85306035634293e-6) * x +
-	     2.47191693238413e-5) * x - 2.49018321709815e-4) * x +
-	   .00219173220020161) * x - .0163329339286794) * x +
-      .0868085688285261;
-    r2 = (((((((((x * 1.45331350488343e-10 + 2.07111465297976e-9) * x -
-		 1.878920917404e-8) * x - 1.725838516261e-7) * x +
-	       2.247389642339e-6) * x + 9.76783813082564e-6) * x -
-	     1.93160765581969e-4) * x - .00158064140671893) * x +
-	   .0485928174507904) * x - .430761584997596) * x +
-      1.8040097453795;
-    w2 = ((f1 - w1) * r1 + f1) * (r2 + 1.) / (r2 - r1);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2300:
-    x = t - 4.;
-    f1 = ((((((((((x * -2.62453564772299e-11 + 3.24031041623823e-10) * x
-		  - 3.614965656163e-9) * x + 3.760256799971e-8) * x -
-		3.553558319675e-7) * x + 3.022556449731e-6) * x -
-	      2.290098979647e-5) * x + 1.526537461148e-4) * x -
-	    8.81947375894379e-4) * x + .00433207949514611) * x -
-	  .0175257821619926) * x + .0528406320615584;
-    w1 = (t + t) * f1 + exp(-t);
-    r1 = ((((((((x * -4.11560117487296e-12 + 7.10910223886747e-11) * x -
-		1.73508862390291e-9) * x + 5.93066856324744e-8) * x -
-	      9.76085576741771e-7) * x + 1.08484384385679e-5) * x -
-	    1.12608004981982e-4) * x + .00116210907653515) * x -
-	  .00989572595720351) * x + .0612589701086408;
-    r2 = (((((((((x * -1.80555625241001e-10 + 5.44072475994123e-10) * x +
-		 1.60349804524e-8) * x - 1.497986283037e-7) * x -
-	       7.017002532106e-7) * x + 1.85882653064034e-5) * x -
-	     2.04685420150802e-5) * x - .00249327728643089) * x +
-	   .0356550690684281) * x - .260417417692375) * x +
-      1.12155283108289;
-    w2 = ((f1 - w1) * r1 + f1) * (r2 + 1.) / (r2 - r1);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2400:
-    e = exp(-t);
-    x = 1. / t;
-    y = t - 7.5;
-    w1 = ((((((x * .46897511375022 - .69955602298985) * x +
-	      .53689283271887) * x - .32883030418398) * x +
-	    .24645596956002) * x - .49984072848436) * x -
-	  3.1501078774085e-6) * e + sqrt(x * .785398163397448);
-    f1 = (w1 - e) / (t + t);
-    r1 = (((((((((((((y * -1.43632730148572e-16 + 2.38198922570405e-16) *
-		     y + 1.3583196188e-14) * y - 7.064522786879e-14) * y -
-		   7.719300212748e-13) * y + 7.802544789997e-12) * y +
-		 6.628721099436e-11) * y - 1.775564159743e-9) * y +
-	       1.71382882399e-8) * y - 1.497500187053e-7) * y +
-	     2.283485114279e-6) * y - 3.76953869614706e-5) * y +
-	   4.74791204651451e-4) * y - .00460448960876139) * y +
-      .0372458587837249;
-    r2 = ((((((((((((y * 2.487916227989e-14 - 1.36113510175724e-13) * y -
-		    2.224334349799e-12) * y + 4.190559455515e-11) * y -
-		  2.222722579924e-10) * y - 2.624183464275e-9) * y +
-		6.128153450169e-8) * y - 4.383376014528e-7) * y -
-	      2.4995220023291e-6) * y + 1.0323664788832e-4) * y -
-	    .00144614664924989) * y + .0135094294917224) * y -
-	  .0953478510453887) * y + .54476524568679;
-    w2 = ((f1 - w1) * r1 + f1) * (r2 + 1.) / (r2 - r1);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2500:
-    e = exp(-t);
-    x = 1. / t;
-    w1 = (((x * -.18784686463512 + .22991849164985) * x - .49893752514047)
-	  * x - 2.1916512131607e-5) * e + sqrt(x * .785398163397448);
-    f1 = (w1 - e) / (t + t);
-    r1 = ((((t * -1.01041157064226e-5 + .00119483054115173) * t -
-	    .0673760231824074) * t + 1.25705571069895) * t + (((x *
-								-8576.09422987199
-								+
-								5910.05939591842)
-							       * x -
-							       1708.07677109425)
-							      * x +
-							      264.536689959503)
-	  * x - 23.8570496490846) * e + .275255128608411 / (t -
-							    .275255128608411);
-    r2 = (((t * 3.39024225137123e-4 - .0934976436343509) * t -
-	   4.2221648330632) * t +
-	  (((x * -2084.57050986847 - 1049.99071905664) * x +
-	    339.891508992661) * x - 156.184800325063) * x +
-	  8.00839033297501) * e + 2.72474487139158 / (t -
-						      2.72474487139158);
-    w2 = ((f1 - w1) * r1 + f1) * (r2 + 1.) / (r2 - r1);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2600:
-    e = exp(-t);
-    x = 1. / t;
-    w1 = ((x * .1962326414943 - .4969524146449) * x - 6.0156581186481e-5)
-      * e + sqrt(x * .785398163397448);
-    f1 = (w1 - e) / (t + t);
-    r1 = ((((t * -1.14906395546354e-6 + 1.76003409708332e-4) * t -
-	    .0171984023644904) * t - .137292644149838) * t + (x *
-							      -47.5742064274859
-							      +
-							      9.21005186542857)
-	  * x - .0231080873898939) * e + .275255128608411 / (t -
-							     .275255128608411);
-    r2 = (((t * 3.64921633404158e-4 - .0971850973831558) * t -
-	   4.02886174850252) * t + (x * -135.831002139173 -
-				    86.6891724287962) * x +
-	  2.98011277766958) * e + 2.72474487139158 / (t -
-						      2.72474487139158);
-    w2 = ((f1 - w1) * r1 + f1) * (r2 + 1.) / (r2 - r1);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2700:
-    e = exp(-t);
-    w1 = sqrt(.785398163397448 / t);
-    w2 = (t * 4.468573893084 - 77.9250653461045) * e + w1 *
-      .0917517095361369;
-    r1 = (t * -.87894730749888 + 10.9243702330261) * e + .275255128608411
-      / (t - .275255128608411);
-    r2 = (t * -9.28903924275977 + 81.0642367843811) * e +
-      2.72474487139158 / (t - 2.72474487139158);
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    m += 2;
-    goto L200;
-
-  L2800:
-    w1 = sqrt(.785398163397448 / t);
-    w2 = w1 * .0917517095361369;
-    wts[m] *= w1 - w2;
-    wts[m + 1] *= w2;
-    rts[m] = .275255128608411 / t;
-    rts[m + 1] = 2.72474487139158 / t;
-    m += 2;
-  L200:
-    ;
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_2rw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_2rw.h
deleted file mode 100644
index 309c3ec..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_2rw.h
+++ /dev/null
@@ -1,6 +0,0 @@
-#ifndef RYS_2RW_H_
-#define RYS_2RW_H_
-
-void rys_2rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_3rw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_3rw.c
deleted file mode 100644
index 299073c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_3rw.c
+++ /dev/null
@@ -1,398 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <assert.h>
-#include <math.h>
-
-#define MAX(a,b)    ((a) < (b) ? (b) : (a))
-#define MIN(a,b)    ((a) > (b) ? (b) : (a))
-
-void rys_3rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]) {
-  int jump3[48] =
-    { 1, 2, 2, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 7, 7,
-      7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8,
-      8, 8, 9
-    };
-
-  double e;
-  int m, n;
-  double t, x, y, z__, a1, a2, f1, f2, r1, r2, r3, t1, t2, t3,
-    w1, w2, w3;
-  int tcase;
-
-  m = 0;
-  for (n = 0; n < nt; ++n) {
-    t = tval[n];
-    if (t <= 3e-7) {
-      r1 = .0603769246832797 - t * .00928875764357368;
-      r2 = .776823355931043 - t * .119511285527878;
-      r3 = 6.66279971938567 - t * 1.02504611068957;
-      wts[m] *= .467913934572691 - t * .0564876917232519;
-      wts[m + 1] *= .360761573048137 - t * .149077186455208;
-      wts[m + 2] *= .171324492379169 - t * .127768455150979;
-      rts[m] = r1 / (r1 + 1.);
-      rts[m + 1] = r2 / (r2 + 1.);
-      rts[m + 2] = r3 / (r3 + 1.);
-      m += 3;
-      goto L300;
-    }
-        
-    tcase = (int) MIN ((t + 1.0), 48.0);
-    switch (jump3[tcase - 1])
-      {
-      case 1:
-	goto L3100;
-      case 2:
-	goto L3200;
-      case 3:
-	goto L3300;
-      case 4:
-	goto L3400;
-      case 5:
-	goto L3500;
-      case 6:
-	goto L3600;
-      case 7:
-	goto L3700;
-      case 8:
-	goto L3800;
-      case 9:
-	goto L3900;
-      }
-
-  L3100:
-    e = exp (-t);
-    f2 = ((((((((t * -7.6091148609885e-8 + 1.09552870123182e-6) * t -
-		1.03463270693454e-5) * t + 8.16324851790106e-5) * t -
-	      5.55526624875562e-4) * t + .00320512054753924) * t -
-	    .015151513983854) * t + .0555555554649585) * t -
-	  .142857142854412) * t + .199999999999986;
-    f1 = ((t + t) * f2 + e) * .333333333333333;
-    w1 = (t + t) * f1 + e;
-    r1 = ((((((t * -5.1018669153887e-10 + 2.4013441570345e-8) * t -
-	      5.01081057744427e-7) * t + 7.58291285499256e-6) * t -
-	    9.55085533670919e-5) * t + .00102893039315878) * t -
-	  .00928875764374337) * t + .060376924683281;
-    r2 = ((((((t * -1.29646524960555e-8 + 7.74602292865683e-8) * t +
-	      1.56022811158727e-6) * t - 1.58051990661661e-5) * t -
-	    3.30447806384059e-4) * t + .00974266885190267) * t -
-	  .119511285526388) * t + .776823355931033;
-    r3 = ((((((t * -9.28536484109606e-9 - 3.02786290067014e-7) * t -
-	      2.507344770642e-6) * t - 7.32728109752881e-6) * t +
-	    2.44217481700129e-4) * t + .0494758452357327) * t -
-	  1.02504611065774) * t + 6.66279971938553;
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3200:
-    e = exp (-t);
-    x = t - 2.;
-    f2 = ((((((((((x * -1.4804423107214e-10 + 1.78157031325097e-9) * x -
-		  1.92514145088973e-8) * x + 1.92804632038796e-7) * x -
-		1.73806555021045e-6) * x + 1.39195169625425e-5) * x -
-	      9.74574633246452e-5) * x + 5.83701488646511e-4) * x -
-	    .00289955494844975) * x + .011384700111381) * x -
-	  .0323446977320647) * x + .0529428148329709;
-    f1 = ((t + t) * f2 + e) * .333333333333333;
-    w1 = (t + t) * f1 + e;
-    r1 = ((((((((x * 1.44687969563318e-12 + 4.85300143926755e-12) * x -
-		6.55098264095516e-10) * x + 1.56592951656828e-8) * x -
-	      2.60122498274734e-7) * x + 3.86118485517386e-6) * x -
-	    5.13430986707889e-5) * x + 6.03194524398109e-4) * x -
-	  .0061121934982509) * x + .0452578254679079;
-    r2 = (((((((x * 6.95964248788138e-10 - 5.35281831445517e-9) * x -
-	       6.745205954533e-8) * x + 1.502366784525e-6) * x +
-	     9.923326947376e-7) * x - 3.89147469249594e-4) * x +
-	   .00751549330892401) * x - .08487781203634) * x +
-      .573928229597613;
-    r3 = ((((((((x * -2.81496588401439e-10 + 3.61058041895031e-9) * x +
-		4.53631789436255e-8) * x - 1.40971837780847e-7) * x -
-	      6.05865557561067e-6) * x - 5.15964042227127e-5) * x +
-	    3.34761560498171e-5) * x + .0504871005319119) * x -
-	  .824708946991557) * x + 4.81234667357205;
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3300:
-    e = exp (-t);
-    x = t - 4.;
-    f2 = ((((((((((x * -2.36788772599074e-11 + 2.89147476459092e-10) * x
-		  - 3.18111322308846e-9) * x + 3.25336816562485e-8) * x -
-		3.00873821471489e-7) * x + 2.48749160874431e-6) * x -
-	      1.81353179793672e-5) * x + 1.14504948737066e-4) * x -
-	    6.10614987696677e-4) * x + .00264584212770942) * x -
-	  .00866415899015349) * x + .0175257821619922;
-    f1 = ((t + t) * f2 + e) * .333333333333333;
-    w1 = (t + t) * f1 + e;
-    r1 = (((((((x * 1.44265709189601e-11 - 4.66622033006074e-10) * x +
-	       7.649155832025e-9) * x - 1.229940017368e-7) * x +
-	     2.026002142457e-6) * x - 2.87048671521677e-5) * x +
-	   3.70326938096287e-4) * x - .00421006346373634) * x +
-      .0350898470729044;
-    r2 = ((((((((x * -2.65526039155651e-11 + 1.97549041402552e-10) * x +
-		2.15971131403034e-9) * x - 7.95045680685193e-8) * x +
-	      5.15021914287057e-7) * x + 1.11788717230514e-5) * x -
-	    3.33739312603632e-4) * x + .00530601428208358) * x -
-	  .0593483267268959) * x + .431180523260239;
-    r3 = ((((((((x * -3.92833750584041e-10 - 4.1642322978228e-9) * x +
-		4.42413039572867e-8) * x + 6.40574545989551e-7) * x -
-	      3.05512456576552e-6) * x - 1.05296443527943e-4) * x -
-	    6.14120969315617e-4) * x + .0489665802767005) * x -
-	  .624498381002855) * x + 3.36412312243724;
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3400:
-    e = exp (-t);
-    x = 1. / t;
-    y = t - 7.5;
-    z__ = x * .5;
-    w1 = ((((((x * .46897511375022 - .69955602298985) * x +
-	      .53689283271887) * x - .32883030418398) * x +
-	    .24645596956002) * x - .49984072848436) * x -
-	  3.1501078774085e-6) * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) * z__;
-    f2 = (f1 + f1 + f1 - e) * z__;
-    r1 = (((((((((((y * 5.74429401360115e-16 + 7.11884203790984e-16) * y
-		   - 6.736701449826e-14) * y - 6.264613873998e-13) * y +
-		 1.31541892704e-11) * y - 4.23879635610964e-11) * y +
-	       1.39032379769474e-9) * y - 4.65449552856856e-8) * y +
-	     7.34609900170759e-7) * y - 1.08656008854077e-5) * y +
-	   1.77930381549953e-4) * y - .00239864911618015) * y +
-      .0239112249488821;
-    r2 = (((((((((((y * 1.1346409620912e-14 + 6.99375313934242e-15) * y -
-		   8.595618132088e-13) * y - 5.293620408757e-12) * y -
-		 2.492175211635e-11) * y + 2.73681574882729e-9) * y -
-	       1.06656985608482e-8) * y - 4.40252529648056e-7) * y +
-	     9.68100917793911e-6) * y - 1.68211091755327e-4) * y +
-	   .00269443611274173) * y - .0323845035189063) * y +
-      .275969447451882;
-    r3 = ((((((((((((y * 6.66339416996191e-15 + 1.84955640200794e-13) * y
-		    - 1.985141104444e-12) * y - 2.309293727603e-11) * y +
-		  3.917984522103e-10) * y + 1.663165279876e-9) * y -
-		6.205591993923e-8) * y + 8.769581622041e-9) * y +
-	      8.97224398620038e-6) * y - 3.14232666170796e-5) * y -
-	    .00183917335649633) * y + .0351246831672571) * y -
-	  .32233505127086) * y + 1.7358283175543;
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3500:
-    e = exp (-t);
-    x = 1. / t;
-    y = t - 12.5;
-    z__ = x * .5;
-    w1 = (((x * -.18784686463512 + .22991849164985) * x - .49893752514047)
-	  * x - 2.1916512131607e-5) * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) * z__;
-    f2 = (f1 + f1 + f1 - e) * z__;
-    r1 = (((((((((((y * 4.4213300128309e-16 - 2.77189767070441e-15) * y -
-		   4.084026087887e-14) * y + 5.379885121517e-13) * y +
-		 1.882093066702e-12) * y - 8.67286219861085e-11) * y +
-	       7.11372337079797e-10) * y - 3.55578027040563e-9) * y +
-	     1.29454702851936e-7) * y - 4.14222202791434e-6) * y +
-	   8.04427643593792e-5) * y - .00118587782909876) * y +
-      .0153435577063174;
-    r2 = (((((((((((y * 6.85146742119357e-15 - 1.08257654410279e-14) * y
-		   - 8.579165965128e-13) * y + 6.642452485783e-12) * y +
-		 4.798806828724e-11) * y - 1.13413908163831e-9) * y +
-	       7.08558457182751e-9) * y - 5.59678576054633e-8) * y +
-	     2.51020389884249e-6) * y - 6.63678914608681e-5) * y +
-	   .00111888323089714) * y - .0145361636398178) * y +
-      .165077877454402;
-    r3 = ((((((((((((y * 3.20622388697743e-15 - 2.73458804864628e-14) * y
-		    - 3.157134329361e-13) * y + 8.654129268056e-12) * y -
-		  5.625235879301e-11) * y - 7.718080513708e-10) * y +
-		2.064664199164e-8) * y - 1.567725007761e-7) * y -
-	      1.57938204115055e-6) * y + 6.27436306915967e-5) * y -
-	    .00101308723606946) * y + .0113901881430697) * y -
-	  .10144965289945) * y + .777203937334739;
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3600:
-    e = exp (-t);
-    x = 1. / t;
-    z__ = x * .5;
-    w1 = ((x * .1962326414943 - .4969524146449) * x - 6.0156581186481e-5)
-      * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) * z__;
-    f2 = (f1 + f1 + f1 - e) * z__;
-    r1 = ((((((t * -2.43270989903742e-6 + 3.57901398988359e-4) * t -
-	      .0234112415981143) * t + .781425144913975) * t -
-	    17.3209218219175) * t + 243.517435690398) * t + (x *
-							     -19761.1541576986
-							     +
-							     9824.41363463929)
-	  * x - 2079.70687843258) * e + .190163509193487 / (t -
-							    .190163509193487);
-    r2 = (((((t * -2.62627010965435e-4 + .0349187925428138) * t -
-	     3.0933761873188) * t + 107.037141010778) * t -
-	   2366.59637247087) * t + ((x * -2916691.1368102 +
-				     1411295.05262758) * x -
-				    291532.335433779) * x +
-	  33520.2872835409) * e + 1.78449274854325 / (t -
-						      1.78449274854325);
-    r3 = (((((t * 9.31856404738601e-5 - .0287029400759565) * t -
-	     .783503697918455) * t - 18.4338896480695) * t +
-	   404.996712650414) * t + (x * -189829.509315154 +
-				    51149.8390849158) * x -
-	  6881.45821789955) * e + 5.52534374226326 / (t -
-						      5.52534374226326);
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3700:
-    e = exp (-t);
-    x = 1. / t;
-    z__ = x * .5;
-    w1 = ((x * .1962326414943 - .4969524146449) * x - 6.0156581186481e-5)
-      * e + sqrt (x * .785398163397448);
-    f1 = (w1 - e) * z__;
-    f2 = (f1 + f1 + f1 - e) * z__;
-    r1 = ((((t * -4.97561537069643e-4 - .0500929599665316) * t +
-	    1.31099142238996) * t - 18.8336409225481) * t - x *
-	  660.344754467191 + 164.931462413877) * e + .190163509193487 /
-      (t - .190163509193487);
-    r2 = ((((t * -.00448218898474906 - .517373211334924) * t +
-	    11.3691058739678) * t - 165.426392885291) * t - x *
-	  6309.09125686731 + 1522.31757709236) * e + 1.78449274854325 /
-      (t - 1.78449274854325);
-    r3 = ((((t * -.0138368602394293 - 1.77293428863008) * t +
-	    17.3639054044562) * t - 357.615122086961) * t - x *
-	  14573.4701095912 + 2698.31813951849) * e + 5.52534374226326 /
-      (t - 5.52534374226326);
-    t1 = r1 / (r1 + 1.);
-    t2 = r2 / (r2 + 1.);
-    t3 = r3 / (r3 + 1.);
-    a1 = f1 - t1 * w1;
-    a2 = f2 - t1 * f1;
-    w2 = (t3 * a1 - a2) / ((t3 - t2) * (t2 - t1));
-    w3 = (a2 - t2 * a1) / ((t3 - t2) * (t3 - t1));
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = t1;
-    rts[m + 1] = t2;
-    rts[m + 2] = t3;
-    m += 3;
-    goto L300;
-
-  L3800:
-    e = exp (-t);
-    w1 = sqrt (.785398163397448 / t);
-    w2 = ((t * 61.5072615497811 - 2919.80647450269) * t +
-	  38079.4303087338) * e + w1 * .177231492083829;
-    w3 = (((t * .152258947224714 - 8.30661900042651) * t +
-	   192.977367967984) * t - 1677.87926005344) * e + w1 *
-      .00511156880411248;
-    r1 = ((t * -7.39058467995275 + 321.318352526305) * t -
-	  3994.33696473658) * e + .190163509193487 / (t -
-						      .190163509193487);
-    r2 = ((t * -73.8726243906513 + 3135.69966333873) * t -
-	  38686.2867311321) * e + 1.78449274854325 / (t -
-						      1.78449274854325);
-    r3 = ((t * -263.750565461336 + 10441.2168692352) * t -
-	  128094.577915394) * e + 5.52534374226326 / (t -
-						      5.52534374226326);
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    m += 3;
-    goto L300;
-
-  L3900:
-    w1 = sqrt (.785398163397448 / t);
-    w2 = w1 * .177231492083829;
-    w3 = w1 * .00511156880411248;
-    wts[m] *= w1 - w2 - w3;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    rts[m] = .190163509193487 / t;
-    rts[m + 1] = 1.78449274854325 / t;
-    rts[m + 2] = 5.52534374226326 / t;
-    m += 3;
-  L300:
-    ;
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_3rw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_3rw.h
deleted file mode 100644
index 904139b..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_3rw.h
+++ /dev/null
@@ -1,6 +0,0 @@
-#ifndef RYS_3RW_H_
-#define RYS_3RW_H_
-
-void rys_3rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_4rw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_4rw.c
deleted file mode 100644
index 2b83ae6..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_4rw.c
+++ /dev/null
@@ -1,501 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <assert.h>
-#include <math.h>
-
-#define MAX(a,b)    ((a) < (b) ? (b) : (a))
-#define MIN(a,b)    ((a) > (b) ? (b) : (a))
-
-void rys_4rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]) {
-  int jump4[54] =
-    { 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6,
-      6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7,
-      7, 7, 7, 7, 7, 7, 7, 7, 8
-    };
-
-  double e;
-  int m, n;
-  double t, x, y, r1, r2, r3, r4, w1, w2, w3, w4;
-  int tcase;
-
-  m = 0;
-  for (n = 0; n < nt; ++n) {
-    t = tval[n];
-    if (t <= 3e-7) {
-      r1 = .0348198973061471 - t * .00409645850660395;
-      r2 = .381567185080042 - t * .0448902570656719;
-      r3 = 1.73730726945891 - t * .204389090547327;
-      r4 = 11.8463056481549 - t * 1.39368301742312;
-      wts[m] *= .362683783378362 - t * .0313844305713928;
-      wts[m + 1] *= .313706645877886 - t * .0898046242557724;
-      wts[m + 2] *= .222381034453372 - t * .129314370958973;
-      wts[m + 3] *= .101228536290376 - t * .0828299075414321;
-      rts[m] = r1 / (r1 + 1.);
-      rts[m + 1] = r2 / (r2 + 1.);
-      rts[m + 2] = r3 / (r3 + 1.);
-      rts[m + 3] = r4 / (r4 + 1.);
-      m += 4;
-      goto L400;
-    }
-
-    tcase = (int) MIN ((t + 1.0), 54.);
-    switch (jump4[tcase - 1])
-      {
-      case 1:
-	goto L4100;
-      case 2:
-	goto L4200;
-      case 3:
-	goto L4300;
-      case 4:
-	goto L4400;
-      case 5:
-	goto L4500;
-      case 6:
-	goto L4600;
-      case 7:
-	goto L4700;
-      case 8:
-	goto L4800;
-      }
-
-  L4100:
-    wts[m] *= ((((((t * -1.14649303201279e-8 + 1.88015570196787e-7) * t -
-		   2.33305875372323e-6) * t + 2.68880044371597e-5) * t -
-		 2.94268428977387e-4) * t + .00306548909776613) * t -
-	       .0313844305680096) * t + .362683783378335;
-    wts[m + 1] *= ((((((((t * -4.11720483772634e-9 + 6.54963481852134e-8) *
-			 t - 7.20045285129626e-7) * t +
-			6.93779646721723e-6) * t -
-		       6.05367572016373e-5) * t +
-		      4.74241566251899e-4) * t - .00326956188125316) * t +
-		    .0191883866626681) * t - .0898046242565811) * t +
-      .313706645877886;
-    wts[m + 2] *=
-      ((((((((t * -3.41688436990215e-8 + 5.07238960340773e-7) * t -
-	     5.0167562840822e-6) * t + 4.20363420922845e-5) * t -
-	   3.08040221166823e-4) * t + .00194431864731239) * t -
-	 .0102477820460278) * t + .0428670143840073) * t -
-       .129314370962569) * t + .222381034453369;
-    wts[m + 3] *=
-      (((((((((t * 4.99660550769508e-9 - 7.9458596331012e-8) * t +
-	      8.359072409485e-7) * t - 7.42236921061e-6) * t +
-	    5.76337430816e-5) * t - 3.86645606718233e-4) * t +
-	  .00218417516259781) * t - .00999791027771119) * t +
-	.034879109737737) * t - .0828299075413889) * t +
-      .101228536290376;
-    r1 = ((((((t * -1.95309614628539e-10 + 5.19765728707592e-9) * t -
-	      1.01756452250573e-7) * t + 1.72365935872131e-6) * t -
-	    2.61203523522184e-5) * t + 3.5292130876988e-4) * t -
-	  .00409645850658433) * t + .0348198973061469;
-    r2 = (((((t * -1.89554881382342e-8 + 3.07583114342365e-7) * t +
-	     1.270981734393e-6) * t - 1.417298563884e-4) * t +
-	   .003226979163176) * t - .0448902570678178) * t +
-      .381567185080039;
-    r3 = ((((((t * 1.77280535300416e-9 + 3.36524958870615e-8) * t -
-	      2.58341529013893e-7) * t - 1.1364489566232e-5) * t -
-	    7.91549618884063e-5) * t + .0103825827346828) * t -
-	  .204389090525137) * t + 1.73730726945889;
-    r4 = (((((t * -5.61188882415248e-8 - 2.4948073307246e-7) * t +
-	     3.428685057114e-6) * t + 1.679007454539e-4) * t +
-	   .04722855585715) * t - 1.39368301737828) * t +
-      11.8463056481543;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4200:
-    x = t - 3.;
-    wts[m] *= ((((((((((x * -4.65801912689961e-14 + 7.586695071068e-13) *
-		       x - 1.186387548048e-11) * x +
-		      1.862334710665e-10) * x - 2.799399389539e-9) * x +
-		    4.148972684255e-8) * x - 5.9335680796e-7) * x +
-		  8.168349266115e-6) * x - 1.08989176177409e-4) * x +
-		.00141357961729531) * x - .0187588361833659) * x +
-      .289898651436026;
-    wts[m + 1] *=
-      ((((((((((((x * -1.46345073267549e-14 +
-		  2.25644205432182e-13) * x - 3.116258693847e-12) * x +
-		4.32190875661e-11) * x - 5.673270062669e-10) * x +
-	      7.00629596296e-9) * x - 8.120186517e-8) * x +
-	    8.77529464577e-7) * x - 8.77829235749024e-6) * x +
-	  8.04372147732379e-5) * x - 6.64149238804153e-4) * x +
-	.00481181506827225) * x - .0288982669486183) * x +
-      .156247249979288;
-    wts[m + 2] *=
-      (((((((((((((x * 9.06812118895365e-15 -
-		   1.40541322766087e-13) * x + 1.919270015269e-12) * x -
-		 2.60513573901e-11) * x + 3.299685839012e-10) * x -
-	       3.86354139348735e-9) * x + 4.16265847927498e-8) * x -
-	     4.0946283547147e-7) * x + 3.64018881086111e-6) * x -
-	   2.88665153269386e-5) * x + 2.00515819789028e-4) * x -
-	 .00118791896897934) * x + .00575223633388589) * x -
-       .0209400418772687) * x + .0485368861938873;
-    wts[m + 3] *=
-      ((((((((((((((x * -9.74835552342257e-16 +
-		    1.57857099317175e-14) * x -
-		   2.249993780112e-13) * x + 3.173422008953e-12) * x -
-		 4.16115945968e-11) * x + 5.021343560166e-10) * x -
-	       5.545047534808e-9) * x + 5.554146993491e-8) * x -
-	     4.99048696190133e-7) * x + 3.96650392371311e-6) * x -
-	   2.73816413291214e-5) * x + 1.60106988333186e-4) * x -
-	 7.64560567879592e-4) * x + .00281330044426892) * x -
-       .00716227030134947) * x + .00966077262223353;
-    r1 = (((((((((x * -1.48570633747284e-15 - 1.33273068108777e-13) * x +
-		 4.06854369667e-12) * x - 9.163164161821e-11) * x +
-	       2.046819017845e-9) * x - 4.03076426299031e-8) * x +
-	     7.29407420660149e-7) * x - 1.23118059980833e-5) * x +
-	   1.88796581246938e-4) * x - .00253262912046853) * x +
-      .0251198234505021;
-    r2 = (((((((((x * 1.35830583483312e-13 - 2.29772605964836e-12) * x -
-		 3.821500128045e-12) * x + 6.844424214735e-10) * x -
-	       1.048063352259e-8) * x + 1.50083186233363e-8) * x +
-	     3.48848942324454e-6) * x - 1.08694174399193e-4) * x +
-	   .00208048885251999) * x - .0291205805373793) * x +
-      .272276489515713;
-    r3 = (((((((((x * 5.02799392850289e-13 + 1.07461812944084e-11) * x -
-		 1.482277886411e-10) * x - 2.153585661215e-9) * x +
-	       3.654087802817e-8) * x + 5.1592957583012e-7) * x -
-	     9.52388379435709e-6) * x - 2.16552440036426e-4) * x +
-	   .0090355146956832) * x - .145505469175613) * x +
-      1.21449092319186;
-    r4 = (((((((((x * -1.08510370291979e-12 + 6.41492397277798e-11) * x +
-		 7.542387436125e-10) * x - 2.213111836647e-9) * x -
-	       1.448228963549e-7) * x - 1.95670833237101e-6) * x -
-	     1.07481314670844e-5) * x + 1.49335941252765e-4) * x +
-	   .0487791531990593) * x - 1.10559909038653) * x +
-      8.0950202861178;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4300:
-    x = t - 7.5;
-    wts[m] *= ((((((((((x * -1.65995045235997e-15 + 6.91838935879598e-14) *
-		       x - 9.131223418888e-13) * x +
-		      1.403341829454e-11) * x - 3.672235069444e-10) * x +
-		    6.36696254699e-9) * x - 1.039220021671e-7) * x +
-		  1.959098751715e-6) * x - 3.33474893152939e-5) * x +
-		5.72164211151013e-4) * x - .0105583210553392) * x +
-      .226696066029591;
-    wts[m + 1] *=
-      ((((((((((((x * -3.57248951192047e-16 +
-		  6.25708409149331e-15) * x - 9.657033089714e-14) * x +
-		1.507864898748e-12) * x - 2.33252225611e-11) * x +
-	      3.428545616603e-10) * x - 4.698730937661e-9) * x +
-	    6.21997763513e-8) * x - 7.83008889613661e-7) * x +
-	  9.08621687041567e-6) * x - 9.86368311253873e-5) * x +
-	9.69632496710088e-4) * x - .00814594214284187) * x +
-      .0850218447733457;
-    wts[m + 2] *=
-      (((((((((((((x * 1.64742458534277e-16 - 2.6851226592841e-15) * x +
-		  3.788890667676e-14) * x - 5.508918529823e-13) * x +
-		7.555896810069e-12) * x - 9.69039768312637e-11) * x +
-	      1.16034263529672e-9) * x - 1.28771698573873e-8) * x +
-	    1.31949431805798e-7) * x - 1.23673915616005e-6) * x +
-	  1.04189803544936e-5) * x - 7.79566003744742e-5) * x +
-	5.03162624754434e-4) * x - .00255138844587555) * x +
-      .0113250730954014;
-    wts[m + 3] *=
-      ((((((((((((((x * -1.55714130075679e-17 +
-		    2.57193722698891e-16) * x -
-		   3.626606654097e-15) * x + 5.234734676175e-14) * x -
-		 7.067105402134e-13) * x + 8.79351266489e-12) * x -
-	       1.006088923498e-10) * x + 1.050565098393e-9) * x -
-	     9.91517881772662e-9) * x + 8.35835975882941e-8) * x -
-	   6.19785782240693e-7) * x + 3.95841149373135e-6) * x -
-	 2.11366761402403e-5) * x + 9.00474771229507e-5) * x -
-       2.78777909813289e-4) * x + 5.26543779837487e-4;
-    r1 = (((((((((x * 4.64217329776215e-15 - 6.27892383644164e-15) * x +
-		 3.462236347446e-13) * x - 2.92722935535e-11) * x +
-	       5.090355371676e-10) * x - 9.97272656345253e-9) * x +
-	     2.37835295639281e-7) * x - 4.60301761310921e-6) * x +
-	   8.42824204233222e-5) * x - .00137983082233081) * x +
-      .0166630865869375;
-    r2 = (((((((((x * 2.93981127919047e-14 + 8.47635639065744e-13) * x -
-		 1.446314544774e-11) * x - 6.149155555753e-12) * x +
-	       8.484275604612e-10) * x - 6.10898827887652e-8) * x +
-	     2.39156093611106e-6) * x - 5.35837089462592e-5) * x +
-	   .00100967602595557) * x - .0157769317127372) * x +
-      .174853819464285;
-    r3 = ((((((((((x * 2.93523563363e-14 - 6.4004177666702e-14) * x -
-		  2.695740446312e-12) * x + 1.027082960169e-10) * x -
-		5.82203865678e-10) * x - 3.159991002539e-8) * x +
-	      4.327249251331e-7) * x + 4.856768455119e-6) * x -
-	    2.54617989427762e-4) * x + .00554843378106589) * x -
-	  .0795013029486684) * x + .720206142703162;
-    r4 = (((((((((((x * -1.62212382394553e-14 +
-		    7.68943641360593e-13) * x + 5.764015756615e-12) * x -
-		  1.380635298784e-10) * x - 1.476849808675e-9) * x +
-		1.84347052385605e-8) * x + 3.34382940759405e-7) * x -
-	      1.39428366421645e-6) * x - 7.50249313713996e-5) * x -
-	    6.26495899187507e-4) * x + .0469716410901162) * x -
-	  .666871297428209) * x + 4.11207530217806;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4400:
-    e = exp (-t);
-    x = 1. / t;
-    y = t - 12.5;
-    w1 = (((x * -.18784686463512 + .22991849164985) * x - .49893752514047)
-	  * x - 2.1916512131607e-5) * e + sqrt (x * .785398163397448);
-    w2 = ((((((((((y * -6.22272689880615e-15 + 1.04126809657554e-13) * y
-		  - 6.842418230913e-13) * y + 1.576841731919e-11) * y -
-		4.203948834175e-10) * y + 6.287255934781e-9) * y -
-	      8.307159819228e-8) * y + 1.356478091922e-6) * y -
-	    2.08065576105639e-5) * y + 2.5239673033234e-4) * y -
-	  .00294484050194539) * y + .0601396183129168;
-    w3 = ((((((((((((y * -4.1956914545948e-17 + 5.94344180261644e-16) * y
-		    - 1.148797566469e-14) * y + 1.881303962576e-13) * y -
-		  2.413554618391e-12) * y + 3.372127423047e-11) * y -
-		4.933988617784e-10) * y + 6.116545396281e-9) * y -
-	      6.69965691739299e-8) * y + 7.52380085447161e-7) * y -
-	    8.08708393262321e-6) * y + 6.88603417296672e-5) * y -
-	  4.67067112993427e-4) * y + .00542313365864597;
-    w4 = (((((((((((((y * 2.90401781000996e-18 - 4.63389683098251e-17) *
-		     y + 6.274018198326e-16) * y -
-		    8.936002188168e-15) * y + 1.194719074934e-13) * y -
-		  1.45501321259466e-12) * y + 1.64090830181013e-11) * y -
-		1.71987745310181e-10) * y + 1.63738403295718e-9) * y -
-	      1.39237504892842e-8) * y + 1.06527318142151e-7) * y -
-	    7.27634957230524e-7) * y + 4.12159381310339e-6) * y -
-	  1.74648169719173e-5) * y + 8.50290130067818e-5;
-    wts[m] *= w1 - w2 - w3 - w4;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    r1 = (((((((((((y * 4.94869622744119e-17 + 8.0356880573916e-16) * y -
-		   5.599125915431e-15) * y - 1.378685560217e-13) * y +
-		 7.006511663249e-13) * y + 1.30391406991118e-11) * y +
-	       8.06987313467541e-11) * y - 5.20644072732933e-9) * y +
-	     7.72794187755457e-8) * y - 1.61512612564194e-6) * y +
-	   4.15083811185831e-5) * y - 7.87855975560199e-4) * y +
-      .0114189319050009;
-    r2 = (((((((((((y * 4.89224285522336e-16 + 1.06390248099712e-14) * y
-		   - 5.446260182933e-14) * y - 1.613630106295e-12) * y +
-		 3.910179118937e-12) * y + 1.90712434258806e-10) * y +
-	       8.78470199094761e-10) * y - 5.97332993206797e-8) * y +
-	     9.25750831481589e-7) * y - 2.02362185197088e-5) * y +
-	   4.92341968336776e-4) * y - .00868438439874703) * y +
-      .115825965127958;
-    r3 = ((((((((((y * 6.12419396208408e-14 + 1.12328861406073e-13) * y -
-		  9.051094103059e-12) * y - 4.781797525341e-11) * y +
-		1.660828868694e-9) * y + 4.499058798868e-10) * y -
-	      2.519549641933e-7) * y + 4.97744404018e-6) * y -
-	    1.25858350034589e-4) * y + .00270279176970044) * y -
-	  .0399327850801083) * y + .433467200855434;
-    r4 = (((((((((((y * 4.63414725924048e-14 - 4.72757262693062e-14) * y
-		   - 1.001926833832e-11) * y + 6.074107718414e-11) * y +
-		 1.576976911942e-9) * y - 2.01186401974027e-8) * y -
-	       1.84530195217118e-7) * y + 5.02333087806827e-6) * y +
-	     9.66961790843006e-6) * y - .00158522208889528) * y +
-	   .0280539673938339) * y - .278953904330072) * y +
-      1.82835655238235;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4500:
-    e = exp (-t);
-    x = 1. / t;
-    y = t - 17.5;
-    w1 = ((x * .1962326414943 - .4969524146449) * x - 6.0156581186481e-5)
-      * e + sqrt (x * .785398163397448);
-    w2 = (((((((((((y * -1.865060577297e-16 + 1.16661114435809e-15) * y +
-		   2.563712856363e-14) * y - 4.498350984631e-13) * y +
-		 1.765194089338e-12) * y + 9.04483676345625e-12) * y +
-	       4.98930345609785e-10) * y - 2.11964170928181e-8) * y +
-	     3.98295476005614e-7) * y - 5.49390160829409e-6) * y +
-	   7.74065155353262e-5) * y - .00148201933009105) * y +
-      .0497836392625268;
-    w3 = (((((((((((y * -5.54451040921657e-17 + 2.68748367250999e-16) * y
-		   + 1.349020069254e-14) * y - 2.507452792892e-13) * y +
-		 1.944339743818e-12) * y - 1.29816917658823e-11) * y +
-	       3.49977768819641e-10) * y - 8.67270669346398e-9) * y +
-	     1.31381116840118e-7) * y - 1.36790720600822e-6) * y +
-	   1.1921069767316e-5) * y - 1.42181943986587e-4) * y +
-      .00412615396191829;
-    w4 = ((((((((((((y * -7.56882223582704e-19 + 7.53541779268175e-18) *
-		    y - 1.157318032236e-16) * y +
-		   2.411195002314e-15) * y - 3.601794386996e-14) * y +
-		 4.082150659615e-13) * y - 4.289542980767e-12) * y +
-	       5.086829642731e-11) * y - 6.35435561050807e-10) * y +
-	     6.82309323251123e-9) * y - 5.63374555753167e-8) * y +
-	   3.57005361100431e-7) * y - 2.40050045173721e-6) * y +
-      4.94171300536397e-5;
-    wts[m] *= w1 - w2 - w3 - w4;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    r1 = (((((((((((y * 4.36701759531398e-17 - 1.12860600219889e-16) * y
-		   - 6.149849164164e-15) * y + 5.820231579541e-14) * y +
-		 4.396602872143e-13) * y - 1.24330365320172e-11) * y +
-	       6.71083474044549e-11) * y + 2.43865205376067e-10) * y +
-	     1.67559587099969e-8) * y - 9.32738632357572e-7) * y +
-	   2.39030487004977e-5) * y - 4.68648206591515e-4) * y +
-      .00834977776583956;
-    r2 = (((((((((((y * 4.98913142288158e-16 - 2.60732537093612e-16) * y
-		   - 7.775156445127e-14) * y + 5.766105220086e-13) * y +
-		 6.4326967296e-12) * y - 1.39571683725792e-10) * y +
-	       5.95451479522191e-10) * y + 2.42471442836205e-9) * y +
-	     2.4748571014312e-7) * y - 1.14710398652091e-5) * y +
-	   2.71252453754519e-4) * y - .00496812745851408) * y +
-      .082602060202678;
-    r3 = (((((((((((y * 1.91498302509009e-15 + 1.48840394311115e-14) * y
-		   - 4.316925145767e-13) * y + 1.186495793471e-12) * y +
-		 4.615806713055e-11) * y - 5.54336148667141e-10) * y +
-	       3.48789978951367e-10) * y - 2.79188977451042e-9) * y +
-	     2.09563208958551e-6) * y - 6.76512715080324e-5) * y +
-	   .00132129867629062) * y - .0205062147771513) * y +
-      .288068671894324;
-    r4 = (((((((((((y * -5.43697691672942e-15 - 1.12483395714468e-13) * y
-		   + 2.826607936174e-12) * y - 1.26673449328e-11) * y -
-		 4.258722866437e-10) * y + 9.45486578503261e-9) * y -
-	       5.86635622821309e-8) * y - 1.28835028104639e-6) * y +
-	     4.41413815691885e-5) * y - 7.61738385590776e-4) * y +
-	   .0096609090298555) * y - .101410568057649) * y +
-      .954714798156712;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4600:
-    e = exp (-t);
-    x = 1. / t;
-    w1 = ((x * .1962326414943 - .4969524146449) * x - 6.0156581186481e-5)
-      * e + sqrt (x * .785398163397448);
-    w2 = ((((((t * 7.29841848989391e-4 - .0353899555749875) * t +
-	      2.07797425718513) * t - 100.464709786287) * t +
-	    3152.06108877819) * t - 62705.4715090012) * t + (x *
-							     15472124.6264919
-							     -
-							     5260743.91316381)
-	  * x + 767135.400969617) * e + w1 * .234479815323517;
-    w3 = ((((((t * 2.36392855180768e-4 - .00916785337967013) * t +
-	      .462186525041313) * t - 19.694378600654) * t +
-	    499.169195295559) * t - 6214.1984584509) * t +
-	  ((x * 52144505.3212414 - 13411346.4389309) * x +
-	   1136732.98305631) * x - 2815.01182042707) * e +
-      w1 * .0192704402415764;
-    if (t <= 25.)
-      {
-	w4 = (((((((t * 2.33766206773151e-7 - 3.81542906607063e-5) * t +
-		   .00351416601267) * t - .166538571864728) * t +
-		 4.80006136831847) * t - 87.3165934223603) * t +
-	       977.683627474638) * t + x * 16600.094511764 -
-	      6144.79071209961) * e + w1 * 2.25229076750736e-4;
-      }
-    else
-      {
-	w4 = ((((((t * 5.74245945342286e-6 - 7.58735928102351e-5) * t +
-		  2.35072857922892e-4) * t - .00378812134013125) * t +
-		.309871652785805) * t - 7.11108633061306) * t +
-	      55.5297573149528) * e + w1 * 2.25229076750736e-4;
-      }
-    wts[m] *= w1 - w2 - w3 - w4;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    r1 = ((((((t * -4.45711399441838e-5 + .00127267770241379) * t -
-	      .236954961381262) * t + 15.4330657903756) * t -
-	    522.799159267808) * t + 10595.1216669313) * t + (x *
-							     -2511772.35556236
-							     +
-							     872975.373557709)
-	  * x - 129194.382386499) * e + .145303521503316 / (t -
-							    .145303521503316);
-    r2 = (((((t * -.0785617372254488 + 6.35653573484868) * t -
-	     338.29693876399) * t + 12512.0495802096) * t -
-	   316847.570511637) * t + ((x * -1024274661.27427 +
-				     370104713.293016) * x -
-				    58711900.5093822) * x +
-	  5386142.11391604) * e + 1.33909728812636 / (t -
-						      1.33909728812636);
-    r3 = (((((t * -.237900485051067 + 18.4122184400896) * t -
-	     1002.00731304146) * t + 37515.1841595736) * t -
-	   950626.66339013) * t + ((x * -2881390146.51985 +
-				    1066259150.44526) * x -
-				   172465289.687396) * x +
-	  16041939.0230055) * e + 3.92696350135829 / (t -
-						      3.92696350135829);
-    r4 = ((((((t * -6.00691586407385e-4 - .364479545338439) * t +
-	      15.7496131755179) * t - 654.944248734901) * t +
-	    17083.0039597097) * t - 290517.939780207) * t +
-	  (x * 34905969.8304732 - 16494452.2586065) * x +
-	  2968179.40164703) * e + 8.58863568901199 / (t -
-						      8.58863568901199);
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4700:
-    x = t * t;
-    e = exp (-t) * x * x;
-    w1 = sqrt (.785398163397448 / t);
-    w2 = ((t * 6.16374517326469e-4 - .0126711744680092) * t +
-	  .0814504890732155) * e + w1 * .234479815323517;
-    w3 = ((t * 2.0829496985723e-4 - .00377489954837361) * t +
-	  .0209857151617436) * e + w1 * .0192704402415764;
-    w4 = ((t * 5.7663198200099e-6 - 7.8918728380489e-5) * t +
-	  3.28297971853126e-4) * e + w1 * 2.25229076750736e-4;
-    wts[m] *= w1 - w2 - w3 - w4;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    r1 = ((t * -4.075575259146e-5 - 6.88846864931685e-4) * t +
-	  .0174725309199384) * e + .145303521503316 / (t -
-						       .145303521503316);
-    r2 = ((t * -3.62569791162153e-4 - .00909231717268466) * t +
-	  .184336760556262) * e + 1.33909728812636 / (t -
-						      1.33909728812636);
-    r3 = ((t * -9.65842534508637e-4 - .0449822013469279) * t +
-	  .608784033347757) * e + 3.92696350135829 / (t -
-						      3.92696350135829);
-    r4 = ((t * -.00219135070169653 - .119108256987623) * t -
-	  .750238795695573) * e + 8.58863568901199 / (t -
-						      8.58863568901199);
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    m += 4;
-    goto L400;
-
-  L4800:
-    w1 = sqrt (.785398163397448 / t);
-    w2 = w1 * .234479815323517;
-    w3 = w1 * .0192704402415764;
-    w4 = w1 * 2.25229076750736e-4;
-    wts[m] *= w1 - w2 - w3 - w4;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    rts[m] = .145303521503316 / t;
-    rts[m + 1] = 1.33909728812636 / t;
-    rts[m + 2] = 3.92696350135829 / t;
-    rts[m + 3] = 8.58863568901199 / t;
-    m += 4;
-  L400:
-    ;
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_4rw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_4rw.h
deleted file mode 100644
index dd6fac7..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_4rw.h
+++ /dev/null
@@ -1,6 +0,0 @@
-#ifndef RYS_4RW_H_
-#define RYS_4RW_H_
-
-void rys_4rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_5rw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_5rw.c
deleted file mode 100644
index a478610..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_5rw.c
+++ /dev/null
@@ -1,650 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <assert.h>
-#include <math.h>
-
-#define MAX(a,b)    ((a) < (b) ? (b) : (a))
-#define MIN(a,b)    ((a) > (b) ? (b) : (a))
-
-void rys_5rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]) {
-  int jump5[60] = { 1, 2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6,
-    6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9
-  };
-
-  double e;
-  int m, n;
-  double t, x, r1, r2, r3, r4, r5, w1, w2, w3, w4, w5;
-  int tcase;
-
-  m = 0;
-  for (n = 0; n < nt; ++n) {
-    t = tval[n];
-    if (t <= 3e-7) {
-      r1 = .0226659266316985 - t * .00215865967920897;
-      r2 = .231271692140903 - t * .0220258754389745;
-      r3 = .857346024118836 - t * .0816520023025515;
-      r4 = 2.97353038120346 - t * .283193369647137;
-      r5 = 18.4151859759051 - t * 1.75382723579439;
-      wts[m] *= .295524224714752 - t * .0196867576909777;
-      wts[m + 1] *= .269266719309995 - t * .0561737590184721;
-      wts[m + 2] *= .219086362515981 - t * .0971152726793658;
-      wts[m + 3] *= .14945134915058 - t * .102979262193565;
-      wts[m + 4] *= .0666713443086877 - t * .0573782817488315;
-      rts[m] = r1 / (r1 + 1.);
-      rts[m + 1] = r2 / (r2 + 1.);
-      rts[m + 2] = r3 / (r3 + 1.);
-      rts[m + 3] = r4 / (r4 + 1.);
-      rts[m + 4] = r5 / (r5 + 1.);
-      m += 5;
-      goto L500;
-    }
-
-    tcase = (int) MIN ((t + 1.0), 60.);
-    switch (jump5[tcase - 1])
-      {
-      case 1:
-	goto L5100;
-      case 2:
-	goto L5200;
-      case 3:
-	goto L5300;
-      case 4:
-	goto L5400;
-      case 5:
-	goto L5500;
-      case 6:
-	goto L5600;
-      case 7:
-	goto L5700;
-      case 8:
-	goto L5800;
-      case 9:
-	goto L5900;
-      }
-
-  L5100:
-    wts[m] *= ((((((t * -2.03822632771791e-9 + 3.8911022913381e-8) * t -
-		   5.84914787904823e-7) * t + 8.30316168666696e-6) * t -
-		 1.13218402310546e-4) * t + .0014912888858679) * t -
-	       .0196867576904816) * t + .295524224714749;
-    wts[m + 1] *= (((((((t * 8.6284811839757e-9 - 1.38975551148989e-7) * t
-			+ 1.602894068228e-6) * t - 1.646364300836e-5) * t +
-		      1.538445806778e-4) * t - .00128848868034502) * t +
-		    .00938866933338584) * t - .0561737590178812) * t +
-      .269266719309991;
-    wts[m + 2] *= ((((((((t * -9.41953204205665e-9 + 1.47452251067755e-7) *
-			 t - 1.57456991199322e-6) * t +
-			1.45098401798393e-5) * t -
-		       1.18858834181513e-4) * t + 8.5369767598421e-4) * t -
-		     .00522877807397165) * t + .0260854524809786) * t -
-		   .0971152726809059) * t + .219086362515979;
-    wts[m + 3] *=
-      ((((((((t * -3.84961617022042e-8 + 5.6659539654447e-7) * t -
-	     5.52351805403748e-6) * t + 4.53160377546073e-5) * t -
-	   3.22542784865557e-4) * t + .00195682017370967) * t -
-	 .00977232537679229) * t + .0379455945268632) * t -
-       .102979262192227) * t + .149451349150573;
-    wts[m + 4] *=
-      (((((((((t * 4.0959481252143e-9 - 6.47097874264417e-8) * t +
-	      6.743541482689e-7) * t - 5.917993920224e-6) * t +
-	    4.531969237381e-5) * t - 2.99102856679638e-4) * t +
-	  .00165695765202643) * t - .00740671222520653) * t +
-	.0250889946832192) * t - .0573782817487958) * t +
-      .0666713443086877;
-    r1 = ((((((t * -4.46679165328413e-11 + 1.21879111988031e-9) * t -
-	      2.62975022612104e-8) * t + 5.15106194905897e-7) * t -
-	    9.27933625824749e-6) * t + 1.51794097682482e-4) * t -
-	  .00215865967920301) * t + .0226659266316985;
-    r2 = ((((((t * 1.93117331714174e-10 - 4.57267589660699e-9) * t +
-	      2.48339908218932e-8) * t + 1.50716729438474e-6) * t -
-	    6.07268757707381e-5) * t + .00137506939145643) * t -
-	  .0220258754419939) * t + .231271692140905;
-    r3 = (((((t * 4.84989776180094e-9 + 1.31538893944284e-7) * t -
-	     2.766753852879e-6) * t - 7.651163510626e-5) * t +
-	   .004033058545972) * t - .0816520022916145) * t +
-      .857346024118779;
-    r4 = ((((t * -2.48581772214623e-7 - 4.34482635782585e-6) * t -
-	    7.4601825798763e-7) * t + .0101210776517279) * t -
-	  .283193369640005) * t + 2.97353038120345;
-    r5 = (((((t * -8.92432153868554e-9 + 1.77288899268988e-8) * t +
-	     3.040754680666e-6) * t + 1.058229325071e-4) * t +
-	   .04596379534985) * t - 1.75382723579114) * t +
-      18.4151859759049;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5200:
-    x = t - 3.;
-    wts[m] *= (((((((((x * 1.04348658616398e-13 - 1.94147461891055e-12) *
-		      x + 3.485512360993e-11) * x -
-		     6.277497362235e-10) * x + 1.100758247388e-8) * x -
-		   1.88329804969573e-7) * x + 3.12338120839468e-6) * x -
-		 5.04404167403568e-5) * x + 8.00338056610995e-4) * x -
-	       .0130892406559521) * x + .247383140241103;
-    wts[m + 1] *=
-      (((((((((((x * 3.23496149760478e-14 - 5.24314473469311e-13) * x +
-		7.743219385056e-12) * x - 1.146022750992e-10) * x +
-	      1.615238462197e-9) * x - 2.15479017572233e-8) * x +
-	    2.70933462557631e-7) * x - 3.18750295288531e-6) * x +
-	  3.47425221210099e-5) * x - 3.45558237388223e-4) * x +
-	.00305779768191621) * x - .0229118251223003) * x +
-      .159834227924213;
-    wts[m + 2] *=
-      ((((((((((((x * -3.42790561802876e-14 +
-		  5.26475736681542e-13) * x - 7.184330797139e-12) * x +
-		9.763932908544e-11) * x - 1.244014559219e-9) * x +
-	      1.472744068942e-8) * x - 1.611749975234e-7) * x +
-	    1.616487851917e-6) * x - 1.46852359124154e-5) * x +
-	  1.18900349101069e-4) * x - 8.37562373221756e-4) * x +
-	.00493752683045845) * x - .0225514728915673) * x +
-      .0695211812453929;
-    wts[m + 3] *=
-      (((((((((((((x * 1.04072340345039e-14 -
-		   1.60808044529211e-13) * x + 2.183534866798e-12) * x -
-		 2.939403008391e-11) * x + 3.679254029085e-10) * x -
-	       4.23775673047899e-9) * x + 4.46559231067006e-8) * x -
-	     4.26488836563267e-7) * x + 3.64721335274973e-6) * x -
-	   2.74868382777722e-5) * x + 1.78586118867488e-4) * x -
-	 9.68428981886534e-4) * x + .00416002324339929) * x -
-       .0128290192663141) * x + .0222353727685016;
-    wts[m + 4] *=
-      ((((((((((((((x * -8.16770412525963e-16 +
-		    1.31376515047977e-14) * x -
-		   1.856950818865e-13) * x + 2.596836515749e-12) * x -
-		 3.372639523006e-11) * x + 4.025371849467e-10) * x -
-	       4.389453269417e-9) * x + 4.332753856271e-8) * x -
-	     3.82673275931962e-7) * x + 2.98006900751543e-6) * x -
-	   2.00718990300052e-5) * x + 1.13876001386361e-4) * x -
-	 5.23627942443563e-4) * x + .00183524565118203) * x -
-       .00437785737450783) * x + .00536963805223095;
-    r1 = ((((((((x * -2.58163897135138e-14 + 8.14127461488273e-13) * x -
-		2.11414838976129e-11) * x + 5.09822003260014e-10) * x -
-	      1.16002134438663e-8) * x + 2.4681069441454e-7) * x -
-	    4.92556826124502e-6) * x + 9.02580687971053e-5) * x -
-	  .00145190025120726) * x + .0173416786387475;
-    r2 = (((((((((x * 1.04525287289788e-14 + 5.44611782010773e-14) * x -
-		 4.831059411392e-12) * x + 1.136643908832e-10) * x -
-	       1.104373076913e-9) * x - 2.35346740649916e-8) * x +
-	     1.43772622028764e-6) * x - 4.23405023015273e-5) * x +
-	   9.12034574793379e-4) * x - .0152479441718739) * x +
-      .176055265928744;
-    r3 = (((((((((x * -6.89693150857911e-14 + 5.92064260918861e-13) * x +
-		 1.847170956043e-11) * x - 3.390752744265e-10) * x -
-	       2.995532064116e-9) * x + 1.57456141058535e-7) * x -
-	     3.95859409711346e-7) * x - 9.58924580919747e-5) * x +
-	   .00323551502557785) * x - .0597587007636479) * x +
-      .646432853383057;
-    r4 = ((((((((x * -3.61293809667763e-12 - 2.70803518291085e-11) * x +
-		8.83758848468769e-10) * x + 1.59166632851267e-8) * x -
-	      1.32581997983422e-7) * x - 7.60223407443995e-6) * x -
-	    7.41019244900952e-5) * x + .00981432631743423) * x -
-	  .223055570487771) * x + 2.21460798080643;
-    r5 = (((((((((x * 7.12332088345321e-13 + 3.16578501501894e-12) * x -
-		 8.776668218053e-11) * x - 2.342817613343e-9) * x -
-	       3.496962018025e-8) * x - 3.03172870136802e-7) * x +
-	     1.50511293969805e-6) * x + 1.37704919387696e-4) * x +
-	   .0470723869619745) * x - 1.47486623003693) * x +
-      13.5704792175847;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5300:
-    x = t - 7.5;
-    wts[m] *= (((((((((x * 7.95526040108997e-15 - 2.48593096128045e-13) *
-		      x + 4.76124620872e-12) * x -
-		     9.535763686605e-11) * x + 2.225273630974e-9) * x -
-		   4.49796778054865e-8) * x + 9.17812870287386e-7) * x -
-		 1.86764236490502e-5) * x + 3.76807779068053e-4) * x -
-	       .00810456360143408) * x + .201097936411496;
-    wts[m + 1] *=
-      (((((((((((x * 1.25678686624734e-15 - 2.34266248891173e-14) * x +
-		3.973252415832e-13) * x - 6.830539401049e-12) * x +
-	      1.140771033372e-10) * x - 1.82546185762009e-9) * x +
-	    2.77209637550134e-8) * x - 4.01726946190383e-7) * x +
-	  5.48227244014763e-6) * x - 6.95676245982121e-5) * x +
-	8.05193921815776e-4) * x - .00815528438784469) * x +
-      .0971769901268114;
-    wts[m + 2] *=
-      ((((((((((((x * -8.20929494859896e-16 +
-		  1.37356038393016e-14) * x - 2.02286306522e-13) * x +
-		3.058055403795e-12) * x - 4.387890955243e-11) * x +
-	      5.923946274445e-10) * x - 7.503659964159e-9) * x +
-	    8.851599803902e-8) * x - 9.65561998415038e-7) * x +
-	  9.60884622778092e-6) * x - 8.56551787594404e-5) * x +
-	6.66057194311179e-4) * x - .00417753183902198) * x +
-      .0225443826852447;
-    wts[m + 3] *=
-      ((((((((((((((x * -1.0876461248879e-17 +
-		    1.85299909689937e-16) * x -
-		   2.730195628655e-15) * x + 4.127368817265e-14) * x -
-		 5.881379088074e-13) * x + 7.805245193391e-12) * x -
-	       9.632707991704e-11) * x + 1.099047050624e-9) * x -
-	     1.15042731790748e-8) * x + 1.09415155268932e-7) * x -
-	   9.33687124875935e-7) * x + 7.02338477986218e-6) * x -
-	 4.53759748787756e-5) * x + 2.41722511389146e-4) * x -
-       9.75935943447037e-4) * x + .00257520532789644;
-    wts[m + 4] *=
-      (((((((((((((((x * 7.28996979748849e-19 -
-		     1.26518146195173e-17) * x +
-		    1.886145834486e-16) * x - 2.876728287383e-15) * x +
-		  4.114588668138e-14) * x - 5.44436631413933e-13) * x +
-		6.64976446790959e-12) * x - 7.4456006997494e-11) * x +
-	      7.57553198166848e-10) * x - 6.92956101109829e-9) * x +
-	    5.62222859033624e-8) * x - 3.97500114084351e-7) * x +
-	  2.3903912613814e-6) * x - 1.18023950002105e-5) * x +
-	4.52254031046244e-5) * x - 1.2111378215037e-4) * x +
-      1.75013126731224e-4;
-    r1 = ((((((((x * -1.13825201010775e-14 + 1.89737681670375e-13) * x -
-		4.81561201185876e-12) * x + 1.56666512163407e-10) * x -
-	      3.73782213255083e-9) * x + 9.15858355075147e-8) * x -
-	    2.13775073585629e-6) * x + 4.56547356365536e-5) * x -
-	  8.6800390932374e-4) * x + .0122703754069176;
-    r2 = (((((((((x * -3.67160504428358e-15 + 1.27876280158297e-14) * x -
-		 1.296476623788e-12) * x + 1.477175434354e-11) * x +
-	       5.464102147892e-10) * x - 2.42538340602723e-8) * x +
-	     8.20460740637617e-7) * x - 2.20379304598661e-5) * x +
-	   4.90295372978785e-4) * x - .00914294111576119) * x +
-      .12259040340369;
-    r3 = (((((((((x * 1.39017367502123e-14 - 6.9639138542689e-13) * x +
-		 1.176946020731e-12) * x + 1.725627235645e-10) * x -
-	       3.6863838563e-9) * x + 2.87495324207095e-8) * x +
-	     1.71307311000282e-6) * x - 7.94273603184629e-5) * x +
-	   .00200938064965897) * x - .0363329491677178) * x +
-      .434393683888443;
-    r4 = ((((((((((x * -1.27815158195209e-14 + 1.99910415869821e-14) * x +
-		  3.753542914426e-12) * x - 2.708018219579e-11) * x -
-		1.190574776587e-9) * x + 1.106696436509e-8) * x +
-	      3.954955671326e-7) * x - 4.398596059588e-6) * x -
-	    2.01087998907735e-4) * x + .00789092425542937) * x -
-	  .142056749162695) * x + 1.39964149420683;
-    r5 = ((((((((((x * -1.19442341030461e-13 - 2.34074833275956e-12) * x +
-		  6.861649627426e-12) * x + 6.082671496226e-10) * x +
-		5.38116010542e-9) * x - 6.2532971387e-8) * x -
-	      2.13596683505e-6) * x - 2.373394341886e-5) * x +
-	    2.88711171412814e-6) * x + .0485221195290753) * x -
-	  1.04346091985269) * x + 7.89901551676692;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5400:
-    x = t - 12.5;
-    wts[m] *= (((((((((x * 8.98007931950169e-15 + 7.25673623859497e-14) *
-		      x + 5.851494250405e-14) * x -
-		     4.234204823846e-11) * x + 3.911507312679e-10) * x -
-		   9.65094802088511e-9) * x + 3.42197444235714e-7) * x -
-		 7.51821178144509e-6) * x + 1.94218051498662e-4) * x -
-	       .00538533819142287) * x + .168122596736809;
-    wts[m + 1] *=
-      ((((((((((x * -1.05490525395105e-15 + 1.96855386549388e-14) * x -
-	       5.500330153548e-13) * x + 1.003849567976e-11) * x -
-	     1.720997242621e-10) * x + 3.533277061402e-9) * x -
-	   6.389171736029e-8) * x + 1.046236652393e-6) * x -
-	 1.73148206795827e-5) * x + 2.57820531617185e-4) * x -
-       .0034618826533835) * x + .0703302497508176;
-    wts[m + 2] *=
-      (((((((((((x * 3.60020423754545e-16 - 6.24245825017148e-15) * x +
-		9.945311467434e-14) * x - 1.749051512721e-12) * x +
-	      2.768503957853e-11) * x - 4.08688551136506e-10) * x +
-	    6.0418906330361e-9) * x - 8.23540111024147e-8) * x +
-	  1.01503783870262e-6) * x - 1.20490761741576e-5) * x +
-	1.26928442448148e-4) * x - .00105539461930597) * x +
-      .0115543698537013;
-    wts[m + 3] *=
-      (((((((((((((x * 2.51163533058925e-18 -
-		   4.31723745510697e-17) * x + 6.557620865832e-16) * x -
-		 1.016528519495e-14) * x + 1.491302084832e-13) * x -
-	       2.06638666222265e-12) * x + 2.67958697789258e-11) * x -
-	     3.23322654638336e-10) * x + 3.63722952167779e-9) * x -
-	   3.75484943783021e-8) * x + 3.49164261987184e-7) * x -
-	 2.92658670674908e-6) * x + 2.12937256719543e-5) * x -
-       1.19434130620929e-4) * x + 6.45524336158384e-4;
-    wts[m + 4] *=
-      ((((((((((((((x * -1.29043630202811e-19 +
-		    2.16234952241296e-18) * x -
-		   3.107631557965e-17) * x + 4.570804313173e-16) * x -
-		 6.301348858104e-15) * x + 8.031304476153e-14) * x -
-	       9.446196472547e-13) * x + 1.018245804339e-11) * x -
-	     9.96995451348129e-11) * x + 8.77489010276305e-10) * x -
-	   6.84655877575364e-9) * x + 4.64460857084983e-8) * x -
-	 2.66924538268397e-7) * x + 1.24621276265907e-6) * x -
-       4.30868944351523e-6) * x + 9.94307982432868e-6;
-    r1 = ((((((((((x * -4.16387977337393e-17 + 7.2087299737386e-16) * x +
-		  1.395993802064e-14) * x + 3.660484641252e-14) * x -
-		4.154857548139e-12) * x + 2.301379846544e-11) * x -
-	      1.033307012866e-9) * x + 3.997777641049e-8) * x -
-	    9.35118186333939e-7) * x + 2.38589932752937e-5) * x -
-	  5.35185183652937e-4) * x + .00885218988709735;
-    r2 = ((((((((((x * -4.56279214732217e-16 + 6.24941647247927e-15) * x +
-		  1.737896339191e-13) * x + 8.964205979517e-14) * x -
-		3.538906780633e-11) * x + 9.561341254948e-11) * x -
-	      9.77283189131e-9) * x + 4.24034019462e-7) * x -
-	    1.02384302866534e-5) * x + 2.57987709704822e-4) * x -
-	  .00554735977651677) * x + .0868245143991948;
-    r3 = ((((((((((x * -2.52879337929239e-15 + 2.13925810087833e-14) * x +
-		  7.884307667104e-13) * x - 9.02339815951e-13) * x -
-		5.814101544957e-11) * x - 1.333480437968e-9) * x -
-	      2.217064940373e-8) * x + 1.643290788086e-6) * x -
-	    4.39602147345028e-5) * x + .00108648982748911) * x -
-	  .0213014521653498) * x + .294150684465425;
-    r4 = ((((((((((x * -6.42391438038888e-15 + 5.37848223438815e-15) * x +
-		  8.960828117859e-13) * x + 5.214153461337e-11) * x -
-		1.106601744067e-10) * x - 2.007890743962e-8) * x +
-	      1.543764346501e-7) * x + 4.520749076914e-6) * x -
-	    1.88893338587047e-4) * x + .00473264487389288) * x -
-	  .0791197893350253) * x + .860057928514554;
-    r5 = (((((((((((x * -2.24366166957225e-14 +
-		    4.87224967526081e-14) * x + 5.587369053655e-12) * x -
-		  3.045253104617e-12) * x - 1.22398388308e-9) * x -
-		2.05603889396319e-9) * x + 2.58604071603561e-7) * x +
-	      1.34240904266268e-6) * x - 5.72877569731162e-5) * x -
-	    9.56275105032191e-4) * x + .0423367010370921) * x -
-	  .576800927133412) * x + 3.87328263873381;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5500:
-    x = t - 17.5;
-    wts[m] *= ((((((((((x * 1.74841995087592e-15 - 6.95671892641256e-16) *
-		       x - 3.000659497257e-13) * x +
-		      2.021279817961e-13) * x + 3.8535969354e-11) * x +
-		    1.461418533652e-10) * x - 1.014517563435e-8) * x +
-		  1.132736008979e-7) * x - 2.86605475073259e-6) * x +
-		1.21958354908768e-4) * x - .00386293751153466) * x +
-      .145298342081522;
-    wts[m + 1] *=
-      ((((((((((x * -1.11199320525573e-15 + 1.85007587796671e-15) * x +
-	       1.220613939709e-13) * x + 1.275068098526e-12) * x -
-	     5.341838883262e-11) * x + 6.161037256669e-10) * x -
-	   1.00914787975e-8) * x + 2.907862965346e-7) * x -
-	 6.12300038720919e-6) * x + 1.00104454489518e-4) * x -
-       .00180677298502757) * x + .057800991453663;
-    wts[m + 2] *=
-      ((((((((((x * -9.49816486853687e-16 + 6.67922080354234e-15) * x +
-	       2.606163540537e-15) * x + 1.98379995015e-12) * x -
-	     5.400548574357e-11) * x + 6.638043374114e-10) * x -
-	   8.799518866802e-9) * x + 1.791418482685e-7) * x -
-	 2.96075397351101e-6) * x + 3.38028206156144e-5) * x -
-       3.58426847857878e-4) * x + .00839213709428516;
-    wts[m + 3] *=
-      (((((((((((x * 1.3382997106018e-17 - 3.4484187784414e-16) * x +
-		4.745009557656e-15) * x - 6.033814209875e-14) * x +
-	      1.049256040808e-12) * x - 1.70859789556117e-11) * x +
-	    2.15219425727959e-10) * x - 2.52746574206884e-9) * x +
-	  3.2776171442296e-8) * x - 3.90387662925193e-7) * x +
-	3.4634020459387e-6) * x - 2.43236345136782e-5) * x +
-      3.54846978585226e-4;
-    wts[m + 4] *=
-      (((((((((((((x * 2.69412277020887e-20 -
-		   4.24837886165685e-19) * x + 6.030500065438e-18) * x -
-		 9.069722758289e-17) * x + 1.246599177672e-15) * x -
-	       1.56872999797549e-14) * x + 1.87305099552692e-13) * x -
-	     2.09498886675861e-12) * x + 2.11630022068394e-11) * x -
-	   1.92566242323525e-10) * x + 1.62012436344069e-9) * x -
-	 1.23621614171556e-8) * x + 7.72165684563049e-8) * x -
-       3.59858901591047e-7) * x + 2.43682618601e-6;
-    r1 = ((((((((((x * 1.9187576454574e-16 + 7.8357401095707e-16) * x -
-		  3.260875931644e-14) * x - 1.186752035569e-13) * x +
-		4.275180095653e-12) * x + 3.357056136731e-11) * x -
-	      1.123776903884e-9) * x + 1.231203269887e-8) * x -
-	    3.99851421361031e-7) * x + 1.45418822817771e-5) * x -
-	  3.49912254976317e-4) * x + .00667768703938812;
-    r2 = ((((((((((x * 2.02778478673555e-15 + 1.01640716785099e-14) * x -
-		  3.385363492036e-13) * x - 1.615655871159e-12) * x +
-		4.527419140333e-11) * x + 3.853670706486e-10) * x -
-	      1.184607130107e-8) * x + 1.347873288827e-7) * x -
-	    4.47788241748377e-6) * x + 1.54942754358273e-4) * x -
-	  .00355524254280266) * x + .0644912219301603;
-    r3 = ((((((((((x * 7.79850771456444e-15 + 6.00464406395001e-14) * x -
-		  1.249779730869e-12) * x - 1.020720636353e-11) * x +
-		1.814709816693e-10) * x + 1.766397336977e-9) * x -
-	      4.60355944901e-8) * x + 5.863956443581e-7) * x -
-	    2.03797212506691e-5) * x + 6.31405161185185e-4) * x -
-	  .0130102750145071) * x + .210244289044705;
-    r4 = (((((((((((x * -2.92397030777912e-15 +
-		    1.94152129078465e-14) * x + 4.85944766585e-13) * x -
-		  3.217227223463e-12) * x - 7.484522135512e-11) * x +
-		7.19101516047753e-10) * x + 6.88409355245582e-9) * x -
-	      1.44374545515769e-7) * x + 2.74941013315834e-6) * x -
-	    1.02790452049013e-4) * x + .00259924221372643) * x -
-	  .0435712368303551) * x + .562170709585029;
-    r5 = (((((((((((x * 1.1797612684006e-14 + 1.24156229350669e-13) * x -
-		   3.89274162228e-12) * x - 7.755793199043e-12) * x +
-		 9.492190032313e-10) * x - 4.98680128123353e-9) * x -
-	       1.81502268782664e-7) * x + 2.69463269394888e-6) * x +
-	     2.5003215442164e-5) * x - .00133684303917681) * x +
-	   .0229121951862538) * x - .245653725061323) * x +
-      1.89999883453047;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5600:
-    x = t - 22.5;
-    wts[m] *= (((((((((x * -9.10338640266542e-15 + 1.00438927627833e-13) *
-		      x + 7.817349237071e-13) * x -
-		     2.547619474232e-11) * x + 1.479321506529e-10) * x +
-		   1.52314028857627e-9) * x + 9.20072040917242e-9) * x -
-		 2.19427111221848e-6) * x + 8.65797782880311e-5) * x -
-	       .00282718629312875) * x + .128718310443295;
-    wts[m + 1] *=
-      (((((((((x * 5.5238092761876e-15 - 6.43424400204124e-14) * x -
-	      2.358734508092e-13) * x + 8.261326648131e-12) * x +
-	    9.229645304956e-11) * x - 5.68108973828949e-9) * x +
-	  1.22477891136278e-7) * x - 2.11919643127927e-6) * x +
-	4.23605032368922e-5) * x - .00114423444576221) * x +
-      .0506607252890186;
-    wts[m + 2] *=
-      (((((((((x * 3.99457454087556e-15 - 5.11826702824182e-14) * x -
-	      4.157593182747e-14) * x + 4.214670817758e-12) * x +
-	    6.705582751532e-11) * x - 3.36086411698418e-9) * x +
-	  6.07453633298986e-8) * x - 7.40736211041247e-7) * x +
-	8.84176371665149e-6) * x - 1.72559275066834e-4) * x +
-      .00716639814253567;
-    wts[m + 3] *=
-      (((((((((((x * -2.14649508112234e-18 - 2.45525846412281e-18) * x +
-		6.126212599772e-16) * x - 8.526651626939e-15) * x +
-	      4.826636065733e-14) * x - 3.3955416364974e-13) * x +
-	    1.67070784862985e-11) * x - 4.42671979311163e-10) * x +
-	  6.773680559084e-9) * x - 7.03520999708859e-8) * x +
-	6.04993294708874e-7) * x - 7.80555094280483e-6) * x +
-      2.85954806605017e-4;
-    wts[m + 4] *=
-      ((((((((((((x * -5.63938733073804e-21 +
-		  6.92182516324628e-20) * x - 1.586937691507e-18) * x +
-		3.357639744582e-17) * x - 4.810285046442e-16) * x +
-	      5.386312669975e-15) * x - 6.117895297439e-14) * x +
-	    8.441808227634e-13) * x - 1.18527596836592e-11) * x +
-	  1.36296870441445e-10) * x - 1.17842611094141e-9) * x +
-	7.80430641995926e-9) * x - 5.9776741740054e-8) * x +
-      1.65186146094969e-6;
-    r1 = (((((((((x * -1.13927848238726e-15 + 7.39404133595713e-15) * x +
-		 1.445982921243e-13) * x - 2.676703245252e-12) * x +
-	       5.823521627177e-12) * x + 2.17264723874381e-10) * x +
-	     3.56242145897468e-9) * x - 3.03763737404491e-7) * x +
-	   9.46859114120901e-6) * x - 2.30896753853196e-4) * x +
-      .00524663913001114;
-    r2 = ((((((((((x * 2.89872355524581e-16 - 1.22296292045864e-14) * x +
-		  6.1840650972e-14) * x + 1.64984659123e-12) * x -
-		2.729713905266e-11) * x + 3.70991379065e-11) * x +
-	      2.216486288382e-9) * x + 4.616160236414e-8) * x -
-	    3.32380270861364e-6) * x + 9.84635072633776e-5) * x -
-	  .00230092118015697) * x + .0500845183695073;
-    r3 = ((((((((((x * 1.97068646590923e-15 - 4.894192706268e-14) * x +
-		  1.136466605916e-13) * x + 7.546203883874e-12) * x -
-		9.635646767455e-11) * x - 8.295965491209e-11) * x +
-	      7.534109114453e-9) * x + 2.699970652707e-7) * x -
-	    1.42982334217081e-5) * x + 3.78290946669264e-4) * x -
-	  .00803133015084373) * x + .158689469640791;
-    r4 = ((((((((((x * 1.33642069941389e-14 - 1.55850612605745e-13) * x -
-		  7.522712577474e-13) * x + 3.209520801187e-11) * x -
-		2.075594313618e-10) * x - 2.070575894402e-9) * x +
-	      7.323046997451e-9) * x + 1.851491550417e-6) * x -
-	    6.37524802411383e-5) * x + .00136795464918785) * x -
-	  .0242051126993146) * x + .397847167557815;
-    r5 = ((((((((((x * -6.07053986130526e-14 + 1.04447493138843e-12) * x -
-		  4.286617818951e-13) * x - 2.632066100073e-10) * x +
-		4.804518986559e-9) * x - 1.835675889421e-8) * x -
-	      1.068175391334e-6) * x + 3.292234974141e-5) * x -
-	    5.94805357558251e-4) * x + .00829382168612791) * x -
-	  .0993122509049447) * x + 1.09857804755042;
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5700:
-    e = exp (-t);
-    w1 = e * -.01962 + sqrt (.785398163397448 / t);
-    w2 = ((((((((t * 2.7777834587065e-5 - .0022283501765589) * t +
-		.161077633475573) * t - 8.96743743396132) * t +
-	      328.062687293374) * t - 7657.22701219557) * t +
-	    110255.055017664) * t - 892528.122219324) * t +
-	  3106386.27744347) * e + w1 * .270967405960535;
-    w3 = ((((((((t * 1.83574464457207e-5 - .00154837969489927) * t +
-		.118520453711586) * t - 6.69649981309161) * t +
-	      244.789386487321) * t - 5688.32664556359) * t +
-	    81450.7604229357) * t - 655181.056671474) * t +
-	  2264108.96607237) * e + w1 * .0382231610015404;
-    w4 = (((((((((t * -2.4079943580995e-8 + 8.12621667601546e-6) * t -
-		 9.04491430884113e-4) * t + .0637686375770059) * t -
-	       2.96135703135647) * t + 91.514235699633) * t -
-	     1869.71865249111) * t + 24294.5528916947) * t -
-	   181852.473229081) * t + 596854.758661427) * e + w1 *
-      .00151614186862443;
-    w5 = (((((((((t * -4.6110090613397e-10 + 1.43069932644286e-7) * t -
-		 1.6396091543108e-5) * t + .00115791154612838) * t -
-	       .0530573476742071) * t + 1.61156533367153) * t -
-	     32.3248143316007) * t + 412.007318109157) * t -
-	   3022.60070158372) * t + 9715.75094154768) * e + w1 *
-      8.62130526143657e-6;
-    wts[m] *= w1 - w2 - w3 - w4 - w5;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    wts[m + 4] *= w5;
-    r1 = ((((((((t * -1.73363958895356e-6 + 1.19921331441483e-4) * t -
-		.0159437614121125) * t + 1.13467897349442) * t -
-	      44.7216460864586) * t + 1062.51216612604) * t -
-	    15207.3917378512) * t + 120662.887111273) * t -
-	  407186.366852475) * e + .117581320211778 / (t -
-						      .117581320211778);
-    r2 = ((((((((t * -1.6010254262171e-5 + .00110331262112395) * t -
-		.150043662589017) * t + 10.5563640866077) * t -
-	      410.468817024806) * t + 9626.04416506819) * t -
-	    135888.06983827) * t + 1061075.7703834) * t -
-	  3511907.92816119) * e + 1.0745620124369 / (t - 1.0745620124369);
-    r3 = ((((((((t * -4.48880032128422e-5 + .00269025112122177) * t -
-		.401048115525954) * t + 27.8360021977405) * t -
-	      1048.91729356965) * t + 23698.5942687423) * t -
-	    319504.627257548) * t + 2348796.93563358) * t -
-	  7163415.68174085) * e + 3.08593744371754 / (t -
-						      3.08593744371754);
-    r4 = ((((((((t * -6.38526371092582e-5 - .00229263585792626) * t -
-		.0765735935499627) * t + 9.12692349152792) * t -
-	      232.077034386717) * t + 281.839578728845) * t +
-	    95952.9683876419) * t - 1776389.56809518) * t +
-	  10248975.964541) * e + 6.41472973366203 / (t -
-						     6.41472973366203);
-    r5 = ((((((((t * -3.59049364231569e-5 - .0225963977930044) * t +
-		1.12594870794668) * t - 45.6752462103909) * t +
-	      1058.04526830637) * t - 11600.3199605875) * t -
-	    40729.7627297272) * t + 2222155.28319857) * t -
-	  16119645.5032613) * e + 11.8071894899717 / (t -
-						      11.8071894899717);
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    m += 5;
-    goto L500;
-
-  L5800:
-    x = t * t * t;
-    e = exp (-t) * x;
-    r1 = (((t * -.0243758528330205 + 2.07301567989771) * t -
-	   64.5964225381113) * t + 714.16008865547) * e +
-      .117581320211778 / (t - .117581320211778);
-    r2 = (((t * -.228861955413636 + 19.3190784733691) * t -
-	   599.774730340912) * t + 6618.44165304871) * e +
-      1.0745620124369 / (t - 1.0745620124369);
-    r3 = (((t * -.695053039285586 + 57.6874090316016) * t -
-	   1777.0414322552) * t + 19536.6082947811) * e +
-      3.08593744371754 / (t - 3.08593744371754);
-    r4 = (((t * -1.58072809087018 + 127.050801091948) * t -
-	   3866.8735091428) * t + 42302.482812142) * e +
-      6.41472973366203 / (t - 6.41472973366203);
-    r5 = (((t * -3.33963830405396 + 251.830424600204) * t -
-	   7577.28527654961) * t + 82196.681659569) * e +
-      11.8071894899717 / (t - 11.8071894899717);
-    rts[m] = r1 / (r1 + 1.);
-    rts[m + 1] = r2 / (r2 + 1.);
-    rts[m + 2] = r3 / (r3 + 1.);
-    rts[m + 3] = r4 / (r4 + 1.);
-    rts[m + 4] = r5 / (r5 + 1.);
-    e *= x;
-    w1 = sqrt (.785398163397448 / t);
-    w2 = ((t * 2.09539509123135e-5 - 6.87646614786982e-4) * t +
-	  .00668743788585688) * e + w1 * .270967405960535;
-    w3 = ((t * 1.34547929260279e-5 - 4.19389884772726e-4) * t +
-	  .00387706687610809) * e + w1 * .0382231610015404;
-    w4 = ((t * 1.23464092261605e-6 - 3.5522456427559e-5) * t +
-	  3.03274662192286e-4) * e + w1 * .00151614186862443;
-    w5 = ((t * 1.35482430510942e-8 - 3.27722199212781e-7) * t +
-	  2.41522703684296e-6) * e + w1 * 8.62130526143657e-6;
-    wts[m] *= w1 - w2 - w3 - w4 - w5;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    wts[m + 4] *= w5;
-    m += 5;
-    goto L500;
-
-  L5900:
-    w1 = sqrt (.785398163397448 / t);
-    w2 = w1 * .270967405960535;
-    w3 = w1 * .0382231610015404;
-    w4 = w1 * .00151614186862443;
-    w5 = w1 * 8.62130526143657e-6;
-    wts[m] *= w1 - w2 - w3 - w4 - w5;
-    wts[m + 1] *= w2;
-    wts[m + 2] *= w3;
-    wts[m + 3] *= w4;
-    wts[m + 4] *= w5;
-    rts[m] = .117581320211778 / t;
-    rts[m + 1] = 1.0745620124369 / t;
-    rts[m + 2] = 3.08593744371754 / t;
-    rts[m + 3] = 6.41472973366203 / t;
-    rts[m + 4] = 11.8071894899717 / t;
-    m += 5;
-  L500:
-    ;
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_5rw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_5rw.h
deleted file mode 100644
index 8e42784..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_5rw.h
+++ /dev/null
@@ -1,6 +0,0 @@
-#ifndef RYS_5RW_H_
-#define RYS_5RW_H_
-
-void rys_5rw(int nt, const double tval[restrict], double rts[restrict], double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_integral.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_integral.c
deleted file mode 100644
index a9f8d22..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_integral.c
+++ /dev/null
@@ -1,772 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <limits.h>
-#include <math.h>
-#include <string.h>
-#include <assert.h>
-#include <stdint.h>
-
-#include "rys_rw.h"
-#include "rys_integral.h"
-
-#define Lx 8
-#define Ly 8
-
-#define Vx (Lx + 1) * (Lx + 2) / 2
-#define Vy (Ly + 1) * (Ly + 2) / 2
-
-#define R_MAX (Lx + 1)
-
-#define PB 16
-
-#define PI 3.14159265358979323846
-
-#define MIN(a,b)                                \
-  ({ __typeof__ (a) _a = (a);                   \
-    __typeof__ (b) _b = (b);                    \
-    _a < _b ? _a : _b; })
-
-// codelets
-inline void __attribute__((always_inline)) compute_00(double beta, double *int_array, double *wgh) {
-  *(int_array + 0) = (*(int_array + 0)) * beta + *(wgh + 0);
-}
-
-inline void __attribute__((always_inline)) compute_10_01(double xPX, double yPX, double zPX, double xPC, double yPC, double zPC, double beta, double *int_array, double *rts, double *wgh) {
-  double rt, Cx0, Cy0, Cz0, Cx1, Cy1, Cz1;
-  
-  rt = *(rts + 0);
-  Cx0 = (xPX - xPC * rt);
-  Cy0 = (yPX - yPC * rt);
-  Cz0 = (zPX - zPC * rt);
-
-  rt = *(rts + 1);
-  Cx1 = (xPX - xPC * rt);
-  Cy1 = (yPX - yPC * rt);
-  Cz1 = (zPX - zPC * rt);
-
-  *(int_array + 0) = (*(int_array + 0)) * beta + (*(wgh + 0)) * Cx0 + (*(wgh + 1)) * Cx1;
-  *(int_array + 1) = (*(int_array + 1)) * beta + (*(wgh + 0)) * Cy0 + (*(wgh + 1)) * Cy1;
-  *(int_array + 2) = (*(int_array + 2)) * beta + (*(wgh + 0)) * Cz0 + (*(wgh + 1)) * Cz1;
-}
-
-inline void __attribute__((always_inline)) compute_20_02(double xPX, double yPX, double zPX, double xPC, double yPC, double zPC, double aP_inv, double beta, double *int_array, double *rts, double *wgh) {
-  double B0, B1, rt0, rt1, Cx0, Cy0, Cz0, Cx1, Cy1, Cz1, Cx2, Cy2, Cz2, Cx3, Cy3, Cz3;
-  
-  rt0 = *(rts + 0);
-  Cx0 = (xPX - xPC * rt0);
-  Cy0 = (yPX - yPC * rt0);
-  Cz0 = (zPX - zPC * rt0);
-
-  rt1 = *(rts + 1);
-  Cx1 = (xPX - xPC * rt1);
-  Cy1 = (yPX - yPC * rt1);
-  Cz1 = (zPX - zPC * rt1);
-
-  B0 = (1.0 - rt0) * aP_inv * 0.5;
-  B1 = (1.0 - rt1) * aP_inv * 0.5;
-	      
-  Cx2 = Cx0 * Cx0 + B0;
-  Cy2 = Cy0 * Cy0 + B0;
-  Cz2 = Cz0 * Cz0 + B0;
-
-  Cx3 = Cx1 * Cx1 + B1;
-  Cy3 = Cy1 * Cy1 + B1;
-  Cz3 = Cz1 * Cz1 + B1;
-	      
-  *(int_array + 0) = (*(int_array + 0)) * beta + Cx2 * (*(wgh + 0)) + Cx3 * (*(wgh + 1));
-  *(int_array + 1) = (*(int_array + 1)) * beta + Cx0 * Cy0 * (*(wgh + 0)) + Cx1 * Cy1 * (*(wgh + 1));
-  *(int_array + 2) = (*(int_array + 2)) * beta + Cx0 * Cz0 * (*(wgh + 0)) + Cx1 * Cz1 * (*(wgh + 1));
-
-  *(int_array + 3) = (*(int_array + 3)) * beta + Cy2 * (*(wgh + 0)) + Cy3 * (*(wgh + 1));
-  *(int_array + 4) = (*(int_array + 4)) * beta + Cy0 * Cz0 * (*(wgh + 0)) + Cy1 * Cz1 * (*(wgh + 1));
-  *(int_array + 5) = (*(int_array + 5)) * beta + Cz2 * (*(wgh + 0)) + Cz3 * (*(wgh + 1));
-}
-
-inline void __attribute__((always_inline)) compute_11(double xAB, double yAB, double zAB, double xPX, double yPX, double zPX, double xPC, double yPC, double zPC, double aP_inv, double beta, double *int_array, double *rts, double *wgh) {
-  double B0, B1, rt0, rt1, Cx0, Cy0, Cz0, Cx1, Cy1, Cz1, Cx2, Cy2, Cz2, Cx3, Cy3, Cz3;
-  
-  rt0 = *(rts + 0);
-  Cx0 = (xPX - xPC * rt0);
-  Cy0 = (yPX - yPC * rt0);
-  Cz0 = (zPX - zPC * rt0);
-
-  rt1 = *(rts + 1);
-  Cx1 = (xPX - xPC * rt1);
-  Cy1 = (yPX - yPC * rt1);
-  Cz1 = (zPX - zPC * rt1);
-
-  B0 = (1.0 - rt0) * aP_inv * 0.5;
-  B1 = (1.0 - rt1) * aP_inv * 0.5;
-	      
-  Cx2 = Cx0 * Cx0 + B0;
-  Cy2 = Cy0 * Cy0 + B0;
-  Cz2 = Cz0 * Cz0 + B0;
-
-  Cx3 = Cx1 * Cx1 + B1;
-  Cy3 = Cy1 * Cy1 + B1;
-  Cz3 = Cz1 * Cz1 + B1;
-	      
-  *(int_array + 0) = (*(int_array + 0)) * beta + (Cx2 + xAB * Cx0) * (*(wgh + 0)) + (Cx3 + xAB * Cx1) * (*(wgh + 1));
-  *(int_array + 1) = (*(int_array + 1)) * beta + Cy0 * (Cx0 + xAB) * (*(wgh + 0)) + Cy1 * (Cx1 + xAB) * (*(wgh + 1));
-  *(int_array + 2) = (*(int_array + 2)) * beta + Cz0 * (Cx0 + xAB) * (*(wgh + 0)) + Cz1 * (Cx1 + xAB) * (*(wgh + 1));
-
-  *(int_array + 3) = (*(int_array + 3)) * beta + Cx0 * (Cy0 + yAB) * (*(wgh + 0)) + Cx1 * (Cy1 + yAB) * (*(wgh + 1));
-  *(int_array + 4) = (*(int_array + 4)) * beta + (Cy2 + yAB * Cy0) * (*(wgh + 0)) + (Cy3 + yAB * Cy1) * (*(wgh + 1));
-  *(int_array + 5) = (*(int_array + 5)) * beta + Cz0 * (Cy0 + yAB) * (*(wgh + 0)) + Cz1 * (Cy1 + yAB) * (*(wgh + 1));
-
-  *(int_array + 6) = (*(int_array + 6)) * beta + Cx0 * (Cz0 + zAB) * (*(wgh + 0)) + Cx1 * (Cz1 + zAB) * (*(wgh + 1));
-  *(int_array + 7) = (*(int_array + 7)) * beta + Cy0 * (Cz0 + zAB) * (*(wgh + 0)) + Cy1 * (Cz1 + zAB) * (*(wgh + 1));
-  *(int_array + 8) = (*(int_array + 8)) * beta + (Cz2 + zAB * Cz0) * (*(wgh + 0)) + (Cz3 + zAB * Cz1) * (*(wgh + 1));
-}
-
-// nr roots > 2
-inline void __attribute__((always_inline)) compute_vrr3(int nr_roots, int l, int lA, int llA, int lB, int llB, double xPX, double yPX, double zPX, double xPC, double yPC, double zPC, double aP_inv, double * rts, double *vrr_array, double *hrr_array) {
-  double *roots = (rts + 0);
-  double *vrr = (vrr_array + 0);
-  for(int r = 0; r < nr_roots; ++r) {
-    double *hrr = (hrr_array + l * r);
-    
-    double rt = *(roots + 0);
-    
-    double B = (1.0 - rt) * aP_inv * 0.5;
-
-    double Cx = (xPX - xPC * rt);
-    double Cy = (yPX - yPC * rt);
-    double Cz = (zPX - zPC * rt);
-
-    double v0x = B;
-    double v0y = B;
-    double v0z = B;
-
-    double v1x = Cx;
-    double v1y = Cy;
-    double v1z = Cz;
-    
-    *(vrr + 0) = 1.0;
-    *(vrr + 1) = 1.0;
-    *(vrr + 2) = 1.0;
-    
-    *(vrr + 3) = Cx;
-    *(vrr + 4) = Cy;
-    *(vrr + 5) = Cz;
-
-    *(hrr + 0 * llB + 0) = 1.0;
-    *(hrr + 0 * llB + 1) = 1.0;
-    *(hrr + 0 * llB + 2) = 1.0;
-
-    *(hrr + 1 * llB + 0) = Cx;
-    *(hrr + 1 * llB + 1) = Cy;
-    *(hrr + 1 * llB + 2) = Cz;
-    
-    double *vrri = (vrr + 6);
-    double *hrri = (hrr + 2 * llB);
-    for(int i = 1; i <= lB; ++i) {
-      double v2x = Cx * v1x + i * v0x;
-      double v2y = Cy * v1y + i * v0y;
-      double v2z = Cz * v1z + i * v0z;
-	
-      *(vrri + 0) = v2x;
-      *(vrri + 1) = v2y;
-      *(vrri + 2) = v2z;
-
-      *(hrri + 0) = v2x;
-      *(hrri + 1) = v2y;
-      *(hrri + 2) = v2z;
-
-      v0x = v1x * B;
-      v0y = v1y * B;
-      v0z = v1z * B;
-	
-      v1x = v2x;
-      v1y = v2y;
-      v1z = v2z;
-
-      vrri += 3;
-      hrri += llB;
-    }
-
-    for(int i = lB + 1; i <= lA + lB; ++i) {
-      double v2x = Cx * v1x + i * v0x;
-      double v2y = Cy * v1y + i * v0y;
-      double v2z = Cz * v1z + i * v0z;
-	
-      *(vrri + 0) = v2x;
-      *(vrri + 1) = v2y;
-      *(vrri + 2) = v2z;
-
-      v0x = v1x * B;
-      v0y = v1y * B;
-      v0z = v1z * B;
-	
-      v1x = v2x;
-      v1y = v2y;
-      v1z = v2z;
-
-      vrri += 3;
-    }
-    
-    vrr += 3 * (lA + lB + 1);
-    roots ++;
-  }
-}
-
-inline void __attribute__((always_inline)) compute_hrr3(int nr_roots, int l, int lA, int llA, int lB, int llB, double xAB, double yAB, double zAB, double *vrr_array, double *hrr_array) {
-  for(int j = 1; j <= lA; ++j) {
-    double *hrrj = (hrr_array + llA * j);
-    
-    for(int r = 0; r < nr_roots; ++r) {
-      double *hrrr = (hrrj + l * r);
-      double *vrrr = (vrr_array + 3 * (lA + lB + 1) * r);
-      
-      double v0x = *(vrrr + 0);
-      double v0y = *(vrrr + 1);
-      double v0z = *(vrrr + 2);
-      
-      for(int i = 0; i <= lB; ++i) {
-	double v1x = *(vrrr + 3);
-	double v1y = *(vrrr + 4);
-	double v1z = *(vrrr + 5);
-	
-	v0x = v1x + xAB * v0x;
-	v0y = v1y + yAB * v0y;
-	v0z = v1z + zAB * v0z;
-
-	*(hrrr + 0) = v0x;
-	*(hrrr + 1) = v0y;
-	*(hrrr + 2) = v0z;
-
-	*(vrrr + 0) = v0x;
-	*(vrrr + 1) = v0y;
-	*(vrrr + 2) = v0z;
-
-	v0x = v1x;
-	v0y = v1y;
-	v0z = v1z;
-
-	vrrr += 3;
-	hrrr += llB;
-      }
-
-      for(int i = lB + 1; i <= lA + lB - j; ++i) {
-	double v1x = *(vrrr + 3);
-	double v1y = *(vrrr + 4);
-	double v1z = *(vrrr + 5);
-	
-	v0x = v1x + xAB * v0x;
-	v0y = v1y + yAB * v0y;
-	v0z = v1z + zAB * v0z;
-
-	*(vrrr + 0) = v0x;
-	*(vrrr + 1) = v0y;
-	*(vrrr + 2) = v0z;
-
-	v0x = v1x;
-	v0y = v1y;
-	v0z = v1z;
-
-	vrrr += 3;
-	hrrr += llB;
-      }
-    }
-  }
-}
-
-inline int __attribute__((always_inline)) index_calculation(int i, int j, int L) {
-  return (L - i) * (L - i + 1) / 2 + j;
-}
-
-inline void __attribute__((always_inline)) compute_reduction(int nr_roots, int lA, int lB, double *weights, double *hrr_array, double *result, double beta) {
-  int offsetB = (lB + 1) * (lB + 2) / 2;
-
-  for(int ia = 0; ia <= lA; ++ia) {
-    for(int ja = 0; ja <= (lA - ia); ++ja) {
-      int ka = lA - ia - ja;
-      int ija = index_calculation(ia, ka, lA);
-
-      double *hrria = (hrr_array + 3 * (lB + 1) * nr_roots * ia);
-      double *hrrja = (hrr_array + 3 * (lB + 1) * nr_roots * ja);
-      double *hrrka = (hrr_array + 3 * (lB + 1) * nr_roots * ka);
-      
-      for(int ib = 0; ib <= lB; ++ib) {
-	for(int jb = 0; jb <= (lB - ib); ++jb) {
-	  int kb = lB - ib - jb;
-	  int ijb = index_calculation(ib, kb, lB);
-
-	  double *hrrib = (hrria + 3 * ib);
-	  double *hrrjb = (hrrja + 3 * jb);
-	  double *hrrkb = (hrrka + 3 * kb);
-	  double *wghs = (weights + 0);
-	  
-	  double value = 0.0;
-
-	  for(int r = 0; r < nr_roots; ++r) {
-	    double ix = *(hrrib + 0);
-	    double iy = *(hrrjb + 1);
-	    double iz = *(hrrkb + 2);
-	    double w  = *(wghs + 0);
-
-	    value += (ix * iy * iz * w);
-
-	    hrrib += 3 * (lB + 1);
-	    hrrjb += 3 * (lB + 1);
-	    hrrkb += 3 * (lB + 1);
-	    wghs ++;
-	  }
-
-	  *(result + offsetB * ija + ijb) = (*(result + offsetB * ija + ijb)) * beta + value;
-	}
-      }
-    }
-  }
-}
-
-void compute_integral(int n, shells *shell_list, int m, point *points, double *matrix) {
-  double *rts = (double*) malloc(PB * R_MAX * sizeof(double));
-  double *wgh = (double*) malloc(PB * R_MAX * sizeof(double));
-
-  double *int_array = (double*) malloc(PB * Vx * Vy * sizeof(double));
-  double *vrr_array = (double*) malloc(3 * (Lx + Ly + 1) * R_MAX * sizeof(double));
-  double *hrr_array = (double*) malloc(3 * (Lx + 1) * (Ly + 1) * R_MAX * sizeof(double));
-
-  int nn = 0;
-  for(int i = 0; i < n; ++i) {
-    int L = shell_list[i].L;    
-    nn += ((L + 1) * (L + 2) / 2);
-  }
-  
-  int offset_ii = 0;
-  for(int ii = 0; ii < n; ++ii) {
-    shells shell0 = shell_list[ii];
-
-    int offset_jj = 0;
-    for(int jj = 0; jj < n; ++jj) {
-      shells shell1 = shell_list[jj];
-
-      for(int p = 0; p < m; p += PB) {
-	int pp = MIN(m - p, PB);
-	point *ppoints = (points + p);
-      
-	// values
-	double xA = shell0.origin.x;
-	double yA = shell0.origin.y;
-	double zA = shell0.origin.z;
-	int lA = shell0.L;
-	    
-	double xB = shell1.origin.x;
-	double yB = shell1.origin.y;
-	double zB = shell1.origin.z;
-	int lB = shell1.L;
-
-	// nr of roots
-	int nr_roots = ((int) ceil((lA + lB) / 2.0)) + 1;
-
-	double xAB = (lB < lA) ? (xA - xB) : (xB - xA);
-	double yAB = (lB < lA) ? (yA - yB) : (yB - yA);
-	double zAB = (lB < lA) ? (zA - zB) : (zB - zA);
-	
-	double beta = 0.0;
-	for(int i = 0; i < shell0.m; ++i) {
-	  for(int j = 0; j < shell1.m; ++j) {
-	    
-	    double aA = shell0.coeff[i].alpha;
-	    double cA = shell0.coeff[i].coeff;  
-
-	    double aB = shell1.coeff[j].alpha;
-	    double cB = shell1.coeff[j].coeff;
-
-	    double aP = aA + aB;
-	    double aP_inv = 1.0 / aP;
-  
-	    double xP = (aA * xA + aB * xB) * aP_inv;
-	    double yP = (aA * yA + aB * yB) * aP_inv;
-	    double zP = (aA * zA + aB * zB) * aP_inv;
-  
-	    double xPX = (lB < lA) ? (xP - xA) : (xP - xB);
-	    double yPX = (lB < lA) ? (yP - yA) : (yP - yB);
-	    double zPX = (lB < lA) ? (zP - zA) : (zP - zB);
-
-	    double tval[PB];
-	    double xPC[PB];
-	    double yPC[PB];
-	    double zPC[PB];
-	    
-	    double eval = exp(-1.0 * (xAB * xAB + yAB * yAB + zAB * zAB) * aA * aB * aP_inv);
-
-	    for(int pb = 0; pb < pp; ++pb) {
-	      point C = *(ppoints + pb);
-	      
-	      double xC = (xP - C.x);
-	      double yC = (yP - C.y);
-	      double zC = (zP - C.z);
-
-	      xPC[pb] = xC;
-	      yPC[pb] = yC;
-	      zPC[pb] = zC;
-	      
-	      tval[pb] = aP * (xC * xC + yC * yC + zC * zC);
-	    }
-
-	    for(int pb = 0; pb < pp * nr_roots; ++pb) {
-	      *(rts + pb) = 0.0;
-	      *(wgh + pb) = 2 * PI * aP_inv * eval * cA * cB;
-	    }
-  
-	    rys_rw(pp, nr_roots, tval, rts, wgh);  
-
-	    int lX = (lB < lA) ? lB : lA;
-	    int lY = (lB < lA) ? lA : lB;
-	    int llX = (lB < lA) ? 3 : 3 * (lB + 1) * nr_roots;
-	    int llY = (lB < lA) ? 3 * (lB + 1) * nr_roots : 3;
-
-	    if((lA == 0) && (lB == 0)) {
-	      for(int pb = 0; pb < pp; ++pb) {
-		compute_00(beta, (int_array + 1 * pb), (wgh + 1 * pb));
-	      }
-	    } else if(((lA == 1) && (lB == 0)) || ((lA == 0) && (lB == 1))) {
-	      for(int pb = 0; pb < pp; ++pb) {
-		double xC = xPC[pb];
-		double yC = yPC[pb];
-		double zC = zPC[pb];
-		
-		compute_10_01(xPX, yPX, zPX, xC, yC, zC, beta, (int_array + 3 * pb), (rts + 2 * pb), (wgh + 2 * pb));
-	      }
-	    } else if((lA == 1) && (lB == 1)) {
-	      for(int pb = 0; pb < pp; ++pb) {
-		double xC = xPC[pb];
-		double yC = yPC[pb];
-		double zC = zPC[pb];
-
-		compute_11(xAB, yAB, zAB, xPX, yPX, zPX, xC, yC, zC, aP_inv, beta, (int_array + 9 * pb), (rts + 2 * pb), (wgh + 2 * pb));
-	      }
-	    } else if(((lA == 2) && (lB == 0)) || ((lA == 0) && (lB == 2))) {
-	      for(int pb = 0; pb < pp; ++pb) {
-		double xC = xPC[pb];
-		double yC = yPC[pb];
-		double zC = zPC[pb];
-
-		compute_20_02(xPX, yPX, zPX, xC, yC, zC, aP_inv, beta, (int_array + 6 * pb), (rts + 2 * pb), (wgh + 2 * pb));
-	      }
-	    } else {
-	      for(int pb = 0; pb < pp; ++pb) {
-		double xC = xPC[pb];
-		double yC = yPC[pb];
-		double zC = zPC[pb];
-
-		compute_vrr3(nr_roots, 3 * (lB + 1), lX, llX, lY, llY, xPX, yPX, zPX, xC, yC, zC, aP_inv, (rts + nr_roots * pb), (vrr_array + 0), (hrr_array + 0));	    
-		compute_hrr3(nr_roots, 3 * (lB + 1), lX, llX, lY, llY, xAB, yAB, zAB, (vrr_array + 0), (hrr_array + 0));
-		compute_reduction(nr_roots, lA, lB, (wgh + nr_roots * pb), (hrr_array + 0), (int_array + ((lA + 1) * (lA + 2) / 2) * ((lB + 1) * (lB + 2) / 2) * pb), beta);
-	      }
-	    }
-	    
-	    beta = 1.0;
-	  }
-	}
-
-	for(int pb = 0; pb < pp; ++pb) {
-	  for(int i = 0; i < (lA + 1) * (lA + 2) / 2; ++i) {
-	    for(int j = 0; j < (lB + 1) * (lB + 2) / 2; ++j) {
-	      *(matrix + nn * nn * (p + pb) + nn * (i + offset_ii) + (j + offset_jj)) = *(int_array + ((lA + 1) * (lA + 2) / 2) * ((lB + 1) * (lB + 2) / 2) * pb + ((lB + 1) * (lB + 2) / 2) * i + j);
-	    }
-	  }
-	}
-      }
-      
-      int lB = shell1.L;
-      offset_jj += ((lB + 1) * (lB + 2) / 2);
-    }
-
-    int lA = shell0.L;
-    offset_ii += ((lA + 1) * (lA + 2) / 2);
-  }
-  
-  free(rts);
-  free(wgh);
-  
-  free(int_array);
-  free(vrr_array);
-  free(hrr_array);
-}
-
-void compute_integral_shell_pair( int npts,
-				  shells sh0,
-				  shells sh1, 
-                                  point *points,
-				  double *matrix ) {
-  double *rts = (double*) malloc(PB * R_MAX * sizeof(double));
-  double *wgh = (double*) malloc(PB * R_MAX * sizeof(double));
-
-  double *vrr_array = (double*) malloc(3 * (Lx + Ly + 1) * R_MAX * sizeof(double));
-  double *hrr_array = (double*) malloc(3 * (Lx + 1) * (Ly + 1) * R_MAX * sizeof(double));
-
-  // values
-  double xA = sh0.origin.x;
-  double yA = sh0.origin.y;
-  double zA = sh0.origin.z;
-  int lA = sh0.L;
-	    
-  double xB = sh1.origin.x;
-  double yB = sh1.origin.y;
-  double zB = sh1.origin.z;
-  int lB = sh1.L;
-
-  // nr of roots
-  int nr_roots = ((int) ceil((lA + lB) / 2.0)) + 1;
-
-  double xAB = (lB < lA) ? (xA - xB) : (xB - xA);
-  double yAB = (lB < lA) ? (yA - yB) : (yB - yA);
-  double zAB = (lB < lA) ? (zA - zB) : (zB - zA);
-
-  const int shpair_sz =  (lA+1)*(lA+2) * (lB+1)*(lB+2) / 4;
-  for(int p = 0; p < npts; p += PB) {
-    int pp = MIN(npts - p, PB);
-    point *ppoints = (points + p);
-    
-    double beta = 0.0;
-    for(int i = 0; i < sh0.m; ++i) {
-      for(int j = 0; j < sh1.m; ++j) {
-	    
-	double aA = sh0.coeff[i].alpha;
-	double cA = sh0.coeff[i].coeff;  
-
-	double aB = sh1.coeff[j].alpha;
-	double cB = sh1.coeff[j].coeff;
-
-	double aP = aA + aB;
-	double aP_inv = 1.0 / aP;
-  
-	double xP = (aA * xA + aB * xB) * aP_inv;
-	double yP = (aA * yA + aB * yB) * aP_inv;
-	double zP = (aA * zA + aB * zB) * aP_inv;
-  
-	double xPX = (lB < lA) ? (xP - xA) : (xP - xB);
-	double yPX = (lB < lA) ? (yP - yA) : (yP - yB);
-	double zPX = (lB < lA) ? (zP - zA) : (zP - zB);
-
-	double tval[PB];
-	double xPC[PB];
-	double yPC[PB];
-	double zPC[PB];
-	    
-	double eval = exp(-1.0 * (xAB * xAB + yAB * yAB + zAB * zAB) * aA * aB * aP_inv);
-
-	for(int pb = 0; pb < pp; ++pb) {
-	  point C = *(ppoints + pb);
-	      
-	  double xC = (xP - C.x);
-	  double yC = (yP - C.y);
-	  double zC = (zP - C.z);
-
-	  xPC[pb] = xC;
-	  yPC[pb] = yC;
-	  zPC[pb] = zC;
-	      
-	  tval[pb] = aP * (xC * xC + yC * yC + zC * zC);
-	}
-
-	for(int pb = 0; pb < pp * nr_roots; ++pb) {
-	  *(rts + pb) = 0.0;
-	  *(wgh + pb) = 2 * PI * aP_inv * eval * cA * cB;
-	}
-  
-	rys_rw(pp, nr_roots, tval, rts, wgh);  
-
-	int lX = (lB < lA) ? lB : lA;
-	int lY = (lB < lA) ? lA : lB;
-	int llX = (lB < lA) ? 3 : 3 * (lB + 1) * nr_roots;
-	int llY = (lB < lA) ? 3 * (lB + 1) * nr_roots : 3;
-
-	if((lA == 0) && (lB == 0)) {
-	  for(int pb = 0; pb < pp; ++pb) {
-	    double *int_array = (matrix + shpair_sz * (p + pb));
-	    compute_00(beta, int_array, (wgh + 1 * pb));
-	  }
-	} else if(((lA == 1) && (lB == 0)) || ((lA == 0) && (lB == 1))) {
-	  for(int pb = 0; pb < pp; ++pb) {
-	    double xC = xPC[pb];
-	    double yC = yPC[pb];
-	    double zC = zPC[pb];
-
-	    double *int_array = (matrix + shpair_sz * (p + pb));
-	    compute_10_01(xPX, yPX, zPX, xC, yC, zC, beta, int_array, (rts + 2 * pb), (wgh + 2 * pb));
-	  }
-	} else if((lA == 1) && (lB == 1)) {
-	  for(int pb = 0; pb < pp; ++pb) {
-	    double xC = xPC[pb];
-	    double yC = yPC[pb];
-	    double zC = zPC[pb];
-
-	    double *int_array = (matrix + shpair_sz * (p + pb));
-	    compute_11(xAB, yAB, zAB, xPX, yPX, zPX, xC, yC, zC, aP_inv, beta, int_array, (rts + 2 * pb), (wgh + 2 * pb));
-	  }
-	} else if(((lA == 2) && (lB == 0)) || ((lA == 0) && (lB == 2))) {
-	  for(int pb = 0; pb < pp; ++pb) {
-	    double xC = xPC[pb];
-	    double yC = yPC[pb];
-	    double zC = zPC[pb];
-
-	    double *int_array = (matrix + shpair_sz * (p + pb));
-	    compute_20_02(xPX, yPX, zPX, xC, yC, zC, aP_inv, beta, int_array, (rts + 2 * pb), (wgh + 2 * pb));
-	  }
-	} else {
-	  for(int pb = 0; pb < pp; ++pb) {
-	    double xC = xPC[pb];
-	    double yC = yPC[pb];
-	    double zC = zPC[pb];
-
-	    double *int_array = (matrix + shpair_sz * (p + pb));
-	    compute_vrr3(nr_roots, 3 * (lB + 1), lX, llX, lY, llY, xPX, yPX, zPX, xC, yC, zC, aP_inv, (rts + nr_roots * pb), (vrr_array + 0), (hrr_array + 0));	    
-	    compute_hrr3(nr_roots, 3 * (lB + 1), lX, llX, lY, llY, xAB, yAB, zAB, (vrr_array + 0), (hrr_array + 0));
-	    compute_reduction(nr_roots, lA, lB, (wgh + nr_roots * pb), (hrr_array + 0), int_array, beta);
-	  }
-	}
-	    
-	beta = 1.0;
-      }
-    }
-  }
-  
-  free(rts);
-  free(wgh);
-
-  free(vrr_array);
-  free(hrr_array);
-}
-
-#if 0
-void compute_integral_shell_pair_pre( int npts,
-				      shell_pair shpair, 
-				      point *points,
-				      double *matrix ) {
-  double *rts = (double*) malloc(PB * R_MAX * sizeof(double));
-  double *wgh = (double*) malloc(PB * R_MAX * sizeof(double));
-
-  double *vrr_array = (double*) malloc(3 * (Lx + Ly + 1) * R_MAX * sizeof(double));
-  double *hrr_array = (double*) malloc(3 * (Lx + 1) * (Ly + 1) * R_MAX * sizeof(double));
-
-  int lA = shpair.lA;
-  int lB = shpair.lB;
-    
-  // nr of roots
-  int nr_roots = ((int) ceil((lA + lB) / 2.0)) + 1;
-
-  int value = (lB < lA) ? 1 : -1;    
-  double xAB = value * shpair.rAB.x;
-  double yAB = value * shpair.rAB.y;
-  double zAB = value * shpair.rAB.z;
-  
-  const int shpair_sz =  (lA+1)*(lA+2) * (lB+1)*(lB+2) / 4;
-  for(int p = 0; p < npts; p += PB) {
-    int pp = MIN(npts - p, PB);
-    point *ppoints = (points + p);
-	
-    double beta = 0.0;
-    prim_pair *prim_pairs = shpair.prim_pairs;
-    for(int ij = 0; ij < shpair.nprim_pair; ++ij) { 
-      const double aP = prim_pairs[ij].gamma;
-      const double aP_inv = 1.0 / aP;
-
-      const double xP = prim_pairs[ij].P.x;
-      const double yP = prim_pairs[ij].P.y;
-      const double zP = prim_pairs[ij].P.z;
-          
-      const double xPX = (lB < lA) ? prim_pairs[ij].PA.x : prim_pairs[ij].PB.x;
-      const double yPX = (lB < lA) ? prim_pairs[ij].PA.y : prim_pairs[ij].PB.y;
-      const double zPX = (lB < lA) ? prim_pairs[ij].PA.z : prim_pairs[ij].PB.z;
-
-      double tval[PB];
-      double xPC[PB];
-      double yPC[PB];
-      double zPC[PB];
-	    
-      for(int pb = 0; pb < pp; ++pb) {
-	point C = *(ppoints + pb);
-	      
-	double xC = (xP - C.x);
-	double yC = (yP - C.y);
-	double zC = (zP - C.z);
-
-	xPC[pb] = xC;
-	yPC[pb] = yC;
-	zPC[pb] = zC;
-	      
-	tval[pb] = aP * (xC * xC + yC * yC + zC * zC);
-      }
-
-      for(int pb = 0; pb < pp * nr_roots; ++pb) {
-	*(rts + pb) = 0.0;
-	*(wgh + pb) = 2 * PI * aP_inv * prim_pairs[ij].K * prim_pairs[ij].coeff_prod;
-      }
-  
-      rys_rw(pp, nr_roots, tval, rts, wgh);  
-
-      int lX = (lB < lA) ? lB : lA;
-      int lY = (lB < lA) ? lA : lB;
-      int llX = (lB < lA) ? 3 : 3 * (lB + 1) * nr_roots;
-      int llY = (lB < lA) ? 3 * (lB + 1) * nr_roots : 3;
-
-      if((lA == 0) && (lB == 0)) {
-	for(int pb = 0; pb < pp; ++pb) {
-	  double *int_array = (matrix + shpair_sz * (p + pb));
-	  compute_00(beta, int_array, (wgh + 1 * pb));
-	}
-      } else if(((lA == 1) && (lB == 0)) || ((lA == 0) && (lB == 1))) {
-	for(int pb = 0; pb < pp; ++pb) {
-	  double xC = xPC[pb];
-	  double yC = yPC[pb];
-	  double zC = zPC[pb];
-
-	  double *int_array = (matrix + shpair_sz * (p + pb));
-	  compute_10_01(xPX, yPX, zPX, xC, yC, zC, beta, int_array, (rts + 2 * pb), (wgh + 2 * pb));
-	}
-      } else if((lA == 1) && (lB == 1)) {
-	for(int pb = 0; pb < pp; ++pb) {
-	  double xC = xPC[pb];
-	  double yC = yPC[pb];
-	  double zC = zPC[pb];
-
-	  double *int_array = (matrix + shpair_sz * (p + pb));
-	  compute_11(xAB, yAB, zAB, xPX, yPX, zPX, xC, yC, zC, aP_inv, beta, int_array, (rts + 2 * pb), (wgh + 2 * pb));
-	}
-      } else if(((lA == 2) && (lB == 0)) || ((lA == 0) && (lB == 2))) {
-	for(int pb = 0; pb < pp; ++pb) {
-	  double xC = xPC[pb];
-	  double yC = yPC[pb];
-	  double zC = zPC[pb];
-
-	  double *int_array = (matrix + shpair_sz * (p + pb));
-	  compute_20_02(xPX, yPX, zPX, xC, yC, zC, aP_inv, beta, int_array, (rts + 2 * pb), (wgh + 2 * pb));
-	}
-      } else {
-	for(int pb = 0; pb < pp; ++pb) {
-	  double xC = xPC[pb];
-	  double yC = yPC[pb];
-	  double zC = zPC[pb];
-
-	  double *int_array = (matrix + shpair_sz * (p + pb));
-	  compute_vrr3(nr_roots, 3 * (lB + 1), lX, llX, lY, llY, xPX, yPX, zPX, xC, yC, zC, aP_inv, (rts + nr_roots * pb), (vrr_array + 0), (hrr_array + 0));	    
-	  compute_hrr3(nr_roots, 3 * (lB + 1), lX, llX, lY, llY, xAB, yAB, zAB, (vrr_array + 0), (hrr_array + 0));
-	  compute_reduction(nr_roots, lA, lB, (wgh + nr_roots * pb), (hrr_array + 0), int_array, beta);
-	}
-      }
-	    
-      beta = 1.0;
-    }
-  }
-
-  free(rts);
-  free(wgh);
-
-  free(vrr_array);
-  free(hrr_array);
-}
-#endif
-
-
-
-
-
-
-
-
-
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_integral.c.bk b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_integral.c.bk
deleted file mode 100644
index e288699..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_integral.c.bk
+++ /dev/null
@@ -1,995 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <limits.h>
-#include <math.h>
-#include <string.h>
-#include <assert.h>
-#include <stdint.h>
-
-#include "rys_rw.h"
-#include "rys_integral.h"
-
-#define Lx 8
-#define Ly 8
-
-#define Vx (Lx + 1) * (Lx + 2) / 2
-#define Vy (Ly + 1) * (Ly + 2) / 2
-
-#define R_MAX (Lx + 1)
-
-#define PI 3.14159265358979323846
-
-void compute_vrr(int nr_roots, int l, double rPB, double rPC, double aP_inv, double * rts, double *vrr_array) {
-  for(int r = 0; r < nr_roots; ++r) {
-    *(vrr_array + nr_roots * 0 + r) = 1.0;
-  }
-
-  if(l > 0) {
-    for(int r = 0; r < nr_roots; ++r) {
-      *(vrr_array + nr_roots * 1 + r) = (rPB - rPC * (*(rts + r)));
-    }
-
-    for(int i = 1; i < l; ++i) {
-      for(int r = 0; r < nr_roots; ++r) {
-	double B = (1.0 - (*(rts + r))) * aP_inv * 0.5;
-	double C = *(vrr_array + nr_roots * 1 + r);
-
-	*(vrr_array + nr_roots * (i + 1) + r) = C * (*(vrr_array + nr_roots * i + r)) + i * B * (*(vrr_array + nr_roots * (i - 1) + r));
-      }
-    }
-  }
-}
-
-void compute_hrr(int nr_roots, int lA, int lB, double rAB, double *vrr_array, double *hrr_array) {
-
-#if 0
-  for(int i = 0; i <= lB; ++i) {
-    for(int r = 0; r < nr_roots; ++r) {
-      *(hrr_array + (lB + 1) * nr_roots * 0 + nr_roots * i + r) = *(vrr_array + nr_roots * i + r);
-    }
-  }
-
-  for(int j = 1; j <= lA; ++j) {
-    for(int i = 0; i <= lA + lB - j; ++i) {
-      for(int r = 0; r < nr_roots; ++r) {
-	*(vrr_array + nr_roots * i + r) = *(vrr_array + nr_roots * (i + 1) + r) - rAB * (*(vrr_array + nr_roots * i + r));
-      }
-    }
-
-    for(int i = 0; i <= lB; ++i) {
-      for(int r = 0; r < nr_roots; ++r) {
-	*(hrr_array + (lB + 1) * nr_roots * j + nr_roots * i + r) = *(vrr_array + nr_roots * i + r);
-      }
-    }    
-  }
-#else
-  for(int i = 0; i <= lB; ++i) {
-    double* hrr_i = hrr_array + nr_roots * i;
-    double* vrr_i = vrr_array + nr_roots * i;
-    for(int r = 0; r < nr_roots; ++r ) hrr_i[r] = vrr_i[r];
-  }
-
-  for(int j = 1; j <= lA; ++j) {
-    for(int i = 0; i <= lA + lB - j; ++i ) {
-      double* vrr_i   = vrr_array + nr_roots * i;
-      double* vrr_ip1 = vrr_i     + nr_roots;
-      for(int r = 0; r < nr_roots; ++r) {
-        vrr_i[r] = vrr_ip1[r] - rAB * vrr_i[r];
-      }
-    }
-
-    double* hrr_j = hrr_array + (lB+1)*nr_roots * j;
-    for(int i = 0; i <= lB; ++i) {
-      double* vrr_i   = vrr_array + nr_roots * i;
-      double* hrr_ji  = hrr_j     + nr_roots * i;
-      for(int r = 0; r < nr_roots; ++r) {
-        hrr_ji[r] = vrr_i[r];
-      }
-    }    
-  }
-#endif
-}
-
-inline int index_calculation(int i, int j, int L) {
-  return (L - i) * (L - i + 1) / 2 + j;
-}
-
-
-void compute_reduction_L00(double* weights, double* hrr_array, double* result, 
-		           double beta) {
-  double *hrrx = (hrr_array + 0);
-  double *hrry = (hrr_array + 1);
-  double *hrrz = (hrr_array + 2);
-
-  double value = 0.;
-  *result = (*result)*beta + (*hrrx) * (*hrry) * (*hrrz) * (*weights);
-
-}
-
-void compute_reduction_L10(double* weights, double* hrr_array, double* result, 
-		           double beta) {
-  double *hrrx = (hrr_array + 0);
-  double *hrry = (hrr_array + 4);
-  double *hrrz = (hrr_array + 8);
-
-  //
-  //  v = hrrx[0][0][0] * hrry[0][0][0] * hrrz[1][0][0] * w[0] +
-  //      hrrx[0][0][1] * hrry[0][0][1] * hrrz[1][0][1] * w[1] 
-  //  r[2][0] += v
-  //  v = hrrx[0][0][0] * hrry[1][0][0] * hrrz[0][0][0] * w[0] +
-  //      hrrx[0][0][1] * hrry[1][0][1] * hrrz[0][0][1] * w[1] 
-  //  r[1][0] += v
-  //  v = hrrx[1][0][0] * hrry[0][0][0] * hrrz[0][0][0] * w[0] +
-  //      hrrx[1][0][1] * hrry[0][0][1] * hrrz[0][0][1] * w[1] 
-  //  r[0][0] += v
-  //  
-
-
-  double pZ_0 = weights[0] * hrrx[0] * hrry[0] * hrrz[2];
-  double pY_0 = weights[0] * hrrx[0] * hrrz[0] * hrry[2];
-  double pX_0 = weights[0] * hrry[0] * hrrz[0] * hrrx[2];
-
-  double pZ_1 = weights[1] * hrrx[1] * hrry[1] * hrrz[3];
-  double pY_1 = weights[1] * hrrx[1] * hrrz[1] * hrry[3];
-  double pX_1 = weights[1] * hrry[1] * hrrz[1] * hrrx[3];
-
-  result[0] = result[0] * beta + pX_0 + pX_1;
-  result[1] = result[1] * beta + pY_0 + pY_1;
-  result[2] = result[2] * beta + pZ_0 + pZ_1;
-}
-
-void compute_reduction_L20(double* weights, double* hrr_array, double* result, 
-		           double beta) {
-  double *hrrx = (hrr_array + 0 );
-  double *hrry = (hrr_array + 6 );
-  double *hrrz = (hrr_array + 12);
-
-
-  // ia = 0
-  //   ja = 0
-  //   ka = 2
-  //   ija = 2*3/2 + 2 = 5
-  //
-  //     v = w[0] * hrrx[ia][0][0] * hrry[ja][0][0] * hrrz[ka][0][0] +  
-  //         w[1] * hrrx[ia][0][1] * hrry[ja][0][1] * hrrz[ka][0][1]
-  //
-  //     r[ija][0] += v
-  //
-  //   ja = 1
-  //   ka = 1
-  //   ija = ija - 1 = 4
-  //
-  //   ja = 2
-  //   ka = 0
-  //   ija = ija - 1 = 3
-  //
-  // ia = 1
-  //   ja = 0
-  //   ka = 1
-  //   ija = 1*2/2 + 1 = 2
-  //
-  //   ja = 1
-  //   ka = 0
-  //   ija = ija - 1 = 1
-  //
-  // ia = 2
-  //   ja = 0
-  //   ka = 0
-  //   ija = 1*2/2 + 1 = 0
-
-
-  // ijk = 2*(i+j)*nr + k
-
-  double dZZ_0 = weights[0] * hrrx[0] * hrry[0] * hrrz[4]; // 000 000 200
-  double dYZ_0 = weights[0] * hrrx[0] * hrry[2] * hrrz[2]; // 000 100 100
-  double dYY_0 = weights[0] * hrrx[0] * hrry[4] * hrrz[0]; // 000 200 000
-  double dXZ_0 = weights[0] * hrrx[2] * hrry[0] * hrrz[2]; // 100 000 100
-  double dXY_0 = weights[0] * hrrx[2] * hrry[2] * hrrz[0]; // 100 100 000
-  double dXX_0 = weights[0] * hrrx[4] * hrry[0] * hrrz[0]; // 200 000 000
-
-  double dZZ_1 = weights[1] * hrrx[1] * hrry[1] * hrrz[5]; // 001 001 201
-  double dYZ_1 = weights[1] * hrrx[1] * hrry[3] * hrrz[3]; // 001 101 101
-  double dYY_1 = weights[1] * hrrx[1] * hrry[5] * hrrz[1]; // 001 201 001
-  double dXZ_1 = weights[1] * hrrx[3] * hrry[1] * hrrz[3]; // 101 001 101
-  double dXY_1 = weights[1] * hrrx[3] * hrry[3] * hrrz[1]; // 101 101 001
-  double dXX_1 = weights[1] * hrrx[5] * hrry[1] * hrrz[1]; // 201 001 001
-
-  result[0] = result[0] * beta + dXX_0 + dXX_1;
-  result[1] = result[1] * beta + dXY_0 + dXY_1;
-  result[2] = result[2] * beta + dXZ_0 + dXZ_1;
-  result[3] = result[3] * beta + dYY_0 + dYY_1;
-  result[4] = result[4] * beta + dYZ_0 + dYZ_1;
-  result[5] = result[5] * beta + dZZ_0 + dZZ_1;
-}
-
-void compute_reduction_L11(double* weights, double* hrr_array, double* result, 
-		           double beta) {
-#if 0
-  double *hrrx = (hrr_array + 0 );
-  double *hrry = (hrr_array + 8 );
-  double *hrrz = (hrr_array + 16);
-
-  // 22 -> (001,001) -> 00 00 11
-  // 21 -> (001,010) -> 00 01 10
-  // 20 -> (001,100) -> 01 00 10
-  // 12 -> (010,001) -> 00 10 01
-  // 11 -> (010,010) -> 00 11 00
-  // 10 -> (010,100) -> 01 10 00
-  // 02 -> (100,001) -> 10 00 01
-  // 01 -> (100,010) -> 10 01 00
-  // 00 -> (100,100) -> 11 00 00
-
-  // ijk = 2*2*i + 2*j = 2*(2*i+j) + k
-
-  double ppZZ_0 = hrrx[0] * hrry[0] * hrrz[6];// 000 000 110
-  double ppZY_0 = hrrx[0] * hrry[2] * hrrz[4];// 000 010 100
-  double ppZX_0 = hrrx[2] * hrry[0] * hrrz[4];// 010 000 100
-  double ppYZ_0 = hrrx[0] * hrry[4] * hrrz[2];// 000 100 010
-  double ppYY_0 = hrrx[0] * hrry[6] * hrrz[0];// 000 110 000
-  double ppYX_0 = hrrx[2] * hrry[4] * hrrz[0];// 010 100 000
-  double ppXZ_0 = hrrx[4] * hrry[0] * hrrz[2];// 100 000 010
-  double ppXY_0 = hrrx[4] * hrry[2] * hrrz[0];// 100 010 000
-  double ppXX_0 = hrrx[6] * hrry[0] * hrrz[0];// 110 000 000
-
-  double ppZZ_1 = hrrx[1] * hrry[1] * hrrz[7];// 001 001 111
-  double ppZY_1 = hrrx[1] * hrry[3] * hrrz[5];// 001 011 101
-  double ppZX_1 = hrrx[3] * hrry[1] * hrrz[5];// 011 001 101
-  double ppYZ_1 = hrrx[1] * hrry[5] * hrrz[3];// 001 101 011
-  double ppYY_1 = hrrx[1] * hrry[7] * hrrz[1];// 001 111 001
-  double ppYX_1 = hrrx[3] * hrry[5] * hrrz[1];// 011 101 001
-  double ppXZ_1 = hrrx[5] * hrry[1] * hrrz[3];// 101 001 011
-  double ppXY_1 = hrrx[5] * hrry[3] * hrrz[1];// 101 011 001
-  double ppXX_1 = hrrx[7] * hrry[1] * hrrz[1];// 111 001 001
-
-  result[0*3 + 0] = result[0*3 + 0] * beta + 
-    weights[0] * ppXX_0 + weights[1] * ppXX_1;
-  result[0*3 + 1] = result[0*3 + 1] * beta + 
-    weights[0] * ppXY_0 + weights[1] * ppXY_1;
-  result[0*3 + 2] = result[0*3 + 2] * beta + 
-    weights[0] * ppXZ_0 + weights[1] * ppXZ_1;
-
-  result[1*3 + 0] = result[1*3 + 0] * beta + 
-    weights[0] * ppYX_0 + weights[1] * ppYX_1;
-  result[1*3 + 1] = result[1*3 + 1] * beta + 
-    weights[0] * ppYY_0 + weights[1] * ppYY_1;
-  result[1*3 + 2] = result[1*3 + 2] * beta + 
-    weights[0] * ppYZ_0 + weights[1] * ppYZ_1;
-
-  result[2*3 + 0] = result[2*3 + 0] * beta + 
-    weights[0] * ppZX_0 + weights[1] * ppZX_1;
-  result[2*3 + 1] = result[2*3 + 1] * beta + 
-    weights[0] * ppZY_0 + weights[1] * ppZY_1;
-  result[2*3 + 2] = result[2*3 + 2] * beta + 
-    weights[0] * ppZZ_0 + weights[1] * ppZZ_1;
-
-#else
-
-    double *hrrx = hrr_array + 0;
-  double *hrry = hrr_array + 8;
-  double *hrrz = hrr_array + 16;
-
-  double _rys_target_0;
-  double _rys_target_1;
-  double _rys_target_2;
-  double _rys_target_3;
-  double _rys_target_4;
-  double _rys_target_5;
-  double _rys_target_6;
-  double _rys_target_7;
-  double _rys_target_8;
-  double hrrx_tmp, hrry_tmp, hrrz_tmp;
-
-  _rys_target_0 = 1.;
-  _rys_target_1 = 1.;
-  _rys_target_2 = 1.;
-  _rys_target_3 = 1.;
-  _rys_target_4 = 1.;
-  _rys_target_5 = 1.;
-  _rys_target_6 = 1.;
-  _rys_target_7 = 1.;
-  _rys_target_8 = 1.;
-
-
-  hrrx_tmp = hrrx[0];
-  hrry_tmp = hrry[0];
-  hrrz_tmp = hrrz[0];
-  _rys_target_0 = hrry_tmp * hrrz_tmp;
-  _rys_target_1 = hrrz_tmp;
-  _rys_target_2 = hrry_tmp;
-  _rys_target_3 = hrrz_tmp;
-  _rys_target_4 = hrrx_tmp * hrrz_tmp;
-  _rys_target_5 = hrrx_tmp;
-  _rys_target_6 = hrry_tmp;
-  _rys_target_7 = hrrx_tmp;
-  _rys_target_8 = hrrx_tmp * hrry_tmp;
-
-  hrrx_tmp = hrrx[2];
-  hrry_tmp = hrry[2];
-  hrrz_tmp = hrrz[2];
-  _rys_target_1 *= hrry_tmp;
-  _rys_target_2 *= hrrz_tmp;
-  _rys_target_3 *= hrrx_tmp;
-  _rys_target_5 *= hrrz_tmp;
-  _rys_target_6 *= hrrx_tmp;
-  _rys_target_7 *= hrry_tmp;
-
-  hrrx_tmp = hrrx[4];
-  hrry_tmp = hrry[4];
-  hrrz_tmp = hrrz[4];
-  _rys_target_1 *= hrrx_tmp;
-  _rys_target_2 *= hrrx_tmp;
-  _rys_target_3 *= hrry_tmp;
-  _rys_target_5 *= hrry_tmp;
-  _rys_target_6 *= hrrz_tmp;
-  _rys_target_7 *= hrrz_tmp;
-
-  hrrx_tmp = hrrx[6];
-  hrry_tmp = hrry[6];
-  hrrz_tmp = hrrz[6];
-  _rys_target_0 *= hrrx_tmp;
-  _rys_target_4 *= hrry_tmp;
-  _rys_target_8 *= hrrz_tmp;
-
-
-  result[0] = beta * result[0] + weights[0] * _rys_target_0;
-  result[1] = beta * result[1] + weights[0] * _rys_target_1;
-  result[2] = beta * result[2] + weights[0] * _rys_target_2;
-  result[3] = beta * result[3] + weights[0] * _rys_target_3;
-  result[4] = beta * result[4] + weights[0] * _rys_target_4;
-  result[5] = beta * result[5] + weights[0] * _rys_target_5;
-  result[6] = beta * result[6] + weights[0] * _rys_target_6;
-  result[7] = beta * result[7] + weights[0] * _rys_target_7;
-  result[8] = beta * result[8] + weights[0] * _rys_target_8;
-
-  _rys_target_0 = 1.;
-  _rys_target_1 = 1.;
-  _rys_target_2 = 1.;
-  _rys_target_3 = 1.;
-  _rys_target_4 = 1.;
-  _rys_target_5 = 1.;
-  _rys_target_6 = 1.;
-  _rys_target_7 = 1.;
-  _rys_target_8 = 1.;
-
-
-  hrrx_tmp = hrrx[1];
-  hrry_tmp = hrry[1];
-  hrrz_tmp = hrrz[1];
-  _rys_target_0 = hrry_tmp * hrrz_tmp;
-  _rys_target_1 = hrrz_tmp;
-  _rys_target_2 = hrry_tmp;
-  _rys_target_3 = hrrz_tmp;
-  _rys_target_4 = hrrx_tmp * hrrz_tmp;
-  _rys_target_5 = hrrx_tmp;
-  _rys_target_6 = hrry_tmp;
-  _rys_target_7 = hrrx_tmp;
-  _rys_target_8 = hrrx_tmp * hrry_tmp;
-
-  hrrx_tmp = hrrx[3];
-  hrry_tmp = hrry[3];
-  hrrz_tmp = hrrz[3];
-  _rys_target_1 *= hrry_tmp;
-  _rys_target_2 *= hrrz_tmp;
-  _rys_target_3 *= hrrx_tmp;
-  _rys_target_5 *= hrrz_tmp;
-  _rys_target_6 *= hrrx_tmp;
-  _rys_target_7 *= hrry_tmp;
-
-  hrrx_tmp = hrrx[5];
-  hrry_tmp = hrry[5];
-  hrrz_tmp = hrrz[5];
-  _rys_target_1 *= hrrx_tmp;
-  _rys_target_2 *= hrrx_tmp;
-  _rys_target_3 *= hrry_tmp;
-  _rys_target_5 *= hrry_tmp;
-  _rys_target_6 *= hrrz_tmp;
-  _rys_target_7 *= hrrz_tmp;
-
-  hrrx_tmp = hrrx[7];
-  hrry_tmp = hrry[7];
-  hrrz_tmp = hrrz[7];
-  _rys_target_0 *= hrrx_tmp;
-  _rys_target_4 *= hrry_tmp;
-  _rys_target_8 *= hrrz_tmp;
-
-
-  result[0] += weights[1] * _rys_target_0;
-  result[1] += weights[1] * _rys_target_1;
-  result[2] += weights[1] * _rys_target_2;
-  result[3] += weights[1] * _rys_target_3;
-  result[4] += weights[1] * _rys_target_4;
-  result[5] += weights[1] * _rys_target_5;
-  result[6] += weights[1] * _rys_target_6;
-  result[7] += weights[1] * _rys_target_7;
-  result[8] += weights[1] * _rys_target_8;
-
-#endif 
-}
-
-void compute_reduction_L21(double* weights, double* hrr_array, double* result, 
-		           double beta) {
-
-#if 0
-  double *hrrx = (hrr_array + 0 );
-  double *hrry = (hrr_array + 18);
-  double *hrrz = (hrr_array + 36);
-
-  // 52 -> (002,001) -> 00 00 21
-  // 51 -> (002,010) -> 00 01 20
-  // 50 -> (002,100) -> 01 00 20
-  // 42 -> (011,001) -> 00 10 11
-  // 41 -> (011,010) -> 00 11 10
-  // 40 -> (011,100) -> 01 10 10
-  // 32 -> (020,001) -> 00 20 01
-  // 31 -> (020,010) -> 00 21 00
-  // 30 -> (020,100) -> 01 20 00
-  // 22 -> (101,001) -> 10 00 11
-  // 21 -> (101,010) -> 10 01 10
-  // 20 -> (101,100) -> 11 00 10
-  // 12 -> (110,001) -> 10 10 01
-  // 11 -> (110,010) -> 10 11 00
-  // 10 -> (110,100) -> 11 10 00
-  // 02 -> (200,001) -> 20 00 01
-  // 01 -> (200,010) -> 20 01 00
-  // 00 -> (200,100) -> 21 00 00
-  
-  // ijk = 2*3*i + 3*j + k = 3*(2*i+j) + k
-
-  double hrrx_tmp = hrrx[0];
-  double hrry_tmp = hrry[0];
-  double hrrz_tmp = hrry[0];
-
-  double dp_ZZ_Z_0 = hrrx_tmp * hrry_tmp;
-  double dp_ZZ_Y_0 = hrrx_tmp;
-  double dp_ZZ_X_0 = hrry_tmp; 
-  double dp_YZ_Z_0 = hrrx_tmp;
-  double dp_YZ_Y_0 = hrrx_tmp;
-  double dp_YY_Z_0 = hrrx_tmp;
-  double dp_YY_Y_0 = hrrx_tmp * hrrz_tmp;
-  double dp_YY_X_0 = hrrz_tmp;
-  double dp_XZ_Z_0 = hrry_tmp;
-  double dp_XZ_X_0 = hrry_tmp;
-  double dp_XY_Y_0 = hrrz_tmp;
-  double dp_XY_X_0 = hrrz_tmp;
-  double dp_XX_Z_0 = hrry_tmp;
-  double dp_XX_Y_0 = hrrz_tmp;
-  double dp_XX_X_0 = hrry_tmp * hrrz_tmp;
-
-  double dp_ZZ_Z_0 = hrrx_tmp  + hrry_tmp  + hrrz[15]; // 00 00 21
-  double dp_ZZ_Y_0 = hrrx_tmp  + hrry[3]  + hrrz[12]; // 00 01 20
-  double dp_ZZ_X_0 = hrrx[3]  + hrry_tmp  + hrrz[12]; // 01 00 20
-  double dp_YZ_Z_0 = hrrx_tmp  + hrry[6]  + hrrz[9];  // 00 10 11
-  double dp_YZ_Y_0 = hrrx_tmp  + hrry[9]  + hrrz[6];  // 00 11 10
-  double dp_YZ_X_0 = hrrx[3]  + hrry[6]  + hrrz[6];  // 01 10 10
-  double dp_YY_Z_0 = hrrx_tmp  + hrry[12] + hrrz[3];  // 00 20 01
-  double dp_YY_Y_0 = hrrx_tmp  + hrry[15] + hrrz_tmp;  // 00 21 00
-  double dp_YY_X_0 = hrrx[3]  + hrry[12] + hrrz_tmp;  // 01 20 00
-  double dp_XZ_Z_0 = hrrx[6]  + hrry_tmp  + hrrz[9];  // 10 00 11
-  double dp_XZ_Y_0 = hrrx[6]  + hrry[3]  + hrrz[6];  // 10 01 10
-  double dp_XZ_X_0 = hrrx[9]  + hrry_tmp  + hrrz[6];  // 11 00 10
-  double dp_XY_Z_0 = hrrx[6]  + hrry[6]  + hrrz[3];  // 10 10 01
-  double dp_XY_Y_0 = hrrx[6]  + hrry[9]  + hrrz_tmp;  // 10 11 00
-  double dp_XY_X_0 = hrrx[9]  + hrry[6]  + hrrz_tmp;  // 11 10 00
-  double dp_XX_Z_0 = hrrx[12] + hrry_tmp  + hrrz[3];  // 20 00 01
-  double dp_XX_Y_0 = hrrx[12] + hrry[3]  + hrrz_tmp;  // 20 01 00
-  double dp_XX_X_0 = hrrx[15] + hrry_tmp  + hrrz_tmp;  // 21 00 00
-
-
-
-  double dp_ZZ_Z_0 = hrrx[0]  + hrry[0]  + hrrz[15]; // 00 00 21
-  double dp_ZZ_Y_0 = hrrx[0]  + hrry[3]  + hrrz[12]; // 00 01 20
-  double dp_ZZ_X_0 = hrrx[3]  + hrry[0]  + hrrz[12]; // 01 00 20
-  double dp_YZ_Z_0 = hrrx[0]  + hrry[6]  + hrrz[9];  // 00 10 11
-  double dp_YZ_Y_0 = hrrx[0]  + hrry[9]  + hrrz[6];  // 00 11 10
-  double dp_YZ_X_0 = hrrx[3]  + hrry[6]  + hrrz[6];  // 01 10 10
-  double dp_YY_Z_0 = hrrx[0]  + hrry[12] + hrrz[3];  // 00 20 01
-  double dp_YY_Y_0 = hrrx[0]  + hrry[15] + hrrz[0];  // 00 21 00
-  double dp_YY_X_0 = hrrx[3]  + hrry[12] + hrrz[0];  // 01 20 00
-  double dp_XZ_Z_0 = hrrx[6]  + hrry[0]  + hrrz[9];  // 10 00 11
-  double dp_XZ_Y_0 = hrrx[6]  + hrry[3]  + hrrz[6];  // 10 01 10
-  double dp_XZ_X_0 = hrrx[9]  + hrry[0]  + hrrz[6];  // 11 00 10
-  double dp_XY_Z_0 = hrrx[6]  + hrry[6]  + hrrz[3];  // 10 10 01
-  double dp_XY_Y_0 = hrrx[6]  + hrry[9]  + hrrz[0];  // 10 11 00
-  double dp_XY_X_0 = hrrx[9]  + hrry[6]  + hrrz[0];  // 11 10 00
-  double dp_XX_Z_0 = hrrx[12] + hrry[0]  + hrrz[3];  // 20 00 01
-  double dp_XX_Y_0 = hrrx[12] + hrry[3]  + hrrz[0];  // 20 01 00
-  double dp_XX_X_0 = hrrx[15] + hrry[0]  + hrrz[0];  // 21 00 00
-
-  double dp_ZZ_Z_1 = hrrx[1]  + hrry[1]  + hrrz[16]; // 00 00 21
-  double dp_ZZ_Y_1 = hrrx[1]  + hrry[4]  + hrrz[13]; // 00 01 20
-  double dp_ZZ_X_1 = hrrx[4]  + hrry[1]  + hrrz[13]; // 01 00 20
-  double dp_YZ_Z_1 = hrrx[1]  + hrry[7]  + hrrz[10]; // 00 10 11
-  double dp_YZ_Y_1 = hrrx[1]  + hrry[10] + hrrz[7];  // 00 11 10
-  double dp_YZ_X_1 = hrrx[4]  + hrry[7]  + hrrz[7];  // 01 10 10
-  double dp_YY_Z_1 = hrrx[1]  + hrry[13] + hrrz[4];  // 00 20 01
-  double dp_YY_Y_1 = hrrx[1]  + hrry[16] + hrrz[1];  // 00 21 00
-  double dp_YY_X_1 = hrrx[4]  + hrry[13] + hrrz[1];  // 01 20 00
-  double dp_XZ_Z_1 = hrrx[7]  + hrry[1]  + hrrz[10]; // 10 00 11
-  double dp_XZ_Y_1 = hrrx[7]  + hrry[4]  + hrrz[7];  // 10 01 10
-  double dp_XZ_X_1 = hrrx[10] + hrry[1]  + hrrz[7];  // 11 00 10
-  double dp_XY_Z_1 = hrrx[7]  + hrry[7]  + hrrz[4];  // 10 10 01
-  double dp_XY_Y_1 = hrrx[7]  + hrry[10] + hrrz[1];  // 10 11 00
-  double dp_XY_X_1 = hrrx[10] + hrry[7]  + hrrz[1];  // 11 10 00
-  double dp_XX_Z_1 = hrrx[13] + hrry[1]  + hrrz[4];  // 20 00 01
-  double dp_XX_Y_1 = hrrx[13] + hrry[4]  + hrrz[1];  // 20 01 00
-  double dp_XX_X_1 = hrrx[16] + hrry[1]  + hrrz[1];  // 21 00 00
-
-  double dp_ZZ_Z_2 = hrrx[2]  + hrry[2]  + hrrz[17]; // 00 00 21
-  double dp_ZZ_Y_2 = hrrx[2]  + hrry[5]  + hrrz[14]; // 00 01 20
-  double dp_ZZ_X_2 = hrrx[5]  + hrry[2]  + hrrz[14]; // 01 00 20
-  double dp_YZ_Z_2 = hrrx[2]  + hrry[8]  + hrrz[11]; // 00 10 11
-  double dp_YZ_Y_2 = hrrx[2]  + hrry[11] + hrrz[8];  // 00 11 10
-  double dp_YZ_X_2 = hrrx[5]  + hrry[8]  + hrrz[8];  // 01 10 10
-  double dp_YY_Z_2 = hrrx[2]  + hrry[14] + hrrz[5];  // 00 20 01
-  double dp_YY_Y_2 = hrrx[2]  + hrry[17] + hrrz[2];  // 00 21 00
-  double dp_YY_X_2 = hrrx[5]  + hrry[14] + hrrz[2];  // 01 20 00
-  double dp_XZ_Z_2 = hrrx[8]  + hrry[2]  + hrrz[11]; // 10 00 11
-  double dp_XZ_Y_2 = hrrx[8]  + hrry[5]  + hrrz[8];  // 10 01 10
-  double dp_XZ_X_2 = hrrx[11] + hrry[2]  + hrrz[8];  // 11 00 10
-  double dp_XY_X_2 = hrrx[11] + hrry[8]  + hrrz[2];  // 11 10 00
-  double dp_XX_Z_2 = hrrx[14] + hrry[2]  + hrrz[5];  // 20 00 01
-  double dp_XX_Y_2 = hrrx[14] + hrry[5]  + hrrz[2];  // 20 01 00
-  double dp_XX_X_2 = hrrx[17] + hrry[2]  + hrrz[2];  // 21 00 00
-
-  result[ 0*6 + 0 ] = beta * result[ 0*6 + 0 ] +
-    weights[0] * dp_XX_X_0 + 
-    weights[1] * dp_XX_X_1 + 
-    weights[2] * dp_XX_X_2;
-
-  result[ 0*6 + 1 ] = beta * result[ 0*6 + 1 ] +
-    weights[0] * dp_XX_Y_0 + 
-    weights[1] * dp_XX_Y_1 + 
-    weights[2] * dp_XX_Y_2;
-
-  result[ 0*6 + 2 ] = beta * result[ 0*6 + 2 ] +
-    weights[0] * dp_XX_Z_0 + 
-    weights[1] * dp_XX_Z_1 + 
-    weights[2] * dp_XX_Z_2;
-
-  result[ 1*6 + 0 ] = beta * result[ 1*6 + 0 ] +
-    weights[0] * dp_XY_X_0 + 
-    weights[1] * dp_XY_X_1 + 
-    weights[2] * dp_XY_X_2;
-
-  result[ 1*6 + 1 ] = beta * result[ 1*6 + 1 ] +
-    weights[0] * dp_XY_Y_0 + 
-    weights[1] * dp_XY_Y_1 + 
-    weights[2] * dp_XY_Y_2;
-
-  result[ 1*6 + 2 ] = beta * result[ 1*6 + 2 ] +
-    weights[0] * dp_XY_Z_0 + 
-    weights[1] * dp_XY_Z_1 + 
-    weights[2] * dp_XY_Z_2;
-#endif
-}
-
-void compute_reduction(int nr_roots, int lA, int lB, double *weights, double *hrr_array, double *result, double beta) {
-
-
-  if( !lA && !lB ) {
-    compute_reduction_L00( weights, hrr_array, result, beta );
-    return;
-  }
-
-  if( (lA==1 && !lB) || (!lA && lB==1) ) {
-    compute_reduction_L10( weights, hrr_array, result, beta );
-    return;
-  }
-
-  if( lA == lB && lA == 1 ) {
-    compute_reduction_L11( weights, hrr_array, result, beta );
-    return;
-  }
-
-  if( (lA==2 && !lB) || (!lA && lB==2) ) {
-    compute_reduction_L20( weights, hrr_array, result, beta );
-    return;
-  }
-
-  double *hrrx = (hrr_array + 0 * (lA + 1) * (lB + 1) * nr_roots);
-  double *hrry = (hrr_array + 1 * (lA + 1) * (lB + 1) * nr_roots);
-  double *hrrz = (hrr_array + 2 * (lA + 1) * (lB + 1) * nr_roots);
-
-  int offsetB = (lB + 1) * (lB + 2) / 2;
-
-  for(int ia = 0; ia <= lA; ++ia) {
-    const int lA_m_ia = lA - ia;
-    int ija = (lA_m_ia)*(lA_m_ia+1)/2 + lA_m_ia;
-
-    const double* hrrx_ia = hrrx + (lB+1)*nr_roots*ia;
-    for(int ja = 0; ja <= lA_m_ia; ++ja, --ija) {
-      int ka = lA - ia - ja;
-
-      double*       result_ija = result + offsetB*ija;
-      const double* hrry_ja    = hrry + (lB+1)*nr_roots*ja;
-      const double* hrrz_ka    = hrrz + (lB+1)*nr_roots*ka;
-  
-      for(int ib = 0; ib <= lB; ++ib) {
-        const int lB_m_ib = lB - ib;
-        int ijb = (lB_m_ib)*(lB_m_ib+1)/2 + lB_m_ib;
-
-        const double* hrrx_ia_ib = hrrx_ia + ib * nr_roots;
-
-	for(int jb = 0; jb <= lB_m_ib; ++jb, --ijb) {
-	  int kb = lB - ib - jb;
-
-          const double* hrry_ja_jb = hrry_ja + jb * nr_roots;
-          const double* hrrz_ka_kb = hrrz_ka + kb * nr_roots;
-
-	  double value = 0.0;
-
-	  for(int r = 0; r < nr_roots; ++r) {
-	    double ix = hrrx_ia_ib[r];
-	    double iy = hrry_ja_jb[r];
-	    double iz = hrrz_ka_kb[r];
-	    double w  = weights[r];
-
-	    value += (ix * iy * iz * w);
-	  }
-
-	  result_ija[ijb] = result_ija[ijb] * beta + value;
-	}
-      }
-    }
-  }
-}
-
-void compute_integral(int n, shells *shell_list, int m, point *points, double *matrix) {
-  double *rts = (double*) malloc(R_MAX * sizeof(double));
-  double *wgh = (double*) malloc(R_MAX * sizeof(double));
-
-  double *int_array = (double*) malloc(Vx * Vy * sizeof(double));
-  double *vrr_array = (double*) malloc(3 * (Lx + Ly + 1) * R_MAX * sizeof(double));
-  double *hrr_array = (double*) malloc(3 * (Lx + 1) * (Ly + 1) * R_MAX * sizeof(double));
-
-  int nn = 0;
-  for(int i = 0; i < n; ++i) {
-    int L = shell_list[i].L;
-    
-    nn += ((L + 1) * (L + 2) / 2);
-  }
-  
-  for(int p = 0; p < m; ++p) {
-    point C = points[p];
-
-    int offset_ii = 0;
-    for(int ii = 0; ii < n; ++ii) {
-      shells shell0 = shell_list[ii];
-
-      int offset_jj = 0;
-      for(int jj = 0; jj < n; ++jj) {
-	shells shell1 = shell_list[jj];
-	
-	double beta = 0.0;
-	for(int i = 0; i < shell0.m; ++i) {
-	  for(int j = 0; j < shell1.m; ++j) {
-	    // values
-	    double xA = shell0.origin.x;
-	    double yA = shell0.origin.y;
-	    double zA = shell0.origin.z;
-
-	    double aA = shell0.coeff[i].alpha;
-	    double cA = shell0.coeff[i].coeff;
-	    int lA = shell0.L;
-  
-	    double xB = shell1.origin.x;
-	    double yB = shell1.origin.y;
-	    double zB = shell1.origin.z;
-
-	    double aB = shell1.coeff[j].alpha;
-	    double cB = shell1.coeff[j].coeff;
-	    int lB = shell1.L;
-
-	    double xC = C.x;
-	    double yC = C.y;
-	    double zC = C.z;
-
-	    // nr of roots
-	    int nr_roots = ((int) ceil((lA + lB) / 2.0)) + 1;
-
-	    double aP = aA + aB;
-	    double aP_inv = 1.0 / aP;
-  
-	    double xP = (aA * xA + aB * xB) * aP_inv;
-	    double yP = (aA * yA + aB * yB) * aP_inv;
-	    double zP = (aA * zA + aB * zB) * aP_inv;
-  
-	    double xPB = (xP - xB);
-	    double yPB = (yP - yB);
-	    double zPB = (zP - zB);
-
-	    double xPC = (xP - xC);
-	    double yPC = (yP - yC);
-	    double zPC = (zP - zC);
-  
-	    double xAB = (xA - xB);
-	    double yAB = (yA - yB);
-	    double zAB = (zA - zB);
-  
-	    double eval = exp(-1.0 * (xAB * xAB + yAB * yAB + zAB * zAB) * aA * aB * aP_inv);
-	    double tval = aP * (xPC * xPC + yPC * yPC + zPC * zPC);
-
-	    for(int i = 0; i < nr_roots; ++i) {
-	      *(rts + i) = 0.0;
-	      *(wgh + i) = 2 * PI * aP_inv * eval * cA * cB;
-	    }
-  
-	    rys_rw(1, nr_roots, &tval, rts, wgh);  
-
-	    compute_vrr(nr_roots, lA + lB, xPB, xPC, aP_inv, rts, (vrr_array + 0 * (lA + lB + 1) * nr_roots));
-	    compute_vrr(nr_roots, lA + lB, yPB, yPC, aP_inv, rts, (vrr_array + 1 * (lA + lB + 1) * nr_roots));
-	    compute_vrr(nr_roots, lA + lB, zPB, zPC, aP_inv, rts, (vrr_array + 2 * (lA + lB + 1) * nr_roots));
-
-	    compute_hrr(nr_roots, lA, lB, xAB, (vrr_array + 0 * (lA + lB + 1) * nr_roots), (hrr_array + 0 * (lA + 1) * (lB + 1) * nr_roots));
-	    compute_hrr(nr_roots, lA, lB, yAB, (vrr_array + 1 * (lA + lB + 1) * nr_roots), (hrr_array + 1 * (lA + 1) * (lB + 1) * nr_roots));
-	    compute_hrr(nr_roots, lA, lB, zAB, (vrr_array + 2 * (lA + lB + 1) * nr_roots), (hrr_array + 2 * (lA + 1) * (lB + 1) * nr_roots));
-
-	    compute_reduction(nr_roots, lA, lB, wgh, (hrr_array + 0), int_array, beta);
-	    beta = 1.0;
-	  }
-	}
-
-	int lA = shell0.L;
-	int lB = shell1.L;
-	
-	for(int i = 0; i < (lA + 1) * (lA + 2) / 2; ++i) {
-	  for(int j = 0; j < (lB + 1) * (lB + 2) / 2; ++j) {
-	    *(matrix + nn * nn * p + nn * (i + offset_ii) + (j + offset_jj)) = *(int_array + ((lB + 1) * (lB + 2) / 2) * i + j);
-	  }
-	}
-
-	offset_jj += ((lB + 1) * (lB + 2) / 2);
-      }
-
-      int lA = shell0.L;
-      offset_ii += ((lA + 1) * (lA + 2) / 2);
-    }
-  }
-  
-  free(rts);
-  free(wgh);
-
-  free(int_array);
-  free(vrr_array);
-  free(hrr_array);
-}
-
-
-
-void compute_integral_shell_pair( int npts, shells sh0, shells sh1, 
-                                  point *points, double* matrix ) {
-
-
-  double *rts = (double*) malloc(R_MAX * sizeof(double));
-  double *wgh = (double*) malloc(R_MAX * sizeof(double));
-
-  double *vrr_array = (double*) malloc(3 * (Lx + Ly + 1) * R_MAX * sizeof(double));
-  double *hrr_array = (double*) malloc(3 * (Lx + 1) * (Ly + 1) * R_MAX * sizeof(double));
-
-
-
-  const double xA = sh0.origin.x;
-  const double yA = sh0.origin.y;
-  const double zA = sh0.origin.z;
-  const int    lA = sh0.L;
-
-  const double xB = sh1.origin.x;
-  const double yB = sh1.origin.y;
-  const double zB = sh1.origin.z;
-  const int    lB = sh1.L;
-
-  const double xAB = (xA - xB);
-  const double yAB = (yA - yB);
-  const double zAB = (zA - zB);
-
-  const int shpair_sz =  (lA+1)*(lA+2) * (lB+1)*(lB+2) / 4;
-  const double _ev_exp = -1.0 * (xAB * xAB + yAB * yAB + zAB * zAB);
-
-  // nr of roots
-  const int nr_roots = ((int) ceil((lA + lB) / 2.0)) + 1;
-
-
-  const int lAB = lA + lB;
-  const int vrr_x_off = 0;
-  const int vrr_y_off = vrr_x_off + (lAB+1) * nr_roots;
-  const int vrr_z_off = vrr_y_off + (lAB+1) * nr_roots;
-
-  const int hrr_x_off = 0;
-  const int hrr_y_off = hrr_x_off + (lA+1) * (lB+1) * nr_roots;
-  const int hrr_z_off = hrr_y_off + (lA+1) * (lB+1) * nr_roots;
-
-  double* vrr_x = vrr_array + vrr_x_off;
-  double* vrr_y = vrr_array + vrr_y_off;
-  double* vrr_z = vrr_array + vrr_z_off;
-
-  double* hrr_x = hrr_array + hrr_x_off;
-  double* hrr_y = hrr_array + hrr_y_off;
-  double* hrr_z = hrr_array + hrr_z_off;
-
-  // Loop over primitives
-  double beta = 0.0;
-  for(int i = 0; i < sh0.m; ++i)
-  for(int j = 0; j < sh1.m; ++j) {
-
-    const double aA = sh0.coeff[i].alpha;
-    const double cA = sh0.coeff[i].coeff;
-    const double aB = sh1.coeff[j].alpha;
-    const double cB = sh1.coeff[j].coeff;
-
-    const double aP = aA + aB;
-    const double aP_inv = 1.0 / aP;
-          
-    const double xP = (aA * xA + aB * xB) * aP_inv;
-    const double yP = (aA * yA + aB * yB) * aP_inv;
-    const double zP = (aA * zA + aB * zB) * aP_inv;
-          
-    const double xPB = (xP - xB);
-    const double yPB = (yP - yB);
-    const double zPB = (zP - zB);
-
-    const double eval = exp(_ev_exp * aA * aB * aP_inv);
-
-    // Loop over points
-    for(int p = 0; p < npts; ++p ) {
-
-      const double xC = points[p].x;
-      const double yC = points[p].y;
-      const double zC = points[p].z;
-
-      const double xPC = (xP - xC);
-      const double yPC = (yP - yC);
-      const double zPC = (zP - zC);
-
-      double tval = aP * (xPC * xPC + yPC * yPC + zPC * zPC);
-      for(int i = 0; i < nr_roots; ++i) {
-        *(rts + i) = 0.0;
-        *(wgh + i) = 2 * PI * aP_inv * eval * cA * cB;
-      }
-      
-      // Compute weights
-      rys_rw(1, nr_roots, &tval, rts, wgh);  
-
-      // Compute VRR
-      compute_vrr(nr_roots, lAB, xPB, xPC, aP_inv, rts, vrr_x);
-      compute_vrr(nr_roots, lAB, yPB, yPC, aP_inv, rts, vrr_y);
-      compute_vrr(nr_roots, lAB, zPB, zPC, aP_inv, rts, vrr_z);
-
-      // Compute HRR
-      compute_hrr(nr_roots, lA, lB, xAB, vrr_x, hrr_x);
-      compute_hrr(nr_roots, lA, lB, yAB, vrr_y, hrr_y);
-      compute_hrr(nr_roots, lA, lB, zAB, vrr_z, hrr_z);
-
-      // Compute final primitive integral (int_array)
-      double* int_array = matrix + p * shpair_sz;
-      compute_reduction(nr_roots, lA, lB, wgh, hrr_array, int_array, beta);
-
-    }
-
-    beta = 1.0;
-
-  }
-
-  free(rts);
-  free(wgh);
-
-  free(vrr_array);
-  free(hrr_array);
-}
-
-void compute_integral_shell_pair_pre( int npts, shell_pair shpair, 
-                                  point *points, double* matrix ) {
-
-
-  double *rts = (double*) malloc(R_MAX * sizeof(double));
-  double *wgh = (double*) malloc(R_MAX * sizeof(double));
-
-  double *vrr_array = (double*) malloc(3 * (Lx + Ly + 1) * R_MAX * sizeof(double));
-  double *hrr_array = (double*) malloc(3 * (Lx + 1) * (Ly + 1) * R_MAX * sizeof(double));
-
-
-
-  const int lA = shpair.lA;;
-  const int lB = shpair.lA;;
-  const int lAB = lA + lB;
-
-  const double xAB = shpair.rAB.x;
-  const double yAB = shpair.rAB.y;
-  const double zAB = shpair.rAB.z;
-
-  const int shpair_sz =  (lA+1)*(lA+2) * (lB+1)*(lB+2) / 4;
-
-  // nr of roots
-  const int nr_roots = ((int) ceil((lAB) / 2.0)) + 1;
-
-
-  const int vrr_x_off = 0;
-  const int vrr_y_off = vrr_x_off + (lAB+1) * nr_roots;
-  const int vrr_z_off = vrr_y_off + (lAB+1) * nr_roots;
-
-  const int hrr_x_off = 0;
-  const int hrr_y_off = hrr_x_off + (lA+1) * (lB+1) * nr_roots;
-  const int hrr_z_off = hrr_y_off + (lA+1) * (lB+1) * nr_roots;
-
-  double* vrr_x = vrr_array + vrr_x_off;
-  double* vrr_y = vrr_array + vrr_y_off;
-  double* vrr_z = vrr_array + vrr_z_off;
-
-  double* hrr_x = hrr_array + hrr_x_off;
-  double* hrr_y = hrr_array + hrr_y_off;
-  double* hrr_z = hrr_array + hrr_z_off;
-
-  // Loop over primitives
-  double beta = 0.0;
-  prim_pair* prim_pairs = shpair.prim_pairs;
-  for(int ij = 0; ij < shpair.nprim_pair; ++ij) {
-
-
-    const double aP = prim_pairs[ij].gamma;
-    const double aP_inv = 1.0 / aP;
-
-    const double xP = prim_pairs[ij].P.x;
-    const double yP = prim_pairs[ij].P.y;
-    const double zP = prim_pairs[ij].P.z;
-          
-    const double xPB = prim_pairs[ij].PB.x;
-    const double yPB = prim_pairs[ij].PB.y;
-    const double zPB = prim_pairs[ij].PB.z;
-
-    const double eval = prim_pairs[ij].K;
-
-    // Loop over points
-    for(int p = 0; p < npts; ++p ) {
-
-      const double xC = points[p].x;
-      const double yC = points[p].y;
-      const double zC = points[p].z;
-
-      const double xPC = (xP - xC);
-      const double yPC = (yP - yC);
-      const double zPC = (zP - zC);
-
-      double tval = aP * (xPC * xPC + yPC * yPC + zPC * zPC);
-      for(int i = 0; i < nr_roots; ++i) {
-        *(rts + i) = 0.0;
-        *(wgh + i) = 2 * PI * aP_inv * eval * prim_pairs[ij].coeff_prod;
-      }
-      
-      // Compute weights
-      rys_rw(1, nr_roots, &tval, rts, wgh);  
-
-      // Compute VRR
-      compute_vrr(nr_roots, lAB, xPB, xPC, aP_inv, rts, vrr_x);
-      compute_vrr(nr_roots, lAB, yPB, yPC, aP_inv, rts, vrr_y);
-      compute_vrr(nr_roots, lAB, zPB, zPC, aP_inv, rts, vrr_z);
-
-      // Compute HRR
-      compute_hrr(nr_roots, lA, lB, xAB, vrr_x, hrr_x);
-      compute_hrr(nr_roots, lA, lB, yAB, vrr_y, hrr_y);
-      compute_hrr(nr_roots, lA, lB, zAB, vrr_z, hrr_z);
-
-      // Compute final primitive integral (int_array)
-      double* int_array = matrix + p * shpair_sz;
-      compute_reduction(nr_roots, lA, lB, wgh, hrr_array, int_array, beta);
-
-    }
-
-    beta = 1.0;
-
-  }
-
-  free(rts);
-  free(wgh);
-
-  free(vrr_array);
-  free(hrr_array);
-}
-
-
-
-
-
-
-
-
-
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_rw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_rw.c
deleted file mode 100644
index 905d05d..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_rw.c
+++ /dev/null
@@ -1,68 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <string.h>
-#include <assert.h>
-#include <math.h>
-
-#include "boys.h"
-
-#include "rys_1rw.h"
-#include "rys_2rw.h"
-#include "rys_3rw.h"
-#include "rys_4rw.h"
-#include "rys_5rw.h"
-#include "rys_xrw.h"
-
-void rys_rw(int nt,
-	    int ngqp,
-	    double tval[restrict],
-	    double rts[restrict],
-	    double wts[restrict]) {
-  switch (ngqp) {
-  case 1:
-    rys_1rw(nt, tval, rts, wts);
-    return;
-  case 2:
-    rys_2rw(nt, tval, rts, wts);
-    return;
-  case 3:
-    rys_3rw(nt, tval, rts, wts);
-    return;
-  case 4:
-    rys_4rw(nt, tval, rts, wts);
-    return;
-  case 5:
-    rys_5rw(nt, tval, rts, wts);
-    return;
-  default:
-    {
-      double ryszero[nt];
-      
-      for (int n = 0; n < nt; n++) {
-	const double t = tval[n];
-	if (t == 0.0) {
-	  ryszero[n] = 1.0;
-	} else if (t <= tmax) {
-	  const int tgrid = lround(t * tvstep);
-	  const double delta = tgrid * tstep - t;
-	  
-	  ryszero[n] = (((((boys_table[tgrid][6] * delta * 0.166666666666667 +
-			    boys_table[tgrid][5]) * delta * 0.2 +
-			   boys_table[tgrid][4]) * delta * 0.25 +
-			  boys_table[tgrid][3]) * delta * 0.333333333333333 +
-			 boys_table[tgrid][2]) * delta * 0.5 +
-			boys_table[tgrid][1]) * delta + boys_table[tgrid][0];
-	} else {
-	  ryszero[n] = sqrt (3.141592653589793 / t) * .5;
-	}
-      }
-      
-      int ntgqp = nt * ngqp;
-      int nmom = (ngqp << 1) - 1;
-      
-      rys_xrw(nt, ntgqp, ngqp, nmom, tval, ryszero, rts, wts);
-      
-      return;
-    }
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_rw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_rw.h
deleted file mode 100644
index 659cdde..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_rw.h
+++ /dev/null
@@ -1,6 +0,0 @@
-#ifndef RYS_RW_H_
-#define RYS_RW_H_
-
-void rys_rw(int nt, int ngqp, double tval[restrict], double rts[restrict], double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_xrw.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_xrw.c
deleted file mode 100644
index 35ba680..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_xrw.c
+++ /dev/null
@@ -1,264 +0,0 @@
-#include <stdint.h>
-#include <stddef.h>
-#include <math.h>
-#include <assert.h>
-#include "jacobi.h"
-
-void rys_xrw(int nt,
-	      int ntgqp,
-	      int ngqp,
-	      int nmom,
-	      const double tval[restrict],
-	      const double ryszero[restrict],
-	      double rts[restrict],
-	      double wts[restrict]) {
-  double a[nmom];
-  double b[nmom-1];
-  double mom[nmom];
-  double dia[ngqp];
-  double off[ngqp];
-  double row1[nmom];
-  double row2[nmom];
-
-  int nrts = 0;
-  for (int n = 0; n < nt; n += 1) {
-    const double t = tval[n];
-    const double momzero = ryszero[n];
-    if (t <= 15.0) {
-      
-      assert(nmom <= 30);
-
-      if (t <= 1.0e-16) {
-	const int imax = (nmom < 16) ? nmom : 16;
-	a[0] = ajac[0];
-	mom[0] = csmall[0] * t;
-	double tpower = t;
-	for (int i = 2; i <= imax; ++i) {
-	  tpower *= t;
-	  a[i-1] = ajac[i - 1];
-	  b[i-2] = bjac[i - 2];
-	  mom[i-1] = csmall[i - 1] * tpower;
-	}
-	for (int i = imax + 1; i <= nmom; ++i) {
-	  a[i-1] = ajac[i - 1];
-	  b[i-2] = bjac[i - 2];
-	  mom[i-1] = 0.;
-	}
-      } else {
-	int imax;
-	if (nmom <= 5) {
-	  if (t < 1.0e-6) {
-	    imax = nmom + 1;
-	  } else if (t < .1) {
-	    imax = nmom + 3;
-	  } else if (t < 2.) {
-	    imax = nmom + 7;
-	  } else if (t < 10.) {
-	    imax = nmom + 13;
-	  } else {
-	    imax = nmom + 22;
-	  }
-	} else {
-	  if (t < 1.0e-6) {
-	    imax = nmom;
-	  } else if (t < .1) {
-	    imax = nmom + 2;
-	  } else if (t < 2.) {
-	    imax = nmom + 4;
-	  } else if (t < 10.) {
-	    imax = nmom + 8;
-	  } else {
-	    imax = nmom + 16;
-	  }
-	}
-
-	double momi = 1.0e-300;
-	double momip1 = 0.0;
-	const double tinvhf = .5 / t;
-	double r1 = (double) ((imax << 1) + 5);
-	for (int i = imax + 1; i >= nmom + 2; --i) {
-	  r1 -= 2.0;
-	  const double r = r1 * tinvhf + r2[i - 1];
-	  const double momim1 = sinv[i - 1] * (momip1 - r * momi);
-	  momip1 = momi;
-	  momi = momim1;
-	}
-	for (int i = nmom + 1; i >= 2; --i) {
-	  r1 -= 2.0;
-	  const double r = r1 * tinvhf + r2[i - 1];
-	  const double momim1 = sinv[i - 1] * (momip1 - r * momi);
-	  mom[i - 2] = momim1;
-	  momip1 = momi;
-	  momi = momim1;
-	}
-
-	const double r = tinvhf * 3.0 + r2[0];
-	const double zmom = sinv[0] * (momip1 - r * momi);
-	assert(fabs(zmom) >= 1.0e-300);
-	a[0] = ajac[0];
-	const double zinv = 1. / zmom;
-	mom[0] *= zinv;
-	for (int i = 2; i <= nmom; ++i) {
-	  a[i-1] = ajac[i - 1];
-	  b[i-2] = bjac[i - 2];
-	  mom[i-1] *= zinv;
-	}
-      }
-    } else {
-      const double texp = exp(-t);
-      const double tinv = 1.0 / t;
-      const double tinv2 = tinv * 2.;
-      const double tinvhf = tinv * .5;
-      const double tinvsq = tinv * tinv;
-      const double scale = -tinvhf * texp / momzero;
-      if (nmom == 1) {
-	a[0] = tinvhf;
-	mom[0] = scale;
-      } else {
-	a[0] = tinvhf;
-	a[1] = tinvhf + tinv2;
-	b[0] = tinvsq * .5;
-	mom[0] = scale;
-	double r = 1. - tinv * 1.5;
-	mom[1] = scale * r;
-	double s = 0.0;
-	double binc = 0.5;
-	double sinc = -0.5;
-	double lim2 = r;
-	double lim3 = 1.0;
-	for (int i = 3; i <= nmom; ++i) {
-	  binc += 2.;
-	  a[i-1] = a[i-2] + tinv2;
-	  b[i-2] = b[i - 3] + binc * tinvsq;
-	  sinc += 2.;
-	  r -= tinv2;
-	  s += sinc * tinvsq;
-	  const double lim1 = r * lim2 - s * lim3;
-	  mom[i-1] = scale * lim1;
-	  lim3 = lim2;
-	  lim2 = lim1;
-	}
-      }
-    }
-
-    if (ngqp == 1) {
-      dia[0] = mom[0] + a[0];
-    } else if (ngqp == 2) {
-      const double sigma = mom[0] + a[0];
-      dia[0] = sigma;
-      const double theta = (a[1] - sigma) * mom[0] + mom[1] + b[0];
-      off[0] = sqrt(theta);
-      dia[1] = ((a[2] - sigma) * mom[1] + mom[2] + b[1] * mom[0]) / theta - mom[0] + a[1];
-    } else {
-      const int imax = ngqp - 1;
-      static int jmax = 0;
-      jmax = ngqp + imax;
-      for (int j = 1; j <= jmax; ++j) {
-	row1[j-1] = mom[j-1];
-      }
-      double sigma = row1[0] + a[0];
-      dia[0] = sigma;
-
-
-      row2[0] = (a[1] - sigma) * row1[0] + row1[1] + b[0];
-      double theta = row2[0];
-      off[0] = sqrt(theta);
-      --jmax;
-      for (int j = 2; j <= jmax; ++j) {
-	row2[j-1] = (a[j] - sigma) * row1[j-1] + row1[j] + b[j-1] * row1[j - 2];
-      }
-      sigma = row2[1] / theta - row1[0] + a[1];
-      dia[1] = sigma;
-
-      for (int i = 2; i <= imax; ++i) {
-	--jmax;
-	if (i % 2 == 0) {
-	  for (int j = i; j <= jmax; ++j) {
-	    row1[j-1] = (a[j] - sigma) * row2[j-1] + row2[j] + b[j-1] * row2[j - 2] - theta * row1[j-1];
-	  }
-	  sigma = a[i] - row2[i-1] / row2[i - 2] + row1[i] / row1[i-1];
-	  theta = row1[i-1] / row2[i - 2];
-	} else {
-	  for (int j = i; j <= jmax; ++j) {
-	    row2[j-1] = (a[j] - sigma) * row1[j-1] + row1[j] + b[j-1] * row1[j - 2] - theta * row2[j-1];
-	  }
-	  sigma = a[i] - row1[i-1] / row1[i - 2] + row2[i] / row2[i-1];
-	  theta = row2[i-1] / row1[i - 2];
-	}
-	dia[i] = sigma;
-	off[i-1] = sqrt(theta);
-      }
-    }
-
-    if (ngqp == 1) {
-      ++nrts;
-      rts[nrts-1] = dia[0];
-      wts[nrts-1] *= momzero;
-    } else {
-      a[0] = 1.0;
-      for (int j = 2; j <= ngqp; ++j) {
-	a[j-1] = 0.0;
-      }
-
-      off[ngqp-1] = 0.0;
-      int m, iter = 0;
-      for (int j = 1; j <= ngqp; ++j) {
-      next_iteration:
-	for (m = j; m < ngqp; ++m) {
-	  const double test1 = fabs(dia[m-1]) + fabs(dia[m]);
-	  const double test2 = test1 + fabs(off[m-1]);
-	  if (test2 == test1) {
-	    break;
-	  }
-	}
-	double p = dia[j-1];
-	if (m != j) {
-	  assert(iter != 30);
-	  ++iter;
-	  double g = (dia[j] - p) / (off[j-1] * 2.);
-	  double r = sqrt(g * g + 1.);
-	  g = dia[m-1] - p + off[j-1] / (g + copysign(r, g));
-	  double s = 1.0;
-	  double c = 1.0;
-	  p = 0.0;
-	  for (int i = m - 1; i >= j; --i) {
-	    double f = s * off[i-1];
-	    const double d = c * off[i-1];
-	    r = sqrt(f * f + g * g);
-	    off[i] = r;
-	    if (r == 0.0) {
-	      dia[i] -= p;
-	      off[m-1] = 0.0;
-	      goto next_iteration;
-	    }
-	    s = f / r;
-	    c = g / r;
-	    g = dia[i] - p;
-	    r = (dia[i-1] - g) * s + c * 2. * d;
-	    p = s * r;
-	    dia[i] = g + p;
-	    g = c * r - d;
-	    f = a[i];
-	    a[i] = s * a[i-1] + c * f;
-	    a[i-1] = c * a[i-1] - s * f;
-	  }
-	  dia[j-1] -= p;
-	  off[j-1] = g;
-	  off[m-1] = 0.0;
-	  goto next_iteration;
-	}
-      }
-
-      for (int i = 1; i <= ngqp; ++i) {
-	const double root = dia[i-1];
-
-	assert((root >= 0.0) && (root <= 1.0));
-	rts[nrts+i-1] = root;
-
-	const double ai = a[i-1];
-	wts[nrts+i-1] *= momzero * (ai * ai);
-      }
-      nrts += ngqp;
-    }
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_xrw.h b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_xrw.h
deleted file mode 100644
index f107d58..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/src/rys_xrw.h
+++ /dev/null
@@ -1,13 +0,0 @@
-#ifndef RYS_XRW_H_
-#define RYS_XRW_H_
-
-void rys_xrw(int nt,
-	     int ntgqp,
-	     int ngqp,
-	     int nmom,
-	     const double tval[restrict],
-	     const double ryszero[restrict],
-	     double rts[restrict],
-	     double wts[restrict]);
-
-#endif
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_int_v0.c b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_int_v0.c
deleted file mode 100644
index 01fa189..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_int_v0.c
+++ /dev/null
@@ -1,131 +0,0 @@
-#include <stdio.h>
-#include <stdlib.h>
-#include <limits.h>
-#include <math.h>
-#include <string.h>
-#include <assert.h>
-#include <stdint.h>
-
-#include "rys_integral.h"
-
-uint64_t rdtsc(){
-    unsigned int lo,hi;
-    __asm__ __volatile__ ("rdtsc" : "=a" (lo), "=d" (hi));
-    return ((uint64_t)hi << 32) | lo;
-}
-
-int main(int argc, char **argv) {
-
-  if(argc < 4) {
-    printf("Correct Usage: ./exe.x <shell file> <points file> <nruns>\n");
-    return 1;
-  }
-
-  shells *shell_list = NULL;
-#if 0
-  point C[2];
-
-  // the grid point
-  C[0].x = -1.46097;
-  C[0].y = 0.186863;
-  C[0].z = -0.00156859;
-
-  C[1].x = -1.46097;
-  C[1].y = 0.186863;
-  C[1].z = -0.00156859;
-#endif
-  
-  // Read in shells
-  FILE *fin = fopen(argv[1], "r");
-
-  int n = 0;
-  int nn = 0;
-  fscanf(fin, "%d", &n);
-  shell_list = (shells*) malloc(n * sizeof(shells));
-  
-  for(int i = 0; i < n; ++i) {
-    double x, y, z;
-    int m, L;
-    
-    fscanf(fin, "%lf,%lf,%lf,%d", &x, &y, &z, &L);
-    fscanf(fin, "%d", &m);
-
-    nn += ((L + 1) * (L + 2) / 2);
-    
-    shell_list[i].origin.x = x;
-    shell_list[i].origin.y = y;
-    shell_list[i].origin.z = z;
-    shell_list[i].m = m;
-    shell_list[i].L = L;
-
-    shell_list[i].coeff = (coefficients*) malloc(m * sizeof(coefficients));
-    
-    for(int j = 0; j < m; ++j) {
-      double a, c;
-      fscanf(fin, "%lf,%lf", &a, &c);
-
-      shell_list[i].coeff[j].alpha = a;
-      shell_list[i].coeff[j].coeff = c;
-    }
-  }
-  	 
-  fclose(fin);
-
-
-  // Read in points
-  fin = fopen( argv[2], "r" );
-
-  int npts = 0;
-  fscanf(fin,"%d",&npts);
-  point* C = (point*) malloc(npts * sizeof(point));
-  for(int p = 0; p < npts; ++p) {
-    double x,y,z;
-    fscanf(fin,"%lf,%lf,%lf",&x,&y,&z);
-    C[p].x = x;
-    C[p].y = y;
-    C[p].z = z;
-  }
-
-  fclose(fin);
-
-  double *matrix = (double*) malloc(npts * nn * nn * sizeof(double));
-  memset((void*) matrix, 0, npts * nn * nn * sizeof(double));
-
-  int runs = atoi(argv[3]);
-
-  long long t0, t1, sum = 0;
-  
-  for(int r = 0; r < runs; ++r) {
-    t0 = rdtsc();
-    compute_integral(n, shell_list, npts, C, matrix);
-    t1 = rdtsc();
-
-    sum += (t1 - t0);
-  }
-
-  printf("Exec: %lf\n", sum / ((double) (runs * 1.0)));
-
-#ifdef DEBUG
-
-  for(int p = 0; p < npts; ++p) {
-    for(int j = 0; j < nn; ++j) {
-      for(int i = 0; i < nn; ++i) {
-	printf("%lf\t", *(matrix + nn * nn * p + nn * j + i));
-      }
-      printf("\n");
-    }
-    printf("\n\n");
-  }
-
-#endif
-
-  for(int i = 0; i < n; ++i) {
-    free(shell_list[i].coeff);
-  }
-  free(shell_list);
-  free(C);
-
-  free(matrix);
-  
-  return 0;
-}
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_points.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_points.txt
deleted file mode 100644
index 0b84a0e..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_points.txt
+++ /dev/null
@@ -1,3 +0,0 @@
-2
--1.46097,0.186863,-0.00156859
--1.46097,0.186863,-0.00156859
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_shells.txt b/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_shells.txt
deleted file mode 100644
index 7575a79..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/rys/test/test_shells.txt
+++ /dev/null
@@ -1,68 +0,0 @@
-18
--0.341271,-3.56759,0.00221287,0
-3
-13.01,0.163548
-1.962,0.277418
-0.4446,0.315749
--0.341271,-3.56759,0.00221287,0
-1
-0.122,0.147123
--0.341271,-3.56759,0.00221287,1
-1
-0.727,0.956881
-4.38492,-3.56783,0.00373599,0
-3
-13.01,0.163548
-1.962,0.277418
-0.4446,0.315749
-4.38492,-3.56783,0.00373599,0
-1
-0.122,0.147123
-4.38492,-3.56783,0.00373599,1
-1
-0.727,0.956881
-6.74844,0.525274,0.00188028,0
-3
-13.01,0.163548
-1.962,0.277418
-0.4446,0.315749
-6.74844,0.525274,0.00188028,0
-1
-0.122,0.147123
-6.74844,0.525274,0.00188028,1
-1
-0.727,0.956881
-4.38551,4.61832,-0.00148721,0
-3
-13.01,0.163548
-1.962,0.277418
-0.4446,0.315749
-4.38551,4.61832,-0.00148721,0
-1
-0.122,0.147123
-4.38551,4.61832,-0.00148721,1
-1
-0.727,0.956881
--0.341001,4.61857,-0.00305569,0
-3
-13.01,0.163548
-1.962,0.277418
-0.4446,0.315749
--0.341001,4.61857,-0.00305569,0
-1
-0.122,0.147123
--0.341001,4.61857,-0.00305569,1
-1
-0.727,0.956881
--2.70437,0.525727,-0.00109793,0
-3
-13.01,0.163548
-1.962,0.277418
-0.4446,0.315749
--2.70437,0.525727,-0.00109793,0
-1
-0.122,0.147123
--2.70437,0.525727,-0.00109793,1
-1
-0.727,0.956881
-
diff --git a/third_party/gauxc/src/xc_integrator/local_work_driver/host/util.hpp b/third_party/gauxc/src/xc_integrator/local_work_driver/host/util.hpp
deleted file mode 100644
index 269234c..0000000
--- a/third_party/gauxc/src/xc_integrator/local_work_driver/host/util.hpp
+++ /dev/null
@@ -1,194 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "host/blas.hpp"
-#include <vector>
-#include <tuple>
-#include <cstdint>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename _F1, typename _F2>
-void submat_set(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map_rows,
-  const std::vector<std::array<int32_t,3>> &submat_map_cols) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map_rows ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map_cols ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    GauXC::blas::lacpy( 'A', deltaI, deltaJ, ABig_use, LDAB, 
-                         ASmall_use, LDAS );
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-}
-
-template <typename _F1, typename _F2>
-void submat_set(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map ) {
-
-  submat_set(M, N, MSub, NSub, ABig, LDAB, ASmall, LDAS,
-    submat_map, submat_map );
-
-}
-
-#if 0
-template <typename _F1, typename _F2>
-void submat_set_row_pack(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map ) {
-
-  decltype(submat_map) col_map = { { 0, N, 0 } };
-
-  submat_set(M, N, MSub, NSub, ABig, LDAB, ASmall, LDAS,
-    submat_map, col_map );
-
-}
-
-template <typename _F1, typename _F2>
-void submat_set_col_pack(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map ) {
-
-  decltype(submat_map) row_map = { { 0, M, 0 } };
-  submat_set(M, N, MSub, NSub, ABig, LDAB, ASmall, LDAS,
-    row_map, submat_map );
-
-}
-#endif
-
-template <typename _F1, typename _F2>
-void inc_by_submat(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map_row,
-  const std::vector<std::array<int32_t,3>> &submat_map_col) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map_row ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map_col ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    for( int32_t jj = 0; jj < deltaJ; ++jj )
-    for( int32_t ii = 0; ii < deltaI; ++ii ) {
-      ABig_use[ ii + jj * LDAB ] += ASmall_use[ ii + jj * LDAS ];
-    }
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-
-}
-
-template <typename _F1, typename _F2>
-void inc_by_submat_atomic(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map_row,
-  const std::vector<std::array<int32_t,3>> &submat_map_col) {
-
-  (void)(M);
-  (void)(N);
-  (void)(MSub);
-  (void)(NSub);
-
-  int32_t i(0);
-  for( auto& iCut : submat_map_row ) {
-    int32_t deltaI = iCut[1];
-    int32_t j(0);
-  for( auto& jCut : submat_map_col ) {
-    int32_t deltaJ = jCut[1];
-  
-    auto* ABig_use   = ABig   + iCut[0] + jCut[0] * LDAB;
-    auto* ASmall_use = ASmall + i       + j       * LDAS;
-
-
-    for( int32_t jj = 0; jj < deltaJ; ++jj )
-    for( int32_t ii = 0; ii < deltaI; ++ii ) {
-      #ifdef _OPENMP
-      #pragma omp atomic
-      #endif
-      ABig_use[ ii + jj * LDAB ] += ASmall_use[ ii + jj * LDAS ];
-    }
-
-  
-    j += deltaJ;
-  }
-    i += deltaI;
-  }
-  
-
-}
-
-
-template <typename _F1, typename _F2>
-void inc_by_submat(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map ) {
-
-  inc_by_submat(M,N,MSub,NSub, ABig, LDAB, ASmall, LDAS,
-    submat_map, submat_map );
-
-}
-
-template <typename _F1, typename _F2>
-void inc_by_submat_atomic(int32_t M, int32_t N, int32_t MSub, 
-  int32_t NSub, _F1 *ABig, int32_t LDAB, _F2 *ASmall, 
-  int32_t LDAS, 
-  const std::vector<std::array<int32_t,3>> &submat_map) {
-
-  inc_by_submat_atomic(M,N,MSub,NSub, ABig, LDAB, ASmall, LDAS,
-    submat_map, submat_map );
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/replicated/CMakeLists.txt
deleted file mode 100644
index 4b242ec..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/CMakeLists.txt
+++ /dev/null
@@ -1,25 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  replicated_xc_integrator_impl.cxx 
-)
-
-add_subdirectory(host)
-
-if(GAUXC_HAS_DEVICE)
-  add_subdirectory(device)
-endif()
-
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/replicated/device/CMakeLists.txt
deleted file mode 100644
index 9271fc7..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/CMakeLists.txt
+++ /dev/null
@@ -1,17 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  replicated_xc_device_integrator.cxx
-  incore_replicated_xc_device_integrator.cxx
-  shell_batched_replicated_xc_device_integrator.cxx
-)
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator.cxx b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator.cxx
deleted file mode 100644
index e3659db..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator.cxx
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "incore_replicated_xc_device_integrator_integrate_den.hpp"
-#include "incore_replicated_xc_device_integrator_exc.hpp"
-#include "incore_replicated_xc_device_integrator_exc_vxc.hpp"
-#include "incore_replicated_xc_device_integrator_exc_grad.hpp"
-#include "incore_replicated_xc_device_integrator_exx.hpp"
-#include "incore_replicated_xc_device_integrator_fxc_contraction.hpp"
-#include "incore_replicated_xc_device_integrator_dd.hpp"
-#include "incore_replicated_xc_device_integrator_onedft.hpp"
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-IncoreReplicatedXCDeviceIntegrator<ValueType>::~IncoreReplicatedXCDeviceIntegrator() noexcept = default;
-
-
-
-template class IncoreReplicatedXCDeviceIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator.hpp
deleted file mode 100644
index 38b5f20..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator.hpp
+++ /dev/null
@@ -1,217 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp>
-#include "device/xc_device_data.hpp"
-
-namespace GauXC {
-namespace detail {
-
-template <typename ValueType>
-class IncoreReplicatedXCDeviceIntegrator : 
-  public ReplicatedXCDeviceIntegrator<ValueType> {
-
-  using base_type  = ReplicatedXCDeviceIntegrator<ValueType>;
-
-public:
-
-  static constexpr bool is_device = true;
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  using host_task_container = std::vector<XCTask>;
-  using host_task_iterator  = typename host_task_container::iterator;
-
-protected:
-
-  void integrate_den_( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp, value_type* N_EL ) override;
-
-  void eval_exc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-  void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                  const value_type* Pz, int64_t ldpz,
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-  void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                  const value_type* Pz, int64_t ldpz,
-                  const value_type* Py, int64_t ldpy,
-                  const value_type* Px, int64_t ldpx,
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp, value_type* VXC, int64_t ldvxc,
-                      value_type* EXC, const IntegratorSettingsXC& settings) override;
-
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* EXC, const IntegratorSettingsXC& settings ) override;
-
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      const value_type* Py,
-                      int64_t ldpy,
-                      const value_type* Px,
-                      int64_t ldpx,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* VXCy, int64_t ldvxcy,
-                      value_type* VXCx, int64_t ldvxcx,
-                      value_type* EXC, const IntegratorSettingsXC& settings ) override;
-
-
-  void eval_exc_grad_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                       value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) override;
-  void eval_exc_grad_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                       const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) override;
-
-  void eval_exx_( int64_t m, int64_t n, const value_type* P,
-                  int64_t ldp, value_type* K, int64_t ldk,
-                  const IntegratorSettingsEXX& settings ) override;
-
-  void eval_fxc_contraction_( int64_t m, int64_t n, 
-                              const value_type* P, int64_t ldp,   
-                              const value_type* tP, int64_t ldtp,
-                              value_type* FXC, int64_t ldfxc,
-                              const IntegratorSettingsXC& ks_settings ) override;
-
-  void eval_fxc_contraction_( int64_t m, int64_t n, 
-                              const value_type* Ps, int64_t ldps,   
-                              const value_type* Pz, int64_t ldpz,
-                              const value_type* tPs, int64_t ldtps,
-                              const value_type* tPz, int64_t ldtpz,
-                              value_type* FXCs, int64_t ldfxcs,
-                              value_type* FXCz, int64_t ldfxcz,
-                              const IntegratorSettingsXC& ks_settings ) override;
-
-  void eval_dd_psi_( int64_t m, int64_t n, const value_type* P,
-                     int64_t ldp, unsigned max_Ylm, value_type* ddPsi, 
-                     int64_t ldPsi ) override;
-  
-  void eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X, 
-                    unsigned max_Ylm, value_type* Vddx ) override;
-
-  void eval_exc_vxc_onedft_(int64_t m, int64_t n, const value_type* Ps,
-                    int64_t ldps,
-                    const value_type* Pz,
-                    int64_t ldpz,
-                    value_type* VXCs, int64_t ldvxcs,
-                    value_type* VXCz, int64_t ldvxcz,
-                    value_type* EXC, const IntegratorSettingsXC& settings ) override;
-
-  void integrate_den_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                            value_type *N_EL,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data );
-
-
-  void exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data, bool do_vxc );
-
-  void exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            value_type* VXC, int64_t ldvxc,
-                            value_type* VXCz, int64_t ldvxcz,
-                            value_type* VXCy, int64_t ldvxcy,
-                            value_type* VXCx, int64_t ldvxcx, value_type* EXC, value_type *N_EL,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data );
-
-  void pre_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data, const integrator_term_tracker enabled_terms );
-
-  void post_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data, const integrator_term_tracker enabled_terms );
-  void fxc_contraction_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data);
-
-  void fxc_contraction_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            value_type *N_EL,
-                            value_type* FXCs, int64_t ldfxcs,
-                            value_type* FXCz, int64_t ldfxcz,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data );
-
-  void eval_exc_grad_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps, 
-                                  const value_type* Pz, int64_t ldpz,
-                                  host_task_iterator task_begin, host_task_iterator task_end,
-                                  XCDeviceData& device_data, const IntegratorSettingsXC& settings );
-
-  void eval_exc_grad_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                                  const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, 
-                                  host_task_iterator task_begin, host_task_iterator task_end,
-                                  XCDeviceData& device_data, const IntegratorSettingsXC& settings );
-
-
-
-  void exx_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                        host_task_iterator task_begin, host_task_iterator task_end,
-                        XCDeviceData& device_data, 
-                        const IntegratorSettingsEXX& settings);
-
-  void exx_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                        value_type* K, int64_t ldk,
-                        host_task_iterator task_begin, host_task_iterator task_end,
-                        XCDeviceData& device_data, 
-                        const IntegratorSettingsEXX& settings);
-
-  void exx_ek_screening_local_work_( const basis_type& basis, 
-                        const value_type* P, int64_t ldp, 
-                        XCDeviceData& device_data, 
-                        const IntegratorSettingsEXX& settings);
-
-public:
-
-  template <typename... Args>
-  IncoreReplicatedXCDeviceIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~IncoreReplicatedXCDeviceIntegrator() noexcept;
-
-  
-  template <typename... Args>
-  void exc_vxc_local_work(Args&&... args) {
-    exc_vxc_local_work_( std::forward<Args>(args)... );
-  }
-
-};
-
-extern template class IncoreReplicatedXCDeviceIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_dd.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_dd.hpp
deleted file mode 100644
index 4898fa0..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_dd.hpp
+++ /dev/null
@@ -1,35 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "incore_replicated_xc_device_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC::detail {
-
-  template <typename ValueType>
-  void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-    eval_dd_psi_( int64_t m, int64_t n, const value_type* P,
-                  int64_t ldp, unsigned max_Ylm, value_type* ddPsi, int64_t ldPsi ) {
-      GAUXC_GENERIC_EXCEPTION("Device DD-PSI NYI");
-      util::unused(m,n,P,ldp,max_Ylm,ddPsi,ldPsi);
-  }
-  
-  template <typename ValueType>
-  void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-    eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X,
-                   unsigned max_Ylm, value_type* Vddx ) {
-      GAUXC_GENERIC_EXCEPTION("Device DD-PHIX NYI");
-      util::unused(m,n,X,max_Ylm,Vddx);
-  }
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc.hpp
deleted file mode 100644
index 9a2a7cf..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc.hpp
+++ /dev/null
@@ -1,103 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "device/local_device_work_driver.hpp"
-#include "device/xc_device_aos_data.hpp"
-#include <fstream>
-#include <gauxc/exceptions.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-             const value_type* Pz, int64_t ldpz,
-             const value_type* Py, int64_t ldpy,
-             const value_type* Px, int64_t ldpx,
-             value_type* EXC, const IntegratorSettingsXC& settings ) {
-
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Have Same Dimension as Basis");
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = lwd->create_device_data(rt);
-
-  GAUXC_MPI_CODE( MPI_Barrier(rt.comm());) 
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-
-  // Compute local contributions to EXC/VXC and retrieve
-  // data from device 
-  this->timer_.time_op("XCIntegrator.LocalWork_EXC", [&](){
-    exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx,
-        // Passing nullptr for VXCs disables VXC entirely
-        nullptr, 0, nullptr, 0, nullptr, 0, nullptr, 0, EXC, &N_EL,
-       tasks.begin(), tasks.end(), *device_data_ptr);
-  });
-
-  GAUXC_MPI_CODE(
-  this->timer_.time_op("XCIntegrator.ImbalanceWait_EXC",[&](){
-    MPI_Barrier(this->load_balancer_->runtime().comm());
-  });  
-  )
-
-  // Reduce Results in host mem
-  this->timer_.time_op("XCIntegrator.Allreduce_EXC", [&](){
-    this->reduction_driver_->allreduce_inplace( EXC,   1    , ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-  });
-
-}
-
-
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-             const value_type* Pz, int64_t ldpz,
-             value_type* EXC, const IntegratorSettingsXC& settings ) {
-
-  eval_exc_(m, n, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0, EXC, settings);
-
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-             value_type* EXC, const IntegratorSettingsXC& settings ) {
-
-  eval_exc_(m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0, EXC, settings);
-
-}
-
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc_grad.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc_grad.hpp
deleted file mode 100644
index 6c030bc..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc_grad.hpp
+++ /dev/null
@@ -1,290 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "device/local_device_work_driver.hpp"
-#include <stdexcept>
-#include "device/xc_device_aos_data.hpp"
-#include <fstream>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_grad_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* EXC_GRAD, const IntegratorSettingsXC& settings) { 
-                 
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P is sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = 
-    this->timer_.time_op("XCIntegrator.DeviceAlloc",
-      [&](){ return lwd->create_device_data(rt); });
-
-  const auto& mol = this->load_balancer_->molecule();
-  const auto natoms = mol.size();
-  if( this->reduction_driver_->takes_device_memory() ) {
-    GAUXC_GENERIC_EXCEPTION("Device Reduction + EXC Grad NYI");
-  } else {
-
-    // Compute local contributions to EXC Gradient and retrieve
-    // data from device 
-    this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-      eval_exc_grad_local_work_( basis, P, ldp, nullptr, 0, EXC_GRAD, tasks.begin(),
-        tasks.end(), *device_data_ptr, settings );
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait",[&](){
-      MPI_Barrier(this->load_balancer_->runtime().comm());
-    });  
-    )
-
-    this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-      this->reduction_driver_->allreduce_inplace( EXC_GRAD, 3*natoms, 
-        ReductionOp::Sum );
-    });
-
-  }
-
-}
-
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_grad_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                  const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) { 
-                 
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P is sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPS");
-  if( ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = 
-    this->timer_.time_op("XCIntegrator.DeviceAlloc",
-      [&](){ return lwd->create_device_data(rt); });
-
-  const auto& mol = this->load_balancer_->molecule();
-  const auto natoms = mol.size();
-  if( this->reduction_driver_->takes_device_memory() ) {
-    GAUXC_GENERIC_EXCEPTION("Device Reduction + EXC Grad NYI");
-  } else {
-
-    // Compute local contributions to EXC Gradient and retrieve
-    // data from device 
-    this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-      eval_exc_grad_local_work_( basis, Ps, ldps, Pz, ldpz, EXC_GRAD, tasks.begin(),
-        tasks.end(), *device_data_ptr, settings );
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait",[&](){
-      MPI_Barrier(this->load_balancer_->runtime().comm());
-    });  
-    )
-
-    this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-      this->reduction_driver_->allreduce_inplace( EXC_GRAD, 3*natoms, 
-        ReductionOp::Sum );
-    });
-
-  }
-
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_grad_local_work_( const basis_type& basis, 
-    const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz,
-    host_task_iterator task_begin, host_task_iterator task_end,
-    XCDeviceData& device_data, const IntegratorSettingsXC& settings ) {
-
-  const bool is_uks = Pz != nullptr;
-  const bool is_rks = not is_uks;
-
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-
-  // Setup Aliases
-  const auto& func  = *this->func_;
-  const auto& mol   = this->load_balancer_->molecule();
-  const auto& meta  = this->load_balancer_->molmeta();
-
-  // Sanity gates
-  if(func.needs_laplacian()) {
-    GAUXC_GENERIC_EXCEPTION("Device EXC Gradients + Laplacian Dependent MGGAs Not Yet Implemented");
-  }
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  // Populate submat maps
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-  // Sort tasks 
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::sort( task_begin, task_end, task_comparator );
-
-  // Misc KS settings
-  IntegratorSettingsEXC_GRAD exc_grad_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsEXC_GRAD*>(&settings) ) {
-    exc_grad_settings = *tmp;
-  }
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-  XCWeightAlg& weight_alg = lb_state.weight_alg;
-
-
-  // Processes batches in groups that saturadate available device memory
-  integrator_term_tracker enabled_terms;
-  enabled_terms.exc_grad = true;
-  enabled_terms.weights  = true;
-
-  if (is_rks) enabled_terms.ks_scheme = RKS;
-  else if (is_uks) enabled_terms.ks_scheme = UKS;
-
-  if( func.is_lda() )      enabled_terms.xc_approx = integrator_xc_approx::LDA; 
-  else if( func.is_gga() ) enabled_terms.xc_approx = integrator_xc_approx::GGA; 
-  else if( func.needs_laplacian() ) enabled_terms.xc_approx = integrator_xc_approx::MGGA_LAPL;
-  else enabled_terms.xc_approx = integrator_xc_approx::MGGA_TAU;
-
-  // Do XC integration in task batches
-  const auto nbf     = basis.nbf();
-  const auto nshells = basis.nshells();
-  const auto natoms  = mol.size();
-  device_data.reset_allocations();
-  device_data.allocate_static_data_exc_grad( nbf, nshells, natoms, enabled_terms );
-  device_data.send_static_data_density_basis( Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0, basis );
-  // for weight contribution
-  device_data.allocate_static_data_weights( natoms );
-  device_data.send_static_data_weights( mol, meta );
-
-  // Zero integrands
-  device_data.zero_exc_grad_integrands();
-
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    // Determine next task batch, send relevant data to device (EXC Gradient only)
-    task_it = 
-      device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-
-    /*** Process the batches ***/
-
-    // Evaluate collocation
-    if( func.needs_laplacian() ) lwd->eval_collocation_lapgrad ( &device_data );
-    else if( !func.is_lda() )    lwd->eval_collocation_hessian ( &device_data );
-    else                         lwd->eval_collocation_gradient( &device_data );
-
-    // Evaluate X matrix and V vars
-    const auto xmat_fac = is_rks ? 2.0 : 1.0;
-    const auto need_lapl = func.needs_laplacian();
-    const auto need_xmat_grad = not func.is_lda();
-    auto do_xmat_vvar = [&](density_id den_id) {
-      lwd->eval_xmat( xmat_fac, &device_data, need_xmat_grad, den_id );
-      if(func.is_lda())      lwd->eval_vvars_lda( &device_data, den_id );
-      else if(func.is_gga()) lwd->eval_vvars_gga( &device_data, den_id ); 
-      else                   lwd->eval_vvars_mgga( &device_data, den_id, need_lapl );
-
-      // Save XMat for EXC gradient assembly
-      if(is_uks) lwd->save_xmat( &device_data, need_xmat_grad, den_id );
-    };
-
-    do_xmat_vvar(DEN_S);
-    if (not is_rks) {
-      do_xmat_vvar(DEN_Z);
-    }
-
-    // Evaluate U variables
-    if( func.is_mgga() )     lwd->eval_uvars_mgga( &device_data, enabled_terms.ks_scheme, need_lapl );
-    else if( func.is_gga() ) lwd->eval_uvars_gga ( &device_data, enabled_terms.ks_scheme );
-    else                     lwd->eval_uvars_lda ( &device_data, enabled_terms.ks_scheme );
-
-    // Evaluate XC functional (we need VXC for EXC Gradient)
-    if( func.is_mgga() )     lwd->eval_kern_exc_vxc_mgga( func, &device_data );
-    else if( func.is_gga() ) lwd->eval_kern_exc_vxc_gga ( func, &device_data );
-    else                     lwd->eval_kern_exc_vxc_lda ( func, &device_data );
-
-
-    // Do scalar N_EL integration    
-    lwd->inc_nel( &device_data );
-
-    // Increment EXC Gradient
-    if( func.is_mgga() )     lwd->inc_exc_grad_mgga( &device_data, enabled_terms.ks_scheme, need_lapl, exc_grad_settings.include_weight_derivatives );
-    else if( func.is_gga() ) lwd->inc_exc_grad_gga ( &device_data, enabled_terms.ks_scheme, exc_grad_settings.include_weight_derivatives );
-    else                     lwd->inc_exc_grad_lda ( &device_data, enabled_terms.ks_scheme, exc_grad_settings.include_weight_derivatives );
-
-    // weight contribution
-    if(exc_grad_settings.include_weight_derivatives)
-      lwd->eval_weight_1st_deriv_contracted( &device_data, weight_alg );
-
-  } // Loop over batches of batches 
-
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_grad_local_work_( const basis_type& basis, 
-    const value_type* Ps, int64_t ldps, 
-    const value_type* Pz, int64_t ldpz, 
-    value_type* EXC_GRAD, 
-    host_task_iterator task_begin, host_task_iterator task_end,
-    XCDeviceData& device_data, const IntegratorSettingsXC& settings ) {
-
-  // Compute XC gradient and keep data on the device
-  eval_exc_grad_local_work_( basis, Ps, ldps, Pz, ldpz, task_begin, task_end, device_data, settings );
-
-  // Receive XC gradient from host
-  double N_EL;
-  device_data.retrieve_exc_grad_integrands( EXC_GRAD, &N_EL );
-
-  //std::cout << N_EL << std::endl;
-}
-
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc_vxc.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc_vxc.hpp
deleted file mode 100644
index 6a27521..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exc_vxc.hpp
+++ /dev/null
@@ -1,417 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "device/local_device_work_driver.hpp"
-#include "device/xc_device_aos_data.hpp"
-#include <fstream>
-#include <gauxc/exceptions.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* VXC, int64_t ldvxc,
-                 value_type* EXC, const IntegratorSettingsXC& settings ) {
-  eval_exc_vxc_( m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0, 
-                      VXC, ldvxc, nullptr, 0, nullptr, 0, nullptr, 0, EXC, settings );
-}
-
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* EXC, const IntegratorSettingsXC& settings ) { 
-  eval_exc_vxc_( m, n, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0, 
-                VXCs, ldvxcs, VXCz, ldvxcz, nullptr, 0, nullptr, 0, EXC, settings );
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      const value_type* Py,
-                      int64_t ldpy,
-                      const value_type* Px,
-                      int64_t ldpx,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* VXCy, int64_t ldvxcy,
-                      value_type* VXCx, int64_t ldvxcx,
-                      value_type* EXC, const IntegratorSettingsXC& settings ) {
-  const bool is_gks = (Pz != nullptr) and (Py != nullptr) and (Px != nullptr);
-  const bool is_uks = (Pz != nullptr) and (Py == nullptr) and (Px == nullptr);
-  const bool is_rks = (Ps != nullptr) and (not is_uks and not is_gks);
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Have Same Dimension as Basis");
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPs");
-  if( ldvxcs < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCs");
-
-  if( not is_rks ) {
-    if( ldpz < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDPz");
-    if( ldvxcz < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDVXCz");
-    if( is_gks ) {
-      if( ldpy < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDPy");
-      if( ldvxcy < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDVXCy");
-      if( ldpx < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDPx");
-      if( ldvxcx < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDVXCx");
-    }
-  }
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = lwd->create_device_data(rt);
-
-  GAUXC_MPI_CODE( MPI_Barrier(rt.comm());) 
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-
-  if( this->reduction_driver_->takes_device_memory() ) {
-
-    // If we can do reductions on the device (e.g. NCCL)
-    // Don't communicate data back to the host before reduction
-    this->timer_.time_op("XCIntegrator.LocalWork_EXC_VXC", [&](){
-      exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx, tasks.begin(), tasks.end(), 
-        *device_data_ptr, true);
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait_EXC_VXC",[&](){
-      MPI_Barrier(this->load_balancer_->runtime().comm());
-    });  
-    )
-
-    // Reduce results in device memory
-    double* vxc_s_device = device_data_ptr->vxc_s_device_data();
-    double* vxc_z_device;
-    double* vxc_y_device;
-    double* vxc_x_device;
-    auto exc_device = device_data_ptr->exc_device_data();
-    auto nel_device = device_data_ptr->nel_device_data();
-    auto queue      = device_data_ptr->queue();
-    
-    if( not is_rks ) {
-      vxc_z_device = device_data_ptr->vxc_z_device_data();
-      if( is_gks ) {
-        // GKS
-        vxc_y_device = device_data_ptr->vxc_y_device_data();
-        vxc_x_device = device_data_ptr->vxc_x_device_data();
-        this->timer_.time_op("XCIntegrator.Allreduce_EXC_VXC", [&](){
-          this->reduction_driver_->allreduce_inplace( vxc_s_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( vxc_z_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( vxc_y_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( vxc_x_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( exc_device, 1,       ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( nel_device, 1,       ReductionOp::Sum, queue );
-        });
-      } else {
-        // UKS
-        this->timer_.time_op("XCIntegrator.Allreduce_EXC_VXC", [&](){
-          this->reduction_driver_->allreduce_inplace( vxc_s_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( vxc_z_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( exc_device, 1,       ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( nel_device, 1,       ReductionOp::Sum, queue );
-        });
-
-      }
-    } else {
-      // RKS
-      this->timer_.time_op("XCIntegrator.Allreduce_EXC_VXC", [&](){
-        this->reduction_driver_->allreduce_inplace( vxc_s_device, nbf*nbf, ReductionOp::Sum, queue );
-        this->reduction_driver_->allreduce_inplace( exc_device, 1,       ReductionOp::Sum, queue );
-        this->reduction_driver_->allreduce_inplace( nel_device, 1,       ReductionOp::Sum, queue );
-      });
-    }
-
-
-    // Retrieve data to host
-    this->timer_.time_op("XCIntegrator.DeviceToHostCopy_EXC_VXC",[&](){
-      device_data_ptr->retrieve_exc_vxc_integrands( EXC, &N_EL, VXCs, ldvxcs, VXCz, ldvxcz,
-                                                                VXCy, ldvxcy, VXCx, ldvxcx );
-    });
-
-
-  } else {
-
-    // Compute local contributions to EXC/VXC and retrieve
-    // data from device 
-    this->timer_.time_op("XCIntegrator.LocalWork_EXC_VXC", [&](){
-      exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx,
-                                VXCs, ldvxcs, VXCz, ldvxcz, VXCy, ldvxcy, VXCx, ldvxcx, EXC, 
-                              &N_EL, tasks.begin(), tasks.end(), *device_data_ptr);
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait_EXC_VXC",[&](){
-      MPI_Barrier(this->load_balancer_->runtime().comm());
-    });  
-    )
-
-    // Reduce Results in host mem
-    if( is_rks ) {
-      this->timer_.time_op("XCIntegrator.Allreduce_EXC_VXC", [&](){
-        this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-        this->reduction_driver_->allreduce_inplace( EXC, 1,       ReductionOp::Sum );
-        this->reduction_driver_->allreduce_inplace( &N_EL, 1,       ReductionOp::Sum );
-      });
-    } else {
-      if( is_gks ) {
-        this->timer_.time_op("XCIntegrator.Allreduce_EXC_VXC", [&](){
-          this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( VXCz, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( VXCy, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( VXCx, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( EXC, 1,       ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( &N_EL, 1,       ReductionOp::Sum );
-        });
-      } else {
-        // UKS
-        this->timer_.time_op("XCIntegrator.Allreduce_EXC_VXC", [&](){
-          this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( VXCz, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( EXC, 1,       ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( &N_EL, 1,       ReductionOp::Sum );
-        });
-
-      }
-    }
-  }
-}
-
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data, bool do_vxc ) {
-  const bool is_gks = (Pz != nullptr) and (Py != nullptr) and (Px != nullptr);
-  const bool is_uks = (Pz != nullptr) and (Py == nullptr) and (Px == nullptr);
-  const bool is_rks = (Ps != nullptr) and (not is_uks and not is_gks);
-  if (not is_rks and not is_uks and not is_gks) {
-    GAUXC_GENERIC_EXCEPTION("MUST BE EITHER RKS, UKS, or GKS!");
-  }
-  
-
-  // Cast LWD to LocalDeviceWorkDriver
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-
-  // Setup Aliases
-  const auto& func  = *this->func_;
-  const auto& mol   = this->load_balancer_->molecule();
-
-  if( func.is_mgga() and is_gks ) GAUXC_GENERIC_EXCEPTION("GKS mGGAs NYI!");
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  // Populate submat maps
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-
-  // Sort tasks 
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::sort( task_begin, task_end, task_comparator );
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-  
-
-  integrator_term_tracker enabled_terms;
-  enabled_terms.exc_vxc = true;
-
-  if (is_rks) enabled_terms.ks_scheme = RKS;
-  else if (is_uks) enabled_terms.ks_scheme = UKS;
-  else if (is_gks) enabled_terms.ks_scheme = GKS;
-
-  if( func.is_lda() )      
-    enabled_terms.xc_approx = integrator_xc_approx::LDA; 
-  else if( func.is_gga() ) 
-    enabled_terms.xc_approx = integrator_xc_approx::GGA; 
-  else if( func.needs_laplacian() )                    
-    enabled_terms.xc_approx = integrator_xc_approx::MGGA_LAPL;
-  else
-    enabled_terms.xc_approx = integrator_xc_approx::MGGA_TAU;
-  
-  // Do XC integration in task batches
-  const auto nbf     = basis.nbf();
-  const auto nshells = basis.nshells();
-  device_data.reset_allocations();
-  device_data.allocate_static_data_exc_vxc( nbf, nshells, enabled_terms, do_vxc );
-  
-  device_data.send_static_data_density_basis( Ps, ldps, Pz, ldpz, Px, ldpx, Py, ldpy, basis );
-
-
-
-  // Zero integrands
-  device_data.zero_exc_vxc_integrands(enabled_terms);
-
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    // Determine next task batch, send relevant data to device (EXC VXC only)
-    task_it = 
-      device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-
-    /*** Process the batches ***/
-    
-    const bool need_lapl = func.needs_laplacian();
-    // Evaluate collocation
-    if( func.is_mgga() ) {
-      if(need_lapl) lwd->eval_collocation_laplacian( &device_data );
-      else          lwd->eval_collocation_gradient( &device_data );
-    }
-    else if( func.is_gga() ) lwd->eval_collocation_gradient( &device_data );
-    else                     lwd->eval_collocation( &device_data );
-      
-    const double xmat_fac = is_rks ? 2.0 : 1.0;
-    const bool need_xmat_grad = func.is_mgga();
-
-    // Evaluate X matrix and V vars
-    auto do_xmat_vvar = [&](density_id den_id) {
-      lwd->eval_xmat( xmat_fac, &device_data, need_xmat_grad, den_id );
-      if(func.is_lda())      lwd->eval_vvars_lda( &device_data, den_id );
-      else if(func.is_gga()) lwd->eval_vvars_gga( &device_data, den_id ); 
-      else                   lwd->eval_vvars_mgga( &device_data, den_id, need_lapl );
-    };
-
-    do_xmat_vvar(DEN_S);
-    if (not is_rks) {
-      do_xmat_vvar(DEN_Z);
-      if (not is_uks) {
-        do_xmat_vvar(DEN_Y);
-        do_xmat_vvar(DEN_X);
-      }
-    }
-
-
-    // Evaluate U variables
-    if( func.is_mgga() )      lwd->eval_uvars_mgga( &device_data, enabled_terms.ks_scheme, need_lapl );
-    else if( func.is_gga() )  lwd->eval_uvars_gga ( &device_data, enabled_terms.ks_scheme );
-    else                      lwd->eval_uvars_lda ( &device_data, enabled_terms.ks_scheme );
-
-    // Evaluate XC functional
-    if( func.is_mgga() )     lwd->eval_kern_exc_vxc_mgga( func, &device_data );
-    else if( func.is_gga() ) lwd->eval_kern_exc_vxc_gga ( func, &device_data );
-    else                     lwd->eval_kern_exc_vxc_lda ( func, &device_data );
-    
-
-    // Do scalar EXC/N_EL integrations
-    lwd->inc_exc( &device_data );
-    lwd->inc_nel( &device_data );
-    if( not do_vxc) continue;
-
-   auto do_zmat_vxc = [&](density_id den_id) {
-     if( func.is_mgga() ) {
-       lwd->eval_zmat_mgga_vxc( &device_data, enabled_terms.ks_scheme, need_lapl, den_id);
-       lwd->eval_mmat_mgga_vxc( &device_data, enabled_terms.ks_scheme, need_lapl, den_id);
-     }
-     else if( func.is_gga() ) 
-       lwd->eval_zmat_gga_vxc( &device_data, enabled_terms.ks_scheme, den_id );
-     else 
-       lwd->eval_zmat_lda_vxc( &device_data, enabled_terms.ks_scheme, den_id );
-     lwd->inc_vxc( &device_data, den_id, func.is_mgga() );
-  };
-
-  do_zmat_vxc(DEN_S);
-  if(not is_rks) {
-    do_zmat_vxc(DEN_Z);
-    if(not is_uks) {
-      do_zmat_vxc(DEN_Y);
-      do_zmat_vxc(DEN_X);
-    }
-  }
-
-  } // Loop over batches of batches 
-
-  // Symmetrize VXC in device memory
-  if( do_vxc ) {
-    lwd->symmetrize_vxc( &device_data, DEN_S );
-    if (not is_rks) {
-      lwd->symmetrize_vxc( &device_data, DEN_Z );
-      if (not is_uks) {
-        lwd->symmetrize_vxc( &device_data, DEN_Y );
-        lwd->symmetrize_vxc( &device_data, DEN_X );
-      }
-    }
-  }
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,   
-                            value_type* VXCs, int64_t ldvxcs,
-                            value_type* VXCz, int64_t ldvxcz,
-                            value_type* VXCy, int64_t ldvxcy,
-                            value_type* VXCx, int64_t ldvxcx, value_type* EXC, value_type *N_EL,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data ) {
-  
-  // Get integrate and keep data on device
-  const bool do_vxc = VXCs;
-  exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx, task_begin, task_end, device_data, do_vxc );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  rt.device_backend()->master_queue_synchronize();
-
-  // Receive XC terms from host
-  this->timer_.time_op("XCIntegrator.DeviceToHostCopy_EXC_VXC",[&](){
-    device_data.retrieve_exc_vxc_integrands( EXC, N_EL, VXCs, ldvxcs, VXCz, ldvxcz, VXCy, ldvxcy, VXCx, ldvxcx ); 
-  });
-
-}
-
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exx.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exx.hpp
deleted file mode 100644
index c19f5d5..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_exx.hpp
+++ /dev/null
@@ -1,412 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "device/local_device_work_driver.hpp"
-#include "host/reference_local_host_work_driver.hpp"
-#include <stdexcept>
-#include "device/xc_device_aos_data.hpp"
-#include <fstream>
-#include <gauxc/util/unused.hpp>
-
-#include "integrator_util/exx_screening.hpp"
-#include "integrator_util/integral_bounds.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  eval_exx_( int64_t m, int64_t n, const value_type* P,
-             int64_t ldp, value_type* K, int64_t ldk, 
-             const IntegratorSettingsEXX& settings ) { 
-
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / K are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P/K Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P/K Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-  if( ldk < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDK");
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = lwd->create_device_data(rt);
-
-  GAUXC_MPI_CODE(MPI_Barrier(rt.comm());)
-
-  this->timer_.time_op("XCIntegrator.EXX_Screening", [&]() { 
-    exx_ek_screening_local_work_( basis, P, ldp, *device_data_ptr, settings);
-  });
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-  if( this->reduction_driver_->takes_device_memory() ) {
-    //GAUXC_GENERIC_EXCEPTION("EXX + NCCL NYI");
-
-    // Compute local contributions to K and keep on device
-    this->timer_.time_op("XCIntegrator.LocalWork_EXX", [&](){
-      exx_local_work_( basis, P, ldp, 
-        tasks.begin(), tasks.end(), *device_data_ptr, settings);
-      rt.device_backend()->master_queue_synchronize();
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait_EXX",[&](){
-      MPI_Barrier(rt.comm());
-    });  
-    )
-
-    // Reduce results in device memory
-    this->timer_.time_op("XCIntegrator.Allreduce_EXX", [&](){
-      this->reduction_driver_->allreduce_inplace(
-        device_data_ptr->exx_k_device_data(), nbf*nbf, ReductionOp::Sum, 
-        device_data_ptr->queue());
-    });
-
-    // Receive K from host
-    this->timer_.time_op("XCIntegrator.DeviceToHostCopy_EXX",[&](){
-      device_data_ptr->retrieve_exx_integrands( K, ldk );
-    });
-
-  } else {
-
-    // Compute local contributions to K and retrieve
-    // data from device 
-    this->timer_.time_op("XCIntegrator.LocalWork_EXX", [&](){
-      exx_local_work_( basis, P, ldp, K, ldk, 
-        tasks.begin(), tasks.end(), *device_data_ptr, settings);
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait_EXX",[&](){
-      MPI_Barrier(rt.comm());
-    });  
-    )
-
-    // Reduce Results in host mem
-    this->timer_.time_op("XCIntegrator.Allreduce_EXX", [&](){
-      this->reduction_driver_->allreduce_inplace( K, nbf*nbf, ReductionOp::Sum );
-    });
-
-  }
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  exx_ek_screening_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                       XCDeviceData& device_data,
-                       const IntegratorSettingsEXX& settings ) {
-
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get());
-  IntegratorSettingsSNLinK sn_link_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsSNLinK*>(&settings) ) {
-    sn_link_settings = *tmp;
-  }
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-  auto task_begin = tasks.begin();
-  auto task_end = tasks.end();
-
-  // Setup Aliases
-  const auto& mol   = this->load_balancer_->molecule();
-
-  const auto nbf     = basis.nbf();
-  const auto nshells = basis.nshells();
-
-
-  // Get basis map and shell pairs
-  auto& basis_map   = this->load_balancer_->basis_map();
-  auto& shell_pairs = this->load_balancer_->shell_pairs();
-
-  // Populate submat maps
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  // Reset the coulomb screening data
-  for( auto it = task_begin; it != task_end; ++it) {
-    it->cou_screening = XCTask::screening_data();
-  }
-
-  // Compute base screening quantities
-  const size_t nb2 = basis.nbf() * basis.nbf();
-  std::vector<double> P_abs(nb2);
-  for( auto i = 0ul; i < nb2; ++i ) P_abs[i] = std::abs(P[i]);
-
-  // Loop over sparse shell pairs
-  const size_t ns2 = nshells * nshells;
-  std::vector<double> V_max(ns2, 0.0);
-  this->timer_.time_op("XCIntegrator.VM_EXX", [&](){
-  const auto sp_row_ptr = shell_pairs.row_ptr();
-  const auto sp_col_ind = shell_pairs.col_ind();
-  for( auto i = 0; i < nshells; ++i ) {
-    const auto j_st = sp_row_ptr[i];
-    const auto j_en = sp_row_ptr[i+1];
-    for( auto _j = j_st; _j < j_en; ++_j ) {
-      const auto j = sp_col_ind[_j];
-      const auto mv = util::max_coulomb( basis.at(i), basis.at(j) );
-      V_max[i + j*nshells] = mv;
-      if( i != j ) V_max[j + i*nshells] = mv;
-    }
-  }
-  });
-
-#if 1
-  exx_ek_screening( basis, basis_map, shell_pairs, P_abs.data(), basis.nbf(),
-    V_max.data(), nshells, sn_link_settings.energy_tol, 
-    sn_link_settings.k_tol, device_data, lwd, task_begin, task_end );
-#else
-  for( auto it = task_begin; it != task_end; ++it) {
-    it->cou_screening = XCTask::screening_data();
-  }
-  // Create LocalHostWorkDriver
-  LocalHostWorkDriver host_lwd(
-    std::make_unique<ReferenceLocalHostWorkDriver>()
-  );
-  exx_ek_screening( basis, basis_map, P_abs.data(), basis.nbf(),
-    V_max.data(), nshells, sn_link_settings.energy_tol, 
-    sn_link_settings.k_tol, &host_lwd, task_begin, task_end );
-#endif
-
-  //this->load_balancer_->rebalance_exx();
-
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  exx_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                       value_type* K, int64_t ldk,
-                       host_task_iterator task_begin, host_task_iterator task_end,
-                       XCDeviceData& device_data,
-                       const IntegratorSettingsEXX& settings ) {
-
-
-  exx_local_work_(basis, P, ldp, task_begin, task_end, device_data, settings);
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  rt.device_backend()->master_queue_synchronize();
-
-  // Receive K from host
-  this->timer_.time_op("XCIntegrator.DeviceToHostCopy_EXX",[&](){
-    device_data.retrieve_exx_integrands( K, ldk );
-  });
-
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  exx_local_work_( const basis_type& basis, const value_type* P, int64_t ldp, 
-                       host_task_iterator task_begin, host_task_iterator task_end,
-                       XCDeviceData& device_data,
-                       const IntegratorSettingsEXX& settings ) {
-
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  IntegratorSettingsSNLinK sn_link_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsSNLinK*>(&settings) ) {
-    sn_link_settings = *tmp;
-  }
-
-  // Setup Aliases
-  const auto& mol   = this->load_balancer_->molecule();
-
-  const auto nbf     = basis.nbf();
-  const auto nshells = basis.nshells();
-
-
-  // Get basis map and shell pairs
-  auto& basis_map   = this->load_balancer_->basis_map();
-  auto& shell_pairs = this->load_balancer_->shell_pairs();
-
-  // Populate submat maps
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-
-
-  // Sort tasks 
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::sort( task_begin, task_end, task_comparator );
-
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  task_end = std::stable_partition( task_begin, task_end,
-    []( const auto& t ) { return t.cou_screening.shell_list.size() > 0; } );
-
-#if 0
-  // Lexicographic ordering of tasks
-  auto task_order = []( const auto& a, const auto& b ) {
-
-    // Sort by iParent first
-    if( a.iParent < b.iParent )      return true;
-    else if( a.iParent > b.iParent ) return false;
-
-    // Equal iParent: lex sort on bfn shell list
-    else if(a.bfn_screening.shell_list < b.bfn_screening.shell_list) return true;
-    else if(a.bfn_screening.shell_list > b.bfn_screening.shell_list) return false;
-    
-    // Equal iParent and bfn shell list: lex sort on cou shell list
-    else return a.cou_screening.shell_list < b.cou_screening.shell_list;
-
-  };
-
-  std::sort( task_begin, task_end, task_order ); 
-  auto task_equiv = []( const auto& a, const auto& b ) {
-    return a.equiv_with(b) and 
-      a.cou_screening.equiv_with(b.cou_screening);
-  };
-  std::vector<XCTask> local_work_unique(task_begin, task_end);
-  auto last_unique =
-    std::unique( local_work_unique.begin(),
-                 local_work_unique.end(),
-                 task_equiv );
-  local_work_unique.erase( last_unique, local_work_unique.end() );
-
-  // Merge tasks
-  for( auto&& t : local_work_unique ) {
-    t.points.clear();
-    t.weights.clear();
-    t.npts = 0;
-  }
-
-  auto cur_lw_begin = task_begin;
-  auto cur_uniq_it  = local_work_unique.begin();
-
-  for( auto lw_it = task_begin; lw_it != task_end; ++lw_it ) 
-  if( not task_equiv( *lw_it, *cur_uniq_it ) ) {
-
-    if( cur_uniq_it == local_work_unique.end() )
-      GAUXC_GENERIC_EXCEPTION("Messed up in unique");
-
-    cur_uniq_it->merge_with( cur_lw_begin, lw_it );
-
-    cur_lw_begin = lw_it;
-    cur_uniq_it++;
-
-  }
-
-  // Merge the last set of batches
-  for( ; cur_lw_begin != task_end; ++cur_lw_begin )
-    cur_uniq_it->merge_with( *cur_lw_begin );
-  cur_uniq_it++;
-
-  std::copy(local_work_unique.begin(), local_work_unique.end(),
-    task_begin);
-  task_end = task_begin + local_work_unique.size();
-#endif
-  
-  std::sort(task_begin,task_end,
-    [](auto& a, auto& b){ return a.cou_screening.shell_pair_list.size() >
-      b.cou_screening.shell_pair_list.size(); });
-
-
-  size_t total_npts = std::accumulate( task_begin, task_end, 0ul,
-    [](const auto& a, const auto& b) { return a + b.npts; } );
-  //std::cout << "TOTAL NPTS " << total_npts << std::endl;
-
-  size_t total_nbe_bfn = std::accumulate( task_begin, task_end, 0ul,
-    [](const auto& a, const auto& b) { return a + b.bfn_screening.nbe; } );
-  size_t total_nbe_cou = std::accumulate( task_begin, task_end, 0ul,
-    [](const auto& a, const auto& b) { return a + b.cou_screening.nbe; } );
-
-  size_t ntasks = std::distance(task_begin,task_end);
-
-  int world_rank = 0;
-  GAUXC_MPI_CODE(
-  MPI_Comm_rank(this->load_balancer_->runtime().comm(), &world_rank);
-  )
-  //printf("RANK %d, LC_EXX = %lu\n",
-  //  world_rank,
-  //  std::accumulate(task_begin, task_end, 0ul, [](auto c, const auto& t){ return c + t.cost_exx(); })
-  //);
-
-  // Populate submat maps
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-
-
-  // Do EXX integration in task batches
-  device_data.reset_allocations();
-  device_data.allocate_static_data_exx( nbf, nshells, shell_pairs.npairs(), shell_pairs.nprim_pair_total(), basis_map.max_l() );
-  device_data.send_static_data_density_basis( P, ldp, nullptr, 0, nullptr, 0, nullptr, 0, basis );
-  device_data.send_static_data_shell_pairs( basis, shell_pairs );
-
-  // Zero integrands
-  device_data.zero_exx_integrands();
-
-  // Processes batches in groups that saturadate available device memory
-  integrator_term_tracker enabled_terms;
-  enabled_terms.exx = true;
-
-  //GAUXC_GENERIC_EXCEPTION("DIE DIE DIE");
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    // Determine next task batch, send relevant data to device (EXX only)
-    task_it = 
-      device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-
-#if 1
-    /*** Process the batches ***/
-
-    // Evaluate collocation
-    lwd->eval_collocation( &device_data );
-
-    // Evaluate F(mu,i) = P(mu,nu) * B(nu,i)
-    // mu runs over significant ek shells
-    // nu runs over the bfn shell list
-    // i runs over all points
-    lwd->eval_exx_fmat( &device_data );
-
-    // Compute G(mu,i) = w(i) * A(mu,nu,i) * F(nu,i)
-    // mu/nu run over significant ek shells
-    // i runs over all points
-    lwd->eval_exx_gmat( &device_data, basis_map );
-
-    // Increment K(mu,nu) += B(mu,i) * G(nu,i)
-    // mu runs over bfn shell list
-    // nu runs over ek shells
-    // i runs over all points
-    lwd->inc_exx_k( &device_data );
-#endif
-
-  } // Loop over batches of batches 
-
-#if 1
-  // Symmetrize K in device memory
-  lwd->symmetrize_exx_k( &device_data);
-#endif
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_fxc_contraction.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_fxc_contraction.hpp
deleted file mode 100644
index ffc0ca4..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_fxc_contraction.hpp
+++ /dev/null
@@ -1,343 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "incore_replicated_xc_device_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC::detail {
-
-  template <typename ValueType>
-  void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-    eval_fxc_contraction_( int64_t m, int64_t n, 
-                          const value_type* P, int64_t ldp,
-                          const value_type* tP, int64_t ldtp,
-                          value_type* FXC, int64_t ldfxc,
-                          const IntegratorSettingsXC& ks_settings ) {
-    
-    eval_fxc_contraction_( m, n, P, ldp, nullptr, 0, tP, ldtp, nullptr, 0,
-                          FXC, ldfxc, nullptr, 0, ks_settings );
-  }
-
-    
-  template <typename ValueType>
-  void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-    eval_fxc_contraction_( int64_t m, int64_t n, 
-                          const value_type* Ps, int64_t ldps,
-                          const value_type* Pz, int64_t ldpz,
-                          const value_type* tPs, int64_t ldtps,
-                          const value_type* tPz, int64_t ldtpz,
-                          value_type* FXCs, int64_t ldfxcs,
-                          value_type* FXCz, int64_t ldfxcz,
-                          const IntegratorSettingsXC& ks_settings ) {
-    const bool is_uks = (Pz != nullptr);
-    const bool is_rks = !is_uks;
-
-    const auto& basis = this->load_balancer_->basis();
-
-    // Check that P / FXC are sane
-    const int64_t nbf = basis.nbf();
-    if( m != n ) 
-      GAUXC_GENERIC_EXCEPTION("P/FXC Must Be Square");
-    if( m != nbf ) 
-      GAUXC_GENERIC_EXCEPTION("P/FXC Must Have Same Dimension as Basis");
-    if( ldps < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDPs");
-    if( ldtps < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDTps");
-    if( ldfxcs < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDFXCs");
-
-    if( not is_rks ) {
-      if( ldpz < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDPz");
-      if( ldtpz < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDTpz");
-      if( ldfxcz < nbf )
-        GAUXC_GENERIC_EXCEPTION("Invalid LDFXCz");
-    }
-
-    // Get Tasks
-    auto& tasks = this->load_balancer_->get_tasks();
-
-    // Allocate Device memory
-    auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-    auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-    auto device_data_ptr = lwd->create_device_data(rt);
-
-    GAUXC_MPI_CODE( MPI_Barrier(rt.comm());) 
-
-    // Temporary electron count to judge integrator accuracy
-    value_type N_EL;
-  
-    if( this->reduction_driver_->takes_device_memory() ) {
-
-      // If we can do reductions on the device (e.g. NCCL)
-      // Don't communicate data back to the host before reduction
-      this->timer_.time_op("XCIntegrator.LocalWork_FXC", [&](){
-        fxc_contraction_local_work_( basis, Ps, ldps, Pz, ldpz, tPs, ldtps, tPz, ldtpz,
-          tasks.begin(), tasks.end(), *device_data_ptr);
-      });
-
-      GAUXC_MPI_CODE(
-      this->timer_.time_op("XCIntegrator.ImbalanceWait_FXC",[&](){
-        MPI_Barrier(this->load_balancer_->runtime().comm());
-      });  
-      )
-
-      // Reduce results in device memory
-      double* fxc_s_device = device_data_ptr->fxc_s_device_data();
-      double* fxc_z_device;
-      auto nel_device = device_data_ptr->nel_device_data();
-      auto queue = device_data_ptr->queue();
-      
-      if( not is_rks ) {
-        fxc_z_device = device_data_ptr->fxc_z_device_data();
-        // UKS
-        this->timer_.time_op("XCIntegrator.Allreduce_FXC", [&](){
-          this->reduction_driver_->allreduce_inplace( fxc_s_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( fxc_z_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( nel_device, 1,       ReductionOp::Sum, queue );
-        });
-      } else {
-        // RKS
-        this->timer_.time_op("XCIntegrator.Allreduce_FXC", [&](){
-          this->reduction_driver_->allreduce_inplace( fxc_s_device, nbf*nbf, ReductionOp::Sum, queue );
-          this->reduction_driver_->allreduce_inplace( nel_device, 1,       ReductionOp::Sum, queue );
-        });
-      }
-
-      // Retrieve data to host
-      this->timer_.time_op("XCIntegrator.DeviceToHostCopy_FXC",[&](){
-        device_data_ptr->retrieve_fxc_contraction_integrands(&N_EL, FXCs, ldfxcs, FXCz, ldfxcz, nullptr, 0, nullptr, 0);
-      });
-
-    } else {
-
-      // Compute local contributions to FXC and retrieve
-      // data from device 
-      this->timer_.time_op("XCIntegrator.LocalWork_FXC", [&](){
-        fxc_contraction_local_work_( basis, Ps, ldps, Pz, ldpz, tPs, ldtps, tPz, ldtpz, &N_EL, 
-                              FXCs, ldfxcs, FXCz, ldfxcz, tasks.begin(), tasks.end(), *device_data_ptr);
-      });
-
-      GAUXC_MPI_CODE(
-      this->timer_.time_op("XCIntegrator.ImbalanceWait_FXC",[&](){
-        MPI_Barrier(this->load_balancer_->runtime().comm());
-      });  
-      )
-
-      // Reduce Results in host mem
-      if( is_rks ) {
-        this->timer_.time_op("XCIntegrator.Allreduce_FXC", [&](){
-          this->reduction_driver_->allreduce_inplace( FXCs, nbf*nbf, ReductionOp::Sum );
-        this->reduction_driver_->allreduce_inplace( &N_EL, 1,       ReductionOp::Sum );
-        });
-      } else {
-        // UKS
-        this->timer_.time_op("XCIntegrator.Allreduce_FXC", [&](){
-          this->reduction_driver_->allreduce_inplace( FXCs, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( FXCz, nbf*nbf, ReductionOp::Sum );
-          this->reduction_driver_->allreduce_inplace( &N_EL, 1,       ReductionOp::Sum );
-        });
-      }
-    }
-  }
-
-  template <typename ValueType>
-  void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-    fxc_contraction_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data) {
-    const bool is_uks = (Pz != nullptr);
-    const bool is_rks = !is_uks;
-    if (not is_rks and not is_uks) {
-      GAUXC_GENERIC_EXCEPTION("MUST BE EITHER RKS OR UKS!");
-    }
-    
-
-    // Cast LWD to LocalDeviceWorkDriver
-    auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-
-    // Setup Aliases
-    const auto& func  = *this->func_;
-    const auto& mol   = this->load_balancer_->molecule();
-
-    // Get basis map
-    BasisSetMap basis_map(basis,mol);
-
-    // Populate submat maps
-    device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-
-    // Sort tasks 
-    auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-      return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-    };
-    std::sort( task_begin, task_end, task_comparator );
-
-
-    // Check that Partition Weights have been calculated
-    auto& lb_state = this->load_balancer_->state();
-    if( not lb_state.modified_weights_are_stored ) {
-      GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-    }
-    
-
-    integrator_term_tracker enabled_terms;
-    enabled_terms.fxc_contraction = true;
-
-    if (is_rks) enabled_terms.ks_scheme = RKS;
-    else if (is_uks) enabled_terms.ks_scheme = UKS;
-
-    if( func.is_lda() )      
-      enabled_terms.xc_approx = integrator_xc_approx::LDA; 
-    else if( func.is_gga() ) 
-      enabled_terms.xc_approx = integrator_xc_approx::GGA; 
-    else if( func.needs_laplacian() )                    
-      GAUXC_GENERIC_EXCEPTION("FXC contraction does not support MGGA with Laplacian");
-    else
-      enabled_terms.xc_approx = integrator_xc_approx::MGGA_TAU;
-    
-    // Do XC integration in task batches
-    const auto nbf     = basis.nbf();
-    const auto nshells = basis.nshells();
-    device_data.reset_allocations();
-    device_data.allocate_static_data_fxc_contraction( nbf, nshells, enabled_terms);
-    
-    device_data.send_static_data_density_basis( Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0, basis );
-    device_data.send_static_data_trial_density( tPs, ldtps, tPz, ldtpz, nullptr, 0, nullptr, 0 );
-
-
-    // Zero integrands
-    device_data.zero_fxc_contraction_integrands();
-
-
-    auto task_it = task_begin;
-    while( task_it != task_end ) {
-
-      // Determine next task batch, send relevant data to device (FXC only)
-      task_it = 
-        device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-
-      /*** Process the batches ***/
-      
-      const bool need_lapl = func.needs_laplacian();
-      // Evaluate collocation
-      if( func.is_mgga() ) {
-        if(need_lapl) lwd->eval_collocation_laplacian( &device_data );
-        else          lwd->eval_collocation_gradient( &device_data );
-      }
-      else if( func.is_gga() ) lwd->eval_collocation_gradient( &device_data );
-      else                     lwd->eval_collocation( &device_data );
-        
-      const double xmat_fac = is_rks ? 2.0 : 1.0;
-      const bool need_xmat_grad = func.is_mgga();
-
-      // Evaluate X matrix and V vars
-      auto do_xmat_vvar = [&](density_id den_id) {
-        lwd->eval_xmat( xmat_fac, &device_data, need_xmat_grad, den_id );
-        if(func.is_lda())      lwd->eval_vvars_lda( &device_data, den_id );
-        else if(func.is_gga()) lwd->eval_vvars_gga( &device_data, den_id ); 
-        else                   lwd->eval_vvars_mgga( &device_data, den_id, need_lapl );
-      };
-
-      do_xmat_vvar(DEN_S);
-      if (not is_rks) {
-        do_xmat_vvar(DEN_Z);
-      }
-
-      // Evaluate U variables
-      if( func.is_mgga() )      lwd->eval_uvars_mgga( &device_data, enabled_terms.ks_scheme, need_lapl );
-      else if( func.is_gga() )  lwd->eval_uvars_gga ( &device_data, enabled_terms.ks_scheme );
-      else                      lwd->eval_uvars_lda ( &device_data, enabled_terms.ks_scheme );
-
-      // Evaluate XC functional
-      if( func.is_mgga() )     lwd->eval_kern_vxc_fxc_mgga( func, &device_data );
-      else if( func.is_gga() ) lwd->eval_kern_vxc_fxc_gga ( func, &device_data );
-      else                     lwd->eval_kern_vxc_fxc_lda ( func, &device_data );      
-
-      // Do scalar N_EL integrations
-      lwd->inc_nel( &device_data );
-
-      
-      // Evaluate X matrix and V vars from trial density
-      auto do_xmat_vvar_trial = [&](density_id den_id) {
-        lwd->eval_xmat_trial( xmat_fac, &device_data, need_xmat_grad, den_id );
-        if(func.is_lda())      lwd->eval_vvars_lda_trial( &device_data, den_id );
-        else if(func.is_gga()) lwd->eval_vvars_gga_trial( &device_data, den_id ); 
-        else                   lwd->eval_vvars_mgga_trial( &device_data, den_id, need_lapl );
-      };
-
-      do_xmat_vvar_trial(DEN_S);
-      if (not is_rks) {
-        do_xmat_vvar_trial(DEN_Z);
-      }
-
-      // Evaluate tmat (it contains the trial u variable evaluation inside)
-      if( func.is_mgga() )      lwd->eval_tmat_mgga( &device_data, enabled_terms.ks_scheme, need_lapl );
-      else if( func.is_gga() )  lwd->eval_tmat_gga ( &device_data, enabled_terms.ks_scheme );
-      else                      lwd->eval_tmat_lda ( &device_data, enabled_terms.ks_scheme );
-
-      auto do_zmat_fxc = [&](density_id den_id) {
-        if( func.is_mgga() ) {
-          lwd->eval_zmat_mgga_fxc( &device_data, need_lapl, den_id);
-          lwd->eval_mmat_mgga_fxc( &device_data, need_lapl, den_id);
-        }
-        else if( func.is_gga() ) 
-          lwd->eval_zmat_gga_fxc( &device_data, den_id );
-        else 
-          lwd->eval_zmat_lda_fxc( &device_data, den_id );
-        lwd->inc_fxc( &device_data, den_id, func.is_mgga() );
-      };
-
-      do_zmat_fxc(DEN_S);
-      if(not is_rks) {
-        do_zmat_fxc(DEN_Z);
-      } 
-
-    } // Loop over batches of batches 
-
-    // Symmetrize FXC in device memory
-    lwd->symmetrize_fxc( &device_data, DEN_S );
-    if (not is_rks) {
-      lwd->symmetrize_fxc( &device_data, DEN_Z );
-      }
-  }
-
-  template <typename ValueType>
-  void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-    fxc_contraction_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            value_type *N_EL,
-                            value_type* FXCs, int64_t ldfxcs,
-                            value_type* FXCz, int64_t ldfxcz,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data ) {
-    
-    // Get integrate and keep data on device
-    fxc_contraction_local_work_( basis, Ps, ldps, Pz, ldpz, tPs, ldtps, tPz, ldtpz, 
-                              task_begin, task_end, device_data);
-    auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-    rt.device_backend()->master_queue_synchronize();
-
-    // Receive FXC terms from host
-    this->timer_.time_op("XCIntegrator.DeviceToHostCopy_FXC",[&](){
-      device_data.retrieve_fxc_contraction_integrands( N_EL, FXCs, ldfxcs, FXCz, ldfxcz, nullptr, 0, nullptr, 0 ); 
-    });
-  }
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_integrate_den.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_integrate_den.hpp
deleted file mode 100644
index d7f224c..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_integrate_den.hpp
+++ /dev/null
@@ -1,152 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "device/local_device_work_driver.hpp"
-#include "device/xc_device_aos_data.hpp"
-#include <fstream>
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  integrate_den_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* N_EL ) {
-
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = lwd->create_device_data(rt);
-
-
-  if( this->reduction_driver_->takes_device_memory() ) {
-    GAUXC_GENERIC_EXCEPTION("Device Reduction + Integrate Den NYI");
-  } else {
-
-    // Compute local contributions to N_EL and retrieve
-    // data from device 
-    this->timer_.time_op("XCIntegrator.LocalWork_Den", [&](){
-      integrate_den_local_work_( basis, P, ldp, N_EL,
-        tasks.begin(), tasks.end(), *device_data_ptr);
-    });
-
-    GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait",[&](){
-      MPI_Barrier(this->load_balancer_->runtime().comm());
-    });  
-    )
-
-    // Reduce Results in host mem
-    this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-      this->reduction_driver_->allreduce_inplace( N_EL, 1, ReductionOp::Sum );
-    });
-
-  }
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-  integrate_den_local_work_( const basis_type& basis, const value_type* P, 
-                       int64_t ldp, value_type* N_EL,
-                       host_task_iterator task_begin, host_task_iterator task_end,
-                       XCDeviceData& device_data ) {
-
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-
-  // Setup Aliases
-  const auto& mol   = this->load_balancer_->molecule();
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  // Populate submat maps
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-
-  // Sort tasks 
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::sort( task_begin, task_end, task_comparator );
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  // Do XC integration in task batches
-  const auto nbf     = basis.nbf();
-  const auto nshells = basis.nshells();
-  device_data.reset_allocations();
-  device_data.allocate_static_data_den( nbf, nshells );
-  device_data.send_static_data_density_basis( P, ldp, nullptr, 0, nullptr, 0, nullptr, 0,  basis );
-
-  // Zero integrands
-  device_data.zero_den_integrands();
-
-  // Processes batches in groups that saturadate available device memory
-  integrator_term_tracker enabled_terms;
-  enabled_terms.den = true;
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    // Determine next task batch, send relevant data to device (Density only)
-    task_it = 
-      device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-
-    /*** Process the batches ***/
-
-    // Evaluate collocation
-    lwd->eval_collocation( &device_data );
-
-    // Evaluate X matrix
-    const bool do_xmat_grad = false;
-    lwd->eval_xmat( 1.0, &device_data, do_xmat_grad, DEN_S );
-
-    // Evaluate the density
-    const bool do_vvar_grad = false;
-    lwd->eval_vvars_lda( &device_data, DEN_S );
-
-    // Do scalar N_EL integration
-    lwd->inc_nel( &device_data );
-
-  } // Loop over batches of batches 
-
-  // Receive N_EL from device
-  this->timer_.time_op("XCIntegrator.DeviceToHostCopy",[&](){
-    device_data.retrieve_den_integrands( N_EL );
-  });
-}
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_onedft.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_onedft.hpp
deleted file mode 100644
index bab6025..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/incore_replicated_xc_device_integrator_onedft.hpp
+++ /dev/null
@@ -1,605 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy). All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "incore_replicated_xc_device_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-#include "device/scheme1_data_base.hpp"
-#include "device/common/device_blas.hpp"
-#include "integrator_util/onedft_util.hpp"
-#include <cuda_runtime.h>
-#include "device/cuda/cuda_backend.hpp"
-#include <cstddef> // for size_t
-
-namespace GauXC::detail {
-
-FeatureDict prepare_onedft_features( const size_t natoms, const size_t total_npts, const size_t ndm,
-  const at::TensorOptions options, const std::vector<std::string> feature_keys,
-  double* den_eval, double* dden_eval, double* tau, double* grid_coords, 
-  double* grid_weights, double* coords );
-
-size_t save_static_data_onedft_features (XCDeviceData* _data, const integrator_term_tracker enabled_terms, size_t offset);
-
-void save_static_data_onedft_outputs(const at::Tensor exc, const FeatureDict& features_dict, XCDeviceData* _data);
-
-size_t send_buffer_onedft_outputs (XCDeviceData* _data, const integrator_term_tracker enabled_terms, size_t offset);
-
-void* my_malloc(size_t size, int device, cudaStream_t stream) {
-  void *ptr;
-  cudaMallocAsync(&ptr, size, stream);
-  return ptr;
-}
-void my_free(void* ptr, ssize_t size, int device, cudaStream_t stream) {
-  cudaFreeAsync(ptr, stream);
-}
-void init_custom_allocator() {
-  setenv("PYTORCH_CUDA_ALLOC_CONF", "expandable_segments:True", 1);
-  // auto custom_allocator = torch::cuda::CUDAPluggableAllocator::createCustomAllocator(my_malloc, my_free);
-  // torch::cuda::CUDAPluggableAllocator::changeCurrentAllocator(custom_allocator);
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-eval_exc_vxc_onedft_( int64_t m, int64_t n, 
-  const value_type* Ps, int64_t ldps,
-  const value_type* Pz, int64_t ldpz,
-  value_type* VXCs, int64_t ldvxcs,
-  value_type* VXCz, int64_t ldvxcz,
-  value_type* EXC, const IntegratorSettingsXC& settings ) {
-  
-  const bool is_uks = (Pz != nullptr);
-  const bool is_rks = (Ps != nullptr) and (not is_uks);
-  if (is_rks) { // TODO
-    GAUXC_GENERIC_EXCEPTION("RKS Not Yet Implemented");
-  }
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-
-  if( ldps and ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-  if( ldvxcs < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCS");
-
-  if( not is_rks ) {
-    if( ldpz and ldpz < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-    if( ldvxcz and ldvxcz < nbf )
-      GAUXC_GENERIC_EXCEPTION("Invalid LDVXCZ");
-  }
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();  
-  size_t total_npts = std::accumulate( tasks.begin(), tasks.end(), 0ul,
-    [](const auto& a, const auto& b) { return a + b.npts; } );
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  auto device_data_ptr = lwd->create_device_data(rt);
-
-  integrator_term_tracker enabled_terms;
-  enabled_terms.exc_vxc = true;
-  enabled_terms.onedft = true;
-
-  if (is_rks) enabled_terms.ks_scheme = RKS;
-  else if (is_uks) enabled_terms.ks_scheme = UKS;
-
-  // load onedft model
-  OneDFTSettings onedft_settings;
-  if( auto* tmp = dynamic_cast<const OneDFTSettings*>(&settings) ) {
-    onedft_settings = *tmp;
-  }
-  const auto model_path = onedft_settings.model;
-  if (not torch::cuda::is_available()) {
-    GAUXC_GENERIC_EXCEPTION("Torch CUDA Not Available");
-  }
-  torch::DeviceType torch_device = torch::kCUDA;
-  init_custom_allocator();
-  auto [exc_func, feature_keys] = load_model(model_path, torch_device);
-  
-  // determine what feature we need based on the keys
-  if (feature_keys.size() == 0) {
-    GAUXC_GENERIC_EXCEPTION("No feature keys found in model");
-  }
-
-  bool is_gga = false;
-  bool is_mgga = false;
-  bool is_lda = false;
-
-  for (const auto& key : feature_keys) {
-    if ( not valueExists(key) ) {
-      GAUXC_GENERIC_EXCEPTION("Feature Key Required Not Implemented: " + key);
-    }
-    if (key == feat_map.at(ONEDFT_FEATURE::TAU)) {
-      is_mgga = true;
-    }
-    if (key == feat_map.at(ONEDFT_FEATURE::DDEN)) {
-      is_gga = true;
-    }
-  }
-
-  if (is_mgga) {
-    enabled_terms.xc_approx = integrator_xc_approx::MGGA_TAU;
-    is_gga = false;
-  } else if (is_gga)
-    enabled_terms.xc_approx = integrator_xc_approx::GGA;
-  else {
-    is_lda = true;
-    enabled_terms.xc_approx = integrator_xc_approx::LDA;
-  }
-
-  const auto& mol   = this->load_balancer_->molecule();
-  const auto natoms = mol.natoms();
-  const auto nshells = basis.nshells();
-  // alocate onedft memory
-  device_data_ptr->reset_allocations();
-  device_data_ptr->allocate_static_data_onedft( nbf, nshells, natoms, total_npts, enabled_terms );
-  device_data_ptr->send_static_data_onedft( mol, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0, basis );
-  // Zero integrands
-  device_data_ptr->zero_exc_vxc_integrands(enabled_terms);
-     
-  this->timer_.time_op("XCIntegrator.LocalWork_PreOneDFT", [&](){
-    pre_onedft_local_work_( basis, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0,
-      tasks.begin(), tasks.end(), *device_data_ptr, enabled_terms );
-  });
-
-  int32_t world_rank = rt.comm_rank();
-  int32_t world_size = rt.comm_size();
-  size_t ndm = enabled_terms.ks_scheme == UKS ? 2 : 1;
-
-  std::vector<double> grid_weights, grid_coords, den_eval, dden_eval, tau;
-  std::vector<int> displs(world_size), recvcounts(world_size);
-
-  // run onedft model on thread 0
-  FeatureDict features_dict;
-
-  if ( world_size == 1 ) { // keep everything on device
-    auto options = torch::TensorOptions().dtype(torch::kFloat64).device(torch::kCUDA);
-    features_dict = prepare_onedft_features(
-      natoms, total_npts, ndm, options, feature_keys, device_data_ptr->den_eval_device_data(),
-      device_data_ptr->dden_eval_device_data(), device_data_ptr->tau_device_data(),
-      device_data_ptr->grid_coords_device_data(), device_data_ptr->grid_weights_device_data(),
-      device_data_ptr->coords_device_data()
-    );
-  } else { // copy to host and then back to device
-    grid_weights.resize(total_npts);
-    grid_coords.resize(total_npts * 3);
-    den_eval.resize(total_npts * ndm);
-    if (is_gga | is_mgga) {
-      dden_eval.resize(total_npts * ndm * 3);
-    }
-    if (is_mgga) {
-      tau.resize(total_npts * ndm);
-    }
-    device_data_ptr->retrieve_onedft_features( total_npts, 2, den_eval.data(),
-      (is_gga || is_mgga) ? dden_eval.data() : nullptr,
-      is_mgga ? tau.data() : nullptr,
-      grid_coords.data(), grid_weights.data() );
-    int total_npts_sum = mpi_gather_onedft_inputs_gpu(den_eval, dden_eval, tau, grid_coords, grid_weights,
-      total_npts, world_rank, world_size, recvcounts, displs);
-    if (world_rank == 0) {
-      auto options = torch::TensorOptions().dtype(torch::kFloat64).device(torch::kCPU);
-      features_dict = prepare_onedft_features(
-        natoms, total_npts_sum, ndm, options, feature_keys, den_eval.data(),
-        dden_eval.data(), tau.data(), grid_coords.data(), grid_weights.data(),
-        device_data_ptr->coords_device_data()
-      );
-    }
-  }
-  if (world_rank == 0) {
-    auto exc_on_grid = get_exc(exc_func, features_dict);
-    auto exc = (exc_on_grid * features_dict.at(feat_map.at(ONEDFT_FEATURE::WEIGHTS))).sum();
-    // if do_vxc
-    exc.backward();
-    c10::cuda::CUDACachingAllocator::emptyCache();
-    EXC[0] = exc.item<double>();
-    // std::cout << "EXC: " << EXC[0] << std::endl;
-  }
-
-  if ( world_size == 1 ) {
-    double* den_grad, * dden_grad, * tau_grad;
-    den_grad = features_dict.at(feat_map.at(ONEDFT_FEATURE::DEN)).grad().data_ptr<double>();
-    if (features_dict.find(feat_map.at(ONEDFT_FEATURE::DDEN)) != features_dict.end()) {
-      dden_grad = features_dict.at(feat_map.at(ONEDFT_FEATURE::DDEN)).grad().data_ptr<double>();
-    } else {
-      dden_grad = nullptr;
-    }
-    if (features_dict.find(feat_map.at(ONEDFT_FEATURE::TAU)) != features_dict.end()){
-      tau_grad = features_dict.at(feat_map.at(ONEDFT_FEATURE::TAU)).grad().data_ptr<double>();
-    } else {
-      tau_grad = nullptr;
-    }
-    device_data_ptr->send_static_data_onedft_results( total_npts, ndm, EXC,
-      den_grad, dden_grad, tau_grad );
-  } else { 
-    total_npts = mpi_scatter_onedft_outputs(features_dict, rt.comm_rank(), rt.comm_size(),
-                                              recvcounts, displs, den_eval, dden_eval, tau);
-    device_data_ptr->send_static_data_onedft_results( total_npts, ndm, EXC,
-      den_eval.data(), dden_eval.data(), tau.data());
-  }
-
-  this->timer_.time_op("XCIntegrator.LocalWork_PostOneDFT", [&](){
-    post_onedft_local_work_( basis, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0,
-      tasks.begin(), tasks.end(), *device_data_ptr, enabled_terms );
-  });
-
-  rt.device_backend()->master_queue_synchronize();
-
-  value_type N_EL;
-
-  this->timer_.time_op("XCIntegrator.DeviceToHostCopy_EXC_VXC",[&](){
-    device_data_ptr->retrieve_exc_vxc_integrands( EXC, &N_EL, VXCs, ldvxcs, VXCz, ldvxcz, 
-      nullptr, 0, nullptr, 0 );
-  });
-
-  
-  GAUXC_MPI_CODE(
-    this->timer_.time_op("XCIntegrator.ImbalanceWait_PostOneDFT",[&](){
-      MPI_Barrier(rt.comm());
-    });
-  )
-
-  this->timer_.time_op("XCIntegrator.Allreduce_OneDFT", [&](){
-    this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( VXCz, nbf*nbf, ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( EXC, 1,       ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1,       ReductionOp::Sum );
-  });
-  // std::cout << "exc: " << EXC[0] << std::endl;
-} // eval_exc_vxc_onedft_
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-pre_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data, const integrator_term_tracker enabled_terms ) {
-
-  bool is_mgga = enabled_terms.xc_approx == integrator_xc_approx::MGGA_TAU;
-  bool is_gga = enabled_terms.xc_approx == integrator_xc_approx::GGA;
-  bool is_lda = enabled_terms.xc_approx == integrator_xc_approx::LDA;
-  bool is_rks = enabled_terms.ks_scheme == RKS;
-  bool is_uks = enabled_terms.ks_scheme == UKS;
-        
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  const auto& mol   = this->load_balancer_->molecule();
-  const auto natoms = mol.natoms();
-  BasisSetMap basis_map(basis,mol);
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-
-  size_t total_npts = std::accumulate( task_begin, task_end, 0ul,
-    [](const auto& a, const auto& b) { return a + b.npts; } );
-
-  auto task_it = task_begin;
-  size_t offset = 0;
-  while( task_it != task_end ) {
-
-    // Determine next task batch, send relevant data to device (EXC VXC only)
-    task_it = 
-      device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-
-
-    const bool need_lapl = false;
-    // Evaluate collocation
-    if( is_mgga ) {
-      if(need_lapl) lwd->eval_collocation_laplacian( &device_data );
-      else          lwd->eval_collocation_gradient( &device_data );
-    }
-    else if( is_gga ) lwd->eval_collocation_gradient( &device_data );
-    else                     lwd->eval_collocation( &device_data );
-      
-    const double xmat_fac = is_rks ? 2.0 : 1.0;
-    const bool need_xmat_grad = is_mgga;
-
-    // Evaluate X matrix and V vars
-    auto do_xmat_vvar = [&](density_id den_id) {
-      lwd->eval_xmat( xmat_fac, &device_data, need_xmat_grad, den_id );
-      if(is_lda)      lwd->eval_vvars_lda( &device_data, den_id );
-      else if(is_gga) lwd->eval_vvars_gga( &device_data, den_id ); 
-      else                   lwd->eval_vvars_mgga( &device_data, den_id, need_lapl );
-    };
-
-    do_xmat_vvar(DEN_S);
-    if (not is_rks) {
-      do_xmat_vvar(DEN_Z);
-      if (not is_uks) {
-        do_xmat_vvar(DEN_Y);
-        do_xmat_vvar(DEN_X);
-      }
-    }
-
-    // Evaluate U variables
-    if( is_mgga )      lwd->eval_uvars_mgga( &device_data, enabled_terms.ks_scheme, need_lapl );
-    else if( is_gga )  lwd->eval_uvars_gga ( &device_data, enabled_terms.ks_scheme );
-    else                      lwd->eval_uvars_lda ( &device_data, enabled_terms.ks_scheme );
-    
-    if (is_mgga or is_gga)
-      lwd->sz_to_ab_onedft( &device_data, offset);
-    offset = save_static_data_onedft_features( &device_data, enabled_terms, offset );
-  }
-  if (offset != total_npts) {
-    GAUXC_GENERIC_EXCEPTION("eval_exc_vxc_onedft: Offset does not match total points");
-  }
-}
-
-template <typename ValueType>
-void IncoreReplicatedXCDeviceIntegrator<ValueType>::
-post_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            host_task_iterator task_begin, host_task_iterator task_end,
-                            XCDeviceData& device_data, const integrator_term_tracker enabled_terms ) {
-
-  bool is_mgga = enabled_terms.xc_approx == integrator_xc_approx::MGGA_TAU;
-  bool is_gga = enabled_terms.xc_approx == integrator_xc_approx::GGA;
-  bool is_lda = enabled_terms.xc_approx == integrator_xc_approx::LDA;
-  bool is_rks = enabled_terms.ks_scheme == RKS;
-  bool is_uks = enabled_terms.ks_scheme == UKS;
-
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  const auto& mol   = this->load_balancer_->molecule();
-  BasisSetMap basis_map(basis,mol);
-  device_data.populate_submat_maps( basis.nbf(), task_begin, task_end, basis_map );
-  const auto nbf     = basis.nbf();
-  const auto nshells = basis.nshells();
-  size_t total_npts = std::accumulate( task_begin, task_end, 0ul,
-    [](const auto& a, const auto& b) { return a + b.npts; } );
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  auto task_it = task_begin;
-  size_t offset = 0;
-
-  while( task_it != task_end ) {
-    task_it = device_data.generate_buffers( enabled_terms, basis_map, task_it, task_end );
-    // std::cout << offset << " offset: " << offset << std::endl;
-    offset = send_buffer_onedft_outputs( &device_data, enabled_terms, offset );
-
-    // Evaluate collocation
-    if( is_mgga )     lwd->eval_collocation_gradient( &device_data );
-    else if( is_gga ) lwd->eval_collocation_gradient( &device_data );
-    else              lwd->eval_collocation( &device_data );
-    auto do_zmat_vxc = [&](density_id den_id) {
-      if( is_mgga ) {
-        lwd->eval_zmat_onedft( &device_data, enabled_terms, den_id);
-        lwd->eval_mmat_mgga_vxc( &device_data, enabled_terms.ks_scheme, false /*need_lapl*/, den_id);
-      } else 
-        lwd->eval_zmat_onedft( &device_data, enabled_terms, den_id);
-      lwd->inc_vxc( &device_data, den_id, is_mgga );
-   };
-   do_zmat_vxc(DEN_S);
-   if(not is_rks) {
-     do_zmat_vxc(DEN_Z);
-    }
-   } // Loop over batches of batches 
-
-  if (offset != total_npts) {
-    GAUXC_GENERIC_EXCEPTION("eval_exc_vxc_onedft: Offset does not match total points");
-  }
-
-  // Symmetrize VXC in device memory
-  lwd->symmetrize_vxc( &device_data, DEN_S );
-  if (not is_rks) {
-    lwd->symmetrize_vxc( &device_data, DEN_Z );
-    if (not is_uks) {
-      lwd->symmetrize_vxc( &device_data, DEN_Y );
-      lwd->symmetrize_vxc( &device_data, DEN_X );
-    }
-  }
-} // onedft_local_work_
-
-void save_static_data_onedft_outputs(const at::Tensor EXC, const FeatureDict& features_dict, XCDeviceData* _data) {
-
-  auto* data = dynamic_cast<Scheme1DataBase*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-  auto backend = dynamic_cast<CUDABackend*>(data->device_backend_);
-  auto static_stack = data->static_stack;
-  size_t total_npts = data->global_dims.total_npts;
-
-  // std::cout << "save_static_data_onedft_outputs EXC: " << *EXC << std::endl;
-  backend->copy_async(1, EXC.data_ptr<double>(), static_stack.exc_device, "Copy OneDFT EXC");
-
-  // std::cout << "den_grad: " << features_dict.at(feat_map.at(ONEDFT_FEATURE::DEN)).grad() << std::endl;
-  // copy exc gradient to static stack
-  backend->copy_async(2 * total_npts, features_dict.at(feat_map.at(ONEDFT_FEATURE::DEN)).grad().data_ptr<double>(), 
-                      static_stack.den_grad_device, 
-                      "Copy OneDFT den_grad_device");
-
-  if (features_dict.find(feat_map.at(ONEDFT_FEATURE::DDEN)) != features_dict.end()){
-    backend->copy_async(2 * 3 * total_npts, features_dict.at(feat_map.at(ONEDFT_FEATURE::DDEN)).grad().data_ptr<double>(), 
-                        static_stack.dden_grad_device, 
-                        "Copy OneDFT dden_grad_device");
-    // std::cout << "dden_grad: " << features_dict.at(feat_map.at(ONEDFT_FEATURE::DDEN)).grad() << std::endl;
-  }
-  if (features_dict.find(feat_map.at(ONEDFT_FEATURE::TAU)) != features_dict.end()){
-    backend->copy_async(2 * total_npts, features_dict.at(feat_map.at(ONEDFT_FEATURE::TAU)).grad().data_ptr<double>(), 
-                        static_stack.tau_grad_device,
-                        "Copy OneDFT tau_grad_device");
-    // std::cout << "tau_grad: " << features_dict.at(feat_map.at(ONEDFT_FEATURE::TAU)).grad() << std::endl;
-  }
-}
-
-size_t send_buffer_onedft_outputs(XCDeviceData* _data, const integrator_term_tracker enabled_terms, size_t offset) {
-  auto* data = dynamic_cast<Scheme1DataBase*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-  auto backend = dynamic_cast<CUDABackend*>(data->device_backend_);
-
-  size_t npoints = data->total_npts_task_batch;
-  size_t total_npts = data->global_dims.total_npts;
-  auto base_stack    = data->base_stack;
-  auto static_stack  = data->static_stack;
-
-  const bool is_UKS  = data->allocated_terms.ks_scheme == UKS;
-  size_t ndm = is_UKS ? 2 : 1;
-
-  double* den_grad_a   = static_stack.den_grad_device + offset;
-  double* den_grad_b   = static_stack.den_grad_device + total_npts + offset;
-
-  double* dden_x_grad_a = static_stack.dden_grad_device + offset;
-  double* dden_y_grad_a = static_stack.dden_grad_device + total_npts + offset;
-  double* dden_z_grad_a = static_stack.dden_grad_device + total_npts*2 + offset;
-
-  double* dden_x_grad_b = static_stack.dden_grad_device + total_npts*3 + offset;
-  double* dden_y_grad_b = static_stack.dden_grad_device + total_npts*4 + offset;
-  double* dden_z_grad_b = static_stack.dden_grad_device + total_npts*5 + offset;
-
-  double* tau_a        = static_stack.tau_grad_device + offset;
-  double* tau_b        = static_stack.tau_grad_device + total_npts + offset;
-
-  backend->copy_async_2d(
-    1, npoints, den_grad_a, 1, base_stack.vrho_pos_eval_device, 1, "Copy vrho_pos_eval_device");
-  backend->copy_async_2d(
-    1, npoints, den_grad_b, 1, base_stack.vrho_neg_eval_device, 1, "Copy vrho_neg_eval_device");
-  
-  if (dden_x_grad_a != nullptr && base_stack.gamma_pp_eval_device != nullptr) {
-    backend->copy_async_2d(1, npoints, dden_x_grad_a, 1, base_stack.gamma_pp_eval_device, 1, "Copy dden_x_eval_a to gamma_pp_eval_device");
-    backend->copy_async_2d(1, npoints, dden_x_grad_b, 1, base_stack.vgamma_pp_eval_device, 1, "Copy dden_x_eval_b to vgamma_pp_eval_device");
-    backend->copy_async_2d(1, npoints, dden_y_grad_a, 1, base_stack.gamma_pm_eval_device, 1, "Copy dden_y_eval_a to gamma_pm_eval_device");
-    backend->copy_async_2d(1, npoints, dden_y_grad_b, 1, base_stack.vgamma_pm_eval_device, 1, "Copy dden_y_eval_b to vgamma_pm_eval_device");
-    backend->copy_async_2d(1, npoints, dden_z_grad_a, 1, base_stack.gamma_mm_eval_device, 1, "Copy dden_z_eval_a to gamma_mm_eval_device");
-    backend->copy_async_2d(1, npoints, dden_z_grad_b, 1, base_stack.vgamma_mm_eval_device, 1, "Copy dden_z_eval_b to vgamma_mm_eval_device");
-  }
-  if ( tau_a != nullptr && base_stack.vtau_pos_eval_device != nullptr ) {
-    backend->copy_async_2d(
-      1, npoints, tau_a, 1, base_stack.vtau_pos_eval_device, 1, "Copy vtau_pos_eval_device");
-    backend->copy_async_2d(
-      1, npoints, tau_b, 1, base_stack.vtau_neg_eval_device, 1, "Copy vtau_neg_eval_device");
-  }
-
-  // concate den_eval_a and den_eval_b in device memory
-  backend->master_queue_synchronize(); 
-  return offset + npoints;
-}
-
-size_t save_static_data_onedft_features(XCDeviceData* _data, const integrator_term_tracker enabled_terms, size_t offset) {
-  auto* data = dynamic_cast<Scheme1DataBase*>(_data);
-  if( !data ) GAUXC_BAD_LWD_DATA_CAST();
-
-  if( not data->device_backend_ ) GAUXC_UNINITIALIZED_DEVICE_BACKEND();
-  auto backend = dynamic_cast<CUDABackend*>(data->device_backend_);
-
-  size_t npoints = data->total_npts_task_batch;
-  size_t total_npts = data->global_dims.total_npts;
-
-  auto base_stack    = data->base_stack;
-  auto static_stack  = data->static_stack;
-
-  const bool is_UKS  = data->allocated_terms.ks_scheme == UKS;
-  size_t ndm = is_UKS ? 2 : 1;
-
-  double* grid_weights = static_stack.grid_weights_device + offset;
-  double* grid_coords  = static_stack.grid_coords_device + offset * 3;
-
-  double* den_eval_a   = static_stack.den_eval_device + offset;
-  double* den_eval_b   = static_stack.den_eval_device + total_npts + offset;
-
-  double* tau_a        = static_stack.tau_device + offset;
-  double* tau_b        = static_stack.tau_device + total_npts + offset;
-  
-  backend->copy_async_2d(1, npoints, base_stack.weights_device, 1, grid_weights, 1, "Copy grid_weights");
-
-  backend->copy_async_2d(
-    1, npoints, base_stack.points_x_device, 1, grid_coords, 3, "Copy grid_coords x");
-  backend->copy_async_2d(
-    1, npoints, base_stack.points_y_device, 1, grid_coords + 1, 3, "Copy grid_coords y");
-  backend->copy_async_2d(
-    1, npoints, base_stack.points_z_device, 1, grid_coords + 2, 3, "Copy grid_coords z");
-
-  backend->copy_async_2d(
-    1, npoints, base_stack.den_s_eval_device, 1, den_eval_a, 1, "Copy den_eval_a");
-  backend->copy_async_2d(
-    1, npoints, base_stack.den_z_eval_device, 1, den_eval_b, 1, "Copy den_eval_b");
-
-  if ( base_stack.tau_s_eval_device != nullptr ) {
-    backend->copy_async_2d(
-      1, npoints, base_stack.tau_s_eval_device, 1, tau_a, 1, "Copy tau_a");
-    backend->copy_async_2d(
-      1, npoints, base_stack.tau_z_eval_device, 1, tau_b, 1, "Copy tau_b");
-  }
-
-  // concate den_eval_a and den_eval_b in device memory
-  backend->master_queue_synchronize(); 
-  return offset + npoints;
-}
-
-FeatureDict prepare_onedft_features( const size_t natoms, const size_t total_npts, const size_t ndm,
-  const at::TensorOptions options, const std::vector<std::string> feature_keys,
-  double* den_eval, double* dden_eval, double* tau, double* grid_coords, 
-  double* grid_weights, double* coords ) {
-  auto device = torch::Device(torch::kCUDA, 0);
-  FeatureDict featmap;
-  for (const auto& key : feature_keys) {
-    auto enum_key = reverse_feat_map.at(key);
-    switch (enum_key) {
-    case ONEDFT_FEATURE::DEN: {
-      auto flat_tensor = torch::from_blob(den_eval, {ndm * total_npts}, options);
-      auto tensor = flat_tensor.view({ndm, total_npts}).to(device).requires_grad_(true);
-      featmap.insert(key, tensor);
-      break;
-    }
-    case ONEDFT_FEATURE::DDEN: {
-      auto flat_tensor = torch::from_blob(dden_eval, {ndm * 3 * total_npts}, options);
-      auto tensor = flat_tensor.view({ndm, 3, total_npts}).to(device).requires_grad_(true);
-      featmap.insert(key, tensor);
-      break;
-    }
-    case ONEDFT_FEATURE::TAU: {
-      auto flat_tensor = torch::from_blob(tau, {ndm * total_npts}, options);
-      auto tensor = flat_tensor.view({ndm, total_npts}).to(device).requires_grad_(true);
-      featmap.insert(key, tensor);
-      break;
-    }
-    case ONEDFT_FEATURE::POINTS: {
-      auto flat_tensor = torch::from_blob(grid_coords, {total_npts * 3}, options);
-      auto tensor = flat_tensor.view({total_npts, 3}).to(device);
-      featmap.insert(key, tensor);
-      break;
-    }
-    case ONEDFT_FEATURE::WEIGHTS: {
-      auto flat_tensor = torch::from_blob(grid_weights, {total_npts}, options);
-      auto tensor = flat_tensor.view({total_npts}).to(device);
-      featmap.insert(key, tensor);
-      break;
-    }
-    case ONEDFT_FEATURE::COORDS: {
-      auto flat_tensor = torch::from_blob(coords, {natoms * 3}, options);
-      auto tensor = flat_tensor.view({natoms, 3}).to(device);
-      featmap.insert(key, tensor);
-      break;
-    }
-    default:
-      GAUXC_GENERIC_EXCEPTION("Feature Key Not Implemented: " + key);
-    }
-  }
-  return featmap;
-}
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/replicated_xc_device_integrator.cxx b/third_party/gauxc/src/xc_integrator/replicated/device/replicated_xc_device_integrator.cxx
deleted file mode 100644
index 082b74e..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/replicated_xc_device_integrator.cxx
+++ /dev/null
@@ -1,66 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp>
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "shell_batched_replicated_xc_device_integrator.hpp"
-#include "device/local_device_work_driver.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-ReplicatedXCDeviceIntegrator<ValueType>::~ReplicatedXCDeviceIntegrator() noexcept = default;
-
-template class ReplicatedXCDeviceIntegrator<double>;
-
-
-template <typename ValueType>
-typename ReplicatedXCDeviceIntegratorFactory<ValueType>::ptr_return_t
-  ReplicatedXCDeviceIntegratorFactory<ValueType>::make_integrator_impl(
-    std::string integrator_kernel,
-    std::shared_ptr<functional_type> func,
-    std::shared_ptr<LoadBalancer> lb, 
-    std::unique_ptr<LocalWorkDriver>&& lwd,
-    std::shared_ptr<ReductionDriver>   rd
-    ) {
-
-  // Make sure that the LWD is a valid LocalDeviceWorkDriver
-  if(not dynamic_cast<LocalDeviceWorkDriver*>(lwd.get())) {
-    GAUXC_GENERIC_EXCEPTION("Passed LWD Not valid for Device ExSpace");
-  }
-
-  std::transform(integrator_kernel.begin(), integrator_kernel.end(), 
-    integrator_kernel.begin(), ::toupper );
-
-  if( integrator_kernel == "DEFAULT" ) integrator_kernel = "INCORE";
-
-  if( integrator_kernel == "INCORE" )
-    return std::make_unique<IncoreReplicatedXCDeviceIntegrator<ValueType>>(
-      func, lb, std::move(lwd), rd
-    );
-  else if( integrator_kernel == "SHELLBATCHED" )
-    return std::make_unique<ShellBatchedReplicatedXCDeviceIntegrator<ValueType>>(
-      func, lb, std::move(lwd), rd
-    );
-
-  else
-    GAUXC_GENERIC_EXCEPTION("Integrator Kernel " + integrator_kernel + " Not Recognized");
-
-
-}
-
-template struct ReplicatedXCDeviceIntegratorFactory<double>;
-
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/shell_batched_replicated_xc_device_integrator.cxx b/third_party/gauxc/src/xc_integrator/replicated/device/shell_batched_replicated_xc_device_integrator.cxx
deleted file mode 100644
index febcd7a..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/shell_batched_replicated_xc_device_integrator.cxx
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "shell_batched_replicated_xc_device_integrator.hpp"
-#include "shell_batched_replicated_xc_integrator_integrate_den.hpp"
-#include "shell_batched_replicated_xc_integrator_exc.hpp"
-#include "shell_batched_replicated_xc_integrator_exc_vxc.hpp"
-#include "shell_batched_replicated_xc_integrator_exc_grad.hpp"
-#include "shell_batched_replicated_xc_integrator_exx.hpp"
-#include "shell_batched_replicated_xc_integrator_fxc_contraction.hpp"
-#include "shell_batched_replicated_xc_integrator_dd_psi.hpp"
-#include "shell_batched_replicated_xc_integrator_dd_psi_potential.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-ShellBatchedReplicatedXCDeviceIntegrator<ValueType>::~ShellBatchedReplicatedXCDeviceIntegrator() noexcept = default;
-
-template class ShellBatchedReplicatedXCDeviceIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/device/shell_batched_replicated_xc_device_integrator.hpp b/third_party/gauxc/src/xc_integrator/replicated/device/shell_batched_replicated_xc_device_integrator.hpp
deleted file mode 100644
index 38c8efd..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/device/shell_batched_replicated_xc_device_integrator.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/replicated/replicated_xc_device_integrator.hpp>
-#include "incore_replicated_xc_device_integrator.hpp"
-#include "shell_batched_replicated_xc_integrator.hpp"
-
-namespace GauXC {
-namespace detail {
-
-template <typename ValueType>
-class ShellBatchedReplicatedXCDeviceIntegrator : 
-  public ShellBatchedReplicatedXCIntegrator<
-    ReplicatedXCDeviceIntegrator<ValueType>,
-    IncoreReplicatedXCDeviceIntegrator<ValueType>
-  > {
-
-  using base_type  = ShellBatchedReplicatedXCIntegrator<
-    ReplicatedXCDeviceIntegrator<ValueType>,
-    IncoreReplicatedXCDeviceIntegrator<ValueType>
-  >;
-
-public:
-
-  template <typename... Args>
-  ShellBatchedReplicatedXCDeviceIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~ShellBatchedReplicatedXCDeviceIntegrator() noexcept;
-
-};
-
-extern template class ShellBatchedReplicatedXCDeviceIntegrator<double>;
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/replicated/host/CMakeLists.txt
deleted file mode 100644
index 2b878b6..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/CMakeLists.txt
+++ /dev/null
@@ -1,17 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE 
-  replicated_xc_host_integrator.cxx
-  reference_replicated_xc_host_integrator.cxx
-  shell_batched_replicated_xc_host_integrator.cxx
-)
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator.cxx b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator.cxx
deleted file mode 100644
index 7a0830a..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator.cxx
+++ /dev/null
@@ -1,29 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "reference_replicated_xc_host_integrator_integrate_den.hpp"
-#include "reference_replicated_xc_host_integrator_exc.hpp"
-#include "reference_replicated_xc_host_integrator_exc_vxc.hpp"
-#include "reference_replicated_xc_host_integrator_exc_grad.hpp"
-#include "reference_replicated_xc_host_integrator_exx.hpp"
-#include "reference_replicated_xc_host_integrator_fxc_contraction.hpp"
-#include "reference_replicated_xc_host_integrator_dd_psi.hpp"
-#include "reference_replicated_xc_host_integrator_dd_psi_potential.hpp"
-#include "reference_replicated_xc_host_integrator_onedft.hpp"
-
-namespace GauXC::detail {
-
-template <typename ValueType>
-ReferenceReplicatedXCHostIntegrator<ValueType>::~ReferenceReplicatedXCHostIntegrator() noexcept = default;
-
-template class ReferenceReplicatedXCHostIntegrator<double>;
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator.hpp
deleted file mode 100644
index ce68930..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator.hpp
+++ /dev/null
@@ -1,187 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp>
-#include "xc_host_data.hpp"
-
-namespace GauXC::detail {
-
-template <typename ValueType>
-class ReferenceReplicatedXCHostIntegrator : 
-  public ReplicatedXCHostIntegrator<ValueType> {
-
-  using base_type  = ReplicatedXCHostIntegrator<ValueType>;
-
-public:
-
-  static constexpr bool is_device = false;
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-  using task_container = std::vector<XCTask>;
-  using task_iterator  = typename task_container::iterator;
-
-
-protected:
-
-  // Density Integration 
-  void integrate_den_( int64_t m, int64_t n, const value_type* P, int64_t ldp, value_type* N_EL ) override;
-
-  /// RKS EXC
-  void eval_exc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// UKS EXC
-  void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                  const value_type* Pz, int64_t ldpz,
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// GKS EXC - also serves as the generic implementation
-  void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      const value_type* Py, int64_t ldpy,
-                      const value_type* Px, int64_t ldpx,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// RKS EXC/VXC
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                      value_type* VXC, int64_t ldvxc, value_type* EXC, 
-                      const IntegratorSettingsXC& ks_settings ) override;
-
-  /// UKS EXC/VXC
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// GKS EXC/VXC - also serves as the generic implementation
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      const value_type* Py, int64_t ldpy,
-                      const value_type* Px, int64_t ldpx,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* VXCy, int64_t ldvxcy,
-                      value_type* VXCx, int64_t ldvxcx,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// Onedft
-  void eval_exc_vxc_onedft_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                     const value_type* Pz, int64_t ldpz, value_type* VXCs, int64_t ldvxcs,
-                     value_type* VXCz, int64_t ldvxcz, value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-                     
-  /// RKS EXC Gradient
-  void eval_exc_grad_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                       value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) override;
-  /// UKS EXC Gradient
-  void eval_exc_grad_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                       const value_type* Pz, int64_t lpdz, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) override;
-
-  /// sn-LinK
-  void eval_exx_( int64_t m, int64_t n, const value_type* P,
-                  int64_t ldp, value_type* K, int64_t ldk,
-                  const IntegratorSettingsEXX& settings ) override;
-
-  /// RKS FXC contraction
-  void eval_fxc_contraction_( int64_t m, int64_t n, 
-                    const value_type* P, int64_t ldp, 
-                    const value_type* tP, int64_t ldtp,
-                    value_type* FXC, int64_t ldfxc,
-                    const IntegratorSettingsXC& ks_settings ) override;
-
-  // UKS FXC contraction
-  void eval_fxc_contraction_( int64_t m, int64_t n, 
-                    const value_type* Ps, int64_t ldps,   
-                    const value_type* Pz, int64_t ldpz,
-                    const value_type* tPs, int64_t ldtps,
-                    const value_type* tPz, int64_t ldtpz,
-                    value_type* FXCs, int64_t ldfxcs,
-                    value_type* FXCz, int64_t ldfxcz,
-                    const IntegratorSettingsXC& ks_settings ) override;
-
-  /// ddX PSi 
-  void eval_dd_psi_( int64_t m, int64_t n, const value_type* P,
-                     int64_t ldp, unsigned max_Ylm, value_type* ddPsi, int64_t ldPsi ) override;
-
-  /// ddX PhiX
-  void eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm, value_type* Vddx ) override;
-
-  // Implementation details of integrate_den
-  void integrate_den_local_work_( const value_type* P, int64_t ldp, 
-                                   value_type *N_EL );
-
-  // Implementation details of exc_vxc (for RKS/UKS/GKS deduced from input character)
-  void exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            value_type* VXCs, int64_t ldvxcs,
-                            value_type* VXCz, int64_t ldvxcz,
-                            value_type* VXCy, int64_t ldvxcy,
-                            value_type* VXCx, int64_t ldvxcx,
-                            value_type* EXC, value_type *N_EL, const IntegratorSettingsXC& ks_settings,
-                            task_iterator task_begin, task_iterator task_end );
-                            
-  // Implemetation details of exc_grad
-  void exc_grad_local_work_( const value_type* Ps, int64_t ldps, const value_type* Pz, int64_t ldpz,
-                             value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings );
-
-  // Implementation details of sn-LinK
-  void exx_local_work_( const value_type* P, int64_t ldp, value_type* K, int64_t ldk,
-    const IntegratorSettingsEXX& settings );
-
-  // Implementation details of UKS FXC contraction
-  void fxc_contraction_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            value_type* FXCs, int64_t ldfxcs,
-                            value_type* FXCz, int64_t ldfxcz,
-                            value_type *N_EL, const IntegratorSettingsXC& ks_settings,
-                            task_iterator task_begin, task_iterator task_end );
-
-  // Implementation details of ddX Psi
-  void dd_psi_local_work_( const value_type* P, int64_t ldp, unsigned max_Ylm, value_type* ddPsi, int64_t ldPsi );    
-
-  void dd_psi_potential_local_work_( const value_type* X, value_type* Vddx, unsigned max_Ylm );
-
-  void pre_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz, value_type *N_EL, 
-    const bool is_gga, const bool is_mgga, const bool needs_laplacian);
-  
-  void post_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz,
-    value_type* VXCs, int64_t ldvxcs,
-    value_type* VXCz, int64_t ldvxcz,
-    const bool is_gga, const bool is_mgga, const bool needs_laplacian);
-
-
-public:
-
-  template <typename... Args>
-  ReferenceReplicatedXCHostIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~ReferenceReplicatedXCHostIntegrator() noexcept;
-
-
-  template <typename... Args>
-  void exc_vxc_local_work(Args&&... args) {
-    exc_vxc_local_work_( std::forward<Args>(args)... );
-  }
-
-
-};
-
-extern template class ReferenceReplicatedXCHostIntegrator<double>;
-
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_dd_psi.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_dd_psi.hpp
deleted file mode 100644
index 211a4ab..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_dd_psi.hpp
+++ /dev/null
@@ -1,182 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "integrator_util/spherical_harmonics.hpp"
-#include "host/local_host_work_driver.hpp"
-#include <gauxc/molgrid/defaults.hpp>
-#include <stdexcept>
-#ifdef GAUXC_ENABLE_OPENMP
-#include <omp.h>
-#endif
-
-namespace GauXC::detail {
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_dd_psi_( int64_t m, int64_t n, const value_type* P,
-                int64_t ldp, unsigned max_Ylm, value_type* ddPsi, 
-                int64_t ldPsi ) {
-
-  const auto& basis = this->load_balancer_->basis();
-  const auto& mol   = this->load_balancer_->molecule();
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-
-  // Get Tasks
-  this->load_balancer_->get_tasks();
-  // Compute Local contributions to ddPsi
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-   dd_psi_local_work_( P, ldp, max_Ylm, ddPsi, ldPsi );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( ddPsi, ldPsi * mol.size(), ReductionOp::Sum );
-
-  });
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  dd_psi_local_work_( const value_type* P, int64_t ldp, unsigned max_Ylm,
-    value_type* dd_Psi, int64_t ldPsi) {
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& basis = this->load_balancer_->basis();
-  const auto& mol   = this->load_balancer_->molecule();
-
-  // Atom-specific data
-  int natom = mol.size();
-  std::vector<double> radii(natom);
-  for (int i = 0; i < natom; ++i) {
-    radii[i] = uff_radius_103(mol[i].Z);
-  }
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-
-  // Compute Partition Weights
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-
-  // Loop over tasks
-  const size_t ntasks = tasks.size();
-  #ifdef GAUXC_ENABLE_OPENMP
-  #pragma omp parallel
-  #endif
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-
-  #ifdef GAUXC_ENABLE_OPENMP
-  #pragma omp for schedule(dynamic) reduction(+:dd_Psi[:natom * ldPsi])
-  #endif
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    // Alias current task
-    const auto& task = tasks[iT];
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-
-    // Allocate enough memory for batch
-
-    host_data.nbe_scr .resize( nbe * nbe  );
-    host_data.zmat    .resize( npts * nbe );
-
-    host_data.basis_eval .resize( npts * nbe );
-    host_data.den_scr    .resize( npts );
-
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* den_eval   = host_data.den_scr.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-    auto* zmat       = host_data.zmat.data();
-
-    int nharmonics = (max_Ylm + 1) * (max_Ylm + 1);
-
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-
-    // Evaluate Collocation
-    lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list, 
-      basis_eval );
-
-    // Evaluate X matrix (P * B) -> store in Z
-    lwd->eval_xmat( npts, nbf, nbe, submat_map, 1.0, P, ldp, basis_eval, nbe,
-      zmat, nbe, nbe_scr );
-
-    // Evaluate density on grid
-    lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, zmat, nbe, den_eval );
-
-    // Populate dd_Psi
-    const size_t atom_offset = task.iParent * ldPsi;
-    const double radius = radii[task.iParent];
-    const std::array<double, 3> center = {mol[task.iParent].x, mol[task.iParent].y, mol[task.iParent].z};
-
-    std::vector<double> ylm_matrix(npts * nharmonics);
-    scaled_ylm_matrix(max_Ylm, points, npts, center, radius, ylm_matrix.data());
-
-    for (int i = 0; i < npts; ++i) {
-      den_eval[i] *= -weights[i];
-    }
-    std::vector<double> offset_local_dd_psi(ldPsi, 0.0);
-    blas::gemm('N', 'N', ldPsi, 1, npts,  
-            1.0, ylm_matrix.data(), ldPsi,   
-            den_eval, npts,     
-            0.0, offset_local_dd_psi.data(), ldPsi); 
-    for (int j = 0; j < ldPsi; ++j) {
-      dd_Psi[atom_offset + j] += offset_local_dd_psi[j];
-    }
-
-  } // Loop over tasks 
-  } // End OpenMP region
-}
-} // namespace GauXC::detail
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_dd_psi_potential.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_dd_psi_potential.hpp
deleted file mode 100644
index 58b9edd..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_dd_psi_potential.hpp
+++ /dev/null
@@ -1,178 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "integrator_util/spherical_harmonics.hpp"
-#include "host/local_host_work_driver.hpp"
-#include <stdexcept>
-#include "host/blas.hpp"
-#include "host/util.hpp"
-
-#ifdef GAUXC_ENABLE_OPENMP
-#include <omp.h>
-#endif
-
-namespace GauXC::detail {
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm, 
-    value_type* Vddx ) {
-
-  const auto& basis = this->load_balancer_->basis();
-  const int32_t nbf = basis.nbf();
-
-  // Check that m is natom, n is nharmonics
-  const auto& mol = this->load_balancer_->molecule();
-  const size_t natom = mol.size();
-  const size_t nharmonics = (max_Ylm + 1) * (max_Ylm + 1);
-  if (m != nharmonics || n != natom) {
-    GAUXC_GENERIC_EXCEPTION("m must be nharmonics and n must be natom");
-  }
-  // Get Tasks
-  this->load_balancer_->get_tasks();
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-   dd_psi_potential_local_work_( X, Vddx, max_Ylm );
-  });
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( Vddx, nbf * nbf, ReductionOp::Sum );
-
-  });
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  dd_psi_potential_local_work_( const value_type* X, value_type* Vddx, unsigned max_Ylm ) {
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& basis = this->load_balancer_->basis();
-  const auto& mol   = this->load_balancer_->molecule();
-
-  // Atom-specific data
-  std::vector<double> radii(mol.size());
-  for (int i = 0; i < mol.size(); ++i) {
-    radii[i] = uff_radius_103(mol[i].Z);
-  }
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-  // Compute Partition Weights
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  // Loop over tasks
-  const size_t ntasks = tasks.size();
-
-  #ifdef GAUXC_ENABLE_OPENMP
-  #pragma omp parallel
-  #endif
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-
-  #ifdef GAUXC_ENABLE_OPENMP
-  #pragma omp for schedule(dynamic)
-  #endif
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    // Alias current task
-    const auto& task = tasks[iT];
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-
-    // Allocate enough memory for batch
-    host_data.basis_eval .resize( npts * nbe );
-    auto* basis_eval = host_data.basis_eval.data();
-
-    host_data.nbe_scr .resize( nbe * nbe  );
-    auto* vddx_scr = host_data.nbe_scr.data();
-
-    host_data.den_scr    .resize( npts );
-    auto etas = host_data.den_scr.data();
-
-    host_data.zmat    .resize( npts * nbe );
-    auto* zmat = host_data.zmat.data();
-    
-    int nharmonics = (max_Ylm + 1) * (max_Ylm + 1);
-
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-    
-    // Evaluate Collocation
-    lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list, 
-      basis_eval );
-    
-    // Project X onto the spherical harmonics basis
-    const size_t atom_offset = task.iParent * nharmonics;
-    const double radius = radii[task.iParent];
-    std::array<double, 3> center = {mol[task.iParent].x, mol[task.iParent].y, mol[task.iParent].z};
-    const value_type* X_i = X + atom_offset;
-
-    std::vector<double> ylm_matrix(npts * nharmonics);
-    scaled_ylm_matrix(max_Ylm, points, npts, center, radius, ylm_matrix.data());
-
-    blas::gemm('T', 'N', npts, 1, nharmonics, 
-              1.0, ylm_matrix.data(), nharmonics, 
-              X_i, nharmonics,                
-              0.0, etas, npts);
-
-    // zmat = phi * etas
-    for (int ipt = 0; ipt < npts; ipt++) {
-      etas[ipt] *= weights[ipt];
-      for (int ibe = 0; ibe < nbe; ibe++) {
-        zmat[ipt * nbe + ibe] = basis_eval[ipt * nbe + ibe] * etas[ipt]; // nbe is fastest, col in column-major
-      }
-    }
-
-    // vddx_scr = phi^T * etas * weights * phi
-    blas::gemm('N', 'T', nbe, nbe, npts, 1.0, basis_eval, nbe, zmat, nbe, 0.0, vddx_scr, nbe);
-
-    detail::inc_by_submat_atomic( nbf, nbf, nbe, nbe, Vddx, nbf, vddx_scr, nbe,
-                        submat_map );
-  } // Loop over tasks 
-  } // End OpenMP region
-}
-
-} // namespace GauXC::detail
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc.hpp
deleted file mode 100644
index de1cb9e..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc.hpp
+++ /dev/null
@@ -1,97 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "host/local_host_work_driver.hpp"
-#include "host/blas.hpp"
-#include <stdexcept>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-             const value_type* Pz, int64_t ldpz,
-             const value_type* Py, int64_t ldpy,
-             const value_type* Px, int64_t ldpx,
-             value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldps and ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-  if( ldpz and ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-  if( ldpy and ldpy < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPY");
-  if( ldpx and ldpx < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPX");
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    //exc_vxc_local_work_( P, ldp, VXC, ldvxc, EXC, &N_EL );
-    exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx,
-                         nullptr, 0, nullptr, 0, nullptr, 0, nullptr, 0, 
-                         EXC, &N_EL, ks_settings, tasks.begin(), tasks.end() );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( EXC,   1    , ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-
-  });
-
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-             value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-  eval_exc_(m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0, EXC, ks_settings);
-
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-             const value_type* Pz, int64_t ldpz,
-             value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-  eval_exc_(m, n, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0, EXC, ks_settings);
-
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc_grad.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc_grad.hpp
deleted file mode 100644
index f04ae24..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc_grad.hpp
+++ /dev/null
@@ -1,603 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "host/local_host_work_driver.hpp"
-#include "host/blas.hpp"
-#include <stdexcept>
-
-namespace GauXC::detail {
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_grad_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings ) { 
-                 
-                 
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P is sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-                 
-                 
-  // Get Tasks
-  this->load_balancer_->get_tasks();
-                 
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    exc_grad_local_work_( P, ldp, nullptr, 0, EXC_GRAD, ks_settings );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    const int natoms = this->load_balancer_->molecule().natoms();
-    this->reduction_driver_->allreduce_inplace( EXC_GRAD, 3*natoms, ReductionOp::Sum );
-  });
-
-}
-
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_grad_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                  const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings ) { 
-                 
-                 
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P is sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPS");
-  if( ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-                 
-                 
-  // Get Tasks
-  this->load_balancer_->get_tasks();
-                 
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    exc_grad_local_work_( Ps, ldps, Pz, ldpz, EXC_GRAD, ks_settings );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    const int natoms = this->load_balancer_->molecule().natoms();
-    this->reduction_driver_->allreduce_inplace( EXC_GRAD, 3*natoms, ReductionOp::Sum );
-  });
-
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  exc_grad_local_work_( const value_type* Ps, int64_t ldps, const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) {
-
-  const bool is_uks = Pz != nullptr;
-  const bool is_rks = not is_uks;
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& func  = *this->func_;
-  const auto& basis = this->load_balancer_->basis();
-  const auto& mol   = this->load_balancer_->molecule();
-  const auto& molmeta = this->load_balancer_->molmeta();
-
-  // MGGA constants
-  const bool needs_laplacian = func.needs_laplacian();
-  if(needs_laplacian and is_uks) {
-    GAUXC_GENERIC_EXCEPTION("UKS Gradients + Laplacian Dependent MGGAs is Not Yet Implemented");
-  }
-
-  // Misc KS settings
-  IntegratorSettingsEXC_GRAD exc_grad_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsEXC_GRAD*>(&settings) ) {
-    exc_grad_settings = *tmp;
-  }
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-  const int32_t natoms = mol.natoms();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-  XCWeightAlg& weight_alg = lb_state.weight_alg;
-
-  // Zero out integrands
-  for( auto i = 0; i < 3*natoms; ++i ) {
-    EXC_GRAD[i] = 0.;
-  }
-
-  // Loop over tasks
-  const size_t ntasks = tasks.size();
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    // Alias current task
-    auto& task = tasks[iT];
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-    const size_t spin_dim_scal = is_rks ? 1 : 2; // last case is_uks
-    const size_t gga_dim_scal = is_rks ? 1 : 3;
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-
-    // Allocate enough memory for batch
-
-    // Things that every calc needs
-    host_data.nbe_scr .resize( nbe * nbe  );
-    host_data.eps     .resize( npts );
-    host_data.vrho    .resize( spin_dim_scal * npts );
-    host_data.den_scr .resize( 4 * spin_dim_scal * npts );
-
-    if( func.is_lda() ) {
-      host_data.basis_eval .resize( 4 * npts * nbe );
-      host_data.zmat       .resize( spin_dim_scal * npts * nbe );
-    }
-
-    if( func.is_gga() or func.is_mgga() ) {
-      host_data.basis_eval .resize( 10 * npts * nbe );
-      host_data.zmat       .resize( 4  * spin_dim_scal * npts * nbe );
-      host_data.gamma      .resize( gga_dim_scal * npts );
-      host_data.vgamma     .resize( gga_dim_scal * npts );
-    }
-
-    if( func.is_mgga() ) {
-      host_data.tau .resize( spin_dim_scal * npts );
-      host_data.vtau.resize( spin_dim_scal * npts );
-      if ( needs_laplacian ) {
-	host_data.basis_eval.resize( 24 * npts * nbe ); // 11 + lapl_grad(3) + der3(10)
-	host_data.lapl .resize( spin_dim_scal * npts );
-	host_data.vlapl.resize( spin_dim_scal * npts );
-      }
-    }
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* den_eval   = host_data.den_scr.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-
-    double* xNmat   = nullptr;
-    double* xNmat_x = nullptr;
-    double* xNmat_y = nullptr;
-    double* xNmat_z = nullptr;
-    double* xZmat   = nullptr;
-    double* xZmat_x = nullptr;
-    double* xZmat_y = nullptr;
-    double* xZmat_z = nullptr;
-
-    auto* eps        = host_data.eps.data();
-    auto* gamma      = host_data.gamma.data();
-    auto* vrho       = host_data.vrho.data();
-    auto* vgamma     = host_data.vgamma.data();
-
-    auto* tau        = host_data.tau.data();
-    auto* lapl       = host_data.lapl.data();
-    auto* vtau       = host_data.vtau.data();
-    auto* vlapl      = host_data.vlapl.data();
-
-    auto* dbasis_x_eval = basis_eval    + npts * nbe;
-    auto* dbasis_y_eval = dbasis_x_eval + npts * nbe;
-    auto* dbasis_z_eval = dbasis_y_eval + npts * nbe;
-    auto* dden_x_eval   = den_eval    + spin_dim_scal * npts;
-    auto* dden_y_eval   = dden_x_eval + spin_dim_scal * npts;
-    auto* dden_z_eval   = dden_y_eval + spin_dim_scal * npts;
-    
-
-    xNmat   = host_data.zmat.data();
-    if(func.is_lda()) {
-      xZmat   = xNmat + npts*nbe;
-    } else { 
-      xNmat_x = xNmat   + npts*nbe;
-      xNmat_y = xNmat_x + npts*nbe;
-      xNmat_z = xNmat_y + npts*nbe;
-      xZmat   = xNmat_z + npts*nbe;
-      xZmat_x = xZmat   + npts*nbe;
-      xZmat_y = xZmat_x + npts*nbe;
-      xZmat_z = xZmat_y + npts*nbe;
-    }
-
-    value_type* d2basis_xx_eval = nullptr;
-    value_type* d2basis_xy_eval = nullptr;
-    value_type* d2basis_xz_eval = nullptr;
-    value_type* d2basis_yy_eval = nullptr;
-    value_type* d2basis_yz_eval = nullptr;
-    value_type* d2basis_zz_eval = nullptr;
-     
-    value_type* lbasis_eval        = nullptr;
-    value_type* d3basis_xxx_eval   = nullptr;
-    value_type* d3basis_xxy_eval   = nullptr;
-    value_type* d3basis_xxz_eval   = nullptr;
-    value_type* d3basis_xyy_eval   = nullptr;
-    value_type* d3basis_xyz_eval   = nullptr;
-    value_type* d3basis_xzz_eval   = nullptr;
-    value_type* d3basis_yyy_eval   = nullptr;
-    value_type* d3basis_yyz_eval   = nullptr;
-    value_type* d3basis_yzz_eval   = nullptr;
-    value_type* d3basis_zzz_eval   = nullptr;
-    value_type* dlgradbasis_x_eval = nullptr;
-    value_type* dlgradbasis_y_eval = nullptr;
-    value_type* dlgradbasis_z_eval = nullptr;
-
-    if( func.is_gga() or func.is_mgga() ) {
-      d2basis_xx_eval = dbasis_z_eval   + npts * nbe;
-      d2basis_xy_eval = d2basis_xx_eval + npts * nbe;
-      d2basis_xz_eval = d2basis_xy_eval + npts * nbe;
-      d2basis_yy_eval = d2basis_xz_eval + npts * nbe;
-      d2basis_yz_eval = d2basis_yy_eval + npts * nbe;
-      d2basis_zz_eval = d2basis_yz_eval + npts * nbe;
-    }
-
-    if( needs_laplacian ) {
-      lbasis_eval      = d2basis_zz_eval + npts * nbe;
-      // TODO - this should not be needed once Gau2Grid 
-      // can evaluate the laplacian gradients directly.
-      d3basis_xxx_eval = lbasis_eval      + npts * nbe;
-      d3basis_xxy_eval = d3basis_xxx_eval + npts * nbe;
-      d3basis_xxz_eval = d3basis_xxy_eval + npts * nbe;
-      d3basis_xyy_eval = d3basis_xxz_eval + npts * nbe;
-      d3basis_xyz_eval = d3basis_xyy_eval + npts * nbe;
-      d3basis_xzz_eval = d3basis_xyz_eval + npts * nbe;
-      d3basis_yyy_eval = d3basis_xzz_eval + npts * nbe;
-      d3basis_yyz_eval = d3basis_yyy_eval + npts * nbe;
-      d3basis_yzz_eval = d3basis_yyz_eval + npts * nbe;
-      d3basis_zzz_eval = d3basis_yzz_eval + npts * nbe;
-      dlgradbasis_x_eval   = d3basis_zzz_eval + npts * nbe;
-      dlgradbasis_y_eval   = dlgradbasis_x_eval   + npts * nbe;
-      dlgradbasis_z_eval   = dlgradbasis_y_eval   + npts * nbe;
-    }
-
-
-    // Get the submatrix map for batch
-    auto [submat_map, foo] = 
-      gen_compressed_submat_map( basis_map, task.bfn_screening.shell_list, nbf, nbf );
-
-    // Evaluate Collocation Gradient (+ Hessian)
-    if( needs_laplacian ) {
-      lwd->eval_collocation_der3( npts, nshells, nbe, points, basis, shell_list, 
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval,
-        d2basis_xy_eval, d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval,
-        d2basis_zz_eval, d3basis_xxx_eval, d3basis_xxy_eval, d3basis_xxz_eval,
-	d3basis_xyy_eval, d3basis_xyz_eval, d3basis_xzz_eval, d3basis_yyy_eval,
-	d3basis_yyz_eval, d3basis_yzz_eval, d3basis_zzz_eval);
-    } else if( func.is_gga() or func.is_mgga() ) {
-      lwd->eval_collocation_hessian( npts, nshells, nbe, points, basis, shell_list, 
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval,
-        d2basis_xy_eval, d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval,
-        d2basis_zz_eval );
-    } else {
-      lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list, 
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    }
-
-
-    // Evaluate X matrix (2 * P * B/Bx/By/Bz) -> store in Z
-    // XXX: This assumes that bfn + gradients are contiguous in memory
-    const auto xmat_fac = is_rks ? 2.0 : 1.0;
-    const int  xmat_len = func.is_lda() ? 1 : 4;
-    lwd->eval_xmat( xmat_len*npts, nbf, nbe, submat_map, xmat_fac, Ps, ldps, basis_eval, nbe,
-                    xNmat, nbe, nbe_scr );
-    if(is_uks) {
-      lwd->eval_xmat( xmat_len*npts, nbf, nbe, submat_map, xmat_fac, Pz, ldpz, basis_eval, nbe,
-                      xZmat, nbe, nbe_scr );
-    }
-
-    // Evaluate U and V variables
-    if( func.is_mgga() ) {
-      if ( needs_laplacian ) {
-        blas::lacpy( 'A', nbe, npts, d2basis_xx_eval, nbe, lbasis_eval, nbe );
-        blas::axpy( nbe * npts, 1., d2basis_yy_eval, 1, lbasis_eval, 1);
-        blas::axpy( nbe * npts, 1., d2basis_zz_eval, 1, lbasis_eval, 1);
-
-        // TODO - this should be done directly in Gau2Grid
-	blas::lacpy( 'A', nbe, npts, d3basis_xxx_eval, nbe, dlgradbasis_x_eval, nbe );
-        blas::axpy( nbe * npts, 1., d3basis_xyy_eval, 1, dlgradbasis_x_eval, 1);
-        blas::axpy( nbe * npts, 1., d3basis_xzz_eval, 1, dlgradbasis_x_eval, 1);
-
-	blas::lacpy( 'A', nbe, npts, d3basis_xxy_eval, nbe, dlgradbasis_y_eval, nbe );
-        blas::axpy( nbe * npts, 1., d3basis_yyy_eval, 1, dlgradbasis_y_eval, 1);
-        blas::axpy( nbe * npts, 1., d3basis_yzz_eval, 1, dlgradbasis_y_eval, 1);
-
-	blas::lacpy( 'A', nbe, npts, d3basis_xxz_eval, nbe, dlgradbasis_z_eval, nbe );
-        blas::axpy( nbe * npts, 1., d3basis_yyz_eval, 1, dlgradbasis_z_eval, 1);
-        blas::axpy( nbe * npts, 1., d3basis_zzz_eval, 1, dlgradbasis_z_eval, 1);
-      }
-      if(is_rks)
-        lwd->eval_uvvar_mgga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, xNmat, nbe, xNmat_x, xNmat_y, xNmat_z, nbe, 
-          den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl );
-       else
-         lwd->eval_uvvar_mgga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-           dbasis_z_eval, lbasis_eval, xNmat, nbe, xZmat, nbe, xNmat_x, xNmat_y, xNmat_z, nbe, 
-           xZmat_x, xZmat_y, xZmat_z, nbe, 
-           den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl );
-    } else if( func.is_gga() ) {
-      if(is_rks)
-        lwd->eval_uvvar_gga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, xNmat, nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-          gamma );
-      else
-        lwd->eval_uvvar_gga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, xNmat, nbe, xZmat, nbe, den_eval, dden_x_eval, dden_y_eval, 
-          dden_z_eval, gamma );
-    } else {
-      if(is_rks) lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, xNmat, nbe, den_eval );
-      else       lwd->eval_uvvar_lda_uks( npts, nbe, basis_eval, xNmat, nbe, xZmat, nbe, den_eval );
-    }
-    
-
-    // Evaluate XC functional
-    if( func.is_mgga() )
-      func.eval_exc_vxc( npts, den_eval, gamma, lapl, tau, eps, vrho, vgamma, vlapl, vtau );
-    else if(func.is_gga() )
-      func.eval_exc_vxc( npts, den_eval, gamma, eps, vrho, vgamma );
-    else
-      func.eval_exc_vxc( npts, den_eval, eps, vrho );
-
-    if(exc_grad_settings.include_weight_derivatives){
-      // grid weight contribution to exc grad
-      for( int ipt = 0; ipt < npts; ++ipt ) {
-        const auto den = is_rks ? den_eval[ipt] : (den_eval[2*ipt] + den_eval[2*ipt+1]);
-        eps[ipt] *=  den * weights[ipt];
-      }
-      lwd->eval_weight_1st_deriv_contracted( weight_alg, mol, molmeta, 
-        task, eps, EXC_GRAD);
-    }
-
-
-    // Increment EXC Gradient
-    size_t bf_off = 0;
-    for( auto ish = 0; ish < nshells; ++ish ) {
-      const int sh_idx = shell_list[ish];
-      const int sh_sz  = basis[sh_idx].size();
-      const int iAt    = basis_map.shell_to_center( sh_idx );
-      if(iAt == task.iParent and exc_grad_settings.include_weight_derivatives) {
-        bf_off += sh_sz; // Increment basis offset
-        continue;
-      }
-
-      double g_acc_x(0), g_acc_y(0), g_acc_z(0);
-      for( int ibf = 0, mu = bf_off; ibf < sh_sz; ++ibf, ++mu )
-      for( int ipt = 0; ipt < npts; ++ipt ) {
-
-        const int32_t mu_i = mu + ipt*nbe;
-
-        // LDA Contributions
-        // vrhop is actually vrhon for RKS
-        const double vrhop_ipt = weights[ipt] * vrho[spin_dim_scal * ipt];
-        const double vrhom_ipt = is_uks ? weights[ipt] * vrho[spin_dim_scal * ipt + 1] : 0.0;
-
-	const double xN = xNmat[mu_i]; // X = N * B
-        const double xZ = is_uks ? xZmat[mu_i] : 0.0;
-
-	const double dbx = dbasis_x_eval[mu_i]; // B_x
-	const double dby = dbasis_y_eval[mu_i]; // B_y
-	const double dbz = dbasis_z_eval[mu_i]; // B_z
-
-        if(is_rks) {
-          g_acc_x += vrhop_ipt * xN * dbx;
-          g_acc_y += vrhop_ipt * xN * dby;
-          g_acc_z += vrhop_ipt * xN * dbz;
-        } else {
-          const auto vrhon_ipt = vrhop_ipt + vrhom_ipt;
-          const auto vrhoz_ipt = vrhop_ipt - vrhom_ipt;
-          g_acc_x += 0.5 * vrhon_ipt * xN * dbx;
-          g_acc_y += 0.5 * vrhon_ipt * xN * dby;
-          g_acc_z += 0.5 * vrhon_ipt * xN * dbz;
-
-          g_acc_x += 0.5 * vrhoz_ipt * xZ * dbx;
-          g_acc_y += 0.5 * vrhoz_ipt * xZ * dby;
-          g_acc_z += 0.5 * vrhoz_ipt * xZ * dbz;
-        }
-
-
-        if( func.is_gga() or func.is_mgga() ) {
-          // GGA Contributions
-          const double vgammapp_ipt = weights[ipt] * vgamma[gga_dim_scal * ipt + 0];
-          const double vgammapm_ipt = is_uks ? weights[ipt] * vgamma[gga_dim_scal * ipt + 1] : 0.0;
-          const double vgammamm_ipt = is_uks ? weights[ipt] * vgamma[gga_dim_scal * ipt + 2] : 0.0;
-
-          const double ddenn_x = dden_x_eval[spin_dim_scal * ipt];
-          const double ddenn_y = dden_y_eval[spin_dim_scal * ipt];
-          const double ddenn_z = dden_z_eval[spin_dim_scal * ipt];
-          const double ddenz_x = is_uks ? dden_x_eval[spin_dim_scal * ipt + 1] : 0.0;
-          const double ddenz_y = is_uks ? dden_y_eval[spin_dim_scal * ipt + 1] : 0.0;
-          const double ddenz_z = is_uks ? dden_z_eval[spin_dim_scal * ipt + 1] : 0.0;
-
-          const double xNx = xNmat_x[mu_i]; // XN_x = N * B_x
-          const double xNy = xNmat_y[mu_i]; // XN_y = N * B_y
-          const double xNz = xNmat_z[mu_i]; // XN_z = N * B_z
-
-          const double xZx = is_uks ? xZmat_x[mu_i] : 0.0;
-          const double xZy = is_uks ? xZmat_y[mu_i] : 0.0;
-          const double xZz = is_uks ? xZmat_z[mu_i] : 0.0;
-
-          const double d2bxx = d2basis_xx_eval[mu_i]; // B^2_xx
-          const double d2bxy = d2basis_xy_eval[mu_i]; // B^2_xy
-          const double d2bxz = d2basis_xz_eval[mu_i]; // B^2_xz
-          const double d2byy = d2basis_yy_eval[mu_i]; // B^2_yy
-          const double d2byz = d2basis_yz_eval[mu_i]; // B^2_yz
-          const double d2bzz = d2basis_zz_eval[mu_i]; // B^2_zz
-      
-          if(is_rks) {
-            // sum_j B^2_{ij} * d_j n
-            const auto d2_term_x = d2bxx * ddenn_x + d2bxy * ddenn_y + d2bxz * ddenn_z;
-            const auto d2_term_y = d2bxy * ddenn_x + d2byy * ddenn_y + d2byz * ddenn_z;
-            const auto d2_term_z = d2bxz * ddenn_x + d2byz * ddenn_y + d2bzz * ddenn_z;
-
-            // sum_j (d_j n) * xN^j
-            const double d11_xmat_term = ddenn_x * xNx + ddenn_y * xNy + ddenn_z * xNz;
-
-            g_acc_x += 2 * vgammapp_ipt * ( xN * d2_term_x + dbx * d11_xmat_term );
-            g_acc_y += 2 * vgammapp_ipt * ( xN * d2_term_y + dby * d11_xmat_term );
-            g_acc_z += 2 * vgammapp_ipt * ( xN * d2_term_z + dbz * d11_xmat_term );
-          } else {
-            // sum_j B^2_{ij} * d_j n
-            const auto d2n_term_x = d2bxx * ddenn_x + d2bxy * ddenn_y + d2bxz * ddenn_z;
-            const auto d2n_term_y = d2bxy * ddenn_x + d2byy * ddenn_y + d2byz * ddenn_z;
-            const auto d2n_term_z = d2bxz * ddenn_x + d2byz * ddenn_y + d2bzz * ddenn_z;
-
-            // sum_j B^2_{ij} * d_j m_z
-            const auto d2z_term_x = d2bxx * ddenz_x + d2bxy * ddenz_y + d2bxz * ddenz_z;
-            const auto d2z_term_y = d2bxy * ddenz_x + d2byy * ddenz_y + d2byz * ddenz_z;
-            const auto d2z_term_z = d2bxz * ddenz_x + d2byz * ddenz_y + d2bzz * ddenz_z;
-
-            // sum_j (d_j n) * xN^j
-            const double d11nn_xmat_term = ddenn_x * xNx + ddenn_y * xNy + ddenn_z * xNz;
-            // sum_j (d_j n) * xZ^j
-            const double d11nz_xmat_term = ddenn_x * xZx + ddenn_y * xZy + ddenn_z * xZz;
-            // sum_j (d_j m_z) * xN^j
-            const double d11zn_xmat_term = ddenz_x * xNx + ddenz_y * xNy + ddenz_z * xNz;
-            // sum_j (d_j m_z) * xZ^j
-            const double d11zz_xmat_term = ddenz_x * xZx + ddenz_y * xZy + ddenz_z * xZz;
-
-
-            g_acc_x += 0.5 * (vgammapp_ipt + vgammapm_ipt + vgammamm_ipt) * (d2n_term_x * xN + d11nn_xmat_term * dbx);
-            g_acc_x += 0.5 * (vgammapp_ipt                - vgammamm_ipt) * (d2z_term_x * xN + d11zn_xmat_term * dbx);
-            g_acc_x += 0.5 * (vgammapp_ipt                - vgammamm_ipt) * (d2n_term_x * xZ + d11nz_xmat_term * dbx);
-            g_acc_x += 0.5 * (vgammapp_ipt - vgammapm_ipt + vgammamm_ipt) * (d2z_term_x * xZ + d11zz_xmat_term * dbx);
-
-            g_acc_y += 0.5 * (vgammapp_ipt + vgammapm_ipt + vgammamm_ipt) * (d2n_term_y * xN + d11nn_xmat_term * dby);
-            g_acc_y += 0.5 * (vgammapp_ipt                - vgammamm_ipt) * (d2z_term_y * xN + d11zn_xmat_term * dby);
-            g_acc_y += 0.5 * (vgammapp_ipt                - vgammamm_ipt) * (d2n_term_y * xZ + d11nz_xmat_term * dby);
-            g_acc_y += 0.5 * (vgammapp_ipt - vgammapm_ipt + vgammamm_ipt) * (d2z_term_y * xZ + d11zz_xmat_term * dby);
-
-            g_acc_z += 0.5 * (vgammapp_ipt + vgammapm_ipt + vgammamm_ipt) * (d2n_term_z * xN + d11nn_xmat_term * dbz);
-            g_acc_z += 0.5 * (vgammapp_ipt                - vgammamm_ipt) * (d2z_term_z * xN + d11zn_xmat_term * dbz);
-            g_acc_z += 0.5 * (vgammapp_ipt                - vgammamm_ipt) * (d2n_term_z * xZ + d11nz_xmat_term * dbz);
-            g_acc_z += 0.5 * (vgammapp_ipt - vgammapm_ipt + vgammamm_ipt) * (d2z_term_z * xZ + d11zz_xmat_term * dbz);
-            
-          }
-
-          if( func.is_mgga() ) {
-            // vtaup is actually vtaun for RKS
-            const double vtaup_ipt = 0.5 * weights[ipt] * vtau[spin_dim_scal * ipt + 0];
-            const double vtaum_ipt = is_uks ? 0.5 * weights[ipt] * vtau[spin_dim_scal * ipt + 1] : 0.0;
-
-            auto d2_term_x = d2bxx * xNx + d2bxy * xNy + d2bxz * xNz;
-            auto d2_term_y = d2bxy * xNx + d2byy * xNy + d2byz * xNz;
-            auto d2_term_z = d2bxz * xNx + d2byz * xNy + d2bzz * xNz;
-
-            if(is_rks) {
-              g_acc_x += vtaup_ipt * d2_term_x;
-              g_acc_y += vtaup_ipt * d2_term_y;
-              g_acc_z += vtaup_ipt * d2_term_z;
-            } else {
-              const auto vtaun_ipt = vtaup_ipt + vtaum_ipt;
-              const auto vtauz_ipt = vtaup_ipt - vtaum_ipt;
-              g_acc_x += 0.5 * vtaun_ipt * d2_term_x;
-              g_acc_y += 0.5 * vtaun_ipt * d2_term_y;
-              g_acc_z += 0.5 * vtaun_ipt * d2_term_z;
-
-              d2_term_x = d2bxx * xZx + d2bxy * xZy + d2bxz * xZz;
-              d2_term_y = d2bxy * xZx + d2byy * xZy + d2byz * xZz;
-              d2_term_z = d2bxz * xZx + d2byz * xZy + d2bzz * xZz;
-
-              g_acc_x += 0.5 * vtauz_ipt * d2_term_x;
-              g_acc_y += 0.5 * vtauz_ipt * d2_term_y;
-              g_acc_z += 0.5 * vtauz_ipt * d2_term_z;
-            }
-
-            if( needs_laplacian ) {
-              const double vlapl_ipt = weights[ipt] * vlapl[ipt];
-              const double lbf = lbasis_eval[mu_i];
-              const double dlbx = dlgradbasis_x_eval[mu_i];
-              const double dlby = dlgradbasis_y_eval[mu_i];
-              const double dlbz = dlgradbasis_z_eval[mu_i];
-              d2_term_x = xN * dlbx + xNx * lbf + 2.0*d2_term_x;
-              d2_term_y = xN * dlby + xNy * lbf + 2.0*d2_term_y;
-              d2_term_z = xN * dlbz + xNz * lbf + 2.0*d2_term_z;
-
-              g_acc_x += vlapl_ipt * d2_term_x;
-              g_acc_y += vlapl_ipt * d2_term_y;
-              g_acc_z += vlapl_ipt * d2_term_z;
-            }
-          }
-        }
-      } // loop over bfns + grid points
-
-      #pragma omp atomic
-      EXC_GRAD[3*iAt + 0] += -2 * g_acc_x;
-      #pragma omp atomic
-      EXC_GRAD[3*iAt + 1] += -2 * g_acc_y;
-      #pragma omp atomic
-      EXC_GRAD[3*iAt + 2] += -2 * g_acc_z;
-
-      if(exc_grad_settings.include_weight_derivatives){
-        #pragma omp atomic
-        EXC_GRAD[3*task.iParent + 0] -= -2 * g_acc_x;
-        #pragma omp atomic
-        EXC_GRAD[3*task.iParent + 1] -= -2 * g_acc_y;
-        #pragma omp atomic
-        EXC_GRAD[3*task.iParent + 2] -= -2 * g_acc_z;
-      }
-
-      bf_off += sh_sz; // Increment basis offset
-
-    } // End loop over shells 
-
-  } // End loop over tasks
-
-  } // OpenMP Region
-
-  
-}
-
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc_vxc.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc_vxc.hpp
deleted file mode 100644
index 29878c5..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exc_vxc.hpp
+++ /dev/null
@@ -1,636 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "host/local_host_work_driver.hpp"
-#include "host/blas.hpp"
-#include <stdexcept>
-
-namespace GauXC::detail {
-
-/**
- *  Generic implementation of EXC/VXC for RKS/UKS/GKS
- *  
- *  If passed pointers are null-y and the leading dimensions
- *  are zero, RKS/UKS are deduced. RKS/UKS drivers delegate
- *  to this function/
- */
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, 
-                 const value_type* Ps, int64_t ldps,
-                 const value_type* Pz, int64_t ldpz,
-                 const value_type* Py, int64_t ldpy,
-                 const value_type* Px, int64_t ldpx,
-                 value_type* VXCs, int64_t ldvxcs,
-                 value_type* VXCz, int64_t ldvxcz,
-                 value_type* VXCy, int64_t ldvxcy,
-                 value_type* VXCx, int64_t ldvxcx,
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n )
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Be Square");
-  if( m != nbf )
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Have Same Dimension as Basis");
-
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPS");
-  if( ldpz and ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-  if( ldpy and ldpy < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPX");
-  if( ldpx and ldpx < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPY");
-
-  if( ldvxcs < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCS");
-  if( ldvxcz and ldvxcz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCZ");
-  if( ldvxcy and ldvxcy < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCX");
-  if( ldvxcx and ldvxcx < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCY");
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-   
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx, 
-                         VXCs, ldvxcs, VXCz, ldvxcz,
-                         VXCy, ldvxcy, VXCx, ldvxcx, EXC, &N_EL, ks_settings,
-                         tasks.begin(), tasks.end() );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-    if(VXCz) this->reduction_driver_->allreduce_inplace( VXCz, nbf*nbf, ReductionOp::Sum );
-    if(VXCy) this->reduction_driver_->allreduce_inplace( VXCy, nbf*nbf, ReductionOp::Sum ); 
-    if(VXCx) this->reduction_driver_->allreduce_inplace( VXCx, nbf*nbf, ReductionOp::Sum );
-
-    this->reduction_driver_->allreduce_inplace( EXC,   1    , ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-
-  });
-
-  
-}
-
-
-/// Generic implementation details of EXC/VXC local work - deduces RKS/UKS/GKS
-/// based on null-y / zero parameters
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                       const value_type* Pz, int64_t ldpz,
-                       const value_type* Py, int64_t ldpy,
-                       const value_type* Px, int64_t ldpx,
-                       value_type* VXCs, int64_t ldvxcs,
-                       value_type* VXCz, int64_t ldvxcz,
-                       value_type* VXCy, int64_t ldvxcy,
-                       value_type* VXCx, int64_t ldvxcx,
-                       value_type* EXC, value_type *N_EL, 
-                       const IntegratorSettingsXC& settings,
-                       task_iterator task_begin, task_iterator task_end) {
-
-  const bool is_gks = (Pz != nullptr) and (Py != nullptr) and (Px != nullptr);
-  const bool is_uks = (Pz != nullptr) and (Py == nullptr) and (Px == nullptr);
-  const bool is_rks = not is_uks and not is_gks;
-  if (not is_rks and not is_uks and not is_gks) {
-    GAUXC_GENERIC_EXCEPTION("Must Be Either RKS, UKS, or GKS!");
-  }
-
-  const bool is_exc_only = (!VXCs) and (!VXCz) and (!VXCy) and (!VXCx);
-  //if(is_exc_only) std::cout << "EXC ONLY" << std::endl;
-
-
-  // Misc KS settings
-  IntegratorSettingsKS ks_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsKS*>(&settings) ) {
-    ks_settings = *tmp;
-  }
-
-  const double gks_dtol = ks_settings.gks_dtol;
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& func  = *this->func_;
-  const auto& mol   = this->load_balancer_->molecule();
-
-  const bool needs_laplacian = func.needs_laplacian(); 
-  
-  if (func.is_mgga() and is_gks) {
-    GAUXC_GENERIC_EXCEPTION("GKS Not Yet Implemented With MGGA Functionals!");
-  }
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( task_begin, task_end, task_comparator );
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified");
-  }
-
-  // Zero out integrands
-  
-  if(VXCs)
-  for( auto j = 0; j < nbf; ++j ) {
-    for( auto i = 0; i < nbf; ++i ) {
-      VXCs[i + j*ldvxcs] = 0.;
-    }
-  }
-
-  if(VXCz) {
-    for( auto j = 0; j < nbf; ++j ) {
-      for( auto i = 0; i < nbf; ++i ) {
-        VXCz[i + j*ldvxcz] = 0.;
-      }
-    }
-  }
-
-  if(VXCx and VXCy) {
-    for( auto j = 0; j < nbf; ++j ) {
-      for( auto i = 0; i < nbf; ++i ) {
-        VXCy[i + j*ldvxcy] = 0.;
-        VXCx[i + j*ldvxcx] = 0.;
-      }
-    }
-  }
- 
-  double EXC_WORK = 0.0;
-  double NEL_WORK = 0.0;
-    
-  // Loop over tasks
-  const size_t ntasks = std::distance(task_begin, task_end);
-
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-     
-    //std::cout << iT << "/" << ntasks << std::endl;
-    //if(is_exc_only) printf("%lu / %lu\n", iT, ntasks);
-    // Alias current task
-    const auto& task = *(task_begin + iT);
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-
-    // Allocate enough memory for batch
-   
-    const size_t spin_dim_scal = is_rks ? 1 : is_uks ? 2 : 4; // last case is_gks
-    const size_t sds          = is_rks ? 1 : 2;
-    const size_t gks_mod_KH = is_gks ? 6*npts : 0; // used to store H and H
-    const size_t mgga_dim_scal = func.is_mgga() ? 4 : 1; // basis + d1basis
-
-    // Things that every calc needs
-    host_data.nbe_scr .resize(nbe  * nbe);
-    host_data.zmat    .resize(npts * nbe * spin_dim_scal * mgga_dim_scal + gks_mod_KH); 
-    host_data.eps     .resize(npts);
-    host_data.vrho    .resize(npts * spin_dim_scal);
-
-    // LDA data requirements
-    if( func.is_lda() ){
-      host_data.basis_eval .resize( npts * nbe );
-      host_data.den_scr    .resize( npts * spin_dim_scal);
-    }
-     
-    // GGA data requirements
-    const size_t gga_dim_scal = is_rks ? 1 : 3;
-    if( func.is_gga() ){
-      host_data.basis_eval .resize( 4 * npts * nbe );
-      host_data.den_scr    .resize( spin_dim_scal * 4 * npts );
-      host_data.gamma      .resize( gga_dim_scal * npts );
-      host_data.vgamma     .resize( gga_dim_scal * npts );
-    }
-
-    if( func.is_mgga() ){
-      if ( needs_laplacian ) {
-        host_data.basis_eval .resize( 11 * npts * nbe ); // basis + grad (3) + hess (6) + lapl 
-        host_data.lapl       .resize( spin_dim_scal * npts );
-        host_data.vlapl      .resize( spin_dim_scal * npts );
-      } else {
-        host_data.basis_eval .resize( 4 * npts * nbe ); // basis + grad (3)
-      }
-
-      host_data.den_scr    .resize( spin_dim_scal * 4 * npts );
-      host_data.gamma      .resize( gga_dim_scal * npts );
-      host_data.vgamma     .resize( gga_dim_scal * npts );
-      host_data.tau        .resize( npts * spin_dim_scal );
-      host_data.vtau       .resize( npts * spin_dim_scal );
-    }
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* den_eval   = host_data.den_scr.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-    auto* zmat       = host_data.zmat.data();
-
-    decltype(zmat) zmat_z = nullptr;
-    decltype(zmat) zmat_x = nullptr;
-    decltype(zmat) zmat_y = nullptr;
-    if(!is_rks) {
-      zmat_z = zmat + mgga_dim_scal * nbe * npts;
-    }
-    if(is_gks) {
-      zmat_x = zmat_z + nbe * npts;
-      zmat_y = zmat_x + nbe * npts;
-    }
-     
-    auto* eps        = host_data.eps.data();
-    auto* gamma      = host_data.gamma.data();
-    auto* tau        = host_data.tau.data();
-    auto* lapl       = host_data.lapl.data();
-    auto* vrho       = host_data.vrho.data();
-    auto* vgamma     = host_data.vgamma.data();
-    auto* vtau       = host_data.vtau.data();
-    auto* vlapl      = host_data.vlapl.data();
-
-
-    value_type* dbasis_x_eval = nullptr;
-    value_type* dbasis_y_eval = nullptr;
-    value_type* dbasis_z_eval = nullptr;
-    value_type* d2basis_xx_eval = nullptr;
-    value_type* d2basis_xy_eval = nullptr;
-    value_type* d2basis_xz_eval = nullptr;
-    value_type* d2basis_yy_eval = nullptr;
-    value_type* d2basis_yz_eval = nullptr;
-    value_type* d2basis_zz_eval = nullptr;
-    value_type* lbasis_eval = nullptr;
-    value_type* dden_x_eval = nullptr;
-    value_type* dden_y_eval = nullptr;
-    value_type* dden_z_eval = nullptr;
-    value_type* K = nullptr;
-    value_type* H = nullptr;
-    if (is_gks) { K = zmat + npts * nbe * 4; }
-    value_type* mmat_x      = nullptr;
-    value_type* mmat_y      = nullptr;
-    value_type* mmat_z      = nullptr;
-    value_type* mmat_x_z    = nullptr;
-    value_type* mmat_y_z    = nullptr;
-    value_type* mmat_z_z    = nullptr;
-
-    if( func.is_gga() ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      dden_x_eval   = den_eval    + spin_dim_scal * npts;
-      dden_y_eval   = dden_x_eval + spin_dim_scal * npts;
-      dden_z_eval   = dden_y_eval + spin_dim_scal * npts;
-      if (is_gks) { H = K + 3*npts;}
-    }
-
-    if ( func.is_mgga() ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      dden_x_eval   = den_eval    + spin_dim_scal * npts;
-      dden_y_eval   = dden_x_eval + spin_dim_scal * npts;
-      dden_z_eval   = dden_y_eval + spin_dim_scal * npts;
-      mmat_x        = zmat + npts * nbe;
-      mmat_y        = mmat_x + npts * nbe;
-      mmat_z        = mmat_y + npts * nbe;
-      if ( needs_laplacian ) {
-        d2basis_xx_eval = dbasis_z_eval + npts * nbe;
-        d2basis_xy_eval = d2basis_xx_eval + npts * nbe;
-        d2basis_xz_eval = d2basis_xy_eval + npts * nbe;
-        d2basis_yy_eval = d2basis_xz_eval + npts * nbe;
-        d2basis_yz_eval = d2basis_yy_eval + npts * nbe;
-        d2basis_zz_eval = d2basis_yz_eval + npts * nbe;
-        lbasis_eval     = d2basis_zz_eval + npts * nbe;
-      }
-      if(is_uks) {
-        mmat_x_z = zmat_z + npts * nbe;
-        mmat_y_z = mmat_x_z + npts * nbe;
-        mmat_z_z = mmat_y_z + npts * nbe;
-      }
-    }
-
-
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-
-    // Evaluate Collocation (+ Grad and Hessian)
-    if( func.is_mgga() ) {
-      if ( needs_laplacian ) {
-        // TODO: Modify gau2grid to compute Laplacian instead of full hessian
-        lwd->eval_collocation_hessian( npts, nshells, nbe, points, basis, shell_list,
-          basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval,
-          d2basis_xy_eval, d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval,
-          d2basis_zz_eval);
-        blas::lacpy( 'A', nbe, npts, d2basis_xx_eval, nbe, lbasis_eval, nbe );
-        blas::axpy( nbe * npts, 1., d2basis_yy_eval, 1, lbasis_eval, 1);
-        blas::axpy( nbe * npts, 1., d2basis_zz_eval, 1, lbasis_eval, 1);
-      } else {
-        lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-          basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-      }
-    }
-    // Evaluate Collocation (+ Grad)
-    else if( func.is_gga() )
-      lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    else
-      lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval );
-
-     
-    // Evaluate X matrix (fac * P * B) -> store in Z
-    const auto xmat_fac = is_rks ? 2.0 : 1.0; // TODO Fix for spinor RKS input
-    lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, xmat_fac, Ps, ldps, basis_eval, nbe,
-      zmat, nbe, nbe_scr );
-		
-
-    // X matrix for Pz
-    if(not is_rks) {
-      lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, 1.0, Pz, ldpz, basis_eval, nbe,
-        zmat_z, nbe, nbe_scr);
-    }
-     
-    if(is_gks) {
-      lwd->eval_xmat( npts, nbf, nbe, submat_map, 1.0, Py, ldpy, basis_eval, nbe,
-        zmat_x, nbe, nbe_scr);
-      lwd->eval_xmat( npts, nbf, nbe, submat_map, 1.0, Px, ldpx, basis_eval, nbe,
-        zmat_y, nbe, nbe_scr);
-    }
-     
-    // Evaluate U and V variables
-    if( func.is_mgga() ) {
-      if (is_rks) {
-        lwd->eval_uvvar_mgga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, mmat_x, mmat_y, mmat_z, 
-          nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl);
-      } else if (is_uks) {
-        lwd->eval_uvvar_mgga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, zmat_z, nbe, 
-          mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe, 
-          den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl);
-      }
-    } else if ( func.is_gga() ) {
-      if(is_rks) {
-        lwd->eval_uvvar_gga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-          gamma );
-      } else if(is_uks) {
-        lwd->eval_uvvar_gga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, zmat_z, nbe, den_eval, dden_x_eval, 
-          dden_y_eval, dden_z_eval, gamma );
-      } else if(is_gks) {
-        lwd->eval_uvvar_gga_gks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, zmat_z, nbe, zmat_x, nbe, zmat_y, nbe, den_eval, dden_x_eval,
-          dden_y_eval, dden_z_eval, gamma, K, H, gks_dtol );
-      }
-       
-     } else {
-      if(is_rks) {
-        lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, zmat, nbe, den_eval );
-      } else if(is_uks) {
-        lwd->eval_uvvar_lda_uks( npts, nbe, basis_eval, zmat, nbe, zmat_z, nbe,
-          den_eval );
-      } else if(is_gks) {
-        lwd->eval_uvvar_lda_gks( npts, nbe, basis_eval, zmat, nbe, zmat_z, nbe,
-          zmat_x, nbe, zmat_y, nbe, den_eval, K, gks_dtol );
-      }
-     }
-    
-    // Evaluate XC functional
-    if( func.is_mgga() )
-      func.eval_exc_vxc( npts, den_eval, gamma, lapl, tau, eps, vrho, vgamma, vlapl, vtau);
-    else if( func.is_gga() )
-      func.eval_exc_vxc( npts, den_eval, gamma, eps, vrho, vgamma );
-    else
-      func.eval_exc_vxc( npts, den_eval, eps, vrho );
-
-    // Factor weights into XC results
-    for( int32_t i = 0; i < npts; ++i ) {
-      eps[i]  *= weights[i];
-      vrho[sds*i] *= weights[i];
-      if(not is_rks) vrho[sds*i+1] *= weights[i];
-    }
-    if( func.is_gga() ){
-      for( int32_t i = 0; i < npts; ++i ) {
-         vgamma[gga_dim_scal*i] *= weights[i];
-         if(not is_rks) {
-           vgamma[gga_dim_scal*i+1] *= weights[i];
-           vgamma[gga_dim_scal*i+2] *= weights[i];
-         }
-      }
-    }
-
-    if( func.is_mgga() ){
-      for( int32_t i = 0; i < npts; ++i) {
-        vtau[spin_dim_scal*i]  *= weights[i];
-        vgamma[gga_dim_scal*i] *= weights[i];
-        if(not is_rks) {
-          vgamma[gga_dim_scal*i+1] *= weights[i];
-          vgamma[gga_dim_scal*i+2] *= weights[i];
-          vtau[spin_dim_scal*i+1]  *= weights[i];
-        }
-
-        // TODO: Add checks for Lapacian-dependent functionals
-        if( needs_laplacian ) {
-          vlapl[spin_dim_scal*i] *= weights[i];
-          if(not is_rks) {
-            vlapl[spin_dim_scal*i+1] *= weights[i];
-          }
-        }
-      }
-    }
-
-
-    // Scalar integrations
-    double NEL_local = 0.0;
-    double EXC_local  = 0.0;
-    for( int32_t i = 0; i < npts; ++i ) {
-      const auto den = is_rks ? den_eval[i] : (den_eval[2*i] + den_eval[2*i+1]);
-      NEL_local += weights[i] * den;
-      EXC_local += eps[i]     * den;
-    }
-
-    // Atomic updates
-    #pragma omp atomic
-    EXC_WORK += EXC_local;
-    #pragma omp atomic
-    NEL_WORK += NEL_local;
-
-    if(is_exc_only) continue;
-
-    // Evaluate Z matrix for VXC
-    if( func.is_mgga() ) {
-      if(is_rks) {
-        lwd->eval_zmat_mgga_vxc_rks( npts, nbe, vrho, vgamma, vlapl, basis_eval, dbasis_x_eval,
-                                     dbasis_y_eval, dbasis_z_eval, lbasis_eval,
-                                     dden_x_eval, dden_y_eval, dden_z_eval, zmat, nbe);
-        lwd->eval_mmat_mgga_vxc_rks( npts, nbe, vtau, vlapl, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval,
-                                     mmat_x, mmat_y, mmat_z, nbe);
-      } else if (is_uks) {
-        lwd->eval_zmat_mgga_vxc_uks( npts, nbe, vrho, vgamma, vlapl, basis_eval, dbasis_x_eval,
-                                     dbasis_y_eval, dbasis_z_eval, lbasis_eval,
-                                     dden_x_eval, dden_y_eval, dden_z_eval, zmat, nbe, zmat_z, nbe);
-        lwd->eval_mmat_mgga_vxc_uks( npts, nbe, vtau, vlapl, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval,
-                                     mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe);
-      }
-    }
-    else if( func.is_gga() ) {
-      if(is_rks) {
-        lwd->eval_zmat_gga_vxc_rks( npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval,
-                                dden_z_eval, zmat, nbe);
-      } else if(is_uks) {
-        lwd->eval_zmat_gga_vxc_uks( npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval,
-                                dden_z_eval, zmat, nbe, zmat_z, nbe);
-      } else if(is_gks) {
-        lwd->eval_zmat_gga_vxc_gks( npts, nbe, vrho, vgamma, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, dden_x_eval, dden_y_eval,
-                                dden_z_eval, zmat, nbe, zmat_z, nbe, zmat_x, nbe, zmat_y, nbe,
-                                K, H);
-      }
-       
-    } else {
-      if(is_rks) {
-        lwd->eval_zmat_lda_vxc_rks( npts, nbe, vrho, basis_eval, zmat, nbe );
-      } else if(is_uks) {
-        lwd->eval_zmat_lda_vxc_uks( npts, nbe, vrho, basis_eval, zmat, nbe, zmat_z, nbe );
-      } else if(is_gks) {
-        lwd->eval_zmat_lda_vxc_gks( npts, nbe, vrho, basis_eval, zmat, nbe, zmat_z, nbe, 
-                                    zmat_x, nbe, zmat_y, nbe, K);
-      }
-    }
-    
-
-     
-    // Incremeta LT of VXC
-    {
-
-      // Increment VXC
-      lwd->inc_vxc( mgga_dim_scal * npts, nbf, nbe, basis_eval, submat_map, zmat, nbe, VXCs, ldvxcs, nbe_scr );
-      if(not is_rks) {
-        lwd->inc_vxc( mgga_dim_scal * npts, nbf, nbe, basis_eval, submat_map, zmat_z, nbe,VXCz, ldvxcz, nbe_scr);
-      }
-      if(is_gks) {
-        lwd->inc_vxc( npts, nbf, nbe, basis_eval, submat_map, zmat_x, nbe, VXCy, ldvxcy,
-          nbe_scr);
-        lwd->inc_vxc( npts, nbf, nbe, basis_eval, submat_map, zmat_y, nbe, VXCx, ldvxcx,
-          nbe_scr);
-      }
-       
-    }
-
-  } // Loop over tasks
-
-  } // End OpenMP region
-
-
-  // Set scalar return values
-  *EXC  = EXC_WORK;
-  *N_EL = NEL_WORK;
-
-  if(not is_exc_only) {
-    // Symmetrize VXC
-    for( int32_t j = 0;   j < nbf; ++j ) {
-      for( int32_t i = j+1; i < nbf; ++i ) {
-        VXCs[ j + i*ldvxcs ] = VXCs[ i + j*ldvxcs ];
-      }
-    }
-    if(not is_rks) {
-      for( int32_t j = 0;   j < nbf; ++j ) {
-        for( int32_t i = j+1; i < nbf; ++i ) {
-          VXCz[ j + i*ldvxcz ] = VXCz[ i + j*ldvxcz ];
-        }
-      }
-    }
-    if( is_gks) {
-      for( int32_t j = 0;   j < nbf; ++j ) {
-        for( int32_t i = j+1; i < nbf; ++i ) {
-          VXCy[ j + i*ldvxcy ] = VXCy[ i + j*ldvxcy ];
-          VXCx[ j + i*ldvxcx ] = VXCx[ i + j*ldvxcx ];
-        }
-      }
-    }
-  }
-
-} 
-
-
-
-/// RKS EXC/VXC driver - delegates to generic GKS impl
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, 
-                 const value_type* P, int64_t ldp,
-                 value_type* VXC, int64_t ldvxc,
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-  eval_exc_vxc_(m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0,
-    VXC, ldvxc, nullptr, 0, nullptr, 0, nullptr, 0, EXC, ks_settings);
-
-}
-
-
-/// UKS EXC/VXC driver - delegates to generic GKS impl
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_vxc_( int64_t m, int64_t n, 
-                 const value_type* Ps, int64_t ldps,
-                 const value_type* Pz, int64_t ldpz,
-                 value_type* VXCs, int64_t ldvxcs,
-                 value_type* VXCz, int64_t ldvxcz,
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-  eval_exc_vxc_(m, n, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0,
-    VXCs, ldvxcs, VXCz, ldvxcz, nullptr, 0, nullptr, 0,
-    EXC, ks_settings);
-
-}
-
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exx.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exx.hpp
deleted file mode 100644
index 7cce12d..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_exx.hpp
+++ /dev/null
@@ -1,549 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "integrator_util/integral_bounds.hpp"
-#include "integrator_util/exx_screening.hpp"
-#include "host/local_host_work_driver.hpp"
-#include "host/blas.hpp"
-#include <stdexcept>
-#include <set>
-
-#include <gauxc/util/geometry.hpp>
-
-
-namespace std {
-template <typename T>
-ostream& operator<<( ostream& out, const vector<T>& v ) {
-  for( auto _v : v ) out << _v << " ";
-  return out;
-}
-}
-
-namespace GauXC::detail {
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exx_( int64_t m, int64_t n, const value_type* P,
-             int64_t ldp, value_type* K, int64_t ldk,
-             const IntegratorSettingsEXX& settings ) {
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-  if( ldk < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXC");
-
-
-  // Get Tasks
-  this->load_balancer_->get_tasks();
-
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    exx_local_work_( P, ldp, K, ldk, settings );
-  });
-
-  #ifdef GAUXC_HAS_MPI
-  this->timer_.time_op("XCIntegrator.LocalWait", [&](){
-    MPI_Barrier( this->load_balancer_->runtime().comm() );
-  });
-  #endif
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( K, nbf*nbf, ReductionOp::Sum );
-
-  });
-
-}
-
-
-
-
-
-#if 0
-
-// MBFS(i) = sqrt(W[i]) * sum_mu B(mu,i)
-// return max_i MBFS(i)
-double compute_max_bf_sum( size_t npts, size_t nbe_bfn, const double* weights,
-  const double* basis_eval, size_t ldb ) {
-
-  std::vector<double> bf_sums( npts );
-  for( auto ipt = 0ul; ipt < npts; ++ipt ) {
-    double tmp = 0.;
-    for( auto ibf = 0ul; ibf < nbe_bfn; ++ibf ) 
-      tmp += std::abs( basis_eval[ibf + ipt * ldb] );
-    bf_sums[ipt] = std::sqrt(weights[ipt]) * tmp;
-  }
-
-  return *std::max_element( bf_sums.begin(), bf_sums.end() );
-
-}
-
-
-auto compute_approx_f_max( size_t npts, size_t nshells_bf, size_t nbf, 
-  size_t nbe_bfn, const BasisSetMap& basis_map, const double* weights, 
-  const std::vector<std::array<int32_t,3>>& submat_bfn, const double* basis_eval,
-  size_t ldb, const double* P_abs, size_t ldp, LocalHostWorkDriver* lwd,
-  double* nbe_scr) {
-
-  // Get max value for each bfn over grid 
-  std::vector<double> max_bf_grid( nbe_bfn );
-  for( auto ibf = 0ul; ibf < nbe_bfn; ++ibf ) {
-    double tmp = 0.;
-    for( auto ipt = 0ul; ipt < npts; ++ipt )
-      tmp = std::max( tmp,
-        std::sqrt(weights[ipt]) *
-        std::abs(basis_eval[ibf + ipt*ldb])
-      );
-    max_bf_grid[ibf] = tmp;
-  }
-
-  // Compute approximate F max over basis functions
-  std::vector<double> max_F_approx_bfn( nbf );
-  std::vector<std::array<int32_t,3>> submat_full = {
-    std::array<int32_t,3>{0, (int32_t)nbf, 0}
-  };
-
-  lwd->eval_exx_fmat( 1, nbf, nbf, nbe_bfn, submat_full, submat_bfn,
-    P_abs, ldp, max_bf_grid.data(), nbe_bfn, max_F_approx_bfn.data(),
-    nbf, nbe_scr );
-
-  // Collapse approx F max over shells 
-  std::vector<double> max_F_approx( nshells_bf );
-  for( auto ish = 0ul; ish < nshells_bf; ++ish ) {
-    const auto sh_st = basis_map.shell_to_first_ao(ish);
-    const auto sh_sz = basis_map.shell_size(ish);
-    double tmp = 0.;
-    for( auto i = sh_st; i < sh_st + sh_sz; ++i )
-      tmp = std::max( tmp, std::abs(max_F_approx_bfn[i]) );
-    max_F_approx[ish] = tmp;
-  }
-
-  return max_F_approx;
-}
-
-
-
-auto compute_true_f_max( size_t npts, size_t nshells_bra, size_t nbe_bra,
-  const BasisSetMap& basis_map, const std::vector<int32_t>& shell_list_bra,
-  const double* weights, const double* F, size_t ldf ) {
-
-  std::vector<double> max_F( nshells_bra );
-  size_t sh_st = 0;
-  for( auto i = 0ul; i < nshells_bra; ++i ) {
-    const auto ish = shell_list_bra[i];
-    const auto sh_sz = basis_map.shell_size(ish);
-
-    double tmp_max = 0.;
-    for( auto ipt = 0ul; ipt < npts; ++ipt ) 
-    for( auto ii = 0ul;   ii < sh_sz;  ++ii  )
-      tmp_max = std::max( tmp_max,
-        std::sqrt(weights[ipt]) *
-        std::abs( F[ sh_st + ii + ipt*ldf] )
-      );
-    max_F[i] = tmp_max;
-
-    sh_st += sh_sz;
-  }
-
-  return max_F;
-
-}
-
-
-
-auto compute_sn_LinK_E_set( size_t nshells, const std::vector<int32_t>& shell_list,
-  const double* V_max, size_t ldv, const double* max_F, double E_tol ) {
-
-  std::set<int32_t> E_shells;
-  for( auto j = 0ul; j < nshells; ++j ) 
-  for( auto i = j;   i < nshells; ++i ) {
-
-    const auto ish = shell_list[i];
-    const auto jsh = shell_list[j];
-
-    const auto V_ij = V_max[ish + jsh*ldv];
-    const auto F_i  = max_F[i];
-    const auto F_j  = max_F[j];
-
-    const double eps_E_compare = F_i * F_j * V_ij;
-    if( eps_E_compare > E_tol )  {
-      E_shells.insert(ish); 
-      E_shells.insert(jsh); 
-    }
-
-  }
-
-  return E_shells;
-
-}
-
-auto compute_sn_LinK_K_set( size_t nshells, const std::vector<int32_t>& shell_list,
-  const double* V_max, size_t ldv, const double* max_F, double max_bf_sum,
-  double K_tol ) {
-
-  std::set<int32_t> K_shells;
-  for( auto j = 0ul; j < nshells; ++j ) 
-  for( auto i = j;   i < nshells; ++i ) {
-
-    const auto ish = shell_list[i];
-    const auto jsh = shell_list[j];
-
-    const auto V_ij = V_max[ish + jsh*ldv];
-    const auto F_i  = max_F[i];
-    const auto F_j  = max_F[j];
-
-    const double eps_K_compare = std::max(F_i, F_j) * V_ij * max_bf_sum;
-    if( eps_K_compare > K_tol )  {
-      K_shells.insert(ish); 
-      K_shells.insert(jsh); 
-    }
-
-  }
-
-  return K_shells;
-
-}
-
-auto compute_sn_LinK_ek_set( size_t nshells, const std::vector<int32_t>& shell_list,
-  const double* V_max, size_t ldv, const double* max_F, double max_bf_sum,
-  double E_tol, double K_tol ) {
-
-  std::set<int32_t> ek_shells;
-  for( auto j = 0ul; j < nshells; ++j ) 
-  for( auto i = j;   i < nshells; ++i ) {
-
-    const auto ish = shell_list[i];
-    const auto jsh = shell_list[j];
-
-    const auto V_ij = V_max[ish + jsh*ldv];
-    const auto F_i  = max_F[i];
-    const auto F_j  = max_F[j];
-
-    const double eps_E_compare = F_i * F_j * V_ij;
-    const double eps_K_compare = std::max(F_i, F_j) * V_ij * max_bf_sum;
-    if( eps_K_compare > K_tol or eps_E_compare > E_tol)  {
-      ek_shells.insert(ish); 
-      ek_shells.insert(jsh); 
-    }
-
-  }
-
-  return ek_shells;
-
-}
-
-
-#endif
-
-
-
-
-
-
-
-
-
-
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  exx_local_work_( const value_type* P, int64_t ldp, 
-    value_type* K, int64_t ldk, const IntegratorSettingsEXX& settings ) {
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& basis   = this->load_balancer_->basis();
-  const auto& mol     = this->load_balancer_->molecule();
-  const auto& shpairs = this->load_balancer_->shell_pairs();
-
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-  // Zero out integrands
-  for( auto j = 0; j < nbf; ++j )
-  for( auto i = 0; i < nbf; ++i ) 
-    K[i + j*ldk] = 0.;
-
-   
-  // Compute V upper bounds per shell pair
-  const size_t nshells_bf = basis.size();
-  std::vector<double> V_max( nshells_bf * nshells_bf );
-  // Loop over sparse shell pairs
-  const auto sp_row_ptr = shpairs.row_ptr();
-  const auto sp_col_ind = shpairs.col_ind();
-  for( auto i = 0; i < nshells_bf; ++i ) {
-    const auto j_st = sp_row_ptr[i];
-    const auto j_en = sp_row_ptr[i+1];
-    for( auto _j = j_st; _j < j_en; ++_j ) {
-      const auto j = sp_col_ind[_j];
-      const auto mv = util::max_coulomb( basis.at(i), basis.at(j) );
-      V_max[i + j*nshells_bf] = mv;
-      if( i != j ) V_max[j + i*nshells_bf] = mv;
-    }
-  }
-
-  // Absolute value of P
-  std::vector<double> P_abs(nbf*nbf);
-  for( auto i = 0; i < nbf*nbf; ++i ) P_abs[i] = std::abs(P[i]);
-
-  // Full shell list
-  std::vector<int32_t> full_shell_list_( basis.nshells() );
-  std::iota( full_shell_list_.begin(), full_shell_list_.end(), 0 );
-  std::vector< std::array<int32_t,3> > full_submat_map = { {0, nbf, 0} };
-
-  // Screening settings
-  IntegratorSettingsSNLinK sn_link_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsSNLinK*>(&settings) ) {
-    sn_link_settings = *tmp;
-  }
-
-  const bool screen_ek = sn_link_settings.screen_ek;
-  const double eps_K   = sn_link_settings.k_tol;
-  const double eps_E   = sn_link_settings.energy_tol;
-
-  int world_rank = 0;
-  #ifdef GAUXC_HAS_MPI
-  auto comm = this->load_balancer_->runtime().comm();
-  MPI_Comm_rank( comm, &world_rank );
-  #endif
-  //if( !world_rank ) {
-  //  std::cout << "sn-LinK Settings:" << std::endl
-  //            << "  SCREEN_EK     = " << std::boolalpha << screen_ek << std::endl
-  //            << "  EPS_E         = " << eps_E << std::endl
-  //            << "  EPS_K         = " << eps_K << std::endl
-  //            << std::endl;
-  //}
-
-  // Reset the coulomb screening data
-  for(auto& task : tasks) task.cou_screening = XCTask::screening_data();
-
-  // Precompute EK shell screening
-  exx_ek_screening( basis, basis_map, shpairs, P_abs.data(), nbf, V_max.data(), 
-    nshells_bf, eps_E, eps_K, lwd, tasks.begin(), tasks.end() );
-
-  // Allow for merging of tasks with different iParent
-  for(auto& task : tasks) task.iParent = 0;
-
-#if 1
-  // Lexicographic ordering of tasks
-  auto task_order = []( const auto& a, const auto& b ) {
-
-    // Sort by iParent first
-    if( a.iParent < b.iParent )      return true;
-    else if( a.iParent > b.iParent ) return false;
-
-    // Equal iParent: lex sort on bfn shell list
-    else if(a.bfn_screening.shell_list < b.bfn_screening.shell_list) return true;
-    else if(a.bfn_screening.shell_list > b.bfn_screening.shell_list) return false;
-    
-    // Equal iParent and bfn shell list: lex sort on cou shell list
-    else return a.cou_screening.shell_list < b.cou_screening.shell_list;
-
-  };
-
-  std::sort( tasks.begin(), tasks.end(), task_order ); 
-  auto task_equiv = []( const auto& a, const auto& b ) {
-    return a.equiv_with(b) and 
-      a.cou_screening.equiv_with(b.cou_screening);
-  };
-  std::vector<XCTask> local_work_unique(tasks.begin(), tasks.end());
-  auto last_unique =
-    std::unique( local_work_unique.begin(),
-                 local_work_unique.end(),
-                 task_equiv );
-  local_work_unique.erase( last_unique, local_work_unique.end() );
-
-  // Merge tasks
-  for( auto&& t : local_work_unique ) {
-    t.points.clear();
-    t.weights.clear();
-    t.npts = 0;
-  }
-
-  auto cur_lw_begin = tasks.begin();
-  auto cur_uniq_it  = local_work_unique.begin();
-
-  for( auto lw_it = tasks.begin(); lw_it != tasks.end(); ++lw_it ) 
-  if( not task_equiv( *lw_it, *cur_uniq_it ) ) {
-
-    if( cur_uniq_it == local_work_unique.end() )
-      GAUXC_GENERIC_EXCEPTION("Messed up in unique");
-
-    cur_uniq_it->merge_with( cur_lw_begin, lw_it );
-
-    cur_lw_begin = lw_it;
-    cur_uniq_it++;
-
-  }
-
-  // Merge the last set of batches
-  for( ; cur_lw_begin != tasks.end(); ++cur_lw_begin )
-    cur_uniq_it->merge_with( *cur_lw_begin );
-  cur_uniq_it++;
-
-  tasks = std::move(local_work_unique);
-#endif
-
-  std::sort(tasks.begin(),tasks.end(),
-    [](auto& a, auto& b){ return a.cou_screening.shell_pair_list.size() >
-      b.cou_screening.shell_pair_list.size(); });
-
-
-  // Loop over tasks
-  const size_t ntasks = tasks.size();
-  //std::cout << "NTASKS = " << ntasks << std::endl;
-  //std::cout << "NTASKS NNZ = " << std::count_if(tasks.begin(),tasks.end(),[](const auto& t){ return t.cou_screening.shell_pair_list.size(); }) << std::endl;
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-  std::vector<double> K_local(nbf*nbf,0.0);
-
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    //std::cout << iT << "/" << ntasks << std::endl;
-    // Alias current task
-    const auto& task = tasks[iT];
-
-    // Early exit
-    auto ek_shell_list = task.cou_screening.shell_list;
-    if( ek_shell_list.size() == 0 ) {
-      continue;
-    }
-    std::vector< std::array<int32_t,3> > ek_submat_map;
-    std::tie( ek_submat_map, std::ignore ) =
-      gen_compressed_submat_map( basis_map, ek_shell_list, nbf, nbf );
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-
-    // Basis function shell list
-    auto shell_list_bfn_ = task.bfn_screening.shell_list;
-    int32_t* shell_list_bfn = shell_list_bfn_.data();
-    size_t nshells_bfn = shell_list_bfn_.size();
-    size_t nbe_bfn     = 
-      basis.nbf_subset( shell_list_bfn_.begin(), shell_list_bfn_.end() );
-
-    std::vector< std::array<int32_t, 3> > submat_map_bfn;
-    std::tie(submat_map_bfn, std::ignore) =
-      gen_compressed_submat_map( basis_map, shell_list_bfn_, nbf, nbf );
-    
-
-
-    // Allocate data screening independent data
-    host_data.basis_eval.resize( npts * nbe_bfn );
-    host_data.nbe_scr   .resize( nbe_bfn * nbf );
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-
-
-
-    // Evaluate collocation B(mu,i)
-    // mu ranges over the bfn shell list and i runs over all points
-    lwd->eval_collocation( npts, nshells_bfn, nbe_bfn, points, basis, 
-      shell_list_bfn, basis_eval );
-
-    const auto nbe_ek = basis.nbf_subset( ek_shell_list.begin(), ek_shell_list.end() );
-    const auto nshells_ek = ek_shell_list.size();
-
-
-    // Allocate Screening Dependent Data
-    host_data.zmat.resize( npts * nbe_ek );
-    host_data.gmat.resize( npts * nbe_ek );
-    auto* zmat = host_data.zmat.data();
-    auto* gmat = host_data.gmat.data();
-
-    // Evaluate F(mu,i) = P(mu,nu) * B(nu,i)
-    // mu runs over significant ek shells
-    // nu runs over the bfn shell list
-    // i runs over all points
-    lwd->eval_exx_fmat( npts, nbf, nbe_ek, nbe_bfn, ek_submat_map,
-      submat_map_bfn, P, ldp, basis_eval, nbe_bfn, zmat, nbe_ek, nbe_scr );
-
-    // Get True Max F for shell pairs
-    //auto max_F = compute_true_f_max( npts, nshells_ek, nbe_ek, basis_map,
-    //  ek_shell_list, weights, zmat, nbe_ek );
-
-
-    // Compute G(mu,i) = w(i) * A(mu,nu,i) * F(nu,i)
-    // mu/nu run over significant ek shells
-    // i runs over all points
-    const size_t nshell_pairs = task.cou_screening.shell_pair_list.size();
-    const auto*  shell_pair_list = task.cou_screening.shell_pair_list.data();
-    lwd->eval_exx_gmat( npts, nshells_ek, nshell_pairs, nbe_ek, points, weights, 
-      basis, shpairs,basis_map, ek_shell_list.data(), shell_pair_list, zmat, 
-      nbe_ek, gmat, nbe_ek );
-
-    // Increment K(mu,nu) += B(mu,i) * G(nu,i)
-    // mu runs over bfn shell list
-    // nu runs over ek shells
-    // i runs over all points
-    lwd->inc_exx_k( npts, nbf, nbe_bfn, nbe_ek, basis_eval, submat_map_bfn,
-      ek_submat_map, gmat, nbe_ek, K, ldk, nbe_scr );
-
-  } // Loop over tasks 
-
-
-  } // End OpenMP region
-
-  // Symmetrize K
-  for( auto j = 0; j < nbf; ++j ) 
-  for( auto i = 0; i < j;   ++i ) {
-    const auto K_ij = K[i + j*ldk];
-    const auto K_ji = K[j + i*ldk];
-    const auto K_symm = 0.5 * (K_ij + K_ji);
-    K[i + j*ldk] = K_symm;
-    K[j + i*ldk] = K_symm;
-  }
-
-}
-
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_fxc_contraction.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_fxc_contraction.hpp
deleted file mode 100644
index 192fe0f..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_fxc_contraction.hpp
+++ /dev/null
@@ -1,620 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "host/local_host_work_driver.hpp"
-#include "host/blas.hpp"
-#include <stdexcept>
-
-namespace GauXC::detail {
-
-/**
- *  Generic implementation of FXC contraction for RKS/UKS/GKS
- *  
- */
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_fxc_contraction_( int64_t m, int64_t n, 
-                        const value_type* Ps, int64_t ldps,
-                        const value_type* Pz, int64_t ldpz,
-                        const value_type* tPs, int64_t ldtps,
-                        const value_type* tPz, int64_t ldtpz,
-                        value_type* FXCs, int64_t ldfxcs,
-                        value_type* FXCz, int64_t ldfxcz,
-                        const IntegratorSettingsXC& ks_settings ){
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / FXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n )
-    GAUXC_GENERIC_EXCEPTION("P/FXC Must Be Square");
-  if( m != nbf )
-    GAUXC_GENERIC_EXCEPTION("P/FXC Must Have Same Dimension as Basis");
-    
-  if( ldps < nbf )
-  GAUXC_GENERIC_EXCEPTION("Invalid LDPS");
-  if( ldpz and ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-  if( ldtps and ldtps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDTPS");
-  if( ldtpz and ldtpz < nbf ) 
-    GAUXC_GENERIC_EXCEPTION("Invalid LDTZP");
-  if( ldfxcs < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDFXCS");
-  if( ldfxcz and ldfxcz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDFXCZ");
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-   
-  // Compute Local contributions to FXC contraction
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    fxc_contraction_local_work_( basis, Ps, ldps, Pz, ldpz, 
-                                             tPs, ldtps, tPz, ldtpz,
-                                             FXCs, ldfxcs, FXCz, ldfxcz,
-                                             &N_EL, ks_settings,
-                                             tasks.begin(), tasks.end() );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( FXCs, nbf*nbf, ReductionOp::Sum );
-    if( FXCz ) this->reduction_driver_->allreduce_inplace( FXCz, nbf*nbf, ReductionOp::Sum );
-
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-
-  });
-
-
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  fxc_contraction_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* tPs, int64_t ldtps,
-                            const value_type* tPz, int64_t ldtpz,
-                            value_type* FXCs, int64_t ldfxcs,
-                            value_type* FXCz, int64_t ldfxcz,
-                            value_type *N_EL, const IntegratorSettingsXC& settings,
-                            task_iterator task_begin, task_iterator task_end ) {
-                                    
-  const bool is_uks = Pz != nullptr;
-  const bool is_rks = not is_uks;
-
-  // Misc KS settings
-  IntegratorSettingsKS ks_settings;
-  if( auto* tmp = dynamic_cast<const IntegratorSettingsKS*>(&settings) ) {
-    ks_settings = *tmp;
-  }
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& func  = *this->func_;
-  const auto& mol   = this->load_balancer_->molecule();
-
-  const bool needs_laplacian = func.needs_laplacian(); 
-  // not suppport laplacian yet
-  if( needs_laplacian ) {
-    GAUXC_GENERIC_EXCEPTION("Laplacian Not Supported Yet for FXC Contraction");
-  }
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( task_begin, task_end, task_comparator );
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified");
-  }
-
-
-  // Zero out integrands
-  for( auto j = 0; j < nbf; ++j ) 
-    for( auto i = 0; i < nbf; ++i ) 
-      FXCs[i + j*ldfxcs] = 0.;
-    
-  if(FXCz)
-    for( auto j = 0; j < nbf; ++j ) 
-      for( auto i = 0; i < nbf; ++i ) 
-        FXCz[i + j*ldfxcz] = 0.;
-
-
-  // Use FXCs and FXCz  to store FXCa and FXCb temporarily
-  value_type* FXCa = FXCs;
-  value_type* FXCb = FXCz;
-  int64_t ldfxca = ldfxcs;
-  int64_t ldfxcb = ldfxcz;
- 
-  double NEL_WORK = 0.0;
-    
-  // Loop over tasks
-  const size_t ntasks = std::distance(task_begin, task_end);
-
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-     
-    //std::cout << iT << "/" << ntasks << std::endl;
-    //if(is_exc_only) printf("%lu / %lu\n", iT, ntasks);
-    // Alias current task
-    const auto& task = *(task_begin + iT);
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-
-    // Allocate enough memory for batch
-   
-    const size_t spin_dim_scal = is_rks ? 1 : 2; 
-    const size_t sds          = is_rks ? 1 : 2;
-    const size_t mgga_dim_scal = func.is_mgga() ? 4 : 1; // basis + d1basis
-    // for second derivatives
-    const size_t spin_dim_rhorho = is_rks ? 1 : 3;
-    const size_t spin_dim_gammagamma = is_rks ? 1 : 6; 
-    const size_t spin_dim_rhogamma = is_rks ? 1 : 6;
-    const size_t spin_dim_rhotau = is_rks ? 1 : 4;
-
-    // Things that every calc needs
-    host_data.nbe_scr .resize(nbe  * nbe);
-    host_data.zmat    .resize(npts * nbe * spin_dim_scal * mgga_dim_scal); 
-    host_data.vrho    .resize(npts * spin_dim_scal);
-    host_data.v2rho2  .resize(npts * spin_dim_rhorho);
-    host_data.FXC_A       .resize(npts * spin_dim_scal);
-
-    // LDA data requirements
-    if( func.is_lda() ){
-      host_data.basis_eval .resize( npts * nbe );
-      host_data.den_scr    .resize( npts * spin_dim_scal);
-      host_data.tden_scr   .resize( npts * spin_dim_scal);
-    }
-     
-    // GGA data requirements
-    const size_t gga_dim_scal = is_rks ? 1 : 3;
-    if( func.is_gga() ){
-      host_data.basis_eval .resize( 4 * npts * nbe );
-      host_data.den_scr    .resize( spin_dim_scal * 4 * npts );
-      host_data.tden_scr   .resize( spin_dim_scal * 4 * npts );
-      host_data.gamma      .resize( gga_dim_scal * npts );
-      host_data.vgamma     .resize( gga_dim_scal * npts );
-
-      // second derivatives
-      host_data.v2rhogamma .resize(npts * spin_dim_rhogamma);
-      host_data.v2gamma2   .resize(npts * spin_dim_gammagamma);
-      host_data.FXC_B          .resize(npts * 3 * spin_dim_scal);
-    }
-
-    if( func.is_mgga() ){
-
-      host_data.den_scr    .resize( spin_dim_scal * 4 * npts );
-      host_data.tden_scr   .resize( spin_dim_scal * 4 * npts );
-      host_data.gamma      .resize( gga_dim_scal * npts );
-      host_data.vgamma     .resize( gga_dim_scal * npts );
-      host_data.tau        .resize( npts * spin_dim_scal );
-      host_data.vtau       .resize( npts * spin_dim_scal );
-      
-      // second derivatives
-      host_data.v2rhogamma .resize(npts * spin_dim_rhogamma);
-      host_data.v2rhotau   .resize(npts * spin_dim_rhotau);
-      host_data.v2gamma2   .resize(npts * spin_dim_gammagamma);
-      host_data.v2gammatau .resize(npts * spin_dim_rhogamma);
-      host_data.v2tau2     .resize(npts * spin_dim_rhorho);
-      host_data.ttau       .resize(npts * spin_dim_scal);
-      host_data.FXC_B          .resize(npts * 3 * spin_dim_scal);
-      host_data.FXC_C          .resize(npts * spin_dim_scal);
-
-      if ( needs_laplacian ) {
-        host_data.basis_eval .resize( 11 * npts * nbe ); // basis + grad (3) + hess (6) + lapl 
-        host_data.lapl       .resize( spin_dim_scal * npts );
-        host_data.vlapl      .resize( spin_dim_scal * npts );
-        host_data.v2lapl2    .resize(npts * spin_dim_rhorho);
-        host_data.v2rholapl  .resize(npts * spin_dim_rhotau);
-        host_data.v2gammalapl.resize(npts * spin_dim_rhogamma);
-        host_data.v2lapltau  .resize(npts * spin_dim_rhotau);
-        host_data.tlapl      .resize(npts * spin_dim_scal);
-
-      } else {
-        host_data.basis_eval .resize( 4 * npts * nbe ); // basis + grad (3)
-      }
-    }
-
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* den_eval   = host_data.den_scr.data();
-    auto* tden_eval   = host_data.tden_scr.data(); // trial density and gradient
-    auto* nbe_scr    = host_data.nbe_scr.data();
-    auto* zmat       = host_data.zmat.data();
-
-    decltype(zmat) zmat_z = nullptr;
-    if(!is_rks) {
-      zmat_z = zmat + mgga_dim_scal * nbe * npts;
-    }
-     
-    auto* eps        = host_data.eps.data();
-    auto* gamma      = host_data.gamma.data();
-    auto* tau        = host_data.tau.data();
-    auto* lapl       = host_data.lapl.data();
-    auto* vrho       = host_data.vrho.data();
-    auto* vgamma     = host_data.vgamma.data();
-    auto* vtau       = host_data.vtau.data();
-    auto* vlapl      = host_data.vlapl.data();
-
-    // second derivatives
-    auto* v2rho2     = host_data.v2rho2.data();
-    auto* v2rhogamma = host_data.v2rhogamma.data();
-    auto* v2gamma2   = host_data.v2gamma2.data();
-    auto* v2gammatau = host_data.v2gammatau.data();
-    auto* v2rhotau   = host_data.v2rhotau.data();
-    auto* v2lapl2    = host_data.v2lapl2.data();
-    auto* v2rholapl  = host_data.v2rholapl.data();
-    auto* v2gammalapl= host_data.v2gammalapl.data();
-    auto* v2lapltau  = host_data.v2lapltau.data();
-    auto* v2tau2     = host_data.v2tau2.data();
-    auto* ttau       = host_data.ttau.data();
-    auto* tlapl      = host_data.tlapl.data();
-    auto* FXC_A          = host_data.FXC_A.data();
-    auto* FXC_B          = host_data.FXC_B.data();
-    auto* FXC_C          = host_data.FXC_C.data();
-
-
-    value_type* dbasis_x_eval = nullptr;
-    value_type* dbasis_y_eval = nullptr;
-    value_type* dbasis_z_eval = nullptr;
-    value_type* d2basis_xx_eval = nullptr;
-    value_type* d2basis_xy_eval = nullptr;
-    value_type* d2basis_xz_eval = nullptr;
-    value_type* d2basis_yy_eval = nullptr;
-    value_type* d2basis_yz_eval = nullptr;
-    value_type* d2basis_zz_eval = nullptr;
-    value_type* lbasis_eval = nullptr;
-    value_type* dden_x_eval = nullptr;
-    value_type* dden_y_eval = nullptr;
-    value_type* dden_z_eval = nullptr;
-    value_type* tdden_x_eval = nullptr;
-    value_type* tdden_y_eval = nullptr;
-    value_type* tdden_z_eval = nullptr;
-    value_type* mmat_x      = nullptr;
-    value_type* mmat_y      = nullptr;
-    value_type* mmat_z      = nullptr;
-    value_type* mmat_x_z    = nullptr;
-    value_type* mmat_y_z    = nullptr;
-    value_type* mmat_z_z    = nullptr;
-
-    if( func.is_gga() || func.is_mgga() ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      dden_x_eval   = den_eval    + spin_dim_scal * npts;
-      dden_y_eval   = dden_x_eval + spin_dim_scal * npts;
-      dden_z_eval   = dden_y_eval + spin_dim_scal * npts;
-      tdden_x_eval  = tden_eval   + spin_dim_scal * npts;
-      tdden_y_eval  = tdden_x_eval+ spin_dim_scal * npts;
-      tdden_z_eval  = tdden_y_eval+ spin_dim_scal * npts;
-    }
-
-    if ( func.is_mgga() ) {
-      mmat_x        = zmat + npts * nbe;
-      mmat_y        = mmat_x + npts * nbe;
-      mmat_z        = mmat_y + npts * nbe;
-      if ( needs_laplacian ) {
-        d2basis_xx_eval = dbasis_z_eval + npts * nbe;
-        d2basis_xy_eval = d2basis_xx_eval + npts * nbe;
-        d2basis_xz_eval = d2basis_xy_eval + npts * nbe;
-        d2basis_yy_eval = d2basis_xz_eval + npts * nbe;
-        d2basis_yz_eval = d2basis_yy_eval + npts * nbe;
-        d2basis_zz_eval = d2basis_yz_eval + npts * nbe;
-        lbasis_eval     = d2basis_zz_eval + npts * nbe;
-      }
-      if(is_uks) {
-        mmat_x_z = zmat_z + npts * nbe;
-        mmat_y_z = mmat_x_z + npts * nbe;
-        mmat_z_z = mmat_y_z + npts * nbe;
-      }
-    }
-
-
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-
-    // Evaluate Collocation (+ Grad and Hessian)
-    if( func.is_mgga() ) {
-      if ( needs_laplacian ) {
-        // TODO: Modify gau2grid to compute Laplacian instead of full hessian
-        lwd->eval_collocation_hessian( npts, nshells, nbe, points, basis, shell_list,
-          basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, d2basis_xx_eval,
-          d2basis_xy_eval, d2basis_xz_eval, d2basis_yy_eval, d2basis_yz_eval,
-          d2basis_zz_eval);
-        blas::lacpy( 'A', nbe, npts, d2basis_xx_eval, nbe, lbasis_eval, nbe );
-        blas::axpy( nbe * npts, 1., d2basis_yy_eval, 1, lbasis_eval, 1);
-        blas::axpy( nbe * npts, 1., d2basis_zz_eval, 1, lbasis_eval, 1);
-      } else {
-        lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-          basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-      }
-    }
-    // Evaluate Collocation (+ Grad)
-    else if( func.is_gga() )
-      lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    else
-      lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval );
-
-     
-    // Evaluate X matrix (fac * P * B) -> store in Z
-    const auto xmat_fac = is_rks ? 2.0 : 1.0; // TODO Fix for spinor RKS input
-    lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, xmat_fac, Ps, ldps, basis_eval, nbe,
-      zmat, nbe, nbe_scr );
-    // X matrix for Pz
-    if(not is_rks) {
-      lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, 1.0, Pz, ldpz, basis_eval, nbe,
-        zmat_z, nbe, nbe_scr);
-    }     
-     
-    // Evaluate U and V variables
-    if( func.is_mgga() ) {
-      if (is_rks) {
-        lwd->eval_uvvar_mgga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, mmat_x, mmat_y, mmat_z, 
-          nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl);
-      } else if (is_uks) {
-        lwd->eval_uvvar_mgga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, zmat_z, nbe, 
-          mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe, 
-          den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl);
-      }
-    } else if ( func.is_gga() ) {
-      if(is_rks) {
-        lwd->eval_uvvar_gga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-          gamma );
-      } else if(is_uks) {
-        lwd->eval_uvvar_gga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, zmat_z, nbe, den_eval, dden_x_eval, 
-          dden_y_eval, dden_z_eval, gamma );
-      }
-  
-     } else {
-      if(is_rks) {
-        lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, zmat, nbe, den_eval );
-      } else if(is_uks) {
-        lwd->eval_uvvar_lda_uks( npts, nbe, basis_eval, zmat, nbe, zmat_z, nbe,
-          den_eval );
-      }
-     }
-
-    // Evaluate XC functional
-    if( func.is_mgga() )
-      func.eval_vxc_fxc( npts, den_eval, gamma, lapl, tau, vrho, vgamma, vlapl, vtau,
-        v2rho2, v2rhogamma, v2rholapl, v2rhotau, v2gamma2, 
-        v2gammalapl, v2gammatau, v2lapl2, v2lapltau, v2tau2);
-    else if( func.is_gga() )
-      func.eval_vxc_fxc( npts, den_eval, gamma, vrho, vgamma, v2rho2, v2rhogamma, v2gamma2 );
-    else
-      func.eval_vxc_fxc( npts, den_eval, vrho, v2rho2 );
-
-    //calculate the trial density variables
-    // Evaluate X matrix (fac * tP * B) -> store in Z
-    lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, xmat_fac, tPs, ldps, basis_eval, nbe,
-      zmat, nbe, nbe_scr );
-    // X matrix for tPz
-    if(not is_rks) {
-      lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, 1.0, tPz, ldpz, basis_eval, nbe,
-        zmat_z, nbe, nbe_scr);
-    }
-    // Evaluate U and V trial variables
-    if( func.is_mgga() ) {
-      if (is_rks) {
-        lwd->eval_uvvar_mgga_rks(  npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, mmat_x, mmat_y, mmat_z, 
-          nbe, tden_eval, tdden_x_eval, tdden_y_eval, tdden_z_eval, gamma, ttau, tlapl);
-      lwd->eval_tmat_mgga_vxc_rks( npts, vgamma, v2rho2, v2rhogamma, v2rholapl, v2rhotau, v2gamma2, 
-        v2gammalapl, v2gammatau, v2lapl2, v2lapltau, v2tau2, tden_eval, tdden_x_eval, 
-        tdden_y_eval, tdden_z_eval, ttau, dden_x_eval, dden_y_eval, dden_z_eval, FXC_A, FXC_B, FXC_C );
-      } else if (is_uks) {
-      // tgamma is not needed since it has different definitions than gamma
-      // gamma  = nabla rho * nabla rho, but tgamma = nabla trho * nabla rho, not both trho
-      lwd->eval_uvvar_mgga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-        dbasis_z_eval, lbasis_eval, zmat, nbe, zmat_z, nbe, 
-        mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe, 
-        tden_eval, tdden_x_eval, tdden_y_eval, tdden_z_eval, gamma, ttau, tlapl);
-      lwd->eval_tmat_mgga_vxc_uks( npts, vgamma, v2rho2, v2rhogamma, v2rholapl, v2rhotau, v2gamma2, 
-        v2gammalapl, v2gammatau, v2lapl2, v2lapltau, v2tau2, tden_eval, tdden_x_eval, 
-        tdden_y_eval, tdden_z_eval, ttau, dden_x_eval, dden_y_eval, dden_z_eval, FXC_A, FXC_B, FXC_C );
-      }
-    } else if ( func.is_gga() ) {
-      if(is_rks) {
-        lwd->eval_uvvar_gga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, tden_eval, tdden_x_eval, tdden_y_eval, tdden_z_eval,
-          gamma );
-        lwd->eval_tmat_gga_vxc_rks( npts, vgamma, v2rho2, v2rhogamma, v2gamma2, tden_eval, tdden_x_eval, 
-          tdden_y_eval, tdden_z_eval, dden_x_eval, dden_y_eval, dden_z_eval, FXC_A, FXC_B );
-      } else if(is_uks) {
-      // tgamma is not needed since it has quite different definitions than gamma
-      lwd->eval_uvvar_gga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-        dbasis_z_eval, zmat, nbe, zmat_z, nbe, tden_eval, tdden_x_eval, 
-        tdden_y_eval, tdden_z_eval, gamma ); 
-      lwd->eval_tmat_gga_vxc_uks( npts, vgamma, v2rho2, v2rhogamma, v2gamma2, tden_eval, tdden_x_eval, 
-        tdden_y_eval, tdden_z_eval, dden_x_eval, dden_y_eval, dden_z_eval, FXC_A, FXC_B );
-      }
-    } else {
-      // LDA
-      if(is_rks) {
-        lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, zmat, nbe, tden_eval );
-        lwd->eval_tmat_lda_vxc_rks( npts, v2rho2, tden_eval, FXC_A);
-      } else if(is_uks) {
-        lwd->eval_uvvar_lda_uks( npts, nbe, basis_eval, zmat, nbe, zmat_z, nbe,
-          tden_eval );
-        lwd->eval_tmat_lda_vxc_uks( npts, v2rho2, tden_eval, FXC_A);
-      }
-    }
-
-    // Factor weights into XC results
-    for( int32_t i = 0; i < npts; ++i ) {
-      FXC_A[sds*i] *= weights[i];
-      if(not is_rks) FXC_A[sds*i+1] *= weights[i];
-    }
-    if( func.is_gga() || func.is_mgga()){
-      for( int32_t i = 0; i < npts; ++i ) {
-        FXC_B[3*sds*i] *= weights[i];
-        FXC_B[3*sds*i+1] *= weights[i];
-        FXC_B[3*sds*i+2] *= weights[i];
-        if(not is_rks) {
-          FXC_B[3*sds*i+3] *= weights[i];
-          FXC_B[3*sds*i+4] *= weights[i];
-          FXC_B[3*sds*i+5] *= weights[i];
-         }
-      }
-    }
-    if( func.is_mgga() ){
-      for( int32_t i = 0; i < npts; ++i) {
-        FXC_C[sds*i] *= weights[i];
-        if(not is_rks) FXC_C[sds*i+1] *= weights[i];
-      }
-    }
-
-    // Scalar integrations
-    double NEL_local = 0.0;
-    for( int32_t i = 0; i < npts; ++i ) {
-      const auto den = is_rks ? den_eval[i] : (den_eval[2*i] + den_eval[2*i+1]);
-      NEL_local += weights[i] * den;
-    }
-
-
-    // Atomic updates
-    #pragma omp atomic
-    NEL_WORK += NEL_local;
-    // Evaluate Z matrix for VXC
-    if( func.is_mgga() ) {
-      if(is_rks) {
-        // Because we do not support Laplacian, so mgga will do the same operation as GGA
-        lwd->eval_zmat_gga_vxc_rks_ts( npts, nbe, FXC_A, FXC_B, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, zmat, nbe);
-        lwd->eval_mmat_mgga_vxc_rks( npts, nbe, FXC_C, vlapl, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval,
-                                     mmat_x, mmat_y, mmat_z, nbe);
-      } else if (is_uks) {
-        // Because we do not support Laplacian, so mgga will do the same operation as GGA
-        lwd->eval_zmat_gga_vxc_uks_ts( npts, nbe, FXC_A, FXC_B, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, zmat, nbe, zmat_z, nbe);
-        lwd->eval_mmat_mgga_vxc_uks_ts( npts, nbe, FXC_C, vlapl, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval,
-                                     mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe);
-      }
-    }
-    else if( func.is_gga() ) {
-      if(is_rks) {
-        lwd->eval_zmat_gga_vxc_rks_ts( npts, nbe, FXC_A, FXC_B, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, zmat, nbe);
-      } else if(is_uks) {
-        lwd->eval_zmat_gga_vxc_uks_ts( npts, nbe, FXC_A, FXC_B, basis_eval, dbasis_x_eval,
-                                dbasis_y_eval, dbasis_z_eval, zmat, nbe, zmat_z, nbe);
-      } 
-       
-    } else {
-      if(is_rks) {
-        lwd->eval_zmat_lda_vxc_rks( npts, nbe, FXC_A, basis_eval, zmat, nbe );
-      } else if(is_uks) {
-        lwd->eval_zmat_lda_vxc_uks_ts( npts, nbe, FXC_A, basis_eval, zmat, nbe, zmat_z, nbe );
-      }
-    }
-     
-    // Incremeta LT of VXC
-    {
-
-      // Increment VXC
-      lwd->inc_vxc( mgga_dim_scal * npts, nbf, nbe, basis_eval, submat_map, zmat, nbe, FXCa, ldfxca, nbe_scr );
-      if( not is_rks )
-        lwd->inc_vxc( mgga_dim_scal * npts, nbf, nbe, basis_eval, submat_map, zmat_z, nbe, FXCb, ldfxcb, nbe_scr);
-    }
-
-  } // Loop over tasks
-
-  } // End OpenMP region
-
-
-  // Set scalar return values
-  *N_EL = NEL_WORK;
-
-    // Symmetrize VXC
-  for( int32_t j = 0;   j < nbf; ++j ) 
-    for( int32_t i = j+1; i < nbf; ++i ) 
-      FXCa[ j + i*ldfxca ] = FXCa[ i + j*ldfxca ];
-      
-  if ( FXCz )
-    for( int32_t j = 0;   j < nbf; ++j ) 
-      for( int32_t i = j+1; i < nbf; ++i ) 
-        FXCb[ j + i*ldfxcb ] = FXCb[ i + j*ldfxcb ];
-
-  if( FXCz ) 
-    // now convert to the final form of FXCs and FXCz
-    for ( int32_t j = 0;   j < nbf; ++j ) 
-      for( int32_t i = 0; i < nbf; ++i ) {
-        value_type tmp_a = FXCa[ i + j*ldfxca ];
-        value_type tmp_b = FXCb[ i + j*ldfxcb ];
-        FXCs[ i + j*ldfxcs ] = 0.5 * ( tmp_a + tmp_b );
-        FXCz[ i + j*ldfxcz ] = 0.5 * ( tmp_a - tmp_b );
-      }
-  
-} 
-
-
-  /// RKS FXC contraction
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-eval_fxc_contraction_( int64_t m, int64_t n, 
-    const value_type* P, int64_t ldp, 
-    const value_type* tP, int64_t ldtp,
-    value_type* FXC, int64_t ldfxc,
-    const IntegratorSettingsXC& ks_settings ){
-
-    eval_fxc_contraction_( m, n, P, ldp, nullptr, 0, tP, ldtp, nullptr, 0,
-      FXC, ldfxc, nullptr, 0, ks_settings );
-}
-
-
-
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_integrate_den.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_integrate_den.hpp
deleted file mode 100644
index e0ad145..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_integrate_den.hpp
+++ /dev/null
@@ -1,170 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "host/local_host_work_driver.hpp"
-#include <stdexcept>
-
-namespace GauXC::detail {
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  integrate_den_( int64_t m, int64_t n, const value_type* P,
-                  int64_t ldp, value_type* N_EL ) {
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-  if( ldp < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-
-
-  // Get Tasks
-  this->load_balancer_->get_tasks();
-
-  *N_EL = 0.;
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    integrate_den_local_work_( P, ldp, N_EL );
-  });
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( N_EL, 1, ReductionOp::Sum );
-
-  });
-
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  integrate_den_local_work_( const value_type* P, int64_t ldp, 
-    value_type* N_EL ) {
-
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-  // Setup Aliases
-  const auto& basis = this->load_balancer_->basis();
-  const auto& mol   = this->load_balancer_->molecule();
-
-  // Get basis map
-  BasisSetMap basis_map(basis,mol);
-
-  const int32_t nbf = basis.nbf();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  std::sort( tasks.begin(), tasks.end(), task_comparator );
-
-
-  // Compute Partition Weights
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified"); 
-  }
-
-
-  // Loop over tasks
-  const size_t ntasks = tasks.size();
-  double N_EL_WORK = 0.0;
-
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-  double N_EL_LOCAL = 0.;
-
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-
-    //std::cout << iT << "/" << ntasks << std::endl;
-    // Alias current task
-    const auto& task = tasks[iT];
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-
-    // Allocate enough memory for batch
-
-    host_data.nbe_scr .resize( nbe * nbe  );
-    host_data.zmat    .resize( npts * nbe );
-
-    host_data.basis_eval .resize( npts * nbe );
-    host_data.den_scr    .resize( npts );
-
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* den_eval   = host_data.den_scr.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-    auto* zmat       = host_data.zmat.data();
-
-
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-
-    // Evaluate Collocation (+ Grad)
-    lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list, 
-      basis_eval );
-
-
-    // Evaluate X matrix (P * B) -> store in Z
-    lwd->eval_xmat( npts, nbf, nbe, submat_map, 1.0, P, ldp, basis_eval, nbe,
-      zmat, nbe, nbe_scr );
-
-
-    // Evaluate density on grid
-    lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, zmat, nbe, den_eval );
-
-    // Scalar integrations
-    for( int32_t i = 0; i < npts; ++i ) {
-      N_EL_LOCAL += weights[i] * den_eval[i];
-    }
-
-  } // Loop over tasks 
-
-  #pragma omp atomic 
-  N_EL_WORK += N_EL_LOCAL;
-
-  } // End OpenMP region
-
-  // Commit return value
-  *N_EL = N_EL_WORK;
-
-}
-
-} // namespace GauXC::detail
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_onedft.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_onedft.hpp
deleted file mode 100644
index e4e1e0f..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/reference_replicated_xc_host_integrator_onedft.hpp
+++ /dev/null
@@ -1,841 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy). All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include "integrator_util/onedft_util.hpp"
-#include "host/local_host_work_driver.hpp"
-#include "host/blas.hpp"
-
-#include <stdexcept>
-#include <string>
-
-namespace GauXC  {
-namespace detail {
-  
-FeatureDict prepare_onedft_features(const int ndm, std::vector<XCTask>& tasks, const Molecule& mol, 
-  const std::vector<std::string> feature_keys, const RuntimeEnvironment& rt, std::vector<int>& sendcounts, 
-  std::vector<int>& displs);
-
-void send_buffer_onedft_outputs(const int ndm, const FeatureDict features_dict, std::vector<XCTask>& tasks, 
-  const RuntimeEnvironment& rt, std::vector<int> sendcounts, std::vector<int> displs);
-
-void interleave_data(const double* a, const double* b, const size_t n, double* out);
-
-void eval_zmat_gga_vxc_uks(size_t npts, size_t nbf, 
-  const double* vdden_eval_a, const double* vdden_eval_b, 
-  const double* vdden_x_eval_a, const double* vdden_x_eval_b, const double* vdden_y_eval_a, 
-  const double* vdden_y_eval_b, const double* vdden_z_eval_a, const double* vdden_z_eval_b,
-  const double* basis_eval, const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  double* Zs, size_t ldzs, double* Zz, size_t ldzz);
-
-void eval_zmat_mgga_vxc_uks(size_t npts, size_t nbf, 
-  const double* vdden_eval_a, const double* vdden_eval_b, 
-  const double* vlapl_a, const double* vlapl_b,
-  const double* vdden_x_eval_a, const double* vdden_x_eval_b, const double* vdden_y_eval_a, 
-  const double* vdden_y_eval_b, const double* vdden_z_eval_a, const double* vdden_z_eval_b,
-  const double* basis_eval, const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  const double* lbasis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz);
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  eval_exc_vxc_onedft_( int64_t m, int64_t n, 
-    const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz,
-    value_type* VXCs, int64_t ldvxcs,
-    value_type* VXCz, int64_t ldvxcz,
-    value_type* EXC, const IntegratorSettingsXC& settings ) {
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Be Square");
-  if( m != nbf ) 
-    GAUXC_GENERIC_EXCEPTION("P Must Have Same Dimension as Basis");
-
-  if( ldps and ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDP");
-  if( ldpz and ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-
-  if( ldvxcs < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCS");
-  if( ldvxcz and ldvxcz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCZ");
-
-  // const bool is_exc_only = (!VXCs) and (!VXCz) and (!VXCy) and (!VXCx);
-
-  const bool is_uks = (Pz != nullptr);
-  if (not is_uks) {
-    // TODO: duplicate the density matrix ot duplicate the feature results?
-    // Pz = Ps;
-    GAUXC_GENERIC_EXCEPTION("RKS Not Yet Implemented");
-  }
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();  
-#ifdef GAUXC_HAS_DEVICE
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-#else
-  auto rt = this->load_balancer_->runtime();
-#endif
-  int32_t world_rank = rt.comm_rank();
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL; 
-  
-  // load model from parameter/interator settings
-  OneDFTSettings onedft_settings;
-  if( auto* tmp = dynamic_cast<const OneDFTSettings*>(&settings) ) {
-    onedft_settings = *tmp;
-  }
-  const auto model_path = onedft_settings.model;
-  torch::DeviceType device = torch::kCPU;
-  auto [exc_func, feature_keys] = load_model(model_path, device);
-  
-  // determine what feature we need based on the keys
-  if (feature_keys.size() == 0) {
-    GAUXC_GENERIC_EXCEPTION("No feature keys found in model");
-  }
-  bool is_gga = false;
-  bool is_mgga = false;
-  for (const auto& key : feature_keys) {
-    if ( not valueExists(key) ) GAUXC_GENERIC_EXCEPTION("Feature Key Required Not Implemented: " + key);
-    if (key == feat_map.at(ONEDFT_FEATURE::TAU)) is_mgga = true;
-    if (key == feat_map.at(ONEDFT_FEATURE::DDEN)) is_gga = true;
-  }
-  if (is_mgga) is_gga = false;
-
-  // Compute Local contributions to EXC / VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    pre_onedft_local_work_( basis, Ps, ldps, Pz, ldpz, &N_EL, is_gga, is_mgga, false /*needs_laplacian*/);
-  });
-  std::vector<int> sendcounts(rt.comm_size(), 0);
-  std::vector<int> displs(rt.comm_size(), 0);
-  FeatureDict features_dict = prepare_onedft_features(2/*ndm*/, tasks, this->load_balancer_->molecule(), feature_keys, rt, 
-    sendcounts, displs);
-  if (world_rank == 0) {
-    auto exc_on_grid = get_exc(exc_func, features_dict);
-    // check is_nan
-    if (exc_on_grid.isnan().any().item<bool>()) {
-      GAUXC_GENERIC_EXCEPTION("exc_on_grid has NaN");
-    }
-    auto exc = (exc_on_grid * features_dict.at(feat_map.at(ONEDFT_FEATURE::WEIGHTS))).sum();
-    exc.backward();
-    EXC[0] = exc.item().to<double>();
-    std::cout << "EXC: " << EXC[0] << std::endl;
-  }
-  // MPI_Bcast(EXC, 1, MPI_DOUBLE, 0, rt.comm());
-  // TODO: stop here if only exc
-
-  send_buffer_onedft_outputs(2/*ndm*/, features_dict, tasks, rt, sendcounts, displs);
-
-  this->timer_.time_op("XCIntegrator.LocalWork2", [&](){
-    post_onedft_local_work_( basis, Ps, ldps, Pz, ldpz, VXCs, n, VXCz, n, is_gga, is_mgga, false /*needs_laplacian*/);
-  });
-
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-    if(VXCz) this->reduction_driver_->allreduce_inplace( VXCz, nbf*nbf, ReductionOp::Sum );
-
-    this->reduction_driver_->allreduce_inplace( EXC,   1    , ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-
-  });
-
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  pre_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz, value_type *N_EL, 
-    const bool is_gga, const bool is_mgga, const bool needs_laplacian) {
-
-  const bool is_uks = (Pz != nullptr);
-  const bool is_rks = not is_uks;
-  const bool is_lda = not is_gga and not is_mgga;
-  // Cast LWD to LocalHostWorkDriver
-  auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-  const auto& mol   = this->load_balancer_->molecule();
-  BasisSetMap basis_map(basis,mol);
-  const int32_t nbf = basis.nbf();
-
-  auto& tasks = this->load_balancer_->get_tasks();
-  const size_t ntasks = tasks.size();
-
-  // Check that Partition Weights have been calculated
-  auto& lb_state = this->load_balancer_->state();
-  if( not lb_state.modified_weights_are_stored ) {
-    GAUXC_GENERIC_EXCEPTION("Weights Have Not Been Modified");
-  }
-
-  double NEL_WORK = 0.0;
-
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-  
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-    auto& task = tasks[iT];
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-    const size_t spin_dim_scal = is_rks ? 1 : 2; 
-    const size_t mgga_dim_scal = is_mgga ? 4 : 1; // basis + d1basis
- 
-    // Things that every calc needs
-    host_data.nbe_scr .resize(nbe  * nbe);
-    host_data.zmat    .resize(npts * nbe * spin_dim_scal * mgga_dim_scal); 
-
-    // LDA data requirements
-    if( is_lda ){
-      host_data.basis_eval .resize( npts * nbe );
-      task.feat.den_eval.resize(npts * spin_dim_scal);
-    }
-     
-    // GGA data requirements
-    const size_t gga_dim_scal = is_rks ? 1 : 3;
-    if( is_gga ){
-      host_data.basis_eval .resize( 4 * npts * nbe );
-      host_data.gamma      .resize( gga_dim_scal * npts ); // TODO: delete gamma
-      task.feat.den_eval.resize(npts * spin_dim_scal);
-      task.feat.dden_x_eval.resize(npts * spin_dim_scal);
-      task.feat.dden_y_eval.resize(npts * spin_dim_scal);
-      task.feat.dden_z_eval.resize(npts * spin_dim_scal);
-    }
-    if( is_mgga ){
-      host_data.basis_eval .resize( 4 * npts * nbe ); // basis + grad (3)
-      host_data.gamma      .resize( gga_dim_scal * npts );
-      task.feat.den_eval.resize(npts * spin_dim_scal);
-      task.feat.dden_x_eval.resize(npts * spin_dim_scal);
-      task.feat.dden_y_eval.resize(npts * spin_dim_scal);
-      task.feat.dden_z_eval.resize(npts * spin_dim_scal);
-      task.feat.tau.resize(npts * spin_dim_scal);
-    }
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-    auto* zmat       = host_data.zmat.data();
-    auto* gamma      = host_data.gamma.data();
-    auto* lapl       = host_data.lapl.data();
-
-    decltype(zmat) zmat_z = nullptr;
-    decltype(zmat) zmat_x = nullptr;
-    decltype(zmat) zmat_y = nullptr;
-    if(!is_rks) {
-      zmat_z = zmat + mgga_dim_scal * nbe * npts;
-    }
-    
-    auto* den_eval   = task.feat.den_eval.data();
-    auto* tau        = task.feat.tau.data();
-    auto* dden_x_eval = task.feat.dden_x_eval.data();
-    auto* dden_y_eval = task.feat.dden_y_eval.data();
-    auto* dden_z_eval = task.feat.dden_z_eval.data();
-
-    value_type* dbasis_x_eval = nullptr;
-    value_type* dbasis_y_eval = nullptr;
-    value_type* dbasis_z_eval = nullptr;
-    value_type* lbasis_eval = nullptr;
-
-    value_type* mmat_x      = nullptr;
-    value_type* mmat_y      = nullptr;
-    value_type* mmat_z      = nullptr;
-    value_type* mmat_x_z    = nullptr;
-    value_type* mmat_y_z    = nullptr;
-    value_type* mmat_z_z    = nullptr;
-
-    if( is_gga ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-    }
-
-    if ( is_mgga ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      mmat_x        = zmat + npts * nbe;
-      mmat_y        = mmat_x + npts * nbe;
-      mmat_z        = mmat_y + npts * nbe;
-      if(is_uks) {
-        mmat_x_z = zmat_z + npts * nbe;
-        mmat_y_z = mmat_x_z + npts * nbe;
-        mmat_z_z = mmat_y_z + npts * nbe;
-      }
-    }
-
-
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-
-    // Evaluate Collocation
-    if( is_mgga ) {
-        lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-          basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    } else if( is_gga )
-      lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    else
-      lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval );
-
-     
-    // Evaluate X matrix (fac * P * B) -> store in Z
-    const auto xmat_fac = is_rks ? 2.0 : 1.0; // TODO Fix for spinor RKS input
-    lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, xmat_fac, Ps, ldps, basis_eval, nbe,
-      zmat, nbe, nbe_scr );
-
-    // X matrix for Pz
-    if(not is_rks) {
-      lwd->eval_xmat( mgga_dim_scal * npts, nbf, nbe, submat_map, 1.0, Pz, ldpz, basis_eval, nbe,
-        zmat_z, nbe, nbe_scr);
-    }
-
-    // Evaluate U and V variables
-    if( is_mgga ) {
-      if (is_rks) {
-        lwd->eval_uvvar_mgga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, mmat_x, mmat_y, mmat_z, 
-          nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl);
-      } else if (is_uks) {
-        lwd->eval_uvvar_mgga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, lbasis_eval, zmat, nbe, zmat_z, nbe, 
-          mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe, 
-          den_eval, dden_x_eval, dden_y_eval, dden_z_eval, gamma, tau, lapl);
-      }
-    } else if ( is_gga ) {
-      if(is_rks) {
-        lwd->eval_uvvar_gga_rks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, den_eval, dden_x_eval, dden_y_eval, dden_z_eval,
-          gamma );
-      } else if(is_uks) {
-        lwd->eval_uvvar_gga_uks( npts, nbe, basis_eval, dbasis_x_eval, dbasis_y_eval,
-          dbasis_z_eval, zmat, nbe, zmat_z, nbe, den_eval, dden_x_eval, 
-          dden_y_eval, dden_z_eval, gamma );
-      }
-     } else {
-      if(is_rks) {
-        lwd->eval_uvvar_lda_rks( npts, nbe, basis_eval, zmat, nbe, den_eval );
-      } else if(is_uks) {
-        lwd->eval_uvvar_lda_uks( npts, nbe, basis_eval, zmat, nbe, zmat_z, nbe,
-          den_eval );
-      }
-    }
-    
-    // Scalar integrations
-    double NEL_local = 0.0;
-    for( int32_t i = 0; i < npts; ++i ) {
-      const auto den = is_rks ? den_eval[i] : (den_eval[2*i] + den_eval[2*i+1]);
-      NEL_local += weights[i] * den;
-    }
-
-    // Atomic updates
-    #pragma omp atomic
-    NEL_WORK += NEL_local;
-  } // Loop over tasks
-}  // End OpenMP region
-*N_EL = NEL_WORK;
-// std::cout << "N_EL: " << *N_EL << std::endl;
-}
-
-template <typename ValueType>
-void ReferenceReplicatedXCHostIntegrator<ValueType>::
-  post_onedft_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz,
-    value_type* VXCs, int64_t ldvxcs,
-    value_type* VXCz, int64_t ldvxcz,
-    const bool is_gga, const bool is_mgga, const bool needs_laplacian) {
-
-
-    const bool is_uks = (Pz != nullptr);
-    const bool is_rks = not is_uks;
-    const bool is_lda = not is_gga and not is_mgga;
-    auto* lwd = dynamic_cast<LocalHostWorkDriver*>(this->local_work_driver_.get());
-
-    const auto& mol   = this->load_balancer_->molecule();
-    BasisSetMap basis_map(basis,mol);
-    const int32_t nbf = basis.nbf();
-
-    // Zero out integrands
-    
-    if(VXCs)
-    for( auto j = 0; j < nbf; ++j ) {
-      for( auto i = 0; i < nbf; ++i ) {
-        VXCs[i + j*ldvxcs] = 0.;
-      }
-    }
-
-    if(VXCz) {
-      for( auto j = 0; j < nbf; ++j ) {
-        for( auto i = 0; i < nbf; ++i ) {
-          VXCz[i + j*ldvxcz] = 0.;
-        }
-      }
-    }
-
-  // Loop over tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-  const size_t ntasks = tasks.size();
-
-  #pragma omp parallel
-  {
-
-  XCHostData<value_type> host_data; // Thread local host data
-
-  #pragma omp for schedule(dynamic)
-  for( size_t iT = 0; iT < ntasks; ++iT ) {
-    const auto& task = tasks[iT];
-
-    // Get tasks constants
-    const int32_t  npts    = task.points.size();
-    const int32_t  nbe     = task.bfn_screening.nbe;
-    const int32_t  nshells = task.bfn_screening.shell_list.size();
-
-    const auto* points      = task.points.data()->data();
-    const auto* weights     = task.weights.data();
-    const int32_t* shell_list = task.bfn_screening.shell_list.data();
-    const size_t spin_dim_scal = is_rks ? 1 : is_uks ? 2 : 4; // last case is_gks
-    const size_t mgga_dim_scal = is_mgga ? 4 : 1; // basis + d1basis
- 
-    // Things that every calc needs
-    host_data.nbe_scr .resize(nbe  * nbe);
-    host_data.zmat    .resize(npts * nbe * spin_dim_scal * mgga_dim_scal); 
-
-    // LDA data requirements
-    if( is_lda ){
-      host_data.basis_eval .resize( npts * nbe );
-    }
-    // GGA data requirements
-    const size_t gga_dim_scal = is_rks ? 1 : 3;
-    if( is_gga ){
-      host_data.basis_eval .resize( 4 * npts * nbe );
-    }
-    if( is_mgga ){
-      host_data.basis_eval .resize( 4 * npts * nbe ); // basis + grad (3)
-    }
-
-    // Alias/Partition out scratch memory
-    auto* basis_eval = host_data.basis_eval.data();
-    auto* nbe_scr    = host_data.nbe_scr.data();
-    auto* zmat       = host_data.zmat.data();
-    auto* lapl       = host_data.lapl.data();
-
-    decltype(zmat) zmat_z = nullptr;
-    decltype(zmat) zmat_x = nullptr;
-    decltype(zmat) zmat_y = nullptr;
-    if(!is_rks) {
-      zmat_z = zmat + mgga_dim_scal * nbe * npts;
-    }
-
-    value_type* dbasis_x_eval = nullptr;
-    value_type* dbasis_y_eval = nullptr;
-    value_type* dbasis_z_eval = nullptr;
-    value_type* lbasis_eval = nullptr;
-    value_type* mmat_x      = nullptr;
-    value_type* mmat_y      = nullptr;
-    value_type* mmat_z      = nullptr;
-    value_type* mmat_x_z    = nullptr;
-    value_type* mmat_y_z    = nullptr;
-    value_type* mmat_z_z    = nullptr;
-
-    if( is_gga ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-    }
-
-    if ( is_mgga ) {
-      dbasis_x_eval = basis_eval    + npts * nbe;
-      dbasis_y_eval = dbasis_x_eval + npts * nbe;
-      dbasis_z_eval = dbasis_y_eval + npts * nbe;
-      mmat_x        = zmat + npts * nbe;
-      mmat_y        = mmat_x + npts * nbe;
-      mmat_z        = mmat_y + npts * nbe;
-      if(is_uks) {
-        mmat_x_z = zmat_z + npts * nbe;
-        mmat_y_z = mmat_x_z + npts * nbe;
-        mmat_z_z = mmat_y_z + npts * nbe;
-      }
-    }
-
-    // assume always uks
-    const value_type* vdden_eval_a, *vdden_eval_b;
-    const value_type* vdden_x_eval_a, *vdden_y_eval_a, *vdden_z_eval_a;
-    const value_type* vdden_x_eval_b, *vdden_y_eval_b, *vdden_z_eval_b;
-    const value_type* vtau;
-    std::vector<value_type> vrho;
-
-    vdden_eval_a = task.feat.vdden_eval_a.data();
-    vdden_eval_b = task.feat.vdden_eval_b.data();
-    if (is_gga || is_mgga) {
-      vdden_x_eval_a = task.feat.vdden_x_eval_a.data();
-      vdden_y_eval_a = task.feat.vdden_y_eval_a.data();
-      vdden_z_eval_a = task.feat.vdden_z_eval_a.data();
-      vdden_x_eval_b = task.feat.vdden_x_eval_b.data();
-      vdden_y_eval_b = task.feat.vdden_y_eval_b.data();
-      vdden_z_eval_b = task.feat.vdden_z_eval_b.data();
-    } else { // lda
-      vrho.resize(npts * spin_dim_scal);
-      interleave_data(task.feat.vdden_eval_a.data(), task.feat.vdden_eval_b.data(), npts, vrho.data());
-    }
-    if (is_mgga) {
-      vtau = task.feat.vtau.data();
-    }
-    // Get the submatrix map for batch
-    std::vector< std::array<int32_t, 3> > submat_map;
-    std::tie(submat_map, std::ignore) =
-          gen_compressed_submat_map(basis_map, task.bfn_screening.shell_list, nbf, nbf);
-
-    // Evaluate Collocation (+ Grad and Hessian)
-    if( is_mgga ) {
-      lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    } else if( is_gga )
-      lwd->eval_collocation_gradient( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval );
-    else
-      lwd->eval_collocation( npts, nshells, nbe, points, basis, shell_list,
-        basis_eval );
-
-    // Evaluate Z matrix for VXC
-    if (is_gga){
-        eval_zmat_gga_vxc_uks( npts, nbe, vdden_eval_a, vdden_eval_b, vdden_x_eval_a, vdden_x_eval_b, vdden_y_eval_a, 
-                                vdden_y_eval_b, vdden_z_eval_a, vdden_z_eval_b, basis_eval,
-                                dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, zmat, nbe, zmat_z, nbe);
-    } else if (is_mgga) {
-        eval_zmat_mgga_vxc_uks( npts, nbe, vdden_eval_a, vdden_eval_b, 
-                              nullptr, nullptr, /* vlapl_a, vlapl_b */
-                              vdden_x_eval_a, vdden_x_eval_b, vdden_y_eval_a, 
-                              vdden_y_eval_b, vdden_z_eval_a, vdden_z_eval_b, basis_eval,
-                              dbasis_x_eval, dbasis_y_eval, dbasis_z_eval, 
-                              lbasis_eval, zmat, nbe, zmat_z, nbe);
-        lwd->eval_mmat_mgga_vxc_uks( npts, nbe, vtau, nullptr /*vlapl*/, dbasis_x_eval, dbasis_y_eval, dbasis_z_eval,
-                                mmat_x, mmat_y, mmat_z, nbe, mmat_x_z, mmat_y_z, mmat_z_z, nbe);
-    } else {
-      lwd->eval_zmat_lda_vxc_uks( npts, nbe, vrho.data(), basis_eval, zmat, nbe, zmat_z, nbe );
-    }
-
-    // Increment VXC
-    lwd->inc_vxc( mgga_dim_scal * npts, nbf, nbe, basis_eval, submat_map, zmat, nbe, VXCs, ldvxcs, nbe_scr );
-    if(is_uks) {
-      lwd->inc_vxc( mgga_dim_scal * npts, nbf, nbe, basis_eval, submat_map, zmat_z, nbe,VXCz, ldvxcz, nbe_scr);
-    }
-  } // loop over tasks
-  } // end OpenMP region
-
-  for( int32_t j = 0;   j < nbf; ++j ) {
-    for( int32_t i = j+1; i < nbf; ++i ) {
-      VXCs[ j + i*ldvxcs ] = VXCs[ i + j*ldvxcs ];
-    }
-  }
-  if(not is_rks) {
-    for( int32_t j = 0;   j < nbf; ++j ) {
-      for( int32_t i = j+1; i < nbf; ++i ) {
-        VXCz[ j + i*ldvxcz ] = VXCz[ i + j*ldvxcz ];
-      }
-    }
-  }
-}
-
-void eval_zmat_gga_vxc_uks(size_t npts, size_t nbf, 
-  const double* vdden_eval_a, const double* vdden_eval_b, const double* vdden_x_eval_a, const double* vdden_x_eval_b,
-  const double* vdden_y_eval_a, const double* vdden_y_eval_b, const double* vdden_z_eval_a, const double* vdden_z_eval_b,
-  const double* basis_eval, const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  double* Zs, size_t ldzs, double* Zz, size_t ldzz) {
-  if( ldzs != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  if( ldzz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zs, ldzs);
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zz, ldzz);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* zs_col = Zs + ioff;
-    auto* zz_col = Zz + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-
-    const double factp = 0.5 * vdden_eval_a[i];
-    const double factm = 0.5 * vdden_eval_b[i];
-
-    GauXC::blas::scal( nbf, 0.5*(factp + factm), zs_col, 1 );
-    GauXC::blas::scal( nbf, 0.5*(factp - factm), zz_col, 1 );
-
-    const double x_factp = 0.5*(vdden_x_eval_a[i] + vdden_x_eval_b[i]);
-    const double y_factp = 0.5*(vdden_y_eval_a[i] + vdden_y_eval_b[i]);
-    const double z_factp = 0.5*(vdden_z_eval_a[i] + vdden_z_eval_b[i]);
-    const double x_factm = 0.5*(vdden_x_eval_a[i] - vdden_x_eval_b[i]);
-    const double y_factm = 0.5*(vdden_y_eval_a[i] - vdden_y_eval_b[i]);
-    const double z_factm = 0.5*(vdden_z_eval_a[i] - vdden_z_eval_b[i]);
-    GauXC::blas::axpy( nbf, x_factp, bf_x_col, 1, zs_col, 1 );
-    GauXC::blas::axpy( nbf, y_factp, bf_y_col, 1, zs_col, 1 );
-    GauXC::blas::axpy( nbf, z_factp, bf_z_col, 1, zs_col, 1 );
-
-    GauXC::blas::axpy( nbf, x_factm, bf_x_col, 1, zz_col, 1 );
-    GauXC::blas::axpy( nbf, y_factm, bf_y_col, 1, zz_col, 1 );
-    GauXC::blas::axpy( nbf, z_factm, bf_z_col, 1, zz_col, 1 );
-  }
-}
-
-void eval_zmat_mgga_vxc_uks(size_t npts, size_t nbf, 
-  const double* vdden_eval_a, const double* vdden_eval_b, 
-  const double* vlapl_a, const double* vlapl_b,
-  const double* vdden_x_eval_a, const double* vdden_x_eval_b, const double* vdden_y_eval_a, 
-  const double* vdden_y_eval_b, const double* vdden_z_eval_a, const double* vdden_z_eval_b,
-  const double* basis_eval, const double* dbasis_x_eval, const double* dbasis_y_eval, const double* dbasis_z_eval,
-  const double* lbasis_eval, double* Zs, size_t ldzs, double* Zz, size_t ldzz){
-
-  if( ldzs != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  if( ldzz != nbf ) GAUXC_GENERIC_EXCEPTION(std::string("Invalid Dims"));
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zs, ldzs);
-  blas::lacpy( 'A', nbf, npts, basis_eval, nbf, Zz, ldzz);
-
-  for( int32_t i = 0; i < (int32_t)npts; ++i ) {
-
-    const int32_t ioff = i * nbf;
-
-    auto* zs_col = Zs + ioff;
-    auto* zz_col = Zz + ioff;
-    auto* bf_x_col = dbasis_x_eval + ioff;
-    auto* bf_y_col = dbasis_y_eval + ioff;
-    auto* bf_z_col = dbasis_z_eval + ioff;
-    auto* lbf_col = lbasis_eval + ioff;
-
-    const double factp = 0.5 * vdden_eval_a[i];
-    const double factm = 0.5 * vdden_eval_b[i];
-
-    GauXC::blas::scal( nbf, 0.5*(factp + factm), zs_col, 1 ); 
-    GauXC::blas::scal( nbf, 0.5*(factp - factm), zz_col, 1 );
-
-    const double x_factp = 0.5*(vdden_x_eval_a[i] + vdden_x_eval_b[i]);
-    const double y_factp = 0.5*(vdden_y_eval_a[i] + vdden_y_eval_b[i]);
-    const double z_factp = 0.5*(vdden_z_eval_a[i] + vdden_z_eval_b[i]);
-    const double x_factm = 0.5*(vdden_x_eval_a[i] - vdden_x_eval_b[i]);
-    const double y_factm = 0.5*(vdden_y_eval_a[i] - vdden_y_eval_b[i]);
-    const double z_factm = 0.5*(vdden_z_eval_a[i] - vdden_z_eval_b[i]);
-    
-    GauXC::blas::axpy( nbf, x_factp, bf_x_col, 1, zs_col, 1 );
-    GauXC::blas::axpy( nbf, y_factp, bf_y_col, 1, zs_col, 1 );
-    GauXC::blas::axpy( nbf, z_factp, bf_z_col, 1, zs_col, 1 );
-
-    GauXC::blas::axpy( nbf, x_factm, bf_x_col, 1, zz_col, 1 );
-    GauXC::blas::axpy( nbf, y_factm, bf_y_col, 1, zz_col, 1 );
-    GauXC::blas::axpy( nbf, z_factm, bf_z_col, 1, zz_col, 1 );
-
-    if (vlapl_a != nullptr) {
-      const auto lfactp = vlapl_a[i];
-      const auto lfactm = vlapl_b[i];
-      blas::axpy( nbf, 0.5*(lfactp + lfactm), lbf_col, 1, zs_col, 1);
-      blas::axpy( nbf, 0.5*(lfactp - lfactm), lbf_col, 1, zz_col, 1);
-    }
-  }
-}
-
-void sz_to_ab(std::vector<double>& dden){
-  for (size_t i = 0; i < dden.size()/2; i++) {
-    double s = dden[2*i];
-    double z = dden[2*i+1];
-    dden[2*i] = 0.5 * (s + z);
-    dden[2*i+1] = 0.5 * (s - z);
-  }
-}
-
-void interleave_data(const double* a, const double* b, const size_t n, double* result) {
-  for (size_t i = 0; i < n; ++i) {
-    result[2*i] = a[i];
-    result[2*i+1] = b[i];
-  }
-}
-
-FeatureDict prepare_onedft_features(const int ndm, std::vector<XCTask>& tasks, const Molecule& mol, 
-                  const std::vector<std::string> feature_keys, const RuntimeEnvironment& rt,
-                  std::vector<int>& sendcounts, std::vector<int>& displs) {
-  std::vector<double> den_eval, dden_eval, tau, grid_coords, grid_weights;
-  size_t total_npts = std::accumulate( tasks.begin(), tasks.end(), 0ul,
-    [](const auto& a, const auto& b) { return a + b.npts; } );
-  grid_coords.reserve(total_npts * 3);
-  grid_weights.reserve(total_npts);
-  den_eval.reserve(total_npts * ndm);
-  dden_eval.resize(total_npts * 6);  // 2 values per point, 3 components
-  tau.reserve(total_npts * ndm);
-
-  int offset = 0;
-  for (auto& task : tasks) {
-    for (const auto& point : task.points) {
-      grid_coords.push_back(point[0]);
-      grid_coords.push_back(point[1]);
-      grid_coords.push_back(point[2]);
-    }
-    std::copy(task.weights.begin(), task.weights.end(), std::back_inserter(grid_weights));
-    std::copy(task.feat.den_eval.begin(), task.feat.den_eval.end(), std::back_inserter(den_eval));
-
-    if (task.feat.dden_x_eval.size() != 0){
-      sz_to_ab(task.feat.dden_x_eval);
-      sz_to_ab(task.feat.dden_y_eval);
-      sz_to_ab(task.feat.dden_z_eval);
-      for (size_t i = 0; i < task.points.size(); i++) {
-        dden_eval[6 * i + 0 + 6 * offset] = task.feat.dden_x_eval[2 * i];
-        dden_eval[6 * i + 1 + 6 * offset] = task.feat.dden_y_eval[2 * i];
-        dden_eval[6 * i + 2 + 6 * offset] = task.feat.dden_z_eval[2 * i];
-        dden_eval[6 * i + 3 + 6 * offset] = task.feat.dden_x_eval[2 * i + 1];  
-        dden_eval[6 * i + 4 + 6 * offset] = task.feat.dden_y_eval[2 * i + 1];
-        dden_eval[6 * i + 5 + 6 * offset] = task.feat.dden_z_eval[2 * i + 1];
-      }
-    }
-    offset += task.points.size();
-    std::copy(task.feat.tau.begin(), task.feat.tau.end(), std::back_inserter(tau));
-  }
-  
-  int world_rank = rt.comm_rank();  
-  GAUXC_MPI_CODE(
-    total_npts = mpi_gather_onedft_inputs(den_eval, dden_eval, tau, grid_coords, grid_weights, total_npts, 
-      world_rank, rt.comm_size(), sendcounts, displs);
-  );
-  FeatureDict featmap;
-  if (world_rank == 0) {
-    size_t natoms = mol.size();
-    std::vector<double> coarse_0_atomic_coords (natoms*3); 
-    for (int i = 0; i < natoms; i++) {
-      coarse_0_atomic_coords[3*i] = mol[i].x;
-      coarse_0_atomic_coords[3*i+1] = mol[i].y;
-      coarse_0_atomic_coords[3*i+2] = mol[i].z;
-    }
-
-    auto options = torch::TensorOptions().dtype(torch::kFloat64).device(torch::kCPU);
-    for (const auto& key : feature_keys) {
-      auto enum_key = reverse_feat_map.at(key);
-      at::Tensor tensor;
-      switch (enum_key) {
-      case ONEDFT_FEATURE::DEN: {
-        auto flat_tensor = torch::from_blob(den_eval.data(), {ndm, total_npts}, {1, ndm}, options);
-        tensor = flat_tensor.clone().requires_grad_(true);
-        break;
-      }
-      case ONEDFT_FEATURE::DDEN: {
-        auto flat_tensor = torch::from_blob(dden_eval.data(), {ndm, 3, total_npts}, {3, 1, 3*ndm}, options);
-        tensor = flat_tensor.clone().requires_grad_(true);
-        break;
-      }
-      case ONEDFT_FEATURE::TAU: {
-        auto flat_tensor = torch::from_blob(tau.data(), {ndm, total_npts}, {1, ndm}, options);
-        tensor = flat_tensor.clone().requires_grad_(true);
-        break;
-      }
-      case ONEDFT_FEATURE::POINTS: {
-        auto flat_tensor = torch::from_blob(grid_coords.data(), {total_npts, 3}, options);
-        tensor = flat_tensor.clone();
-        break;
-      }
-      case ONEDFT_FEATURE::WEIGHTS: {
-        auto flat_tensor = torch::from_blob(grid_weights.data(), {total_npts}, options);
-        tensor = flat_tensor.clone();
-        break;
-      }
-      case ONEDFT_FEATURE::COORDS: {
-        auto flat_tensor = torch::from_blob(coarse_0_atomic_coords.data(), {natoms, 3}, options);
-        tensor = flat_tensor.clone();
-        break;
-      }
-      default:
-        GAUXC_GENERIC_EXCEPTION("Feature Key Not Implemented: " + key);
-      }
-      if (tensor.isnan().any().item<bool>()) {
-        GAUXC_GENERIC_EXCEPTION("NaN detected in feature tensor: " + key);
-      }
-      featmap.insert(key, tensor);
-    }
-  }
-  return featmap;
-}
-
-void send_buffer_onedft_outputs(const int ndm, const FeatureDict features_dict, std::vector<XCTask>& tasks, 
-                                const RuntimeEnvironment& rt, std::vector<int> sendcounts, std::vector<int> displs) {
-
-  std::vector<double> den_eval, dden_eval, tau;
-  auto total_npts = mpi_scatter_onedft_outputs(features_dict, rt.comm_rank(), rt.comm_size(),
-                                                sendcounts, displs, den_eval, dden_eval, tau);
-
-  size_t offset = 0;
-  for (auto&task : tasks) {
-    int64_t npts = task.points.size();
-    task.feat.vdden_eval_a.resize(npts);
-    task.feat.vdden_eval_b.resize(npts);
-    auto den_a_slice = den_eval.data() + offset;
-    auto den_b_slice = den_eval.data() + total_npts + offset;
-    std::copy(den_a_slice, den_a_slice + npts, task.feat.vdden_eval_a.begin());
-    std::copy(den_b_slice, den_b_slice + npts, task.feat.vdden_eval_b.begin());
-    if (task.feat.dden_x_eval.size() != 0){
-      task.feat.vdden_x_eval_a.resize(npts);
-      task.feat.vdden_y_eval_a.resize(npts);
-      task.feat.vdden_z_eval_a.resize(npts);
-      task.feat.vdden_x_eval_b.resize(npts);
-      task.feat.vdden_y_eval_b.resize(npts);
-      task.feat.vdden_z_eval_b.resize(npts);
-
-      auto dden_a_x_slice = dden_eval.data() + offset;
-      auto dden_a_y_slice = dden_eval.data() + total_npts + offset;
-      auto dden_a_z_slice = dden_eval.data() + total_npts * 2 + offset;
-      auto dden_b_x_slice = dden_eval.data() + total_npts * 3 + offset;
-      auto dden_b_y_slice = dden_eval.data() + total_npts * 4 + offset;
-      auto dden_b_z_slice = dden_eval.data() + total_npts * 5 + offset;
-
-      std::copy(dden_a_x_slice, dden_a_x_slice + npts, task.feat.vdden_x_eval_a.begin());
-      std::copy(dden_a_y_slice, dden_a_y_slice + npts, task.feat.vdden_y_eval_a.begin());
-      std::copy(dden_a_z_slice, dden_a_z_slice + npts, task.feat.vdden_z_eval_a.begin());
-      std::copy(dden_b_x_slice, dden_b_x_slice + npts, task.feat.vdden_x_eval_b.begin());
-      std::copy(dden_b_y_slice, dden_b_y_slice + npts, task.feat.vdden_y_eval_b.begin());
-      std::copy(dden_b_z_slice, dden_b_z_slice + npts, task.feat.vdden_z_eval_b.begin());
-    }
-
-    if (task.feat.tau.size() != 0){
-      task.feat.vtau.resize(npts * 2);
-      auto vtau_a = tau.data() + offset;
-      auto vtau_b = tau.data() + total_npts + offset;
-      interleave_data(vtau_a, vtau_b, npts, task.feat.vtau.data());
-    }
-    offset += npts;
-  }
-  if (offset != total_npts) {
-    GAUXC_GENERIC_EXCEPTION("Mismatch in number of points for onedft features.");
-  }
-}
-
-// RKS OneDFT driver - delegates to generic GKS impl
-// template <typename ValueType>
-// void ReferenceReplicatedXCHostIntegrator<ValueType>::
-//   eval_exc_vxc_onedft_( int64_t m, int64_t n, 
-//                  const value_type* P, int64_t ldp,
-//                  value_type* VXC, int64_t ldvxc,
-//                  value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-//   eval_exc_vxc_onedft_(m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0,
-//     VXC, ldvxc, nullptr, 0, nullptr, 0, nullptr, 0, EXC, ks_settings);
-
-// }
-
-
-} // namespace detail
-} // namespace GauXC
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/replicated_xc_host_integrator.cxx b/third_party/gauxc/src/xc_integrator/replicated/host/replicated_xc_host_integrator.cxx
deleted file mode 100644
index 72ef87b..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/replicated_xc_host_integrator.cxx
+++ /dev/null
@@ -1,67 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp>
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "shell_batched_replicated_xc_host_integrator.hpp"
-#include "host/local_host_work_driver.hpp"
-
-namespace GauXC::detail {
-
-template <typename ValueType>
-ReplicatedXCHostIntegrator<ValueType>::~ReplicatedXCHostIntegrator() noexcept = default;
-
-template class ReplicatedXCHostIntegrator<double>;
-
-
-template <typename ValueType>
-typename ReplicatedXCHostIntegratorFactory<ValueType>::ptr_return_t
-  ReplicatedXCHostIntegratorFactory<ValueType>::make_integrator_impl(
-    std::string integrator_kernel,
-    std::shared_ptr<functional_type> func,
-    std::shared_ptr<LoadBalancer> lb, 
-    std::unique_ptr<LocalWorkDriver>&& lwd,
-    std::shared_ptr<ReductionDriver>   rd
-    ) {
-
-  // Make sure that the LWD is a valid LocalHostWorkDriver
-  if(not dynamic_cast<LocalHostWorkDriver*>(lwd.get())) {
-    GAUXC_GENERIC_EXCEPTION("Passed LWD Not valid for Host ExSpace");
-  }
-
-  std::transform(integrator_kernel.begin(), integrator_kernel.end(), 
-    integrator_kernel.begin(), ::toupper );
-
-  if( integrator_kernel == "DEFAULT" ) integrator_kernel = "REFERENCE";
-
-  if( integrator_kernel == "REFERENCE" )
-    return std::make_unique<ReferenceReplicatedXCHostIntegrator<ValueType>>(
-      func, lb, std::move(lwd), rd
-    );
-
-  else if( integrator_kernel == "SHELLBATCHED" )
-    return std::make_unique<ShellBatchedReplicatedXCHostIntegrator<ValueType>>(
-      func, lb, std::move(lwd), rd
-    );
-
-  else
-    GAUXC_GENERIC_EXCEPTION("Integrator Kernel: " + integrator_kernel + " Not Recognized");
-
-  return nullptr;
-
-
-}
-
-template struct ReplicatedXCHostIntegratorFactory<double>;
-
-
-} // namespace GauXC::detail
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/shell_batched_replicated_xc_host_integrator.cxx b/third_party/gauxc/src/xc_integrator/replicated/host/shell_batched_replicated_xc_host_integrator.cxx
deleted file mode 100644
index c972d30..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/shell_batched_replicated_xc_host_integrator.cxx
+++ /dev/null
@@ -1,31 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "shell_batched_replicated_xc_host_integrator.hpp"
-#include "shell_batched_replicated_xc_integrator_integrate_den.hpp"
-#include "shell_batched_replicated_xc_integrator_exc.hpp"
-#include "shell_batched_replicated_xc_integrator_exc_vxc.hpp"
-#include "shell_batched_replicated_xc_integrator_exc_grad.hpp"
-#include "shell_batched_replicated_xc_integrator_exx.hpp"
-#include "shell_batched_replicated_xc_integrator_fxc_contraction.hpp"
-#include "shell_batched_replicated_xc_integrator_dd_psi.hpp"
-#include "shell_batched_replicated_xc_integrator_dd_psi_potential.hpp"
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-ShellBatchedReplicatedXCHostIntegrator<ValueType>::~ShellBatchedReplicatedXCHostIntegrator() noexcept = default;
-
-template class ShellBatchedReplicatedXCHostIntegrator<double>;
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/shell_batched_replicated_xc_host_integrator.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/shell_batched_replicated_xc_host_integrator.hpp
deleted file mode 100644
index a8f1f48..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/shell_batched_replicated_xc_host_integrator.hpp
+++ /dev/null
@@ -1,46 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_integrator/replicated/replicated_xc_host_integrator.hpp>
-#include "reference_replicated_xc_host_integrator.hpp"
-#include "shell_batched_replicated_xc_integrator.hpp"
-
-namespace GauXC {
-namespace detail {
-
-template <typename ValueType>
-class ShellBatchedReplicatedXCHostIntegrator : 
-  public ShellBatchedReplicatedXCIntegrator<
-    ReplicatedXCHostIntegrator<ValueType>,
-    ReferenceReplicatedXCHostIntegrator<ValueType>
-  > {
-
-  using base_type  = ShellBatchedReplicatedXCIntegrator<
-    ReplicatedXCHostIntegrator<ValueType>,
-    ReferenceReplicatedXCHostIntegrator<ValueType>
-  >;
-
-public:
-
-  template <typename... Args>
-  ShellBatchedReplicatedXCHostIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~ShellBatchedReplicatedXCHostIntegrator() noexcept;
-
-};
-
-extern template class ShellBatchedReplicatedXCHostIntegrator<double>;
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/replicated/host/xc_host_data.hpp b/third_party/gauxc/src/xc_integrator/replicated/host/xc_host_data.hpp
deleted file mode 100644
index 1c7fc9a..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/host/xc_host_data.hpp
+++ /dev/null
@@ -1,63 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <vector>
-#include <cstdint>
-
-#include <gauxc/gauxc_config.hpp>
-
-namespace GauXC {
-
-template <typename F>
-struct XCHostData {
-
-  std::vector<F> eps;
-  std::vector<F> gamma;
-  std::vector<F> tau;
-  std::vector<F> lapl;
-  std::vector<F> vrho;
-  std::vector<F> vgamma;
-  std::vector<F> vtau;
-  std::vector<F> vlapl;
- 
-  std::vector<F> zmat;
-  std::vector<F> gmat;
-  std::vector<F> nbe_scr;
-  std::vector<F> den_scr;
-  std::vector<F> basis_eval;
-
-  // Second order derivatives
-  std::vector<F> v2rho2;
-  std::vector<F> v2rhogamma;
-  std::vector<F> v2rholapl;
-  std::vector<F> v2rhotau;
-  std::vector<F> v2gamma2;
-  std::vector<F> v2gammalapl;
-  std::vector<F> v2gammatau;
-  std::vector<F> v2lapl2;
-  std::vector<F> v2lapltau;
-  std::vector<F> v2tau2;
-
-  // For Fxc contraction
-  std::vector<F> FXC_A;
-  std::vector<F> FXC_B;
-  std::vector<F> FXC_C;
-  std::vector<F> tden_scr;
-  std::vector<F> ttau;
-  std::vector<F> tlapl;
-
-   
-  inline XCHostData() {}
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/replicated/replicated_xc_integrator_impl.cxx b/third_party/gauxc/src/xc_integrator/replicated/replicated_xc_integrator_impl.cxx
deleted file mode 100644
index 3cb0d74..0000000
--- a/third_party/gauxc/src/xc_integrator/replicated/replicated_xc_integrator_impl.cxx
+++ /dev/null
@@ -1,233 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator/replicated/replicated_xc_integrator_impl.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename ValueType>
-ReplicatedXCIntegratorImpl<ValueType>::
-  ReplicatedXCIntegratorImpl( std::shared_ptr< functional_type >   func,
-                              std::shared_ptr< LoadBalancer >      lb, 
-                              std::unique_ptr< LocalWorkDriver >&& lwd,
-                              std::shared_ptr< ReductionDriver >   rd) :
-    func_(func), load_balancer_(lb), local_work_driver_(std::move(lwd)),
-    reduction_driver_(rd){ }
-
-template <typename ValueType>
-ReplicatedXCIntegratorImpl<ValueType>::
-  ~ReplicatedXCIntegratorImpl() noexcept = default;
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  integrate_den( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* N_EL ) {
-
-    integrate_den_(m,n,P,ldp,N_EL);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-            value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_(m,n,P,ldp,EXC,ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-            const value_type* Pz, int64_t ldpz,
-            value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_(m,n,Ps,ldps,Pz,ldpz,EXC,ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-            const value_type* Pz, int64_t ldpz,
-            const value_type* Py, int64_t ldpy,
-            const value_type* Px, int64_t ldpx,
-            value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_(m,n,Ps,ldps,Pz,ldpz,Py,ldpy,Px,ldpx,EXC,ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_vxc( int64_t m, int64_t n, const value_type* P,
-                int64_t ldp, value_type* VXC, int64_t ldvxc,
-                value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_vxc_(m,n,P,ldp,VXC,ldvxc,EXC,ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_vxc( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-    eval_exc_vxc_(m,n,Ps,ldps,
-                      Pz,ldpz,
-                      VXCs,ldvxcs,
-                      VXCz,ldvxcz,EXC, ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_vxc_onedft( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-    eval_exc_vxc_onedft_(m,n,Ps,ldps,
-                      Pz,ldpz,
-                      VXCs,ldvxcs,
-                      VXCz,ldvxcz,EXC, ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_vxc( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz,
-                      int64_t ldpz,
-                      const value_type* Py,
-                      int64_t ldpy,
-                      const value_type* Px,
-                      int64_t ldpx,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* VXCy, int64_t ldvxcy,
-                      value_type* VXCx, int64_t ldvxcx,
-                      value_type* EXC,  const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_vxc_(m,n,Ps,ldps,
-                      Pz,ldpz,
-                      Py,ldpy,
-                      Px,ldpx,
-                      VXCs,ldvxcs,
-                      VXCz,ldvxcz,
-                      VXCy,ldvxcy,
-                      VXCx,ldvxcx,EXC, ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_grad( int64_t m, int64_t n, const value_type* P,
-                int64_t ldp, value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_grad_(m,n,P,ldp,EXC_GRAD, ks_settings);
-
-}
-
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exc_grad( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                 const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& ks_settings ) {
-
-    eval_exc_grad_(m,n,Ps,ldps,Pz,ldpz,EXC_GRAD, ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_exx( int64_t m, int64_t n, const value_type* P,
-            int64_t ldp, value_type* K, int64_t ldk,
-            const IntegratorSettingsEXX& settings ) {
-
-    eval_exx_(m,n,P,ldp,K,ldk,settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-eval_fxc_contraction( int64_t m, int64_t n, const value_type* P,
-                      int64_t ldp,
-                      const value_type* tP, int64_t ldtp,
-                      value_type* FXC, int64_t ldfxc,
-                      const IntegratorSettingsXC& ks_settings ) {
-
-  // For RKS, we can reuse the UKS implementation with Pz=0, tPz=0
-  // Create temporary buffers to store the z-component results
-  std::vector<value_type> temp_fxcz(m * n, 0.0);
-  value_type* FXCz = temp_fxcz.data();
-  int64_t ldfxcz = m;
-
-  eval_fxc_contraction_(m, n, P, ldp,
-                      tP, ldtp,
-                      FXC, ldfxc,
-                      ks_settings);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-eval_fxc_contraction( int64_t m, int64_t n, const value_type* Ps,
-                      int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      const value_type* tPs, int64_t ldtps,
-                      const value_type* tPz, int64_t ldtpz,
-                      value_type* FXCs, int64_t ldfxcs,
-                      value_type* FXCz, int64_t ldfxcz,
-                      const IntegratorSettingsXC& ks_settings ) {
-
-  eval_fxc_contraction_(m,n,Ps,ldps,
-                        Pz,ldpz,
-                        tPs,ldtps,
-                        tPz,ldtpz,
-                        FXCs,ldfxcs,
-                        FXCz,ldfxcz,
-                        ks_settings);    
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_dd_psi( int64_t m, int64_t n, const value_type* P,
-               int64_t ldp, unsigned max_Ylm, value_type* ddPsi, int64_t ldPsi ) {
-
-  eval_dd_psi_(m, n, P, ldp, max_Ylm, ddPsi, ldPsi);
-
-}
-
-template <typename ValueType>
-void ReplicatedXCIntegratorImpl<ValueType>::
-  eval_dd_psi_potential( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm, value_type* Vddx) {
-  
-  eval_dd_psi_potential_(m, n, X, max_Ylm, Vddx);
-  
-}
-  
-
-template class ReplicatedXCIntegratorImpl<double>;
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/shell_batched/CMakeLists.txt
deleted file mode 100644
index 771124a..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/CMakeLists.txt
+++ /dev/null
@@ -1,16 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE shell_batched_xc_integrator.cxx )
-target_include_directories( gauxc
-  PUBLIC
-    $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-)
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator.hpp
deleted file mode 100644
index 41419b8..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator.hpp
+++ /dev/null
@@ -1,164 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/gauxc_config.hpp>
-#include "shell_batched_xc_integrator.hpp"
-#ifdef GAUXC_HAS_DEVICE
-#include "device/xc_device_data.hpp"
-#endif
-
-namespace GauXC {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-class ShellBatchedReplicatedXCIntegrator : 
-  public BaseIntegratorType,
-  public ShellBatchedXCIntegratorBase {
-
-  using base_type  = BaseIntegratorType;
-
-public:
-
-  using value_type = typename base_type::value_type;
-  using basis_type = typename base_type::basis_type;
-
-  using host_task_container = std::vector<XCTask>;
-  using host_task_iterator  = typename host_task_container::iterator;
-
-protected:
-
-#ifdef GAUXC_HAS_DEVICE
-  std::unique_ptr<XCDeviceData> device_data_ptr_;
-#endif
-
-  using incore_integrator_type = IncoreIntegratorType;
-  using incore_task_data = ShellBatchedXCIntegratorBase::incore_task_data;
-
-  // Density Integration 
-  void integrate_den_( int64_t m, int64_t n, const value_type* P, int64_t ldp, value_type* N_EL ) override;
-
-  /// RKS EXC
-  void eval_exc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// UKS EXC
-  void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                  const value_type* Pz, int64_t ldpz,
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// GKS EXC - also serves as the generic implementation
-  void eval_exc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                  const value_type* Pz, int64_t ldpz,
-                  const value_type* Py, int64_t ldpy,
-                  const value_type* Px, int64_t ldpx,
-                  value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// RKS EXC/VXC
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                      value_type* VXC, int64_t ldvxc, value_type* EXC, 
-                      const IntegratorSettingsXC& ks_settings ) override;
-
-  /// UKS EXC/VXC
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  /// GKS EXC/VXC - also serves as the generic implementation
-  void eval_exc_vxc_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      const value_type* Py, int64_t ldpy,
-                      const value_type* Px, int64_t ldpx,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* VXCy, int64_t ldvxcy,
-                      value_type* VXCx, int64_t ldvxcx,
-                      value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-
-  void eval_exc_vxc_onedft_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps,
-                     const value_type* Pz, int64_t ldpz, value_type* VXCs, int64_t ldvxcs,
-                     value_type* VXCz, int64_t ldvxcz, value_type* EXC, const IntegratorSettingsXC& ks_settings ) override;
-                     
-  /// RKS EXC Gradient
-  void eval_exc_grad_( int64_t m, int64_t n, const value_type* P, int64_t ldp, 
-                       value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) override;
-  /// UKS EXC Gradient
-  void eval_exc_grad_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                       const value_type* Pz, int64_t ldpz, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) override;
-
-  /// sn-LinK
-  void eval_exx_( int64_t m, int64_t n, const value_type* P,
-                  int64_t ldp, value_type* K, int64_t ldk,
-                  const IntegratorSettingsEXX& settings ) override;
-
-  // RKS FXC contraction
-  void eval_fxc_contraction_( int64_t m, int64_t n, 
-                              const value_type* P, int64_t ldp,  
-                              const value_type* tP, int64_t ldtp,
-                              value_type* FXC, int64_t ldfxc,
-                              const IntegratorSettingsXC& ks_settings ) override;
-
-  // UKS FXC contraction
-  void eval_fxc_contraction_( int64_t m, int64_t n, 
-                              const value_type* Ps, int64_t ldps,   
-                              const value_type* Pz, int64_t ldpz,
-                              const value_type* tPs, int64_t ldtps,
-                              const value_type* tPz, int64_t ldtpz,
-                              value_type* FXCs, int64_t ldfxcs,
-                              value_type* FXCz, int64_t ldfxcz,
-                              const IntegratorSettingsXC& ks_settings ) override;
-
-  /// ddX PSi 
-  void eval_dd_psi_( int64_t m, int64_t n, const value_type* P,
-                     int64_t ldp, unsigned max_Ylm, value_type* ddPsi, int64_t ldPsi ) override;
-
-  /// ddX PhiX
-  void eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm, value_type* Vddx ) override;
-
-
-  // Implementation details of exc_vxc (for RKS/UKS/GKS deduced from input character)
-  void exc_vxc_local_work_( const basis_type& basis, const value_type* Ps, int64_t ldps,
-                            const value_type* Pz, int64_t ldpz,
-                            const value_type* Py, int64_t ldpy,
-                            const value_type* Px, int64_t ldpx,
-                            value_type* VXCs, int64_t ldvxcs,
-                            value_type* VXCz, int64_t ldvxcz,
-                            value_type* VXCy, int64_t ldvxcy,
-                            value_type* VXCx, int64_t ldvxcx,
-                            value_type* EXC, value_type *N_EL,
-                            host_task_iterator task_begin, host_task_iterator task_end, incore_integrator_type& incore_integrator
-                             );
-
-
-  void execute_task_batch( incore_task_data& task, const basis_type& basis, const Molecule& mol, 
-                           const value_type* Ps, int64_t ldps,
-                           const value_type* Pz, int64_t ldpz,
-                           const value_type* Py, int64_t ldpy,
-                           const value_type* Px, int64_t ldpx,
-                           value_type* VXCs, int64_t ldvxcs,
-                           value_type* VXCz, int64_t ldvxcz,
-                           value_type* VXCy, int64_t ldvxcy,
-                           value_type* VXCx, int64_t ldvxcx,
-                           value_type* EXC, value_type* N_EL, incore_integrator_type& incore_integrator);
-public:
-
-  template <typename... Args>
-  ShellBatchedReplicatedXCIntegrator( Args&&... args ) :
-    base_type( std::forward<Args>(args)... ) { }
-
-  virtual ~ShellBatchedReplicatedXCIntegrator() noexcept = default;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_dd_psi.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_dd_psi.hpp
deleted file mode 100644
index d54a7c9..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_dd_psi.hpp
+++ /dev/null
@@ -1,42 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_dd_psi_( int64_t m, int64_t n, const value_type* P,
-                int64_t ldp, unsigned max_Ylm, 
-                value_type* ddPsi, int64_t ldPsi ) {
-  GAUXC_GENERIC_EXCEPTION("ShellBatched DD-PSI NYI");                 
-  util::unused(m,n,P,ldp, max_Ylm, ddPsi,ldPsi);
-}
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_vxc_onedft_( 
-    int64_t m, int64_t n, 
-    const value_type* Ps, int64_t ldps,
-    const value_type* Pz, int64_t ldpz,
-    value_type* VXCs, int64_t ldvxcs,
-    value_type* VXCz, int64_t ldvxcz,
-    value_type* EXC, const IntegratorSettingsXC& ks_settings ) {
-    GAUXC_GENERIC_EXCEPTION("ShellBatched 1DFT NYI");
-    util::unused(m,n,Ps,ldps,Pz,ldpz,VXCs,ldvxcs,VXCz,ldvxcz,EXC,ks_settings);
-  }
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_dd_psi_potential.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_dd_psi_potential.hpp
deleted file mode 100644
index 639508b..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_dd_psi_potential.hpp
+++ /dev/null
@@ -1,28 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_dd_psi_potential_( int64_t m, int64_t n, const value_type* X, unsigned max_Ylm, value_type* Vddx ) {
-  GAUXC_GENERIC_EXCEPTION("ShellBatched DD-PSI-DERIV NYI");                 
-  util::unused(m,n,X,max_Ylm, Vddx);
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc.hpp
deleted file mode 100644
index 2a5565c..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc.hpp
+++ /dev/null
@@ -1,137 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#ifdef GAUXC_HAS_DEVICE
-#include "device/local_device_work_driver.hpp"
-#include "device/xc_device_aos_data.hpp"
-#endif
-#include "integrator_util/integrator_common.hpp"
-#include "host/util.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-#include <stdexcept>
-#include <fstream>
-#include <queue>
-#include <mutex>
-#include <future>
-#include <set>
-
-namespace GauXC  {
-namespace detail {
-
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_( int64_t m, int64_t n, 
-             const value_type* Ps, int64_t ldps,
-             const value_type* Pz, int64_t ldpz,
-             const value_type* Py, int64_t ldpy,
-             const value_type* Px, int64_t ldpx,
-             value_type* EXC, const IntegratorSettingsXC& /*ks_settings*/) {
-
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n )
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Be Square");
-  if( m != nbf )
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Have Same Dimension as Basis");
-
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPS");
-  if( ldpz and ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-  if( ldpy and ldpy < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPX");
-  if( ldpx and ldpx < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPY");
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  #ifdef GAUXC_HAS_DEVICE
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  if constexpr (IncoreIntegratorType::is_device) {
-    device_data_ptr_ = 
-      this->timer_.time_op("XCIntegrator.DeviceAlloc",
-        [&](){ return lwd->create_device_data(rt); });
-  }
-  #endif
-
-  // Generate incore integrator instance, transfer ownership of LWD
-  incore_integrator_type incore_integrator( this->func_, this->load_balancer_,
-    this->release_local_work_driver(), this->reduction_driver_ );
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-
-  // Compute local contributions to EXC/VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx,
-      nullptr, 0, nullptr, 0, nullptr, 0, nullptr, 0, EXC, 
-      &N_EL, tasks.begin(), tasks.end(), incore_integrator );
-  });
-
-  // Release ownership of LWD back to this integrator instance
-  this->local_work_driver_ = std::move( incore_integrator.release_local_work_driver() );
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( EXC,   1    , ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-  });
-
-  #ifdef GAUXC_HAS_DEVICE
-  device_data_ptr_.reset();
-  #endif
-
-}
-
-
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_( int64_t m, int64_t n, 
-             const value_type* Ps, int64_t ldps,
-             const value_type* Pz, int64_t ldpz,
-             value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-  eval_exc_(m, n, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0,
-    EXC, ks_settings);
-
-}
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_( int64_t m, int64_t n, 
-             const value_type* P, int64_t ldp,
-             value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-  eval_exc_(m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0,
-    EXC, ks_settings);
-
-}
-
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc_grad.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc_grad.hpp
deleted file mode 100644
index f329bc0..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc_grad.hpp
+++ /dev/null
@@ -1,38 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_grad_( int64_t m, int64_t n, const value_type* P, int64_t ldp, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) { 
-                 
-  GAUXC_GENERIC_EXCEPTION("ShellBatched exc_grad NYI" );                 
-  util::unused(m,n,P,ldp,EXC_GRAD);
-}
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_grad_( int64_t m, int64_t n, const value_type* Ps, int64_t ldps, 
-                  const value_type* Pz, int64_t lpdz, value_type* EXC_GRAD, const IntegratorSettingsXC& settings ) { 
-                 
-  GAUXC_GENERIC_EXCEPTION("ShellBatched exc_grad NYI" );                 
-  util::unused(m,n,Ps,ldps,Pz,lpdz,EXC_GRAD);
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc_vxc.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc_vxc.hpp
deleted file mode 100644
index 3dd43f4..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exc_vxc.hpp
+++ /dev/null
@@ -1,447 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#ifdef GAUXC_HAS_DEVICE
-#include "device/local_device_work_driver.hpp"
-#include "device/xc_device_aos_data.hpp"
-#endif
-#include "integrator_util/integrator_common.hpp"
-#include "host/util.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-#include <stdexcept>
-#include <fstream>
-#include <queue>
-#include <mutex>
-#include <future>
-#include <set>
-
-namespace GauXC  {
-namespace detail {
-
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_vxc_( int64_t m, int64_t n, 
-                 const value_type* Ps, int64_t ldps,
-                 const value_type* Pz, int64_t ldpz,
-                 const value_type* Py, int64_t ldpy,
-                 const value_type* Px, int64_t ldpx,
-                 value_type* VXCs, int64_t ldvxcs,
-                 value_type* VXCz, int64_t ldvxcz,
-                 value_type* VXCy, int64_t ldvxcy,
-                 value_type* VXCx, int64_t ldvxcx,
-                 value_type* EXC, const IntegratorSettingsXC& /*ks_settings*/) {
-
-
-  const auto& basis = this->load_balancer_->basis();
-
-  // Check that P / VXC are sane
-  const int64_t nbf = basis.nbf();
-  if( m != n )
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Be Square");
-  if( m != nbf )
-    GAUXC_GENERIC_EXCEPTION("P/VXC Must Have Same Dimension as Basis");
-
-  if( ldps < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPS");
-  if( ldpz and ldpz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPZ");
-  if( ldpy and ldpy < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPX");
-  if( ldpx and ldpx < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDPY");
-
-  if( ldvxcs < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCS");
-  if( ldvxcz and ldvxcz < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCZ");
-  if( ldvxcy and ldvxcy < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCX");
-  if( ldvxcx and ldvxcx < nbf )
-    GAUXC_GENERIC_EXCEPTION("Invalid LDVXCY");
-
-
-  // Get Tasks
-  auto& tasks = this->load_balancer_->get_tasks();
-
-  #ifdef GAUXC_HAS_DEVICE
-  // Allocate Device memory
-  auto* lwd = dynamic_cast<LocalDeviceWorkDriver*>(this->local_work_driver_.get() );
-  auto rt  = detail::as_device_runtime(this->load_balancer_->runtime());
-  if constexpr (IncoreIntegratorType::is_device) {
-    device_data_ptr_ = 
-      this->timer_.time_op("XCIntegrator.DeviceAlloc",
-        [&](){ return lwd->create_device_data(rt); });
-  }
-  #endif
-
-  // Generate incore integrator instance, transfer ownership of LWD
-  incore_integrator_type incore_integrator( this->func_, this->load_balancer_,
-    this->release_local_work_driver(), this->reduction_driver_ );
-
-  // Temporary electron count to judge integrator accuracy
-  value_type N_EL;
-
-  // Compute local contributions to EXC/VXC
-  this->timer_.time_op("XCIntegrator.LocalWork", [&](){
-    exc_vxc_local_work_( basis, Ps, ldps, Pz, ldpz, Py, ldpy, Px, ldpx,
-      VXCs, ldvxcs, VXCz, ldvxcz, VXCy, ldvxcy, VXCx, ldvxcx, EXC, 
-      &N_EL, tasks.begin(), tasks.end(), incore_integrator );
-  });
-
-  // Release ownership of LWD back to this integrator instance
-  this->local_work_driver_ = std::move( incore_integrator.release_local_work_driver() );
-
-
-  // Reduce Results
-  this->timer_.time_op("XCIntegrator.Allreduce", [&](){
-    if( not this->reduction_driver_->takes_host_memory() )
-      GAUXC_GENERIC_EXCEPTION("This Module Only Works With Host Reductions");
-
-    this->reduction_driver_->allreduce_inplace( VXCs, nbf*nbf, ReductionOp::Sum );
-    if(VXCz) this->reduction_driver_->allreduce_inplace( VXCz, nbf*nbf, ReductionOp::Sum );
-    if(VXCy) this->reduction_driver_->allreduce_inplace( VXCy, nbf*nbf, ReductionOp::Sum ); 
-    if(VXCx) this->reduction_driver_->allreduce_inplace( VXCx, nbf*nbf, ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( EXC,   1    , ReductionOp::Sum );
-    this->reduction_driver_->allreduce_inplace( &N_EL, 1    , ReductionOp::Sum );
-  });
-
-  #ifdef GAUXC_HAS_DEVICE
-  device_data_ptr_.reset();
-  #endif
-
-}
-
-
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_vxc_( int64_t m, int64_t n, 
-                 const value_type* Ps, int64_t ldps,
-                 const value_type* Pz, int64_t ldpz,
-                 value_type* VXCs, int64_t ldvxcs,
-                 value_type* VXCz, int64_t ldvxcz,
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-  eval_exc_vxc_(m, n, Ps, ldps, Pz, ldpz, nullptr, 0, nullptr, 0,
-    VXCs, ldvxcs, VXCz, ldvxcz, nullptr, 0, nullptr, 0,
-    EXC, ks_settings);
-
-}
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exc_vxc_( int64_t m, int64_t n, 
-                 const value_type* P, int64_t ldp,
-                 value_type* VXC, int64_t ldvxc,
-                 value_type* EXC, const IntegratorSettingsXC& ks_settings) {
-
-  eval_exc_vxc_(m, n, P, ldp, nullptr, 0, nullptr, 0, nullptr, 0,
-    VXC, ldvxc, nullptr, 0, nullptr, 0, nullptr, 0, EXC, ks_settings);
-
-}
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  exc_vxc_local_work_( const basis_type& basis, 
-                       const value_type* Ps, int64_t ldps,
-                       const value_type* Pz, int64_t ldpz,
-                       const value_type* Py, int64_t ldpy,
-                       const value_type* Px, int64_t ldpx,
-                       value_type* VXCs, int64_t ldvxcs,
-                       value_type* VXCz, int64_t ldvxcz,
-                       value_type* VXCy, int64_t ldvxcy,
-                       value_type* VXCx, int64_t ldvxcx,
-                       value_type* EXC, value_type *N_EL, 
-                       host_task_iterator task_begin, host_task_iterator task_end,
-                       incore_integrator_type& incore_integrator ) {
-
-  //incore_integrator.exc_vxc_local_work( basis, P, ldp, VXC, ldvxc, EXC, N_EL, task_begin, task_end, device_data );
-  //return;
-
-
-  const auto     nbf = basis.nbf();
-  const uint32_t nbf_threshold = 8000;
-  const auto&    mol = this->load_balancer_->molecule();
-  // Zero out integrands on host
-  this->timer_.time_op("XCIntegrator.ZeroHost", [&](){
-    *EXC  = 0.;
-    *N_EL = 0.;
-    if(VXCs)
-    for( auto j = 0; j < nbf; ++j )
-    for( auto i = 0; i < nbf; ++i ) {
-      VXCs[i + j*ldvxcs] = 0.;
-    }
-    if(VXCz)
-    for( auto j = 0; j < nbf; ++j )
-    for( auto i = 0; i < nbf; ++i ) {
-      VXCz[i + j*ldvxcz] = 0.;
-    }
-    if(VXCy)
-    for( auto j = 0; j < nbf; ++j )
-    for( auto i = 0; i < nbf; ++i ) {
-      VXCy[i + j*ldvxcy] = 0.;
-    }
-    if(VXCx)
-    for( auto j = 0; j < nbf; ++j )
-    for( auto i = 0; i < nbf; ++i ) {
-      VXCx[i + j*ldvxcx] = 0.;
-    }
-  });
-
-
-  // Task queue
-  std::queue< incore_task_data > incore_task_data_queue;
-
-  // Task queue modification mutex
-  std::mutex queue_mod_ex;
-
-  // Lambda for the execution of incore tasks on the device
-  auto execute_incore_task = [&]() {
-
-    // Early return if there is no task to execute
-    if( incore_task_data_queue.empty() ) return;
-
-    incore_task_data next_task;
-    {
-      std::lock_guard<std::mutex> lock(queue_mod_ex);
-
-      // Move the next task into local scope and remove
-      // from queue
-      next_task = std::move( incore_task_data_queue.front() );
-      incore_task_data_queue.pop();
-    }
-
-    // Execute task
-    execute_task_batch( next_task, basis, mol, Ps, ldps, Pz, ldpz,
-      Py, ldpy, Px, ldpx, VXCs, ldvxcs, VXCz, ldvxcz, VXCy, ldvxcy,
-      VXCx, ldvxcx, EXC, N_EL, incore_integrator );
-  };
-
-
-  // Setup future to track execution of currently running
-  // device task
-  std::future<void> task_future;
-
-  auto task_it = task_begin;
-  while( task_it != task_end ) {
-
-    // Generate and enqueue task
-    incore_task_data_queue.emplace(
-      generate_incore_task( nbf_threshold, basis, task_it, task_end )
-    );
-
-    // Update iterator for next task generation
-    task_it = incore_task_data_queue.back().task_end;
-
-    if( not task_future.valid() ) {
-      // No device task to wait on
-      task_future = std::async( std::launch::async, execute_incore_task );
-    } else {
-      // Check the status of current device task
-      auto status = task_future.wait_for( std::chrono::milliseconds(5) );
-      if( status == std::future_status::ready ) {
-        // If the status is ready - execute the next task in queue
-        task_future.get();
-        task_future = std::async( std::launch::async, execute_incore_task ); 
-      }
-    }
-
-  } // Loop until all tasks have been enqued 
-
-  // TODO: Try to merge remaining tasks appropriately
-
-  // Execute remaining tasks sequentially
-  if( task_future.valid() ) {
-    task_future.wait();
-    task_future.get(); // Propagate trailing exceptions if present
-  }
-  while( not incore_task_data_queue.empty() ) {
-    execute_incore_task();
-  }
-}
-
-
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  execute_task_batch( incore_task_data& task, const basis_type& basis, const Molecule& mol, 
-                      const value_type* Ps, int64_t ldps,
-                      const value_type* Pz, int64_t ldpz,
-                      const value_type* Py, int64_t ldpy,
-                      const value_type* Px, int64_t ldpx,
-                      value_type* VXCs, int64_t ldvxcs,
-                      value_type* VXCz, int64_t ldvxcz,
-                      value_type* VXCy, int64_t ldvxcy,
-                      value_type* VXCx, int64_t ldvxcx,
-                      value_type* EXC, value_type *N_EL, 
-                      incore_integrator_type& incore_integrator ) {
-
-
-  // Alias information
-  auto task_begin  = task.task_begin;
-  auto task_end    = task.task_end;
-  auto& union_shell_list = task.shell_list;
-
-
-  // Extract subbasis
-  BasisSet<double> basis_subset; basis_subset.reserve(union_shell_list.size());
-  this->timer_.time_op_accumulate("XCIntegrator.CopySubBasis",[&]() {
-    for( auto i : union_shell_list ) {
-      basis_subset.emplace_back( basis.at(i) );
-    }
-  });
-
-  // Setup basis maps
-  BasisSetMap basis_map( basis, mol );
-
-  //const size_t nshells = basis_subset.nshells();
-  const size_t nbe     = basis_subset.nbf();
-  //std::cout << "TASK_UNION HAS:"   << std::endl
-  //          << "  NSHELLS    = " <<  nshells << std::endl
-  //          << "  NBE        = " <<  nbe     << std::endl;
-
-  // Recalculate shell_list based on subbasis
-  this->timer_.time_op_accumulate("XCIntegrator.RecalcShellList",[&]() {
-    for( auto _it = task_begin; _it != task_end; ++_it ) {
-      auto union_list_idx = 0;
-      auto& cur_shell_list = _it->bfn_screening.shell_list;
-      for( auto j = 0ul; j < cur_shell_list.size(); ++j ) {
-        while( union_shell_list[union_list_idx] != cur_shell_list[j] )
-          union_list_idx++;
-        cur_shell_list[j] = union_list_idx;
-      }
-    }
-  } );
-
-
-  // Allocate host temporaries
-  double EXC_tmp, NEL_tmp;
-  std::vector<double> Ps_submat_host(nbe*nbe); 
-  double* Ps_submat   = Ps_submat_host.data();
-  std::vector<double> VXCs_submat_host(VXCs ? nbe*nbe : 0); 
-  double* VXCs_submat = VXCs ? VXCs_submat_host.data() : nullptr;
-
-  std::vector<double> Pz_submat_host, Py_submat_host, Px_submat_host;
-  std::vector<double> VXCz_submat_host, VXCy_submat_host, VXCx_submat_host;
-  double *Pz_submat = nullptr, *Py_submat = nullptr, *Px_submat = nullptr;
-  double *VXCz_submat = nullptr, *VXCy_submat = nullptr , *VXCx_submat = nullptr;
-
-  if(Pz) {
-    Pz_submat_host.resize(nbe*nbe);
-    Pz_submat = Pz_submat_host.data();
-    if(VXCz) {
-      VXCz_submat_host.resize(nbe*nbe, 0.0);
-      VXCz_submat = VXCz_submat_host.data();
-    }
-  }
-
-  if(Py) {
-    Py_submat_host.resize(nbe*nbe);
-    Py_submat = Py_submat_host.data();
-    if(VXCy) {
-      VXCy_submat_host.resize(nbe*nbe, 0.0);
-      VXCy_submat = VXCy_submat_host.data();
-    }
-  }
-
-  if(Px) {
-    Px_submat_host.resize(nbe*nbe);
-    Px_submat = Px_submat_host.data();
-    if(VXCx) {
-      VXCx_submat_host.resize(nbe*nbe, 0.0);
-      VXCx_submat = VXCx_submat_host.data();
-    }
-  }
-
-
-  // Extract subdensity
-  std::vector<std::array<int32_t,3>> union_submat_cut;
-  std::vector<int32_t> foo;
-  std::tie(union_submat_cut,foo) = 
-    gen_compressed_submat_map( basis_map, union_shell_list, 
-      basis.nbf(), basis.nbf() );
-
-  this->timer_.time_op_accumulate("XCIntegrator.ExtractSubDensity",[&]() {
-    detail::submat_set( basis.nbf(), basis.nbf(), nbe, nbe, Ps, ldps, 
-                        Ps_submat, nbe, union_submat_cut );
-    if(Pz)
-    detail::submat_set( basis.nbf(), basis.nbf(), nbe, nbe, Pz, ldpz, 
-                        Pz_submat, nbe, union_submat_cut );
-
-    if(Py)
-    detail::submat_set( basis.nbf(), basis.nbf(), nbe, nbe, Py, ldpy, 
-                        Py_submat, nbe, union_submat_cut );
-
-    if(Px)
-    detail::submat_set( basis.nbf(), basis.nbf(), nbe, nbe, Px, ldpx, 
-                        Px_submat, nbe, union_submat_cut );
-  } );
-
-
-  // Process selected task batch
-#ifdef GAUXC_HAS_DEVICE
-  if constexpr (IncoreIntegratorType::is_device) {
-
-    incore_integrator.exc_vxc_local_work( basis_subset, Ps_submat, nbe, 
-      Pz_submat, nbe, Py_submat, nbe, Px_submat, nbe, VXCs_submat, nbe,
-      VXCz_submat, nbe, VXCy_submat, nbe, VXCx_submat, nbe,
-      &EXC_tmp, &NEL_tmp, task_begin, task_end, *device_data_ptr_ );
-  } else if constexpr (not IncoreIntegratorType::is_device) {
-#endif
-    incore_integrator.exc_vxc_local_work( basis_subset, Ps_submat, nbe, 
-      Pz_submat, nbe, Py_submat, nbe, Px_submat, nbe, VXCs_submat, nbe,
-      VXCz_submat, nbe, VXCy_submat, nbe, VXCx_submat, nbe,
-      &EXC_tmp, &NEL_tmp, IntegratorSettingsKS{}, task_begin, task_end );
-#ifdef GAUXC_HAS_DEVICE
-  }
-#endif
-
-
-  // Update full quantities
-  *EXC += EXC_tmp;
-  *N_EL += NEL_tmp;
-  this->timer_.time_op_accumulate("XCIntegrator.IncrementSubPotential",[&]() {
-    if(VXCs)
-    detail::inc_by_submat( basis.nbf(), basis.nbf(), nbe, nbe, VXCs, ldvxcs, 
-                           VXCs_submat, nbe, union_submat_cut );
-
-    if(VXCz)
-    detail::inc_by_submat( basis.nbf(), basis.nbf(), nbe, nbe, VXCz, ldvxcz, 
-                           VXCz_submat, nbe, union_submat_cut );
-
-    if(VXCy)
-    detail::inc_by_submat( basis.nbf(), basis.nbf(), nbe, nbe, VXCy, ldvxcy, 
-                           VXCy_submat, nbe, union_submat_cut );
-
-    if(VXCx)
-    detail::inc_by_submat( basis.nbf(), basis.nbf(), nbe, nbe, VXCx, ldvxcx, 
-                           VXCx_submat, nbe, union_submat_cut );
-  });
-
-
-  // Reset shell_list to be wrt full basis
-  this->timer_.time_op_accumulate("XCIntegrator.ResetShellList",[&]() {
-    for( auto _it = task_begin; _it != task_end; ++_it ) 
-    for( auto j = 0ul; j < _it->bfn_screening.shell_list.size();  ++j  ) {
-      _it->bfn_screening.shell_list[j] = union_shell_list[_it->bfn_screening.shell_list[j]];
-    }
-  });
-
-}
-
-}
-}
-
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exx.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exx.hpp
deleted file mode 100644
index e6e90f8..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_exx.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_exx_( int64_t m, int64_t n, const value_type* P,
-             int64_t ldp, value_type* K, int64_t ldk, 
-             const IntegratorSettingsEXX& settings ) { 
-  GAUXC_GENERIC_EXCEPTION("ShellBatched EXX NYI");                 
-  util::unused(m,n,P,ldp,K,ldk,settings);
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_fxc_contraction.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_fxc_contraction.hpp
deleted file mode 100644
index 289de96..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_fxc_contraction.hpp
+++ /dev/null
@@ -1,50 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_fxc_contraction_( int64_t m, int64_t n, 
-                        const value_type* P, int64_t ldp,  
-                        const value_type* tP, int64_t ldtp,
-                        value_type* FXC, int64_t ldfxc,
-                        const IntegratorSettingsXC& ks_settings ) {
-  GAUXC_GENERIC_EXCEPTION("ShellBatched FXC contraction NYI");            
-  util::unused(m,n,P,ldp,tP,ldtp,FXC,ldfxc,ks_settings);
-
-}
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  eval_fxc_contraction_( int64_t m, int64_t n, 
-                        const value_type* Ps, int64_t ldps,
-                        const value_type* Pz, int64_t ldpz,
-                        const value_type* tPs, int64_t ldtps,
-                        const value_type* tPz, int64_t ldtpz,
-                        value_type* FXCs, int64_t ldfxcs,
-                        value_type* FXCz, int64_t ldfxcz,
-                        const IntegratorSettingsXC& ks_settings ) {
-  GAUXC_GENERIC_EXCEPTION("ShellBatched FXC contraction NYI");            
-  util::unused(m,n,Ps,ldps,Pz,ldpz,tPs,ldtps,tPz,ldtpz,
-                 FXCs,ldfxcs,FXCz,ldfxcz);
-
-}
-
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_integrate_den.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_integrate_den.hpp
deleted file mode 100644
index e0a2450..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_replicated_xc_integrator_integrate_den.hpp
+++ /dev/null
@@ -1,30 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "shell_batched_replicated_xc_integrator.hpp"
-#include <gauxc/util/misc.hpp>
-#include <gauxc/util/unused.hpp>
-
-namespace GauXC  {
-namespace detail {
-
-template <typename BaseIntegratorType, typename IncoreIntegratorType>
-void ShellBatchedReplicatedXCIntegrator<BaseIntegratorType, IncoreIntegratorType>::
-  integrate_den_( int64_t m, int64_t n, const value_type* P,
-                 int64_t ldp, value_type* N_EL ) { 
-                 
-  GAUXC_GENERIC_EXCEPTION("ShellBatched integrate_den NYI" );                 
-  util::unused(m,n,P,ldp,N_EL);
-}
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_xc_integrator.cxx b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_xc_integrator.cxx
deleted file mode 100644
index 4d5a315..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_xc_integrator.cxx
+++ /dev/null
@@ -1,156 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-
-#include "shell_batched_xc_integrator.hpp"
-#include <set>
-#include <map>
-#include <algorithm>
-#include <numeric>
-#include <gauxc/util/misc.hpp>
-
-namespace GauXC::detail {
-
-ShellBatchedXCIntegratorBase::incore_task_data
-  ShellBatchedXCIntegratorBase::generate_incore_task( uint32_t nbf_threshold,
-    const basis_type& basis, host_task_iterator task_begin,
-    host_task_iterator task_end ) {
-
-  // Find task with largest NBE
-  auto nbe_comparator = []( const auto& task_a, const auto& task_b ) {
-    return task_a.bfn_screening.nbe < task_b.bfn_screening.nbe;
-  };
-  auto max_task = std::max_element( task_begin, task_end, nbe_comparator );
-
-  const auto max_shell_list = max_task->bfn_screening.shell_list; // copy for reset
-
-  // Init union shell list to max shell list outside of loop
-  std::set<int32_t> union_shell_set(max_shell_list.begin(), 
-                                    max_shell_list.end());
-
-
-  // Voodoo: once only Manwe and I knew what was happening here, now
-  // only Manwe knows
-  int n_overlap_pthresh     = 20;
-  double overlap_pthresh_delta = 1. / n_overlap_pthresh;
-  std::vector<double> overlap_pthresh;
-  for( int i = 1; i < n_overlap_pthresh; ++i )
-    overlap_pthresh.emplace_back( i*overlap_pthresh_delta );
-
-  std::vector<int> overlap_pthresh_idx( overlap_pthresh.size() );
-  std::iota( overlap_pthresh_idx.begin(), overlap_pthresh_idx.end(), 0 );
-
-  std::map<int, std::pair<host_task_iterator, decltype(union_shell_set)>> 
-    cached_task_ends;
-
-  int cur_partition_pthresh_idx = -1;
-
-  auto _it = std::partition_point( overlap_pthresh_idx.rbegin(), 
-                                   overlap_pthresh_idx.rend(), 
-  [&](int idx) {
-
-    uint32_t overlap_threshold = 
-      std::max(1., max_shell_list.size() * overlap_pthresh[idx] );
-
-
-    host_task_iterator search_st = task_begin;
-    host_task_iterator search_en = task_end;
-
-    // Make a local copy of union list
-    std::set<int32_t> local_union_shell_set;
-
-    // Attempt to limit task search based on current partition
-    if( cur_partition_pthresh_idx >= 0 ) {
-
-      const auto& last_pthresh = 
-        cached_task_ends.at(cur_partition_pthresh_idx);
-
-      if( cur_partition_pthresh_idx > idx ) {
-        search_st = last_pthresh.first;    
-        local_union_shell_set = last_pthresh.second;
-      } else {
-        search_en = last_pthresh.first;    
-        local_union_shell_set = union_shell_set;
-      }
-
-    } else {
-      local_union_shell_set = union_shell_set;
-    }
-
-
-    // Partition tasks into those which overlap max_task up to
-    // specified threshold
-    auto local_task_end = std::partition( search_st, search_en, 
-      [&](const auto& t) {
-        return util::integral_list_intersect( max_shell_list, 
-          t.bfn_screening.shell_list, overlap_threshold );
-      } );
-
-
-
-    // Take union of shell list for all overlapping tasks
-    for( auto task_it = search_st; task_it != local_task_end; ++task_it ) {
-      local_union_shell_set.insert( task_it->bfn_screening.shell_list.begin(), 
-                                    task_it->bfn_screening.shell_list.end() );
-    }
-
-    auto cur_nbe = basis.nbf_subset( local_union_shell_set.begin(), 
-                                     local_union_shell_set.end() );
-
-    //std::cout << "  Threshold %       = " << std::setw(5)  << overlap_pthresh[idx] << ", ";
-    //std::cout << "  Overlap Threshold = " << std::setw(8)  << overlap_threshold    << ", ";
-    //std::cout << "  Current NBE       = " << std::setw(8)  << cur_nbe              << std::endl;
-
-    // Cache the data
-    cached_task_ends[idx] = std::make_pair( local_task_end, local_union_shell_set );
-
-    // Update partitioned threshold
-    cur_partition_pthresh_idx = idx;
-
-    return (uint32_t)cur_nbe < nbf_threshold;
-
-  } );
-
-  host_task_iterator local_task_end;
-  auto _idx_partition = (_it == overlap_pthresh_idx.rend()) ? 0 : *_it;
-  std::tie( local_task_end, union_shell_set ) = 
-    cached_task_ends.at(_idx_partition);
-
-
-
-
-
-  //std::cout << "FOUND " << std::distance( task_begin, local_task_end ) 
-  //                      << " OVERLAPPING TASKS" << std::endl;
-
-
-  std::vector<int32_t> union_shell_list( union_shell_set.begin(),
-                                         union_shell_set.end() );
-
-  // Try to add additional tasks given current union list
-  local_task_end = std::partition( local_task_end, task_end, 
-    [&]( const auto& t ) {
-      return util::list_subset( union_shell_list, t.bfn_screening.shell_list );
-    } );
-
-  //std::cout << "FOUND " << std::distance( task_begin, local_task_end ) 
-  //                      << " SUBTASKS" << std::endl;
-
-
-  incore_task_data ex_task;
-  ex_task.task_begin = task_begin;
-  ex_task.task_end   = local_task_end;
-  ex_task.shell_list = std::move( union_shell_list );
-
-  return ex_task;
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_xc_integrator.hpp b/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_xc_integrator.hpp
deleted file mode 100644
index c528e06..0000000
--- a/third_party/gauxc/src/xc_integrator/shell_batched/shell_batched_xc_integrator.hpp
+++ /dev/null
@@ -1,42 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/basisset.hpp>
-#include <gauxc/xc_task.hpp>
-
-namespace GauXC {
-namespace detail {
-
-struct ShellBatchedXCIntegratorBase {
-
-  using basis_type = BasisSet<double>;
-
-  using host_task_container = std::vector<XCTask>;
-  using host_task_iterator  = typename host_task_container::iterator;
-
-  // Struct to manage data associated with task subset to execute in batch
-  struct incore_task_data {
-    host_task_iterator   task_begin;
-    host_task_iterator   task_end;
-    std::vector<int32_t> shell_list;
-  };
-
-  incore_task_data generate_incore_task( 
-    uint32_t nbf_threshold, const basis_type& basis,
-    host_task_iterator task_begin, host_task_iterator task_end );
-
-  virtual ~ShellBatchedXCIntegratorBase() noexcept = default;
-
-};
-
-}
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/xc_data/CMakeLists.txt
deleted file mode 100644
index f06826e..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/CMakeLists.txt
+++ /dev/null
@@ -1,18 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-if(GAUXC_HAS_DEVICE)
-  add_subdirectory( device )
-  target_include_directories( gauxc
-    PUBLIC
-      $<BUILD_INTERFACE:${CMAKE_CURRENT_LIST_DIR}>
-  )
-endif()
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/buffer_adaptor.hpp b/third_party/gauxc/src/xc_integrator/xc_data/buffer_adaptor.hpp
deleted file mode 100644
index 741aaae..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/buffer_adaptor.hpp
+++ /dev/null
@@ -1,88 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <memory>
-#include <gauxc/exceptions.hpp>
-
-//#define csl __PRETTY_FUNCTION__
-#define csl std::string(__FILE__) + ": " + std::to_string(__LINE__)
-
-namespace GauXC {
-
-template <typename T>
-struct buffer {
-  T*     ptr = nullptr;
-  size_t length = 0;
-  size_t alignment = 0;
-
-  operator T*() { return ptr; }
-  //buffer( nullptr_t ) : ptr(nullptr), len(0), alignment(0) { }
-};
-
-class buffer_adaptor {
-
-  //size_t nalloc_;
-  size_t nleft_;
-  //void*  top_;
-  void*  stack_;
-
-public:
-
-  buffer_adaptor() = delete;
-
-  inline buffer_adaptor( void* ptr, size_t len ) :
-    //nalloc_(len), 
-    nleft_(len), 
-    //top_(ptr), 
-    stack_(ptr) { }
-
-  template <typename T>
-  buffer<T> aligned_alloc( size_t len, 
-                           size_t align = alignof(T),
-                           std::string msg = "" ) {
-
-    if(len == 0ul) return buffer<T>{nullptr, 0, align};
-
-    char* old_stack = (char*)stack_;
-    if( std::align( align, 
-                    len*sizeof(T), 
-                    stack_, 
-                    nleft_          ) ) {
-
-      T* result = reinterpret_cast<T*>(stack_);
-      stack_ = (char*)stack_ + len*sizeof(T);
-      nleft_ -= std::distance( old_stack, 
-                               (char*)stack_ );
-      //return result;
-      return buffer<T>{result, len, align};
-
-    }
-
-    GAUXC_GENERIC_EXCEPTION("device std::bad_alloc " + msg 
-      + " nalloc = " + std::to_string(len*sizeof(T)) 
-      + " nleft = " +std::to_string(nleft_));
-
-  }
-
-  template <typename T>
-  auto aligned_alloc( size_t len, std::string msg ) {
-    return aligned_alloc<T>( len, alignof(T), msg );
-  }
-
-
-  inline void* stack() const {return stack_;}
-  inline size_t nleft() const { return nleft_; }
-
-};
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/CMakeLists.txt b/third_party/gauxc/src/xc_integrator/xc_data/device/CMakeLists.txt
deleted file mode 100644
index 571a7cf..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/CMakeLists.txt
+++ /dev/null
@@ -1,12 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-target_sources( gauxc PRIVATE xc_device_stack_data.cxx xc_device_aos_data.cxx )
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_aos_data.cxx b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_aos_data.cxx
deleted file mode 100644
index 2e04384..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_aos_data.cxx
+++ /dev/null
@@ -1,1122 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "xc_device_aos_data.hpp"
-#include "buffer_adaptor.hpp"
-#include "integrator_util/integrator_common.hpp"
-#include <gauxc/exceptions.hpp>
-
-namespace GauXC {
-
-void XCDeviceAoSData::reset_allocations() {
-  XCDeviceStackData::reset_allocations(); // Base implementation
-  aos_stack.reset();
-}
-
-size_t XCDeviceAoSData::get_mem_req( integrator_term_tracker terms,
-  const host_task_type& task ) {
-
-  size_t base_size = XCDeviceStackData::get_mem_req(terms, task);
-
-  required_term_storage reqt(terms);
-
-  const auto& points           = task.points;
-  const auto& submat_cut_bfn   = task.bfn_screening.submat_map;
-  const auto& submat_block_bfn = task.bfn_screening.submat_block;
-  if( reqt.task_submat_cut_bfn and 
-    (!submat_cut_bfn.size() or !submat_block_bfn.size()) 
-  )
-    GAUXC_GENERIC_EXCEPTION("Must Populate Bfn Submat Maps");
-
-  const auto& submat_cut_cou   = task.cou_screening.submat_map;
-  const auto& submat_block_cou = task.cou_screening.submat_block;
-  if( reqt.task_submat_cut_cou and  
-    (!submat_cut_cou.size() or !submat_block_cou.size()) 
-  )
-    GAUXC_GENERIC_EXCEPTION("Must Populate Cou Submat Maps");
-
-  // Dimensions
-  const size_t npts         = points.size();
-  const size_t nbe_bfn      = task.bfn_screening.nbe;
-  const size_t ncut_bfn     = submat_cut_bfn.size();
-  const size_t nblock_bfn   = submat_block_bfn.size();
-
-  const size_t nbe_cou      = task.cou_screening.nbe;
-  const size_t ncut_cou     = submat_cut_cou.size();
-  const size_t nblock_cou   = submat_block_cou.size();
-
-  return base_size + 
-    // Collocation + Derivatives
-    reqt.task_bfn_size     ( nbe_bfn, npts )    * sizeof(double) +
-    reqt.task_bfn_grad_size( nbe_bfn, npts )    * sizeof(double) +
-    reqt.task_bfn_hess_size( nbe_bfn, npts )    * sizeof(double) +
-    reqt.task_bfn_lapl_size( nbe_bfn, npts )    * sizeof(double) +
-    reqt.task_bfn_lapgrad_size( nbe_bfn, npts ) * sizeof(double) +
-
-    // LDA/GGA Z Matrix
-    reqt.task_zmat_size( nbe_bfn, npts ) * sizeof(double) +
-
-    // X Matrix Gradient
-    reqt.task_xmat_grad_size( nbe_bfn, npts ) * sizeof(double) +
-
-    // Persistent X Mat
-    reqt.task_xmat_persist_size( nbe_bfn, npts ) * sizeof(double) +
-
-    // EXX Intermediates
-    reqt.task_fmat_size( nbe_cou, npts ) * sizeof(double) +
-    reqt.task_gmat_size( nbe_cou, npts ) * sizeof(double) +
-
-    // NBE Scratch
-    reqt.task_nbe_scr_size(nbe_bfn, nbe_cou) * sizeof(double) +
-
-    // Index Packing (bfn)
-    reqt.task_submat_cut_bfn_size( ncut_bfn )     * sizeof(int32_t) +
-    reqt.task_submat_block_bfn_size( nblock_bfn ) * sizeof(int32_t) +
-
-    // Index Packing (cou)
-    reqt.task_submat_cut_cou_size( ncut_cou )     * sizeof(int32_t) +
-    reqt.task_submat_block_cou_size( nblock_cou ) * sizeof(int32_t) +
-
-    // Map from packed to unpacked indices
-    reqt.task_bfn_shell_indirection_size( nbe_bfn ) * sizeof(int32_t) +
-  
-    // Memory associated with task indirection: valid for both AoS and SoA
-    reqt.task_indirection_size() * sizeof(XCDeviceTask);
-}
-
-
-
-
-
-XCDeviceAoSData::device_buffer_t XCDeviceAoSData::allocate_dynamic_stack( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end, 
-  device_buffer_t buf ) {
-
-  // Allocate base info in the stack
-  buf = XCDeviceStackData::allocate_dynamic_stack( terms, task_begin, task_end, 
-    buf );
-
-
-  required_term_storage reqt(terms);
-
-  // Current Stack
-  auto [ ptr, sz ] = buf;
-  buffer_adaptor mem( ptr, sz );
-
-  // Get dimensions
-  total_nbe_scr_task_batch   = 0;
-  total_nbe_bfn_task_batch   = 0;
-
-  total_nbe_bfn_npts_task_batch = 0; 
-  total_ncut_bfn_task_batch     = 0; 
-  total_nblock_bfn_task_batch   = 0; 
-
-  total_nbe_cou_npts_task_batch = 0; 
-  total_ncut_cou_task_batch     = 0; 
-  total_nblock_cou_task_batch   = 0; 
-  for( auto it = task_begin; it != task_end; ++it ) {
-
-    const auto& points           = it->points;
-    const auto& submat_cut_bfn   = it->bfn_screening.submat_map;
-    const auto& submat_block_bfn = it->bfn_screening.submat_block;
-    if( reqt.task_submat_cut_bfn and 
-      (!submat_cut_bfn.size() or !submat_block_bfn.size()) 
-    )
-      GAUXC_GENERIC_EXCEPTION("Must Populate Bfn Submat Maps");
-
-    const auto& submat_cut_cou   = it->cou_screening.submat_map;
-    const auto& submat_block_cou = it->cou_screening.submat_block;
-    if( reqt.task_submat_cut_cou and  
-      (!submat_cut_cou.size() or !submat_block_cou.size()) 
-    )
-      GAUXC_GENERIC_EXCEPTION("Must Populate Cou Submat Maps");
-
-    const size_t npts        = points.size();
-
-    const size_t ncut_bfn    = submat_cut_bfn.size();
-    const size_t nblock_bfn  = submat_block_bfn.size();
-    const auto nbe_bfn       = it->bfn_screening.nbe;
-
-    const size_t ncut_cou    = submat_cut_cou.size();
-    const size_t nblock_cou  = submat_block_cou.size();
-    const auto nbe_cou       = it->cou_screening.nbe;
-
-    total_nbe_bfn_task_batch += nbe_bfn;
-
-    total_nbe_scr_task_batch += reqt.task_nbe_scr_size(nbe_bfn, nbe_cou);
-
-    total_nbe_bfn_npts_task_batch += reqt.task_bfn_size(nbe_bfn, npts);
-    total_ncut_bfn_task_batch   += reqt.task_submat_cut_bfn_size(ncut_bfn);
-    total_nblock_bfn_task_batch += reqt.task_submat_block_bfn_size(nblock_bfn);
-
-    total_nbe_cou_npts_task_batch += reqt.task_fmat_size(nbe_cou, npts);
-    total_ncut_cou_task_batch   += reqt.task_submat_cut_cou_size(ncut_cou);
-    total_nblock_cou_task_batch += reqt.task_submat_block_cou_size(nblock_cou);
-
-  }
-  
-  // Device task indirection
-  if(reqt.task_indirection) {
-    const size_t ntask = std::distance( task_begin, task_end );
-    aos_stack.device_tasks = mem.aligned_alloc<XCDeviceTask>( ntask, csl );
-  }
-  // Map packed to unpacked indices
-  if(reqt.task_bfn_shell_indirection) {
-    aos_stack.bfn_shell_indirection_device =
-      mem.aligned_alloc<int32_t>( total_nbe_bfn_task_batch, csl );
-  }
-  // Collocation + derivatives 
-  const size_t bfn_msz = total_nbe_bfn_npts_task_batch;
-  if(reqt.task_bfn) {
-    aos_stack.bf_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-  }
-
-  if(reqt.task_bfn_grad) {
-    aos_stack.dbf_x_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.dbf_y_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.dbf_z_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-  }
-
-  if(reqt.task_bfn_hess) {
-    aos_stack.d2bf_xx_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d2bf_xy_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d2bf_xz_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d2bf_yy_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d2bf_yz_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d2bf_zz_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-  }
-
-  if(reqt.task_bfn_lapl) {
-    aos_stack.d2bf_lapl_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-  }
-
-  if(reqt.task_bfn_lapgrad) {
-    aos_stack.d3bf_lapgrad_x_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d3bf_lapgrad_y_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-    aos_stack.d3bf_lapgrad_z_eval_device = mem.aligned_alloc<double>( bfn_msz, csl );
-  }
-
-  // VXC Z Matrix
-  if(reqt.task_zmat) {
-    aos_stack.zmat_vxc_device = 
-      mem.aligned_alloc<double>( bfn_msz, csl);
-  }
-  // X Matrix Gradient (for GGA EXC Gradient)
-  if(reqt.task_xmat_grad) {
-    aos_stack.xmat_dx_device = mem.aligned_alloc<double>( bfn_msz, csl);
-    aos_stack.xmat_dy_device = mem.aligned_alloc<double>( bfn_msz, csl);
-    aos_stack.xmat_dz_device = mem.aligned_alloc<double>( bfn_msz, csl);
-  }
-
-  // Persistent X Matrix Gradient
-  if(reqt.task_xmat_persist) {
-    aos_stack.xmatS_device    = mem.aligned_alloc<double>( bfn_msz, csl);
-    aos_stack.xmatZ_device    = mem.aligned_alloc<double>( bfn_msz, csl);
-    if(reqt.task_xmat_grad) { 
-      aos_stack.xmatS_dx_device = mem.aligned_alloc<double>( bfn_msz, csl);
-      aos_stack.xmatS_dy_device = mem.aligned_alloc<double>( bfn_msz, csl);
-      aos_stack.xmatS_dz_device = mem.aligned_alloc<double>( bfn_msz, csl);
-      aos_stack.xmatZ_dx_device = mem.aligned_alloc<double>( bfn_msz, csl);
-      aos_stack.xmatZ_dy_device = mem.aligned_alloc<double>( bfn_msz, csl);
-      aos_stack.xmatZ_dz_device = mem.aligned_alloc<double>( bfn_msz, csl);
-    }
-  }
-
-  // EXX Intermediates
-  if(reqt.task_fmat) {
-    aos_stack.fmat_exx_device = 
-      mem.aligned_alloc<double>(total_nbe_cou_npts_task_batch, csl);
-  }
-  if(reqt.task_gmat) {
-    aos_stack.gmat_exx_device = 
-      mem.aligned_alloc<double>(total_nbe_cou_npts_task_batch, csl);
-  }
-
-  // Scratch buffer
-  if(reqt.task_nbe_scr) {
-    aos_stack.nbe_scr_device = 
-      mem.aligned_alloc<double>( total_nbe_scr_task_batch, csl);
-  }
-
-  // Shell index buffers (bfn)
-  if(reqt.task_submat_cut_bfn) {
-    aos_stack.submat_cut_bfn_device = 
-      mem.aligned_alloc<int32_t>(total_ncut_bfn_task_batch, csl);
-  }
-  if(reqt.task_submat_block_bfn) {
-    aos_stack.submat_block_bfn_device = 
-      mem.aligned_alloc<int32_t>(total_nblock_bfn_task_batch, csl);
-  }
-
-  // Shell index buffers (cou)
-  if(reqt.task_submat_cut_cou) {
-    aos_stack.submat_cut_cou_device = 
-      mem.aligned_alloc<int32_t>(total_ncut_cou_task_batch, csl);
-  }
-  if(reqt.task_submat_block_cou) {
-    aos_stack.submat_block_cou_device = 
-      mem.aligned_alloc<int32_t>(total_nblock_cou_task_batch, csl);
-  }
-
-  // Update dynmem data for derived impls
-  return device_buffer_t{ mem.stack(), mem.nleft() };
-}
-
-
-void XCDeviceAoSData::pack_and_send( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end,
-  const BasisSetMap& basis_map ) {
-
-
-  // Pack and send base data
-  XCDeviceStackData::pack_and_send( terms, task_begin, task_end, basis_map );
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  required_term_storage reqt(terms);
-
-  // Reset AoS
-  host_device_tasks.clear();
-
-  // Host Packing Arrays
-  std::vector< std::array<int32_t, 3> > submat_cut_bfn_pack;
-  std::vector< int32_t > submat_block_bfn_pack;
-
-  std::vector< std::array<int32_t, 3> > submat_cut_cou_pack;
-  std::vector< int32_t > submat_block_cou_pack;
-
-  std::vector<int32_t> bfn_shell_indirection_pack;
-  bfn_shell_indirection_pack.reserve(total_nbe_bfn_task_batch);
-
-
-  // Contatenation utility
-  auto concat_iterable = []( auto& a, const auto& b ) {
-    a.insert( a.end(), b.begin(), b.end() );
-  };
-
-  // Pack AoS data and construct indirections
-  for( auto it = task_begin; it != task_end; ++it ) {
-
-    const auto  iAtom            = it->iParent;
-    const auto& points           = it->points;
-    const auto dist_nearest      = it->dist_nearest;
-
-    const auto& submat_cut_bfn   = it->bfn_screening.submat_map;
-    const auto& submat_block_bfn = it->bfn_screening.submat_block;
-    if( reqt.task_submat_cut_bfn and 
-      (!submat_cut_bfn.size() or !submat_block_bfn.size()) 
-    )
-      GAUXC_GENERIC_EXCEPTION("Must Populate Bfn Submat Maps");
-
-    const auto& submat_cut_cou   = it->cou_screening.submat_map;
-    const auto& submat_block_cou = it->cou_screening.submat_block;
-    if( reqt.task_submat_cut_cou and  
-      (!submat_cut_cou.size() or !submat_block_cou.size()) 
-    )
-      GAUXC_GENERIC_EXCEPTION("Must Populate Cou Submat Maps");
-
-    // Dimensions
-    const size_t npts         = points.size();
-
-    const size_t ncut_bfn     = submat_cut_bfn.size();
-    const size_t nblock_bfn   = submat_block_bfn.size();
-    const size_t nshells_bfn  = it->bfn_screening.shell_list.size();
-    const auto nbe_bfn        = it->bfn_screening.nbe;
-
-    const size_t ncut_cou     = submat_cut_cou.size();
-    const size_t nblock_cou   = submat_block_cou.size();
-    const size_t nshells_cou  = it->cou_screening.shell_list.size();
-    const auto nbe_cou        = it->cou_screening.nbe;
-
-
-    // Pack Shell indexing
-    if(reqt.task_submat_cut_bfn) {
-      concat_iterable( submat_cut_bfn_pack, submat_cut_bfn );
-    }
-    if(reqt.task_submat_block_bfn) {
-      concat_iterable( submat_block_bfn_pack, submat_block_bfn );
-    }
-    if(reqt.task_submat_cut_cou) {
-      concat_iterable( submat_cut_cou_pack, submat_cut_cou );
-    }
-    if(reqt.task_submat_block_cou) {
-      concat_iterable( submat_block_cou_pack, submat_block_cou );
-    }
-
-    // Map packed to unpacked indices
-    if(reqt.task_bfn_shell_indirection) {
-      std::vector<int32_t> bfn_indirection(nbe_bfn);
-      auto bit = bfn_indirection.begin();
-      for( auto& sh : it->bfn_screening.shell_list ) {
-        auto sh_range = basis_map.shell_to_ao_range()[sh];
-        for( auto j = sh_range.first; j < sh_range.second; ++j ) {
-          *bit = j; ++bit;
-        }
-      }
-      concat_iterable(bfn_shell_indirection_pack, bfn_indirection);
-    }
-
-    // Add task to device indirection
-    if(reqt.task_indirection) {
-      auto& ht = host_device_tasks.emplace_back();
-
-      // Populate indirection with dimensions
-      ht.npts         = npts;
-      ht.iParent      = iAtom;
-      ht.dist_nearest = dist_nearest;
-
-      ht.bfn_screening.nbe     = nbe_bfn;
-      ht.bfn_screening.ncut    = ncut_bfn;
-      ht.bfn_screening.nblock  = nblock_bfn;
-      ht.bfn_screening.nshells = nshells_bfn;
-
-      ht.cou_screening.nbe     = nbe_cou;
-      ht.cou_screening.ncut    = ncut_cou;
-      ht.cou_screening.nblock  = nblock_cou;
-      ht.cou_screening.nshells = nshells_cou;
-
-      auto& shell_list_bfn = it->bfn_screening.shell_list;
-      ht.bfn_screening.ibf_begin = 
-        shell_list_bfn.size() ?
-        basis_map.shell_to_first_ao(shell_list_bfn[0]) : 0;
-
-      auto& shell_list_cou = it->cou_screening.shell_list;
-      ht.cou_screening.ibf_begin = 
-        shell_list_cou.size() ?
-        basis_map.shell_to_first_ao(shell_list_cou[0]) : 0;
-    }
-
-  }
-
-  // Send shell index information early to overlap with 
-  // indirection construction
-  if(reqt.task_submat_cut_bfn) {
-    device_backend_->copy_async( 3 * submat_cut_bfn_pack.size(), 
-      submat_cut_bfn_pack.data()->data(), aos_stack.submat_cut_bfn_device, 
-      "send_submat_cut_bfn"  ); 
-  }
-  if(reqt.task_submat_block_bfn) {
-    device_backend_->copy_async( submat_block_bfn_pack.size(), 
-      submat_block_bfn_pack.data(), aos_stack.submat_block_bfn_device, 
-      "send_submat_block_bfn"  ); 
-  }
-  if(reqt.task_submat_cut_cou) {
-    device_backend_->copy_async( 3 * submat_cut_cou_pack.size(), 
-      submat_cut_cou_pack.data()->data(), aos_stack.submat_cut_cou_device, 
-      "send_submat_cut_cou"  ); 
-  }
-  if(reqt.task_submat_block_cou) {
-    device_backend_->copy_async( submat_block_cou_pack.size(), 
-      submat_block_cou_pack.data(), aos_stack.submat_block_cou_device, 
-      "send_submat_block_cou"  ); 
-  }
-
-
-  if(reqt.task_bfn_shell_indirection) {
-    device_backend_->copy_async( bfn_shell_indirection_pack.size(), 
-      bfn_shell_indirection_pack.data(), aos_stack.bfn_shell_indirection_device, 
-      "send_bfn_shell_indirection"  ); 
-  }
-
-  // Construct full indirection
-  if(reqt.task_indirection) {
-
-    const size_t total_npts    = total_npts_task_batch * sizeof(double);
-    buffer_adaptor points_x_mem( base_stack.points_x_device,  total_npts );
-    buffer_adaptor points_y_mem( base_stack.points_y_device,  total_npts );
-    buffer_adaptor points_z_mem( base_stack.points_z_device,  total_npts );
-    buffer_adaptor weights_mem ( base_stack.weights_device,   total_npts );
-
-
-    const size_t total_nbe_bfn = total_nbe_bfn_task_batch * sizeof(int32_t);
-    buffer_adaptor bfn_shell_indirection_mem( 
-      aos_stack.bfn_shell_indirection_device, total_nbe_bfn );
-
-    const size_t total_ncut_bfn   = 
-      total_ncut_bfn_task_batch   * sizeof(int32_t);
-    const size_t total_nblock_bfn = 
-      total_nblock_bfn_task_batch * sizeof(int32_t);
-    buffer_adaptor submat_cut_bfn_mem( aos_stack.submat_cut_bfn_device, 
-      total_ncut_bfn  );
-    buffer_adaptor submat_block_bfn_mem( aos_stack.submat_block_bfn_device, 
-      total_nblock_bfn);
-
-    const size_t total_ncut_cou   = 
-      total_ncut_cou_task_batch   * sizeof(int32_t);
-    const size_t total_nblock_cou = 
-      total_nblock_cou_task_batch * sizeof(int32_t);
-    buffer_adaptor submat_cut_cou_mem( aos_stack.submat_cut_cou_device, 
-      total_ncut_cou  );
-    buffer_adaptor submat_block_cou_mem( aos_stack.submat_block_cou_device, 
-      total_nblock_cou);
-
-    const size_t total_nbe_scr      = 
-      total_nbe_scr_task_batch      * sizeof(double);
-    const size_t total_nbe_bfn_npts = 
-      total_nbe_bfn_npts_task_batch * sizeof(double);
-    const size_t total_nbe_cou_npts = 
-      total_nbe_cou_npts_task_batch * sizeof(double);
-    buffer_adaptor nbe_mem( aos_stack.nbe_scr_device, total_nbe_scr );
-    buffer_adaptor zmat_mem( aos_stack.zmat_vxc_device, 
-      total_nbe_bfn_npts );
-
-    buffer_adaptor fmat_mem( aos_stack.fmat_exx_device, total_nbe_cou_npts );
-    buffer_adaptor gmat_mem( aos_stack.gmat_exx_device, total_nbe_cou_npts );
-
-    buffer_adaptor bf_mem   ( aos_stack.bf_eval_device,    total_nbe_bfn_npts );
-    buffer_adaptor dbf_x_mem( aos_stack.dbf_x_eval_device, total_nbe_bfn_npts );
-    buffer_adaptor dbf_y_mem( aos_stack.dbf_y_eval_device, total_nbe_bfn_npts );
-    buffer_adaptor dbf_z_mem( aos_stack.dbf_z_eval_device, total_nbe_bfn_npts );
-
-    buffer_adaptor d2bf_xx_mem( aos_stack.d2bf_xx_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d2bf_xy_mem( aos_stack.d2bf_xy_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d2bf_xz_mem( aos_stack.d2bf_xz_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d2bf_yy_mem( aos_stack.d2bf_yy_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d2bf_yz_mem( aos_stack.d2bf_yz_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d2bf_zz_mem( aos_stack.d2bf_zz_eval_device, 
-      total_nbe_bfn_npts );
-
-    buffer_adaptor d2bf_lapl_mem( aos_stack.d2bf_lapl_eval_device, 
-      total_nbe_bfn_npts );
-
-    buffer_adaptor d3bf_lapgrad_x_mem( aos_stack.d3bf_lapgrad_x_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d3bf_lapgrad_y_mem( aos_stack.d3bf_lapgrad_y_eval_device, 
-      total_nbe_bfn_npts );
-    buffer_adaptor d3bf_lapgrad_z_mem( aos_stack.d3bf_lapgrad_z_eval_device, 
-      total_nbe_bfn_npts );
-
-    buffer_adaptor xmat_dx_mem( aos_stack.xmat_dx_device, total_nbe_bfn_npts );
-    buffer_adaptor xmat_dy_mem( aos_stack.xmat_dy_device, total_nbe_bfn_npts );
-    buffer_adaptor xmat_dz_mem( aos_stack.xmat_dz_device, total_nbe_bfn_npts );
-
-    buffer_adaptor xmatS_mem( aos_stack.xmatS_device, total_nbe_bfn_npts );
-    buffer_adaptor xmatS_dx_mem( aos_stack.xmatS_dx_device, total_nbe_bfn_npts );
-    buffer_adaptor xmatS_dy_mem( aos_stack.xmatS_dy_device, total_nbe_bfn_npts );
-    buffer_adaptor xmatS_dz_mem( aos_stack.xmatS_dz_device, total_nbe_bfn_npts );
-
-    buffer_adaptor xmatZ_mem( aos_stack.xmatZ_device, total_nbe_bfn_npts );
-    buffer_adaptor xmatZ_dx_mem( aos_stack.xmatZ_dx_device, total_nbe_bfn_npts );
-    buffer_adaptor xmatZ_dy_mem( aos_stack.xmatZ_dy_device, total_nbe_bfn_npts );
-    buffer_adaptor xmatZ_dz_mem( aos_stack.xmatZ_dz_device, total_nbe_bfn_npts );
-    
-    const bool is_rks = terms.ks_scheme == RKS;
-    const bool is_uks = terms.ks_scheme == UKS;
-    const bool is_gks = terms.ks_scheme == GKS;
-    const bool is_pol  = is_uks or is_gks;
-    const bool is_gga = terms.xc_approx == GGA;
-    const int den_fac   = is_pol ? 2 : 1;
-    const int gamma_fac = is_pol ? 3 : 1;
-    // second derivative
-    const int rhorho_fac   = is_pol ? 3 : 1;
-    const int rhogamma_fac = is_pol ? 6 : 1;
-    const int rhotau_fac   = is_pol ? 4 : 1;
-
-
-    buffer_adaptor eps_mem    ( base_stack.eps_eval_device,     total_npts             );
-
-    // RKS
-    buffer_adaptor den_s_mem  ( base_stack.den_s_eval_device,  total_npts  );
-    buffer_adaptor tau_s_mem  ( base_stack.tau_s_eval_device,  total_npts  );
-    buffer_adaptor lapl_s_mem ( base_stack.lapl_s_eval_device, total_npts  );
-    buffer_adaptor gamma_mem  ( base_stack.gamma_eval_device,  total_npts * gamma_fac );
-    buffer_adaptor vrho_mem   ( base_stack.vrho_eval_device,   total_npts * den_fac   );
-    buffer_adaptor vgamma_mem ( base_stack.vgamma_eval_device, total_npts * gamma_fac );
-    buffer_adaptor vtau_mem   ( base_stack.vtau_eval_device,   total_npts * den_fac   );
-    buffer_adaptor vlapl_mem  ( base_stack.vlapl_eval_device,  total_npts * den_fac   );
-
-    // Polarized KS
-    buffer_adaptor den_interleaved_mem  ( base_stack.den_interleaved_device,  total_npts * den_fac   );
-    buffer_adaptor tau_interleaved_mem  ( base_stack.tau_interleaved_device,  total_npts * den_fac   );
-    buffer_adaptor lapl_interleaved_mem ( base_stack.lapl_interleaved_device, total_npts * den_fac   );
-    buffer_adaptor den_z_mem  ( base_stack.den_z_eval_device,  total_npts  );
-    buffer_adaptor den_y_mem  ( base_stack.den_y_eval_device,  total_npts  );
-    buffer_adaptor den_x_mem  ( base_stack.den_x_eval_device,  total_npts  );
-    buffer_adaptor tau_z_mem  ( base_stack.tau_z_eval_device,  total_npts  );
-    buffer_adaptor lapl_z_mem ( base_stack.lapl_z_eval_device, total_npts  );
-
-    buffer_adaptor vrho_pos_mem( base_stack.vrho_pos_eval_device, total_npts );
-    buffer_adaptor vrho_neg_mem( base_stack.vrho_neg_eval_device, total_npts );
-    buffer_adaptor vtau_pos_mem( base_stack.vtau_pos_eval_device, total_npts );
-    buffer_adaptor vtau_neg_mem( base_stack.vtau_neg_eval_device, total_npts );
-    buffer_adaptor vlapl_pos_mem( base_stack.vlapl_pos_eval_device, total_npts );
-    buffer_adaptor vlapl_neg_mem( base_stack.vlapl_neg_eval_device, total_npts );
-    buffer_adaptor gamma_pp_mem( base_stack.gamma_pp_eval_device, total_npts );
-    buffer_adaptor gamma_pm_mem( base_stack.gamma_pm_eval_device, total_npts );
-    buffer_adaptor gamma_mm_mem( base_stack.gamma_mm_eval_device, total_npts );
-    buffer_adaptor vgamma_pp_mem( base_stack.vgamma_pp_eval_device, total_npts );
-    buffer_adaptor vgamma_pm_mem( base_stack.vgamma_pm_eval_device, total_npts );
-    buffer_adaptor vgamma_mm_mem( base_stack.vgamma_mm_eval_device, total_npts );
-    buffer_adaptor K_z_mem    ( base_stack.K_z_eval_device,       total_npts );
-    buffer_adaptor K_y_mem    ( base_stack.K_y_eval_device,       total_npts );
-    buffer_adaptor K_x_mem    ( base_stack.K_x_eval_device,       total_npts );
-    buffer_adaptor H_z_mem    ( base_stack.H_z_eval_device,       total_npts );
-    buffer_adaptor H_y_mem    ( base_stack.H_y_eval_device,       total_npts );
-    buffer_adaptor H_x_mem    ( base_stack.H_x_eval_device,       total_npts );
-
-    // Gradients
-    buffer_adaptor dden_sx_mem( base_stack.dden_sx_eval_device,     total_npts );
-    buffer_adaptor dden_sy_mem( base_stack.dden_sy_eval_device,     total_npts );
-    buffer_adaptor dden_sz_mem( base_stack.dden_sz_eval_device,     total_npts );
-    buffer_adaptor dden_zx_mem( base_stack.dden_zx_eval_device,     total_npts );
-    buffer_adaptor dden_zy_mem( base_stack.dden_zy_eval_device,     total_npts );
-    buffer_adaptor dden_zz_mem( base_stack.dden_zz_eval_device,     total_npts );
-    buffer_adaptor dden_yx_mem( base_stack.dden_yx_eval_device,     total_npts );
-    buffer_adaptor dden_yy_mem( base_stack.dden_yy_eval_device,     total_npts );
-    buffer_adaptor dden_yz_mem( base_stack.dden_yz_eval_device,     total_npts );
-    buffer_adaptor dden_xx_mem( base_stack.dden_xx_eval_device,     total_npts );
-    buffer_adaptor dden_xy_mem( base_stack.dden_xy_eval_device,     total_npts );
-    buffer_adaptor dden_xz_mem( base_stack.dden_xz_eval_device,     total_npts );
-
-    // second derivative
-    // RKS
-    buffer_adaptor tden_s_mem( base_stack.tden_s_eval_device, total_npts );
-    buffer_adaptor ttau_s_mem( base_stack.ttau_s_eval_device, total_npts );
-    buffer_adaptor tlapl_s_mem( base_stack.tlapl_s_eval_device, total_npts );
-    buffer_adaptor v2rho2_mem( base_stack.v2rho2_eval_device, total_npts * rhorho_fac );
-    buffer_adaptor v2rhogamma_mem( base_stack.v2rhogamma_eval_device, total_npts * rhogamma_fac );
-    buffer_adaptor v2rholapl_mem( base_stack.v2rholapl_eval_device, total_npts * rhotau_fac );
-    buffer_adaptor v2rhotau_mem( base_stack.v2rhotau_eval_device, total_npts * rhotau_fac );
-    buffer_adaptor v2gamma2_mem( base_stack.v2gamma2_eval_device, total_npts * rhogamma_fac );
-    buffer_adaptor v2gammalapl_mem( base_stack.v2gammalapl_eval_device, total_npts * rhogamma_fac );
-    buffer_adaptor v2gammatau_mem( base_stack.v2gammatau_eval_device, total_npts * rhogamma_fac );
-    buffer_adaptor v2lapl2_mem( base_stack.v2lapl2_eval_device, total_npts * rhorho_fac );
-    buffer_adaptor v2lapltau_mem( base_stack.v2lapltau_eval_device, total_npts * rhotau_fac );
-    buffer_adaptor v2tau2_mem( base_stack.v2tau2_eval_device, total_npts * rhorho_fac );
-
-    // Polarized KS
-    buffer_adaptor tden_z_mem( base_stack.tden_z_eval_device, total_npts );
-    buffer_adaptor tden_y_mem( base_stack.tden_y_eval_device, total_npts );
-    buffer_adaptor tden_x_mem( base_stack.tden_x_eval_device, total_npts );
-    buffer_adaptor ttau_z_mem( base_stack.ttau_z_eval_device, total_npts );
-    buffer_adaptor tlapl_z_mem( base_stack.tlapl_z_eval_device, total_npts );
-
-    buffer_adaptor v2rho2_a_a_mem( base_stack.v2rho2_a_a_eval_device, total_npts );
-    buffer_adaptor v2rho2_a_b_mem( base_stack.v2rho2_a_b_eval_device, total_npts );
-    buffer_adaptor v2rho2_b_b_mem( base_stack.v2rho2_b_b_eval_device, total_npts );
-    buffer_adaptor v2rhogamma_a_aa_mem( base_stack.v2rhogamma_a_aa_eval_device, total_npts );
-    buffer_adaptor v2rhogamma_a_ab_mem( base_stack.v2rhogamma_a_ab_eval_device, total_npts );
-    buffer_adaptor v2rhogamma_a_bb_mem( base_stack.v2rhogamma_a_bb_eval_device, total_npts );
-    buffer_adaptor v2rhogamma_b_aa_mem( base_stack.v2rhogamma_b_aa_eval_device, total_npts );
-    buffer_adaptor v2rhogamma_b_ab_mem( base_stack.v2rhogamma_b_ab_eval_device, total_npts );
-    buffer_adaptor v2rhogamma_b_bb_mem( base_stack.v2rhogamma_b_bb_eval_device, total_npts );
-    buffer_adaptor v2rholapl_a_a_mem( base_stack.v2rholapl_a_a_eval_device, total_npts );
-    buffer_adaptor v2rholapl_a_b_mem( base_stack.v2rholapl_a_b_eval_device, total_npts );
-    buffer_adaptor v2rholapl_b_a_mem( base_stack.v2rholapl_b_a_eval_device, total_npts );
-    buffer_adaptor v2rholapl_b_b_mem( base_stack.v2rholapl_b_b_eval_device, total_npts );
-    buffer_adaptor v2rhotau_a_a_mem( base_stack.v2rhotau_a_a_eval_device, total_npts );
-    buffer_adaptor v2rhotau_a_b_mem( base_stack.v2rhotau_a_b_eval_device, total_npts );
-    buffer_adaptor v2rhotau_b_a_mem( base_stack.v2rhotau_b_a_eval_device, total_npts );
-    buffer_adaptor v2rhotau_b_b_mem( base_stack.v2rhotau_b_b_eval_device, total_npts );
-    buffer_adaptor v2gamma2_aa_aa_mem( base_stack.v2gamma2_aa_aa_eval_device, total_npts );
-    buffer_adaptor v2gamma2_aa_ab_mem( base_stack.v2gamma2_aa_ab_eval_device, total_npts );
-    buffer_adaptor v2gamma2_aa_bb_mem( base_stack.v2gamma2_aa_bb_eval_device, total_npts );
-    buffer_adaptor v2gamma2_ab_ab_mem( base_stack.v2gamma2_ab_ab_eval_device, total_npts );
-    buffer_adaptor v2gamma2_ab_bb_mem( base_stack.v2gamma2_ab_bb_eval_device, total_npts );
-    buffer_adaptor v2gamma2_bb_bb_mem( base_stack.v2gamma2_bb_bb_eval_device, total_npts );
-    buffer_adaptor v2gammalapl_aa_a_mem( base_stack.v2gammalapl_aa_a_eval_device, total_npts );
-    buffer_adaptor v2gammalapl_aa_b_mem( base_stack.v2gammalapl_aa_b_eval_device, total_npts );
-    buffer_adaptor v2gammalapl_ab_a_mem( base_stack.v2gammalapl_ab_a_eval_device, total_npts );
-    buffer_adaptor v2gammalapl_ab_b_mem( base_stack.v2gammalapl_ab_b_eval_device, total_npts );
-    buffer_adaptor v2gammalapl_bb_a_mem( base_stack.v2gammalapl_bb_a_eval_device, total_npts );
-    buffer_adaptor v2gammalapl_bb_b_mem( base_stack.v2gammalapl_bb_b_eval_device, total_npts );
-    buffer_adaptor v2gammatau_aa_a_mem( base_stack.v2gammatau_aa_a_eval_device, total_npts );
-    buffer_adaptor v2gammatau_aa_b_mem( base_stack.v2gammatau_aa_b_eval_device, total_npts );
-    buffer_adaptor v2gammatau_ab_a_mem( base_stack.v2gammatau_ab_a_eval_device, total_npts );
-    buffer_adaptor v2gammatau_ab_b_mem( base_stack.v2gammatau_ab_b_eval_device, total_npts );
-    buffer_adaptor v2gammatau_bb_a_mem( base_stack.v2gammatau_bb_a_eval_device, total_npts );
-    buffer_adaptor v2gammatau_bb_b_mem( base_stack.v2gammatau_bb_b_eval_device, total_npts );
-    buffer_adaptor v2lapl2_a_a_mem( base_stack.v2lapl2_a_a_eval_device, total_npts );
-    buffer_adaptor v2lapl2_a_b_mem( base_stack.v2lapl2_a_b_eval_device, total_npts );
-    buffer_adaptor v2lapl2_b_b_mem( base_stack.v2lapl2_b_b_eval_device, total_npts );
-    buffer_adaptor v2lapltau_a_a_mem( base_stack.v2lapltau_a_a_eval_device, total_npts );
-    buffer_adaptor v2lapltau_a_b_mem( base_stack.v2lapltau_a_b_eval_device, total_npts );
-    buffer_adaptor v2lapltau_b_a_mem( base_stack.v2lapltau_b_a_eval_device, total_npts );
-    buffer_adaptor v2lapltau_b_b_mem( base_stack.v2lapltau_b_b_eval_device, total_npts );
-    buffer_adaptor v2tau2_a_a_mem( base_stack.v2tau2_a_a_eval_device, total_npts );
-    buffer_adaptor v2tau2_a_b_mem( base_stack.v2tau2_a_b_eval_device, total_npts );
-    buffer_adaptor v2tau2_b_b_mem( base_stack.v2tau2_b_b_eval_device, total_npts );
-
-    // Trial density gradient 
-    buffer_adaptor tdden_sx_mem( base_stack.tdden_sx_eval_device, total_npts );
-    buffer_adaptor tdden_sy_mem( base_stack.tdden_sy_eval_device, total_npts );
-    buffer_adaptor tdden_sz_mem( base_stack.tdden_sz_eval_device, total_npts );
-    buffer_adaptor tdden_zx_mem( base_stack.tdden_zx_eval_device, total_npts );
-    buffer_adaptor tdden_zy_mem( base_stack.tdden_zy_eval_device, total_npts );
-    buffer_adaptor tdden_zz_mem( base_stack.tdden_zz_eval_device, total_npts );
-    buffer_adaptor tdden_yx_mem( base_stack.tdden_yx_eval_device, total_npts );
-    buffer_adaptor tdden_yy_mem( base_stack.tdden_yy_eval_device, total_npts );
-    buffer_adaptor tdden_yz_mem( base_stack.tdden_yz_eval_device, total_npts );
-    buffer_adaptor tdden_xx_mem( base_stack.tdden_xx_eval_device, total_npts );
-    buffer_adaptor tdden_xy_mem( base_stack.tdden_xy_eval_device, total_npts );
-    buffer_adaptor tdden_xz_mem( base_stack.tdden_xz_eval_device, total_npts );
-
-    // Intermediate matrices for contraction
-    buffer_adaptor FXC_A_s_mem(  base_stack.FXC_A_s_eval_device,  total_npts);
-    buffer_adaptor FXC_Bx_s_mem( base_stack.FXC_Bx_s_eval_device, total_npts);
-    buffer_adaptor FXC_By_s_mem( base_stack.FXC_By_s_eval_device, total_npts);
-    buffer_adaptor FXC_Bz_s_mem( base_stack.FXC_Bz_s_eval_device, total_npts);
-    buffer_adaptor FXC_C_s_mem(  base_stack.FXC_C_s_eval_device,  total_npts);
-    buffer_adaptor FXC_A_z_mem(  base_stack.FXC_A_z_eval_device,  total_npts);
-    buffer_adaptor FXC_Bx_z_mem( base_stack.FXC_Bx_z_eval_device, total_npts);
-    buffer_adaptor FXC_By_z_mem( base_stack.FXC_By_z_eval_device, total_npts);
-    buffer_adaptor FXC_Bz_z_mem( base_stack.FXC_Bz_z_eval_device, total_npts);
-    buffer_adaptor FXC_C_z_mem(  base_stack.FXC_C_z_eval_device,  total_npts);
-
-    for( auto& task : host_device_tasks ) {
-      const auto npts    = task.npts;
-      const auto nbe_bfn     = task.bfn_screening.nbe;
-      const auto ncut_bfn    = task.bfn_screening.ncut;
-      const auto nblock_bfn  = task.bfn_screening.nblock;
-
-      const auto nbe_cou     = task.cou_screening.nbe;
-      const auto ncut_cou    = task.cou_screening.ncut;
-      const auto nblock_cou  = task.cou_screening.nblock;
-
-      // Grid points
-      if(reqt.grid_points) {
-        task.points_x = points_x_mem.aligned_alloc<double>(npts, csl);
-        task.points_y = points_y_mem.aligned_alloc<double>(npts, csl);
-        task.points_z = points_z_mem.aligned_alloc<double>(npts, csl);
-      }
-
-      // Grid weights
-      task.weights = weights_mem.aligned_alloc<double>(
-        reqt.grid_weights_size(npts), csl); 
-
-      // Shell indexing (bfn)
-      task.bfn_screening.submat_cut = 
-        submat_cut_bfn_mem.aligned_alloc<int32_t>(
-          reqt.task_submat_cut_bfn_size( ncut_bfn ), csl);
-      task.bfn_screening.submat_block = 
-        submat_block_bfn_mem.aligned_alloc<int32_t>(
-          reqt.task_submat_block_bfn_size( nblock_bfn ), csl);
-
-      // Shell indexing (cou)
-      task.cou_screening.submat_cut = 
-        submat_cut_cou_mem.aligned_alloc<int32_t>(
-          reqt.task_submat_cut_cou_size( ncut_cou ), csl);
-      task.cou_screening.submat_block = 
-        submat_block_cou_mem.aligned_alloc<int32_t>(
-          reqt.task_submat_block_cou_size( nblock_cou ), csl);
-
-      // NBE scr
-      task.nbe_scr = nbe_mem.aligned_alloc<double>( 
-        reqt.task_nbe_scr_size(nbe_bfn, nbe_cou), csl);
-
-      // ZMatrix LDA/GGA
-      task.zmat = zmat_mem.aligned_alloc<double>( 
-        reqt.task_zmat_size(nbe_bfn, npts), csl);
-
-      // Collocation + derivatives
-      task.bf = bf_mem.aligned_alloc<double>( 
-        reqt.task_bfn_size(nbe_bfn, npts), csl);
-      if( reqt.task_bfn_grad ) {
-        task.dbfx = dbf_x_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.dbfy = dbf_y_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.dbfz = dbf_z_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-      }
-      if( reqt.task_bfn_hess ) {
-        task.d2bfxx = d2bf_xx_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d2bfxy = d2bf_xy_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d2bfxz = d2bf_xz_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d2bfyy = d2bf_yy_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d2bfyz = d2bf_yz_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d2bfzz = d2bf_zz_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-      }
-      if( reqt.task_bfn_lapl ) {
-        task.d2bflapl = d2bf_lapl_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-      }
-      if( reqt.task_bfn_lapgrad ) {
-        task.d3bflapl_x = d3bf_lapgrad_x_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d3bflapl_y = d3bf_lapgrad_y_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.d3bflapl_z = d3bf_lapgrad_z_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-      }
-
-      // X Matrix gradient
-      if( reqt.task_xmat_grad ) {
-        task.xmat_x = xmat_dx_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.xmat_y = xmat_dy_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.xmat_z = xmat_dz_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-      }
-
-      // Persistent X matrix
-      if( reqt.task_xmat_persist ) {
-        task.xmatS   = xmatS_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        task.xmatZ   = xmatZ_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-
-        if( reqt.task_xmat_grad ) {
-          task.xmatS_x = xmatS_dx_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-          task.xmatS_y = xmatS_dy_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-          task.xmatS_z = xmatS_dz_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-          task.xmatZ_x = xmatZ_dx_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-          task.xmatZ_y = xmatZ_dy_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-          task.xmatZ_z = xmatZ_dz_mem.aligned_alloc<double>( nbe_bfn * npts, csl);
-        }
-      }
-
-
-      // Grid function evaluations
-      if (reqt.grid_den) {
-        task.den_s        = den_s_mem.aligned_alloc<double>( npts, csl );
-        if(is_pol) {
-          task.den          = den_interleaved_mem.aligned_alloc<double>(npts*2, csl); //Interleaved memory
-          task.den_z        = den_z_mem.aligned_alloc<double>( npts, csl);
-          if ( is_gks ) {
-            task.den_y        = den_y_mem.aligned_alloc<double>( npts, csl);
-            task.den_x        = den_x_mem.aligned_alloc<double>( npts, csl);
-          }
-        }
-      }
-
-      if(reqt.grid_den_grad) {
-        task.dden_sx = dden_sx_mem.aligned_alloc<double>(npts, csl);
-        task.dden_sy = dden_sy_mem.aligned_alloc<double>(npts, csl);
-        task.dden_sz = dden_sz_mem.aligned_alloc<double>(npts, csl);
-        if( is_pol ) {
-          task.dden_zx    = dden_zx_mem.aligned_alloc<double>( npts, csl );
-          task.dden_zy    = dden_zy_mem.aligned_alloc<double>( npts, csl );
-          task.dden_zz    = dden_zz_mem.aligned_alloc<double>( npts, csl );
-          if( is_gks ) {
-            task.dden_yx    = dden_yx_mem.aligned_alloc<double>( npts, csl );
-            task.dden_yy    = dden_yy_mem.aligned_alloc<double>( npts, csl );
-            task.dden_yz    = dden_yz_mem.aligned_alloc<double>( npts, csl );
-            task.dden_xx    = dden_xx_mem.aligned_alloc<double>( npts, csl );
-            task.dden_xy    = dden_xy_mem.aligned_alloc<double>( npts, csl );
-            task.dden_xz    = dden_xz_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-      }
-
-      if( reqt.grid_gamma ) {
-        task.gamma = gamma_mem.aligned_alloc<double>( npts*gamma_fac, csl);
-        if( is_pol ) {
-            task.gamma_pp    = gamma_pp_mem.aligned_alloc<double>( npts, csl);
-            task.gamma_pm    = gamma_pm_mem.aligned_alloc<double>( npts, csl);
-            task.gamma_mm    = gamma_mm_mem.aligned_alloc<double>( npts, csl);
-        }
-      }
-
-      if (reqt.grid_tau) {
-        task.tau_s        = tau_s_mem.aligned_alloc<double>( npts, csl );
-        if(is_pol) {
-          task.tau          = tau_interleaved_mem.aligned_alloc<double>(npts*2, csl); //Interleaved memory
-          task.tau_z        = tau_z_mem.aligned_alloc<double>( npts, csl);
-        }
-      }
-
-      if (reqt.grid_lapl) {
-        task.lapl_s        = lapl_s_mem.aligned_alloc<double>( npts, csl );
-        if(is_pol) {
-          task.lapl          = lapl_interleaved_mem.aligned_alloc<double>(npts*2, csl); //Interleaved memory
-          task.lapl_z        = lapl_z_mem.aligned_alloc<double>( npts, csl);
-        }
-      }
-
-
-      
-      if(reqt.grid_eps)
-        task.eps  =   eps_mem.aligned_alloc<double>( reqt.grid_eps_size(npts), csl);
-
-      if( reqt.grid_vrho ) {
-        task.vrho =   vrho_mem.aligned_alloc<double>( npts*den_fac, csl);
-        if( is_pol ) {
-          task.vrho_pos     = vrho_pos_mem.aligned_alloc<double>( npts, csl);
-          task.vrho_neg     = vrho_neg_mem.aligned_alloc<double>( npts, csl); 
-        }
-      }
-
-      if( reqt.grid_vgamma ) {
-        task.vgamma = vgamma_mem.aligned_alloc<double>( npts*gamma_fac, csl);
-        if( is_pol ) {
-            task.vgamma_pp    = vgamma_pp_mem.aligned_alloc<double>( npts, csl);
-            task.vgamma_pm    = vgamma_pm_mem.aligned_alloc<double>( npts, csl);
-            task.vgamma_mm    = vgamma_mm_mem.aligned_alloc<double>( npts, csl);
-        }
-      }
-
-      if( reqt.grid_vtau ) {
-        task.vtau =   vtau_mem.aligned_alloc<double>( npts*den_fac, csl);
-        if( is_pol ) {
-          task.vtau_pos     = vtau_pos_mem.aligned_alloc<double>( npts, csl);
-          task.vtau_neg     = vtau_neg_mem.aligned_alloc<double>( npts, csl); 
-        }
-      }
-
-      if( reqt.grid_vlapl ) {
-        task.vlapl =   vlapl_mem.aligned_alloc<double>( npts*den_fac, csl);
-        if( is_pol ) {
-          task.vlapl_pos     = vlapl_pos_mem.aligned_alloc<double>( npts, csl);
-          task.vlapl_neg     = vlapl_neg_mem.aligned_alloc<double>( npts, csl); 
-        }
-      }
-
-      
-      // H, K terms (GKS)
-      if( is_gks ) {
-        task.K_x    = K_x_mem.aligned_alloc<double>( npts, csl );
-        task.K_y    = K_y_mem.aligned_alloc<double>( npts, csl );
-        task.K_z    = K_z_mem.aligned_alloc<double>( npts, csl );
-        if( is_gga ) {
-          task.H_x    = H_x_mem.aligned_alloc<double>( npts, csl );
-          task.H_y    = H_y_mem.aligned_alloc<double>( npts, csl );
-          task.H_z    = H_z_mem.aligned_alloc<double>( npts, csl );
-        }
-      }
-
-      // EXX Specific
-      task.fmat = fmat_mem.aligned_alloc<double>(
-        reqt.task_fmat_size(nbe_cou,npts), csl);
-      task.gmat = gmat_mem.aligned_alloc<double>(
-        reqt.task_gmat_size(nbe_cou,npts), csl);
-
-
-      task.bfn_shell_indirection =
-        bfn_shell_indirection_mem.aligned_alloc<int32_t>( 
-          reqt.task_bfn_shell_indirection_size(nbe_bfn), csl
-        );
-
-      // Second derivative
-      if( terms.fxc_contraction ) {
-        // Trial density
-        if(reqt.grid_tden) {
-          task.tden_s = tden_s_mem.aligned_alloc<double>( npts, csl );
-          if(is_pol) {
-            task.tden_z = tden_z_mem.aligned_alloc<double>( npts, csl );
-            if(is_gks) {
-              task.tden_y = tden_y_mem.aligned_alloc<double>( npts, csl );
-              task.tden_x = tden_x_mem.aligned_alloc<double>( npts, csl );
-            }
-          }
-        }
-
-        if(reqt.grid_tden_grad) {
-          task.tdden_sx = tdden_sx_mem.aligned_alloc<double>( npts, csl );
-          task.tdden_sy = tdden_sy_mem.aligned_alloc<double>( npts, csl );
-          task.tdden_sz = tdden_sz_mem.aligned_alloc<double>( npts, csl );
-          if(is_pol) {
-            task.tdden_zx = tdden_zx_mem.aligned_alloc<double>( npts, csl );
-            task.tdden_zy = tdden_zy_mem.aligned_alloc<double>( npts, csl );
-            task.tdden_zz = tdden_zz_mem.aligned_alloc<double>( npts, csl );
-            if(is_gks) {
-              task.tdden_yx = tdden_yx_mem.aligned_alloc<double>( npts, csl );
-              task.tdden_yy = tdden_yy_mem.aligned_alloc<double>( npts, csl );
-              task.tdden_yz = tdden_yz_mem.aligned_alloc<double>( npts, csl );
-              task.tdden_xx = tdden_xx_mem.aligned_alloc<double>( npts, csl );
-              task.tdden_xy = tdden_xy_mem.aligned_alloc<double>( npts, csl );
-              task.tdden_xz = tdden_xz_mem.aligned_alloc<double>( npts, csl );
-            }
-          }
-        }
-
-
-        if(reqt.grid_ttau) {
-          task.ttau_s = ttau_s_mem.aligned_alloc<double>( npts, csl );
-          if(is_pol) {
-            task.ttau_z = ttau_z_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_tlapl) {
-          task.tlapl_s = tlapl_s_mem.aligned_alloc<double>( npts, csl );
-          if(is_pol) {
-            task.tlapl_z = tlapl_z_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        // Second derivatives of XC functional
-        if(reqt.grid_v2rho2) {
-          task.v2rho2 = v2rho2_mem.aligned_alloc<double>( npts*rhorho_fac, csl );
-          if(is_pol) {
-            task.v2rho2_a_a = v2rho2_a_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2rho2_a_b = v2rho2_a_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2rho2_b_b = v2rho2_b_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2rhogamma) {
-          task.v2rhogamma = v2rhogamma_mem.aligned_alloc<double>( npts*rhogamma_fac, csl );
-          if(is_pol) {
-            task.v2rhogamma_a_aa = v2rhogamma_a_aa_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhogamma_a_ab = v2rhogamma_a_ab_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhogamma_a_bb = v2rhogamma_a_bb_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhogamma_b_aa = v2rhogamma_b_aa_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhogamma_b_ab = v2rhogamma_b_ab_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhogamma_b_bb = v2rhogamma_b_bb_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2rholapl) {
-          task.v2rholapl = v2rholapl_mem.aligned_alloc<double>( npts*rhotau_fac, csl );
-          if(is_pol) {
-            task.v2rholapl_a_a = v2rholapl_a_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2rholapl_a_b = v2rholapl_a_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2rholapl_b_a = v2rholapl_b_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2rholapl_b_b = v2rholapl_b_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2rhotau) {
-          task.v2rhotau = v2rhotau_mem.aligned_alloc<double>( npts*rhotau_fac, csl );
-          if(is_pol) {
-            task.v2rhotau_a_a = v2rhotau_a_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhotau_a_b = v2rhotau_a_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhotau_b_a = v2rhotau_b_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2rhotau_b_b = v2rhotau_b_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2gamma2) {
-          task.v2gamma2 = v2gamma2_mem.aligned_alloc<double>( npts*rhogamma_fac, csl );
-          if(is_pol) {
-            task.v2gamma2_aa_aa = v2gamma2_aa_aa_mem.aligned_alloc<double>( npts, csl );
-            task.v2gamma2_aa_ab = v2gamma2_aa_ab_mem.aligned_alloc<double>( npts, csl );
-            task.v2gamma2_aa_bb = v2gamma2_aa_bb_mem.aligned_alloc<double>( npts, csl );
-            task.v2gamma2_ab_ab = v2gamma2_ab_ab_mem.aligned_alloc<double>( npts, csl );
-            task.v2gamma2_ab_bb = v2gamma2_ab_bb_mem.aligned_alloc<double>( npts, csl );
-            task.v2gamma2_bb_bb = v2gamma2_bb_bb_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2gammalapl) {
-          task.v2gammalapl = v2gammalapl_mem.aligned_alloc<double>( npts*rhogamma_fac, csl );
-          if(is_pol) {
-            task.v2gammalapl_aa_a = v2gammalapl_aa_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammalapl_aa_b = v2gammalapl_aa_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammalapl_ab_a = v2gammalapl_ab_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammalapl_ab_b = v2gammalapl_ab_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammalapl_bb_a = v2gammalapl_bb_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammalapl_bb_b = v2gammalapl_bb_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2gammatau) {
-          task.v2gammatau = v2gammatau_mem.aligned_alloc<double>( npts*rhogamma_fac, csl );
-          if(is_pol) {
-            task.v2gammatau_aa_a = v2gammatau_aa_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammatau_aa_b = v2gammatau_aa_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammatau_ab_a = v2gammatau_ab_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammatau_ab_b = v2gammatau_ab_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammatau_bb_a = v2gammatau_bb_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2gammatau_bb_b = v2gammatau_bb_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2lapl2) {
-          task.v2lapl2 = v2lapl2_mem.aligned_alloc<double>( npts*rhorho_fac, csl );
-          if(is_pol) {
-            task.v2lapl2_a_a = v2lapl2_a_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2lapl2_a_b = v2lapl2_a_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2lapl2_b_b = v2lapl2_b_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2lapltau) {
-          task.v2lapltau = v2lapltau_mem.aligned_alloc<double>( npts*rhotau_fac, csl );
-          if(is_pol) {
-            task.v2lapltau_a_a = v2lapltau_a_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2lapltau_a_b = v2lapltau_a_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2lapltau_b_a = v2lapltau_b_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2lapltau_b_b = v2lapltau_b_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_v2tau2) {
-          task.v2tau2 = v2tau2_mem.aligned_alloc<double>( npts*rhorho_fac, csl );
-          if(is_pol) {
-            task.v2tau2_a_a = v2tau2_a_a_mem.aligned_alloc<double>( npts, csl );
-            task.v2tau2_a_b = v2tau2_a_b_mem.aligned_alloc<double>( npts, csl );
-            task.v2tau2_b_b = v2tau2_b_b_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        // Intermediate matrices for contraction
-        if(reqt.grid_FXC_A) {
-          task.FXC_A_s = FXC_A_s_mem.aligned_alloc<double>( npts, csl );
-          if (is_pol)
-            task.FXC_A_z = FXC_A_z_mem.aligned_alloc<double>( npts, csl );
-        }
-
-        if(reqt.grid_FXC_B) {
-          task.FXC_Bx_s = FXC_Bx_s_mem.aligned_alloc<double>( npts, csl );
-          task.FXC_By_s = FXC_By_s_mem.aligned_alloc<double>( npts, csl );
-          task.FXC_Bz_s = FXC_Bz_s_mem.aligned_alloc<double>( npts, csl );
-          if (is_pol) {
-            task.FXC_Bx_z = FXC_Bx_z_mem.aligned_alloc<double>( npts, csl );
-            task.FXC_By_z = FXC_By_z_mem.aligned_alloc<double>( npts, csl );
-            task.FXC_Bz_z = FXC_Bz_z_mem.aligned_alloc<double>( npts, csl );
-          }
-        }
-
-        if(reqt.grid_FXC_C) {
-          task.FXC_C_s = FXC_C_s_mem.aligned_alloc<double>( npts, csl );
-          if (is_pol)
-            task.FXC_C_z = FXC_C_z_mem.aligned_alloc<double>( npts, csl );
-        }
-      }
-
-    } // Loop over device tasks
-
-  } // Setup indirection
-
-
-
-  // Setup extra pieces to indirection which are algorithm specific
-  add_extra_to_indirection(terms, host_device_tasks);
-
-  // Send indirection 
-  device_backend_->copy_async( host_device_tasks.size(), host_device_tasks.data(), 
-    aos_stack.device_tasks, "send_tasks_device" );
-
-
-  // Synchronize on the copy stream to keep host vecs in scope
-  device_backend_->master_queue_synchronize(); 
-
-
-}
-
-
-
-void XCDeviceAoSData::populate_submat_maps( 
-  size_t N,
-  host_task_iterator task_begin, host_task_iterator task_end, 
-  const BasisSetMap& basis_map ) {
-
-
-  // Get packing size 
-  const size_t submat_chunk_size = this->get_submat_chunk_size(N,0);
-
-  for( auto it = task_begin; it != task_end; ++it ) {
-
-    const auto& shell_list_bfn = it->bfn_screening.shell_list;
-    if( shell_list_bfn.size() ) {
-      std::tie( it->bfn_screening.submat_map, it->bfn_screening.submat_block ) = 
-        gen_compressed_submat_map( basis_map, shell_list_bfn, N, submat_chunk_size );
-    }
-
-    const auto& shell_list_cou = it->cou_screening.shell_list;
-    if( shell_list_cou.size() ) {
-      std::tie( it->cou_screening.submat_map, it->cou_screening.submat_block ) = 
-        gen_compressed_submat_map( basis_map, shell_list_cou, N, submat_chunk_size );
-    }
-
-  }
-
-}
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_aos_data.hpp b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_aos_data.hpp
deleted file mode 100644
index d1c3b78..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_aos_data.hpp
+++ /dev/null
@@ -1,136 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "xc_device_stack_data.hpp"
-#include "xc_device_task.hpp"
-
-namespace GauXC {
-
-
-/// Base type for XCDeviceData instances that address task batches as AoS
-struct XCDeviceAoSData : public XCDeviceStackData {
-
-  size_t total_nbe_bfn_task_batch      = 0; ///< Sum of nbe_bfn for task batch
-  size_t total_nbe_scr_task_batch      = 0; ///< Sum of max(nbe,...) * nbe_bfn for task batch
-  size_t total_nbe_bfn_npts_task_batch = 0; ///< Sum of npts*nbe_bfn for task batch
-  size_t total_ncut_bfn_task_batch     = 0; ///< Sum of ncut_bfn for task batch
-  size_t total_nblock_bfn_task_batch   = 0; ///< Sum of nblock_bfn for task batch
-  size_t total_nbe_cou_npts_task_batch = 0; ///< Sum of npts*nbe_cou for task batch
-  size_t total_ncut_cou_task_batch     = 0; ///< Sum of ncut_cou for task batch
-  size_t total_nblock_cou_task_batch   = 0; ///< Sum of nblock_cou for task batch
-
-  // Collocation buffers
-  struct aos_stack_data {
-    double* bf_eval_device    = nullptr; 
-      ///< Contiguous batch local collocation for task batch
-    double* dbf_x_eval_device = nullptr; ///< Derivative of `bf_eval_device` wrt x
-    double* dbf_y_eval_device = nullptr; ///< Derivative of `bf_eval_device` wrt y
-    double* dbf_z_eval_device = nullptr; ///< Derivative of `bf_eval_device` wrt z
-
-    double* d2bf_xx_eval_device = nullptr; ///< 2nd Derivative of `bf_eval_device` wrt x+x
-    double* d2bf_xy_eval_device = nullptr; ///< 2nd Derivative of `bf_eval_device` wrt x+y
-    double* d2bf_xz_eval_device = nullptr; ///< 2nd Derivative of `bf_eval_device` wrt x+z
-    double* d2bf_yy_eval_device = nullptr; ///< 2nd Derivative of `bf_eval_device` wrt y+y
-    double* d2bf_yz_eval_device = nullptr; ///< 2nd Derivative of `bf_eval_device` wrt y+z
-    double* d2bf_zz_eval_device = nullptr; ///< 2nd Derivative of `bf_eval_device` wrt z+z
-
-    double* d2bf_lapl_eval_device = nullptr; ///< Laplacian of `bf_eval_device`
-    double* d3bf_lapgrad_x_eval_device = nullptr; ///< Laplacian derivative of bf_eval_device wrt x
-    double* d3bf_lapgrad_y_eval_device = nullptr; ///< Laplacian derivative of bf_eval_device wrt y
-    double* d3bf_lapgrad_z_eval_device = nullptr; ///< Laplacian derivative of bf_eval_device wrt z
-
-    // VXC Z Matrix
-    double* zmat_vxc_device = nullptr;
-      ///< Contiguous batch local Z matrix for LDA/GGA VXC for task batch
-
-    // X mat gradients
-    double* xmat_dx_device = nullptr;
-    double* xmat_dy_device = nullptr;
-    double* xmat_dz_device = nullptr;
-
-    // Persistent X mat
-    double* xmatS_device    = nullptr;
-    double* xmatS_dx_device = nullptr;
-    double* xmatS_dy_device = nullptr;
-    double* xmatS_dz_device = nullptr;
-    double* xmatZ_device    = nullptr;
-    double* xmatZ_dx_device = nullptr;
-    double* xmatZ_dy_device = nullptr;
-    double* xmatZ_dz_device = nullptr;
-
-    // EXX Intermediates
-    double* fmat_exx_device = nullptr;
-    double* gmat_exx_device = nullptr;
-
-    // EXX EK Maps
-    int32_t* bfn_shell_indirection_device = nullptr;
-
-    // Scratch buffer
-    double* nbe_scr_device = nullptr; ///< nbe*nbe scratch allocated for task batch
-
-    // AoS Buffers
-    int32_t* submat_cut_bfn_device   = nullptr;
-      ///< Contiguous batch local submatrix cuts for task batch (bfn)
-    int32_t* submat_block_bfn_device = nullptr;
-      ///< Contiguous batch local submatrix blocking factors for task batch (bfn)
-    int32_t* submat_cut_cou_device   = nullptr;
-      ///< Contiguous batch local submatrix cuts for task batch (cou)
-    int32_t* submat_block_cou_device = nullptr;
-      ///< Contiguous batch local submatrix blocking factors for task batch (cou)
-
-    // Indirection
-    XCDeviceTask* device_tasks = nullptr; ///< Task indirection in device memory
-
-    inline void reset() { std::memset(this,0,sizeof(aos_stack_data)); }
-  };
-
-  std::vector<XCDeviceTask> host_device_tasks; ///< Task indirection in host memory
-  aos_stack_data aos_stack;
-
-
-  XCDeviceAoSData() = delete;
-  inline XCDeviceAoSData( const DeviceRuntimeEnvironment& rt ) :
-    XCDeviceStackData( rt ) { }
-
-  // Make it polymorphic
-  virtual ~XCDeviceAoSData() noexcept = default;
-
-  // AoS Specific API
- 
-  /** Get L2 compatiable submatrix block size for a specified matrix dimension
-   *
-   *  @param[in] LDA Leading dimension large matrix which is extracted from
-   *  @param[in] dev_id ID of device to query memory information
-   *
-   *  @returns Submatrix blocking factor
-   */
-  virtual size_t get_submat_chunk_size( int32_t LDA, int32_t dev_id ) = 0;
-
-  // Overridable API overrides
-  virtual size_t get_mem_req( integrator_term_tracker, const host_task_type&) override;
-  virtual device_buffer_t allocate_dynamic_stack( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, device_buffer_t buf) override;
-  virtual void pack_and_send( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, 
-    const BasisSetMap& basis_map ) override;
-
-  inline virtual void 
-    add_extra_to_indirection(integrator_term_tracker, std::vector<XCDeviceTask>&) { };
-
-  virtual void reset_allocations() override;
-
-  void populate_submat_maps( size_t, host_task_iterator, host_task_iterator, const BasisSetMap& ) override;
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_data.hpp b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_data.hpp
deleted file mode 100644
index 9c48a1c..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_data.hpp
+++ /dev/null
@@ -1,804 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/xc_task.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include <vector>
-#include <gauxc/basisset_map.hpp>
-#include <gauxc/shell_pair.hpp>
-#include <gauxc/molmeta.hpp>
-//#include <gauxc/reduction_driver.hpp>
-#include <any>
-#include <cstring>
-#include "device/device_queue.hpp"
-
-namespace GauXC {
-
-enum integrator_xc_approx : uint32_t {
-  _UNDEF_APPROX         = 0,
-  LDA                   = 1,
-  GGA                   = 2,
-  MGGA_TAU              = 3,
-  MGGA_LAPL             = 4
-};
-
-enum integrator_ks_scheme : uint32_t {
-  _UNDEF_SCHEME             = 0,
-  RKS                       = 1,
-  UKS                       = 2,
-  GKS                       = 3
-};
-
-enum density_id : uint32_t {
-  _UNDEF_DEN      = 0,
-  DEN_S           = 1,    // RKS, UKS, GKS
-  DEN_Z           = 2,    // UKS, GKS
-  DEN_Y           = 3,    // GKS
-  DEN_X           = 4     // GKS
-};
-
-struct integrator_term_tracker {
-  bool weights                   = false;
-  bool den                       = false;
-  bool exc_vxc                   = false;
-  bool exc_grad                  = false;
-  bool exx                       = false;
-  bool exx_ek_screening          = false;
-  bool onedft                    = false;
-  bool fxc_contraction           = false;
-  integrator_xc_approx xc_approx = _UNDEF_APPROX;
-  integrator_ks_scheme ks_scheme = _UNDEF_SCHEME;
-  inline void reset() {
-    std::memset( this, 0, sizeof(integrator_term_tracker) );
-  }
-};
-
-#define PRDVL(pred,val) (pred) ? (val) : 0ul
-
-struct required_term_storage {
-  bool grid_points  = false;
-  bool grid_weights = false;
-
-  inline size_t grid_points_size(size_t npts) { 
-    return PRDVL(grid_points, 3 * npts); 
-  }
-  inline size_t grid_weights_size(size_t npts) { 
-    return PRDVL(grid_weights, npts); 
-  }
-
-  // Evaluation of functions on the grid (linear storage)
-  bool grid_den      = false;
-  bool grid_den_grad = false;
-  bool grid_lapl     = false;
-  bool grid_gamma    = false;
-  bool grid_tau      = false;
-  bool grid_eps      = false;
-  bool grid_vrho     = false;
-  bool grid_vgamma   = false;
-  bool grid_vtau     = false;
-  bool grid_vlapl    = false;
-  
-  // Second derivative variables
-  bool grid_tden      = false;
-  bool grid_tden_grad = false;
-  bool grid_ttau      = false;
-  bool grid_tlapl     = false;
-  bool grid_v2rho2      = false;
-  bool grid_v2rhogamma  = false;
-  bool grid_v2rholapl   = false;
-  bool grid_v2rhotau    = false;
-  bool grid_v2gamma2    = false;
-  bool grid_v2gammalapl = false;
-  bool grid_v2gammatau  = false;
-  bool grid_v2lapl2     = false;
-  bool grid_v2lapltau   = false;
-  bool grid_v2tau2      = false;
-  bool grid_FXC_A           = false;
-  bool grid_FXC_B           = false;
-  bool grid_FXC_C           = false;
-
-
-  // Reference flags for memory management use
-  integrator_term_tracker ref_tracker;
-  
-  inline size_t grid_den_size(size_t npts){ 
-    // For RKS, only den_s_eval is used
-    if( grid_den ) {
-      if( ref_tracker.ks_scheme == RKS ) return npts; 
-      if( ref_tracker.den )              return npts; 
-      // 2*npts for S,Z densities, 2*npts for interleaved density
-      if( ref_tracker.ks_scheme == UKS ) return 4*npts;
-      // Same as above, but also X,Y densities
-      if( ref_tracker.ks_scheme == GKS ) return 6*npts;  
-    }
-    return 0ul;
-  }
-  inline size_t grid_den_grad_size(size_t npts){ 
-    if( grid_den_grad ) {
-      // 3*npts for each density in play
-      if( ref_tracker.ks_scheme == RKS ) return 3*npts;
-      if( ref_tracker.ks_scheme == UKS ) return 6*npts;
-      if( ref_tracker.ks_scheme == GKS ) return 12*npts;
-    }
-    return 0ul;
-  }
-  inline size_t grid_gamma_size(size_t npts){
-    if( grid_gamma ) {
-      if(  ref_tracker.ks_scheme == RKS ) return npts;
-      if(  ref_tracker.ks_scheme == UKS 
-        or ref_tracker.ks_scheme == GKS ) return 6*npts;
-    }
-    return 0ul;
-  }
-  inline size_t grid_lapl_size(size_t npts){ 
-    if(grid_lapl) {
-      switch(ref_tracker.ks_scheme) {
-        case UKS:
-        case GKS:
-          return 4 * npts;
-        default:
-          return npts;
-      }
-    } 
-    return 0ul;
-  }
-  inline size_t grid_tau_size(size_t npts){ 
-    if(grid_tau) {
-      switch(ref_tracker.ks_scheme) {
-        case UKS:
-        case GKS:
-          return 4 * npts;
-        default:
-          return npts;
-      }
-    } 
-    return 0ul;
-  }
-  inline size_t grid_eps_size(size_t npts){ 
-    return PRDVL(grid_eps, npts);
-  }
-  inline size_t grid_vrho_size(size_t npts){ 
-    if( grid_vrho ) {
-      if(   ref_tracker.ks_scheme == RKS ) return npts;
-      if(   ref_tracker.ks_scheme == UKS 
-        or  ref_tracker.ks_scheme == GKS ) return 4*npts;
-    }
-    return 0ul;
-  }
-  inline size_t grid_vgamma_size(size_t npts){ 
-    if( grid_vgamma ) {
-      if(   ref_tracker.ks_scheme == RKS ) return npts;
-      if(   ref_tracker.ks_scheme == UKS 
-        or  ref_tracker.ks_scheme == GKS ) return 6*npts;
-    }
-    return 0ul;
-  }
-  inline size_t grid_HK_size(size_t npts){
-    if( ref_tracker.ks_scheme == GKS ) {
-      if( ref_tracker.xc_approx == GGA ) return 6*npts;
-      if( ref_tracker.xc_approx == LDA ) return 3*npts;
-    }
-    return 0ul;
-  }
-  inline size_t grid_vtau_size(size_t npts){ 
-    if(grid_vtau) {
-      switch(ref_tracker.ks_scheme) {
-        case UKS:
-        case GKS:
-          return 4 * npts;
-        default:
-          return npts;
-      }
-    } 
-    return 0ul;
-  }
-  inline size_t grid_vlapl_size(size_t npts){ 
-    if(grid_vlapl) {
-      switch(ref_tracker.ks_scheme) {
-        case UKS:
-        case GKS:
-          return 4 * npts;
-        default:
-          return npts;
-      }
-    } 
-    return 0ul;
-  }
-  
-  // Size calculators for second derivative variables
-  inline size_t grid_tden_size(size_t npts){ 
-    if( grid_tden ) {
-      if( ref_tracker.ks_scheme == RKS ) return npts; 
-      // 2*npts for S,Z densities, 2*npts for interleaved density
-      if( ref_tracker.ks_scheme == UKS ) return 2*npts;
-      // Same as above, but also X,Y densities
-      if( ref_tracker.ks_scheme == GKS ) return 4*npts;  
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_tden_grad_size(size_t npts){ 
-    if( grid_tden_grad ) {
-      // 3*npts for each density in play
-      if( ref_tracker.ks_scheme == RKS ) return 3*npts;
-      if( ref_tracker.ks_scheme == UKS ) return 6*npts;
-      if( ref_tracker.ks_scheme == GKS ) return 12*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_tlapl_size(size_t npts){ 
-    if(grid_tlapl) {
-      switch(ref_tracker.ks_scheme) {
-        case UKS:
-        case GKS:
-          return 2 * npts;
-        default:
-          return npts;
-      }
-    } 
-    return 0ul;
-  }
-  
-  inline size_t grid_ttau_size(size_t npts){ 
-    if(grid_ttau) {
-      switch(ref_tracker.ks_scheme) {
-        case UKS:
-        case GKS:
-          return 2 * npts;
-        default:
-          return npts;
-      }
-    } 
-    return 0ul;
-  }
-  
-  inline size_t grid_v2rho2_size(size_t npts){
-    if(grid_v2rho2) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 6*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2rhogamma_size(size_t npts){
-    if(grid_v2rhogamma) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 12*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2rholapl_size(size_t npts){
-    if(grid_v2rholapl) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 8*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2rhotau_size(size_t npts){
-    if(grid_v2rhotau) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 8*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2gamma2_size(size_t npts){
-    if(grid_v2gamma2) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 12*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2gammalapl_size(size_t npts){
-    if(grid_v2gammalapl) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 12*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2gammatau_size(size_t npts){
-    if(grid_v2gammatau) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 12*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2lapl2_size(size_t npts){
-    if(grid_v2lapl2) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 6*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2lapltau_size(size_t npts){
-    if(grid_v2lapltau) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 8*npts;
-    }
-    return 0ul;
-  }
-  
-  inline size_t grid_v2tau2_size(size_t npts){
-    if(grid_v2tau2) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 6*npts;
-    }
-    return 0ul;
-  }
-
-  inline size_t grid_FXC_A_size(size_t npts){
-    if( grid_FXC_A ) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 2*npts;
-    }
-  }
-  inline size_t grid_FXC_B_size(size_t npts){
-    if( grid_FXC_B ) {
-      if( ref_tracker.ks_scheme == RKS ) return 3*npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 6*npts;
-    }
-  }
-  inline size_t grid_FXC_C_size(size_t npts){
-    if( grid_FXC_C ) {
-      if( ref_tracker.ks_scheme == RKS ) return npts;
-      if( ref_tracker.ks_scheme == UKS or ref_tracker.ks_scheme == GKS ) return 2*npts;
-    }
-  }
-
-
-
-  // Task-local matrices
-  bool task_bfn           = false;
-  bool task_bfn_grad      = false;
-  bool task_bfn_hess      = false;
-  bool task_bfn_lapl      = false;
-  bool task_bfn_lapgrad   = false;
-  bool task_zmat          = false;
-  bool task_xmat          = false;
-  bool task_xmat_grad     = false;
-  bool task_xmat_persist  = false;
-  bool task_fmat          = false;
-  bool task_gmat          = false;
-  bool task_nbe_scr       = false;
-  bool task_bfn_shell_indirection = false;
-
-
-  inline size_t task_bfn_size(size_t nbe, size_t npts) {
-    return PRDVL(task_bfn, nbe * npts);
-  }
-  inline size_t task_bfn_grad_size(size_t nbe, size_t npts) {
-    return PRDVL(task_bfn_grad, 3 * nbe * npts);
-  }
-  inline size_t task_bfn_hess_size(size_t nbe, size_t npts) {
-    return PRDVL(task_bfn_hess, 6 * nbe * npts);
-  }
-  inline size_t task_bfn_lapl_size(size_t nbe, size_t npts) {
-    return PRDVL(task_bfn_lapl, nbe * npts);
-  }
-  inline size_t task_bfn_lapgrad_size(size_t nbe, size_t npts) {
-    return PRDVL(task_bfn_lapgrad, 3 * nbe * npts);
-  }
-  inline size_t task_zmat_size(size_t nbe, size_t npts) {
-    return PRDVL(task_zmat, nbe * npts);
-  }
-  inline size_t task_xmat_grad_size(size_t nbe, size_t npts) {
-    return PRDVL(task_xmat_grad, 3 * nbe * npts);
-  }
-  inline size_t task_xmat_persist_size(size_t nbe, size_t npts) {
-    // TODO Make this more robust
-    return PRDVL(task_xmat_persist, 2 * (task_xmat_grad ? 4 : 1) * nbe * npts);
-  }
-  inline size_t task_fmat_size(size_t nbe, size_t npts) {
-    return PRDVL(task_fmat, nbe * npts);
-  }
-  inline size_t task_gmat_size(size_t nbe, size_t npts) {
-    return PRDVL(task_gmat, nbe * npts);
-  }
-  inline size_t task_nbe_scr_size(size_t nbe_bfn, size_t nbe_cou) {
-    return PRDVL(task_nbe_scr, std::max(nbe_bfn,nbe_cou) * nbe_bfn);
-  }
-  inline size_t task_bfn_shell_indirection_size(size_t nbe) {
-    return PRDVL(task_bfn_shell_indirection, nbe);
-  }
-
-  // Index packing
-  bool task_submat_cut_bfn   = false;
-  bool task_submat_block_bfn = false;
-  bool task_submat_cut_cou   = false;
-  bool task_submat_block_cou = false;
-
-  inline size_t task_submat_cut_bfn_size(size_t ncut) {
-    return PRDVL(task_submat_cut_bfn, 3*ncut);
-  }
-  inline size_t task_submat_block_bfn_size(size_t nblock) {
-    return PRDVL(task_submat_block_bfn, nblock);
-  }
-  inline size_t task_submat_cut_cou_size(size_t ncut) {
-    return PRDVL(task_submat_cut_cou, 3*ncut);
-  }
-  inline size_t task_submat_block_cou_size(size_t nblock) {
-    return PRDVL(task_submat_block_cou, nblock);
-  }
-
-  // Task indirection
-  bool task_indirection = false;
-  inline size_t task_indirection_size() {
-    return PRDVL(task_indirection, 1ul);
-  }
-
-  // Weights kernel scratch
-  bool grid_to_center_dist_scr     = false;
-  bool grid_to_center_dist_nearest = false;
-  bool grid_to_parent_center       = false;
-
-  inline size_t grid_to_center_dist_scr_size(size_t ldatom, size_t npts) {
-    return PRDVL(grid_to_center_dist_scr, ldatom * npts);
-  }
-  inline size_t grid_to_center_dist_nearest_size(size_t npts) {
-    return PRDVL(grid_to_center_dist_nearest, npts);
-  }
-  inline size_t grid_to_parent_center_size(size_t npts) {
-    return PRDVL(grid_to_parent_center, npts);
-  }
-
-  // Shell/Shell pairs lists + indirection
-  bool task_shell_list_bfn    = false;
-  bool task_shell_offs_bfn    = false;
-  bool shell_to_task_bfn      = false;
-  bool shell_pair_to_task_cou = false;
-  bool task_to_shell_pair_cou = false;
-  
-  inline size_t task_shell_list_bfn_size(size_t nshells) {
-    return PRDVL(task_shell_list_bfn, nshells);
-  }
-  inline size_t task_shell_offs_bfn_size(size_t nshells) {
-    return PRDVL(task_shell_offs_bfn, nshells);
-  }
-  inline size_t shell_to_task_idx_bfn_size(size_t nshells) {
-    return PRDVL(shell_to_task_bfn, nshells);
-  }
-  inline size_t shell_to_task_off_bfn_size(size_t nshells) {
-    return PRDVL(shell_to_task_bfn, nshells);
-  }
-  inline size_t shell_pair_to_task_idx_cou_size(size_t nshells) {
-    const size_t nslt = (nshells * (nshells+1)) / 2;
-    return PRDVL(shell_pair_to_task_cou, nslt);
-  }
-  inline size_t shell_pair_to_task_row_off_cou_size(size_t nshells) {
-    const size_t nslt = (nshells * (nshells+1)) / 2;
-    return PRDVL(shell_pair_to_task_cou, nslt);
-  }
-  inline size_t shell_pair_to_task_col_off_cou_size(size_t nshells) {
-    const size_t nslt = (nshells * (nshells+1)) / 2;
-    return PRDVL(shell_pair_to_task_cou, nslt);
-  }
-  inline size_t task_to_shell_pair_col_off_cou_size(size_t nshells) {
-    const size_t nslt = (nshells * (nshells+1)) / 2;
-    return PRDVL(task_to_shell_pair_cou, nslt);
-  }
-  inline size_t task_to_shell_pair_row_off_cou_size(size_t nshells) {
-    const size_t nslt = (nshells * (nshells+1)) / 2;
-    return PRDVL(task_to_shell_pair_cou, nslt);
-  }
-  inline size_t task_to_shell_pair_idx_cou_size(size_t nshells) {
-    const size_t nslt = (nshells * (nshells+1)) / 2;
-    return PRDVL(task_to_shell_pair_cou, nslt);
-  }
-  inline size_t task_to_shell_pair_cou_size() {
-    return PRDVL(task_to_shell_pair_cou, 1ul);
-  }
-  inline size_t task_to_shell_pair_cou_subtask_size(size_t npts, size_t subtask_size) {
-    const size_t num_subtasks = util::div_ceil(npts, subtask_size);
-    return PRDVL(task_to_shell_pair_cou, num_subtasks);
-  }
-
-
-
-  inline explicit required_term_storage(integrator_term_tracker tracker) {
-    // Everything under the sun needs the grid
-    grid_points  = true;
-    grid_weights = true;
-
-    if(tracker.weights) {
-      grid_to_center_dist_scr     = true;
-      grid_to_center_dist_nearest = true; 
-      grid_to_parent_center       = true;
-    }
-
-    // Allocated terms for XC calculations
-    const bool is_xc = tracker.exc_vxc or tracker.exc_grad or tracker.fxc_contraction or tracker.onedft;
-    const bool is_2nd_deriv = tracker.fxc_contraction;
-    
-    ref_tracker = tracker;
-
-    if(is_xc) {
-      if( tracker.xc_approx == _UNDEF_APPROX )
-        GAUXC_GENERIC_EXCEPTION("No XC Approx Set");
-      if( tracker.ks_scheme == _UNDEF_SCHEME )
-        GAUXC_GENERIC_EXCEPTION("No KS Scheme Set");
-      //const bool is_lda  = is_xc and tracker.xc_approx == LDA;
-      const bool is_gga  = is_xc and tracker.xc_approx == GGA;
-      const bool need_tau  = tracker.xc_approx == MGGA_TAU;
-      const bool need_lapl = tracker.xc_approx == MGGA_LAPL;
-      const bool is_mgga = is_xc and (need_tau or need_lapl);
-      const bool is_grad = tracker.exc_grad;
-      const bool is_rks  = tracker.ks_scheme == RKS;
-
-      grid_den      = true;
-      grid_den_grad = is_gga or is_mgga or is_grad;
-      grid_lapl     = need_lapl;
-      grid_gamma    = is_gga or is_mgga;
-      grid_tau      = is_mgga;
-      grid_eps      = true;
-      grid_vrho     = true;
-      grid_vgamma   = is_gga or is_mgga;
-      grid_vtau     = is_mgga;
-      grid_vlapl    = need_lapl;
-
-      task_bfn          = true;
-      task_bfn_grad     = is_gga or  is_mgga or is_grad;
-      task_bfn_hess     = (is_gga or is_mgga) and is_grad;
-      task_bfn_lapl     = need_lapl;
-      task_bfn_lapgrad  = need_lapl and is_grad;
-      task_zmat         = true;
-      task_xmat         = true;
-      task_xmat_grad    = is_mgga or (is_gga and is_grad);
-      task_xmat_persist = is_grad and not is_rks;
-      task_nbe_scr      = true;
-
-      task_submat_cut_bfn   = true;
-      task_submat_block_bfn = true;
-      task_indirection      = true;
-
-      task_shell_list_bfn = true;
-      task_shell_offs_bfn = true;
-      shell_to_task_bfn   = true;
-    }
-
-    if(is_2nd_deriv) {
-      grid_eps      = false;
-
-      grid_tden      = true;
-      grid_tden_grad = true;
-      grid_tlapl     = true;
-      grid_ttau      = true;
-      grid_v2rho2    = true;
-      grid_v2rhogamma= true;
-      grid_v2rholapl = true;
-      grid_v2rhotau  = true;
-      grid_v2gamma2  = true;
-      grid_v2gammalapl= true;
-      grid_v2gammatau= true;
-      grid_v2lapl2   = true;
-      grid_v2lapltau = true;
-      grid_v2tau2    = true;
-      grid_FXC_A         = true;
-      grid_FXC_B         = true;
-      grid_FXC_C         = true;
-
-      // task_bfn_hess     = is_gga or is_mgga or is_grad; // TODO: Check this
-      // task_bfn_lapgrad  = need_lapl and is_grad; // TODO: Check this
-    }
-
-    // Density integration
-    if(tracker.den) {
-      grid_den              = true;
-      task_bfn              = true;
-      task_nbe_scr          = true;
-      task_xmat             = true;
-      task_zmat             = true;
-      task_submat_cut_bfn   = true;
-      task_submat_block_bfn = true;
-      task_indirection      = true;
-
-      task_shell_list_bfn = true;
-      task_shell_offs_bfn = true;
-      shell_to_task_bfn   = true;
-    }
-
-    // EXX integration
-    if(tracker.exx) {
-      task_bfn              = true;
-      task_fmat             = true;
-      task_gmat             = true;
-      task_nbe_scr          = true;
-      task_submat_cut_bfn   = true;
-      task_submat_block_bfn = true;
-      task_submat_cut_cou   = true;
-      task_submat_block_cou = true;
-      task_indirection      = true;
-
-      task_shell_list_bfn    = true;
-      task_shell_offs_bfn    = true;
-      shell_to_task_bfn      = true;
-      //shell_pair_to_task_cou = true;
-      task_to_shell_pair_cou = true;
-    }
-
-    if(tracker.exx_ek_screening) {
-      task_bfn              = true;
-      task_indirection      = true;
-
-      task_shell_list_bfn        = true;
-      task_shell_offs_bfn        = true;
-      task_bfn_shell_indirection = true;
-      shell_to_task_bfn          = true;
-    }
-
-  }
-};
-
-#undef PRDVL
-
-
-
-inline 
-std::ostream& operator<<( std::ostream& out, const integrator_term_tracker& t ) {
-  out << std::boolalpha;
-  out << "Integrator Terms:" << std::endl;
-  out << "  WEIGHTS  " << t.weights << std::endl;
-  out << "  DEN      " << t.den << std::endl;
-  out << "  EXC_VXC  " << t.exc_vxc << std::endl;
-  out << "  FXC_CONTRACTION " << t.fxc_contraction << std::endl;
-  out << "  EXC_GRAD " << t.exc_grad << std::endl;
-  out << "  EXX      " << t.exx << std::endl;
-  return out;
-}
-
-/** Base class for all XCDeviceData types
- *
- *  Exposes virtual API to manage device memory and batch XC
- *  integration tasks.
- */
-struct XCDeviceData {
-
-  using host_task_type        = XCTask;
-  using host_task_container   = std::vector<host_task_type>;
-  using host_task_iterator    = host_task_container::iterator;
-
-  virtual ~XCDeviceData() noexcept = default;
-
-  /// Allocate device memory for data that will persist on the device.
-  virtual void reset_allocations() = 0;
-  virtual void allocate_static_data_weights( int32_t natoms ) = 0;
-  virtual void allocate_static_data_onedft( int32_t nbf, int32_t nshells, int32_t natoms, int32_t total_npts, integrator_term_tracker enabled_terms ) = 0;
-  virtual void allocate_static_data_exc_vxc( int32_t nbf, int32_t nshells, integrator_term_tracker enabled_terms, bool do_vxc ) = 0;
-  virtual void allocate_static_data_den( int32_t nbf, int32_t nshells ) = 0;
-  virtual void allocate_static_data_exc_grad( int32_t nbf, int32_t nshells, int32_t natoms, integrator_term_tracker enabled_terms ) = 0;
-  virtual void allocate_static_data_exx( int32_t nbf, int32_t nshells, size_t nshell_pairs, size_t nprim_pair_total, int32_t max_l ) = 0;
-  virtual void allocate_static_data_exx_ek_screening( size_t ntasks, int32_t nbf, int32_t nshells, int nshell_pairs, int32_t max_l ) = 0;
-  virtual void allocate_static_data_fxc_contraction( int32_t nbf, int32_t nshells, integrator_term_tracker enabled_terms) = 0;
-
-  // Send persistent data from host to device
-  virtual void send_static_data_weights( const Molecule& mol, const MolMeta& meta ) = 0;
-  virtual void send_static_data_onedft( const Molecule& mol, const double* Ps, int32_t ldps, const double* Pz, int32_t ldpz, const double* Py, int32_t ldpy, const double* Px, int32_t ldpx, const BasisSet<double>& basis ) = 0;
-  virtual void send_static_data_onedft_results( int32_t total_npts, int32_t ndm, const double* EXC, const double* DEN, const double* DDEN, const double* TAU) = 0;
-  virtual void send_static_data_density_basis( const double* Ps, int32_t ldps, 
-    const double* Pz, int32_t ldpz, const double* Py, int32_t ldpy, 
-    const double* Px, int32_t ldpx, const BasisSet<double>& basis ) = 0;
-  virtual void send_static_data_trial_density(
-    const double* tPs, int32_t ldtps, const double* tPz, int32_t ldtpz,
-    const double* tPy, int32_t ldtpy, const double* tPx, int32_t ldtpx ) = 0;
-  virtual void send_static_data_shell_pairs( const BasisSet<double>&, const ShellPairCollection<double>& ) = 0;
-  virtual void send_static_data_exx_ek_screening( const double* V_max, int32_t ldv, const BasisSetMap&, const ShellPairCollection<double>& ) = 0;
-
-  /// Zero out the density integrands in device memory
-  virtual void zero_den_integrands() = 0;
-
-  /// Zero out the EXC / VXC integrands in device memory
-  virtual void zero_exc_vxc_integrands(integrator_term_tracker enabled_terms) = 0;
-
-  /// Zero out the EXC Gradient integrands in device memory
-  virtual void zero_exc_grad_integrands() = 0;
-
-  /// Zero out the EXX integrands in device memory
-  virtual void zero_exx_integrands() = 0;
-
-  /// Zero out intermediates for EXX EK screening
-  virtual void zero_exx_ek_screening_intermediates() = 0;
-
-  /// Zero out the FXC contraction integrands in device memory
-  virtual void zero_fxc_contraction_integrands() = 0;
-
-  /** Generate task batch to execute on device
-   *
-   *  Generate a batch of XC tasks to execute on the device and 
-   *  populate device memory for said batch.
-   *
-   *  TODO: this will depend on the integrand, we should refactor this
-   *  to only allocate what is needed
-   *
-   *  @param[in] basis_map  Basis set map instance for passed basis object
-   *                        (TODO, this should probably persist to avoid clashes)
-   *  @param[in] task_begin Start iterator for XC task queue
-   *  @param[in] task_end   End iterator for XC task queue
-   *
-   *  @returns iterator to last XC task queue which was not kept in the
-   *           allocated batch (!= task_end)
-   */
-  virtual host_task_iterator generate_buffers( integrator_term_tracker terms,
-    const BasisSetMap& basis_map, host_task_iterator task_begin,
-    host_task_iterator task_end ) = 0;
-
-  /** Retreive EXC/VXC integrands from device memory
-   *
-   *  @param[out] EXC  Integrated XC energy (host) for XC task
-   *  @param[out] N_EL Integrated # electrons (host) for XC queue (accuracy metric)
-   *  @param[out[ VXC  Integrated XC potential (host) for XC queue
-   */
-  virtual void retrieve_exc_vxc_integrands( double* EXC, double* N_EL,
-    double* VXCs, int32_t ldvxcs, double* VXCz, int32_t ldvxcz,
-    double* VXCy, int32_t ldvxcy, double* VXCx, int32_t ldvxcx ) = 0;
-
-  /** Retreive OneDFT features from device memory
-   */
-  virtual void retrieve_onedft_features( int32_t total_npts, int32_t ndm, double* DEN, 
-    double* DDEN, double* TAU, double* POINTS, double* WEIGHTS ) = 0;
-    
-  virtual void retrieve_fxc_contraction_integrands( double* N_EL,
-    double* FXCs, int32_t ldfxcs, double* FXCz, int32_t ldfxcz,
-    double* FXCy, int32_t ldfxcy, double* FXCx, int32_t ldfxcx ) = 0;
-
-  /** Retreive EXC Gradient integrands from device memory
-   *
-   *  @param[out] EXC_GRAD  Integrated XC Gradient (host) for XC task
-   *  @param[out] N_EL      Integrated # electrons (host) for XC queue 
-   */
-  virtual void retrieve_exc_grad_integrands( double* EXC_GRAD, double* N_EL ) = 0;
-
-  /** Retreive Density integrands from device memory
-   *
-   *  @param[out] N_EL      Integrated # electrons (host) for XC queue 
-   */
-  virtual void retrieve_den_integrands( double* N_EL ) = 0;
-
-
-  virtual void retrieve_exx_integrands( double* K, int32_t ldk ) = 0;
-
-  virtual void retrieve_exx_ek_max_bfn_sum( double* MBS, int32_t nt) = 0;
-
-
-  virtual void copy_weights_to_tasks( host_task_iterator task_begin, host_task_iterator task_end ) = 0;
-  virtual void populate_submat_maps ( size_t, host_task_iterator begin, host_task_iterator end, const BasisSetMap& ) = 0;
-
-  virtual double* vxc_z_device_data() = 0;
-  virtual double* vxc_s_device_data() = 0;
-  virtual double* vxc_y_device_data() = 0;
-  virtual double* vxc_x_device_data() = 0;
-  virtual double* exc_device_data() = 0;
-  virtual double* nel_device_data() = 0;
-  virtual double* exx_k_device_data() = 0;
-
-  virtual double* grid_weights_device_data() = 0;
-  virtual double* grid_coords_device_data() = 0;
-  virtual double* den_eval_device_data() = 0;
-  virtual double* dden_eval_device_data() = 0;
-  virtual double* tau_device_data() = 0;
-  virtual double* coords_device_data() = 0;
-
-  virtual double* fxc_z_device_data() = 0;
-  virtual double* fxc_s_device_data() = 0;
-  virtual double* fxc_y_device_data() = 0;
-  virtual double* fxc_x_device_data() = 0;
-  virtual device_queue queue() = 0;
-
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_shell_pair_soa.hpp b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_shell_pair_soa.hpp
deleted file mode 100644
index 3b979c8..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_shell_pair_soa.hpp
+++ /dev/null
@@ -1,35 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/shell_pair.hpp>
-
-namespace GauXC {
-struct XCDeviceShellPairSoA {
-  using shell_pair = ShellPair<double>;
-  using point      = detail::cartesian_point;
-  std::vector<GauXC::PrimitivePair<double>*> prim_pair_dev_ptr;
-  std::vector<int32_t>                shell_pair_nprim_pairs;
-  std::vector<std::pair<int,int>>     shell_pair_shidx;
-  std::vector<std::pair<int,int>>     shell_pair_ls;
-  std::vector<std::pair<point,point>> shell_pair_centers;
-
-  std::vector<size_t> sp_row_ptr;
-  std::vector<size_t> sp_col_ind;
-
-  inline void reset() {
-    shell_pair_nprim_pairs.clear();
-    prim_pair_dev_ptr.clear();
-    shell_pair_ls.clear();
-    shell_pair_centers.clear();
-  }
-};
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_stack_data.cxx b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_stack_data.cxx
deleted file mode 100644
index 15c8126..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_stack_data.cxx
+++ /dev/null
@@ -1,1440 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "xc_device_stack_data.hpp"
-#include "buffer_adaptor.hpp"
-#include <gauxc/runtime_environment.hpp>
-
-namespace GauXC {
-
-namespace detail {
-  size_t memory_cap() {
-    if( getenv("GAUXC_DEVICE_MEMORY_CAP" ) ) {
-      return std::stoull( getenv("GAUXC_DEVICE_MEMORY_CAP") );
-    } else { return std::numeric_limits<size_t>::max(); }
-  }
-}
-
-XCDeviceStackData::XCDeviceStackData(const DeviceRuntimeEnvironment& rt) :
-  runtime_(rt) { 
-    device_ptr = runtime_.device_memory();
-    devmem_sz  = runtime_.device_memory_size();
-    device_backend_ = runtime_.device_backend();
-    reset_allocations(); 
-  }
-
-
-
-
-
-XCDeviceStackData::~XCDeviceStackData() noexcept = default;
-
-
-double* XCDeviceStackData::vxc_s_device_data() { return static_stack.vxc_s_device; }
-double* XCDeviceStackData::vxc_z_device_data() { return static_stack.vxc_z_device; }
-double* XCDeviceStackData::vxc_y_device_data() { return static_stack.vxc_y_device; }
-double* XCDeviceStackData::vxc_x_device_data() { return static_stack.vxc_x_device; }
-double* XCDeviceStackData::exc_device_data() { return static_stack.exc_device; }
-double* XCDeviceStackData::nel_device_data() { return static_stack.nel_device; }
-double* XCDeviceStackData::exx_k_device_data() { return static_stack.exx_k_device; }
-double* XCDeviceStackData::fxc_s_device_data() { return static_stack.fxc_s_device; }
-double* XCDeviceStackData::fxc_z_device_data() { return static_stack.fxc_z_device; }
-double* XCDeviceStackData::fxc_y_device_data() { return static_stack.fxc_y_device; }
-double* XCDeviceStackData::fxc_x_device_data() { return static_stack.fxc_x_device; }
-
-double* XCDeviceStackData::grid_weights_device_data() { return static_stack.grid_weights_device; }
-double* XCDeviceStackData::grid_coords_device_data() { return static_stack.grid_coords_device; }
-double* XCDeviceStackData::den_eval_device_data() { return static_stack.den_eval_device; }
-double* XCDeviceStackData::dden_eval_device_data() { return static_stack.dden_eval_device; }
-double* XCDeviceStackData::tau_device_data() { return static_stack.tau_device; }
-double* XCDeviceStackData::coords_device_data() { return static_stack.coords_device; }
-
-device_queue XCDeviceStackData::queue() { 
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-  return device_backend_->queue();
-}
-
-
-
-
-void XCDeviceStackData::reset_allocations() {
-  dynmem_ptr = device_ptr;
-  dynmem_sz  = devmem_sz;
-  allocated_terms.reset();
-  static_stack.reset();
-  base_stack.reset();
-}
-
-void XCDeviceStackData::allocate_static_data_weights( int32_t natoms ) {
-
-  if( allocated_terms.weights ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack Weights");
-
-  // Save state
-  global_dims.natoms  = natoms;
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.coords_device = mem.aligned_alloc<double>( 3 * natoms, csl );
-
-  // Allow for RAB to be strided and properly aligned
-  const auto ldatoms   = get_ldatoms();
-  const auto rab_align = get_rab_align();
-  static_stack.rab_device = mem.aligned_alloc<double>( natoms * ldatoms, rab_align, csl );
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-  allocated_terms.weights = true;
-}
-
-void XCDeviceStackData::allocate_static_data_exc_vxc( int32_t nbf, int32_t nshells, integrator_term_tracker enabled_terms, bool do_vxc ) {
-
-  if( allocated_terms.exc_vxc ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack EXC VXC");
-  if( enabled_terms.ks_scheme == _UNDEF_SCHEME )
-    GAUXC_GENERIC_EXCEPTION("Must have a KS Scheme set to allocate Stack EXC VXC");
-
-  // Save state
-  global_dims.nshells = nshells;
-  global_dims.nbf     = nbf; 
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device     = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.exc_device        = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.nel_device        = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.acc_scr_device    = mem.aligned_alloc<double>( 1 , csl);
-  
-  allocated_terms.ks_scheme = enabled_terms.ks_scheme;
-  static_stack.dmat_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-  if( not (allocated_terms.ks_scheme == RKS) ) {
-      static_stack.dmat_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      if( allocated_terms.ks_scheme == GKS ) {
-        static_stack.dmat_y_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.dmat_x_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      }
-  }
-
-  if( do_vxc ) {
-    static_stack.vxc_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-    if( not (allocated_terms.ks_scheme == RKS) ) {
-        static_stack.vxc_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        if( allocated_terms.ks_scheme == GKS ) {
-          static_stack.vxc_y_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-          static_stack.vxc_x_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        }
-    }
-  }
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-    
-
-  allocated_terms.exc_vxc = true;
-}
-
-
-void XCDeviceStackData::allocate_static_data_onedft( int32_t nbf, int32_t nshells, int32_t natoms, 
-  int32_t total_npts, integrator_term_tracker enabled_terms ) {
-
-  if( allocated_terms.onedft ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack OneDFT");
-  if( enabled_terms.ks_scheme == _UNDEF_SCHEME )
-    GAUXC_GENERIC_EXCEPTION("Must have a KS Scheme set to allocate Stack OneDFT");
-
-  // Save state
-  global_dims.nshells = nshells;
-  global_dims.nbf     = nbf; 
-  global_dims.natoms  = natoms; 
-  global_dims.total_npts  = total_npts;
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device     = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.exc_device        = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.nel_device        = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.acc_scr_device    = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.coords_device     = mem.aligned_alloc<double>( 3 * natoms, csl );
-
-  allocated_terms.ks_scheme = enabled_terms.ks_scheme;
-  static_stack.dmat_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-  if( not (allocated_terms.ks_scheme == RKS) ) {
-      static_stack.dmat_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      if( allocated_terms.ks_scheme == GKS ) {
-        GAUXC_GENERIC_EXCEPTION("GKS NYI for OneDFT Device");
-      }
-  }
-
-  static_stack.vxc_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-  if( not (allocated_terms.ks_scheme == RKS) ) {
-      static_stack.vxc_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-  }
-  if (enabled_terms.ks_scheme == RKS) {
-    GAUXC_GENERIC_EXCEPTION("RKS NYI for OneDFT Device");
-  } else if (enabled_terms.ks_scheme == UKS) {
-    static_stack.grid_weights_device = mem.aligned_alloc<double>( total_npts , csl );
-    static_stack.grid_coords_device  = mem.aligned_alloc<double>( 3 * total_npts , csl );
-    static_stack.den_eval_device     = mem.aligned_alloc<double>( 2 * total_npts , csl );
-    static_stack.dden_eval_device    = mem.aligned_alloc<double>( 2 * 3 * total_npts , csl );
-    static_stack.tau_device          = mem.aligned_alloc<double>( 2 * total_npts , csl );
-    
-    static_stack.den_grad_device     = mem.aligned_alloc<double>( 2 * total_npts , csl );
-    static_stack.dden_grad_device    = mem.aligned_alloc<double>( 2 * 3 * total_npts , csl );
-    static_stack.tau_grad_device     = mem.aligned_alloc<double>( 2 * total_npts , csl );
-  }
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-  allocated_terms.onedft = true;
-}
-
-void XCDeviceStackData::allocate_static_data_fxc_contraction( int32_t nbf, int32_t nshells, integrator_term_tracker enabled_terms ) {
-
-  if( allocated_terms.fxc_contraction ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack FXC Contraction");
-  if( enabled_terms.ks_scheme == _UNDEF_SCHEME )
-    GAUXC_GENERIC_EXCEPTION("Must have a KS Scheme set to allocate Stack EXC VXC");
-
-  // Save state
-  global_dims.nshells = nshells;
-  global_dims.nbf     = nbf; 
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device     = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.nel_device        = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.acc_scr_device    = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.dmat_s_device   = mem.aligned_alloc<double>( nbf * nbf , csl );
-  static_stack.tdmat_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-  static_stack.fxc_s_device    = mem.aligned_alloc<double>( nbf * nbf , csl );
-  
-  allocated_terms.ks_scheme = enabled_terms.ks_scheme;
-  if( not (allocated_terms.ks_scheme == RKS) ) {
-      static_stack.dmat_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      static_stack.tdmat_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      static_stack.fxc_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      if( allocated_terms.ks_scheme == GKS ) {
-        static_stack.dmat_y_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.dmat_x_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.tdmat_y_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.tdmat_x_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.fxc_y_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.fxc_x_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      }
-  }
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-    
-
-  allocated_terms.fxc_contraction = true;
-}
-
-void XCDeviceStackData::allocate_static_data_den( int32_t nbf, int32_t nshells ) {
-
-  if( allocated_terms.den ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack Density");
-
-  // Save state
-  global_dims.nshells = nshells;
-  global_dims.nbf     = nbf; 
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device     = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.acc_scr_device    = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.nel_device        = mem.aligned_alloc<double>( 1 , csl);
-
-  static_stack.dmat_s_device = mem.aligned_alloc<double>( nbf * nbf , csl);
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-  allocated_terms.den = true;
-}
-
-void XCDeviceStackData::allocate_static_data_exc_grad( int32_t nbf, int32_t nshells, int32_t natoms, integrator_term_tracker enabled_terms ) {
-
-  if( allocated_terms.exc_grad ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack EXC GRAD");
-
-  // Save state
-  global_dims.nshells = nshells;
-  global_dims.nbf     = nbf; 
-  global_dims.natoms  = natoms; 
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device     = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.exc_grad_device   = mem.aligned_alloc<double>( 3*natoms , csl);
-  static_stack.nel_device        = mem.aligned_alloc<double>( 1 , csl);
-  static_stack.acc_scr_device    = mem.aligned_alloc<double>( 1 , csl);
-
-  allocated_terms.ks_scheme = enabled_terms.ks_scheme;
-  static_stack.dmat_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-  if( not (allocated_terms.ks_scheme == RKS) ) {
-      static_stack.dmat_z_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      if( allocated_terms.ks_scheme == GKS ) {
-        static_stack.dmat_y_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-        static_stack.dmat_x_device  = mem.aligned_alloc<double>( nbf * nbf , csl );
-      }
-  }
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-  allocated_terms.exc_grad = true;
-}
-
-
-void XCDeviceStackData::allocate_static_data_exx( int32_t nbf, int32_t nshells, size_t nshell_pairs, size_t nprim_pair_total, int32_t max_l ) {
-
-  if( allocated_terms.exx ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack EXX");
-
-  // Save state
-  global_dims.nshells      = nshells;
-  global_dims.nshell_pairs = nshell_pairs;
-  global_dims.nprim_pairs  = nprim_pair_total;
-  global_dims.nbf          = nbf; 
-  global_dims.max_l        = max_l; 
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.prim_pairs_device = 
-      mem.aligned_alloc<PrimitivePair<double>>(nprim_pair_total, csl);
-
-  static_stack.exx_k_device = mem.aligned_alloc<double>( nbf * nbf , csl);
-  static_stack.dmat_s_device  = mem.aligned_alloc<double>( nbf * nbf , csl);
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-  allocated_terms.exx = true;
-}
-
-void XCDeviceStackData::allocate_static_data_exx_ek_screening( size_t ntasks, int32_t nbf, int32_t nshells, int nshell_pairs, int32_t max_l ) {
-
-  if( allocated_terms.exx_ek_screening ) 
-    GAUXC_GENERIC_EXCEPTION("Attempting to reallocate Stack EXX-EK Screening");
-
-  // Save state
-  global_dims.nshells      = nshells;
-  global_dims.nshell_pairs = nshell_pairs;
-  global_dims.nbf          = nbf; 
-  global_dims.max_l        = max_l; 
-  global_dims.ntask_ek     = ntasks;
-
-
-
-  // Allocate static memory with proper alignment
-  buffer_adaptor mem( dynmem_ptr, dynmem_sz );
-
-  static_stack.shells_device = mem.aligned_alloc<Shell<double>>( nshells , csl);
-  static_stack.dmat_s_device   = mem.aligned_alloc<double>( nbf * nbf , csl);
-  static_stack.ek_max_bfn_sum_device =
-    mem.aligned_alloc<double>( ntasks , csl);
-  static_stack.vshell_max_sparse_device = 
-    mem.aligned_alloc<double>( nshell_pairs , csl);
-  static_stack.shpair_row_ind_device = 
-    mem.aligned_alloc<size_t>( nshell_pairs , csl);
-  static_stack.shpair_col_ind_device = 
-    mem.aligned_alloc<size_t>( nshell_pairs , csl);
-  static_stack.ek_bfn_max_device = 
-    mem.aligned_alloc<double>( nbf * ntasks , csl);
-  static_stack.shell_to_bf_device =
-    mem.aligned_alloc<int32_t>( nshells, csl );
-  static_stack.shell_sizes_device =
-    mem.aligned_alloc<int32_t>( nshells, csl );
-
-  // Get current stack location
-  dynmem_ptr = mem.stack();
-  dynmem_sz  = mem.nleft(); 
-
-  allocated_terms.exx_ek_screening = true;
-}
-
-
-
-
-
-
-void XCDeviceStackData::send_static_data_weights( const Molecule& mol, const MolMeta& meta ) {
-
-  if( not allocated_terms.weights ) 
-    GAUXC_GENERIC_EXCEPTION("Weights Not Stack Allocated");
-
-  const auto natoms = global_dims.natoms;
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  // Copy Atomic Coordinates
-  std::vector<double> coords( 3*natoms );
-  for( auto i = 0ul; i < natoms; ++i ) {
-    coords[ 3*i + 0 ] = mol[i].x;
-    coords[ 3*i + 1 ] = mol[i].y;
-    coords[ 3*i + 2 ] = mol[i].z;
-  }
-  device_backend_->copy_async( 3*natoms, coords.data(), static_stack.coords_device, 
-    "Coords H2D" );
-
-  // Invert and send RAB
-  const auto ldatoms = get_ldatoms();
-  std::vector<double> rab_inv(natoms*natoms);
-  for( auto i = 0ul; i < (natoms*natoms); ++i) rab_inv[i] = 1./meta.rab().data()[i];
-  device_backend_->copy_async_2d( natoms, natoms, rab_inv.data(), natoms,
-    static_stack.rab_device, ldatoms, "RAB H2D" );
-
-  device_backend_->master_queue_synchronize(); 
-}
-
-void XCDeviceStackData::send_static_data_onedft( const Molecule& mol, const double* Ps, 
-  int32_t ldps, const double* Pz, int32_t ldpz, const double* Py, 
-  int32_t ldpy, const double* Px, int32_t ldpx, const BasisSet<double>& basis ) {
-  
-  const bool is_gks = (Pz != nullptr) and (Py != nullptr) and (Px != nullptr);
-  const bool is_uks = (Pz != nullptr) and (Py == nullptr) and (Px == nullptr);
-  const bool is_rks = (Ps != nullptr) and (not is_uks and not is_gks);
-  if( not is_rks and not is_uks and not is_gks )
-    GAUXC_GENERIC_EXCEPTION("Densities do not match RKS, UKS, or GKS schemes");
-
-  if( not (allocated_terms.onedft ) )
-    GAUXC_GENERIC_EXCEPTION("OneDFT Stack Not Allocated");
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  // Copy Atomic Coordinates
-  const auto natoms = global_dims.natoms;
-  std::vector<double> coords( 3*natoms );
-  for( auto i = 0ul; i < natoms; ++i ) {
-    coords[ 3*i + 0 ] = mol[i].x;
-    coords[ 3*i + 1 ] = mol[i].y;
-    coords[ 3*i + 2 ] = mol[i].z;
-  }
-  device_backend_->copy_async( 3*natoms, coords.data(), static_stack.coords_device, 
-    "Coords H2D" );
-
-  const auto nbf    = global_dims.nbf;
-  // Check dimensions and copy density
-  if( ldps != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPs must bf NBF");
-  device_backend_->copy_async( nbf*nbf, Ps, static_stack.dmat_s_device, "P_scalar H2D" );
-  if( not is_rks ) {
-    if( ldpz != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPz must bf NBF");
-    device_backend_->copy_async( nbf*nbf, Pz, static_stack.dmat_z_device, "P_z H2D" );
-    if( is_gks ) {
-      if( ldpy != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPy must bf NBF");
-      if( ldpx != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPx must bf NBF");
-      device_backend_->copy_async( nbf*nbf, Py, static_stack.dmat_y_device, "P_y H2D" );
-      device_backend_->copy_async( nbf*nbf, Px, static_stack.dmat_x_device, "P_x H2D" );
-    }
-  }
-
-  // Copy Basis Set
-  device_backend_->copy_async( basis.nshells(), basis.data(), static_stack.shells_device,
-    "Shells H2D" );
-
-  device_backend_->master_queue_synchronize(); 
-
-}
-
-void XCDeviceStackData::send_static_data_onedft_results( int32_t total_npts, int32_t ndm, 
-  const double* EXC, const double* DEN, const double* DDEN, const double* TAU) {
-
-  if( not (allocated_terms.onedft ) )
-    GAUXC_GENERIC_EXCEPTION("OneDFT Stack Not Allocated");
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  device_backend_->copy_async(1, EXC, static_stack.exc_device, "Copy OneDFT EXC");
-  
-  device_backend_->copy_async(ndm * total_npts, DEN, static_stack.den_grad_device, 
-                              "Copy OneDFT den_grad_device");
-  
-  if (DDEN != nullptr) {
-    device_backend_->copy_async(ndm * 3 * total_npts, DDEN, static_stack.dden_grad_device, 
-                                "Copy OneDFT dden_grad_device");
-  }
-  if (TAU != nullptr) {
-    device_backend_->copy_async(ndm * total_npts, TAU, static_stack.tau_grad_device,
-                                "Copy OneDFT tau_grad_device");
-  }
-}
-
-void XCDeviceStackData::send_static_data_density_basis( const double* Ps, int32_t ldps, const double* Pz, int32_t ldpz, const double* Py, int32_t ldpy, const double* Px, int32_t ldpx,
-  const BasisSet<double>& basis ) {
-  const bool is_gks = (Pz != nullptr) and (Py != nullptr) and (Px != nullptr);
-  const bool is_uks = (Pz != nullptr) and (Py == nullptr) and (Px == nullptr);
-  const bool is_rks = (Ps != nullptr) and (not is_uks and not is_gks);
-  if( not is_rks and not is_uks and not is_gks )
-    GAUXC_GENERIC_EXCEPTION("Densities do not match RKS, UKS, or GKS schemes");
-
-  if( not (allocated_terms.exx or allocated_terms.exc_vxc or allocated_terms.exc_grad or allocated_terms.den or allocated_terms.exx_ek_screening or allocated_terms.fxc_contraction ) ) 
-    GAUXC_GENERIC_EXCEPTION("Density/Basis Not Stack Allocated");
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-
-  const auto nbf    = global_dims.nbf;
-  // Check dimensions and copy density
-  if( ldps != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPs must bf NBF");
-  device_backend_->copy_async( nbf*nbf, Ps, static_stack.dmat_s_device, "P_scalar H2D" );
-  if( not is_rks ) {
-    if( ldpz != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPz must bf NBF");
-    device_backend_->copy_async( nbf*nbf, Pz, static_stack.dmat_z_device, "P_z H2D" );
-    if( is_gks ) {
-      if( ldpy != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPy must bf NBF");
-      if( ldpx != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDPx must bf NBF");
-      device_backend_->copy_async( nbf*nbf, Py, static_stack.dmat_y_device, "P_y H2D" );
-      device_backend_->copy_async( nbf*nbf, Px, static_stack.dmat_x_device, "P_x H2D" );
-    }
-  }
-
-  // Copy Basis Set
-  device_backend_->copy_async( basis.nshells(), basis.data(), static_stack.shells_device,
-    "Shells H2D" );
-
-  device_backend_->master_queue_synchronize(); 
-}
-
-
-void XCDeviceStackData::send_static_data_trial_density(
-  const double* tPs, int32_t ldtps, const double* tPz, int32_t ldtpz,
-  const double* tPy, int32_t ldtpy, const double* tPx, int32_t ldtpx ) {
-
-  const bool is_gks = (tPz != nullptr) && (tPy != nullptr) && (tPx != nullptr);
-  const bool is_uks = (tPz != nullptr) && (tPy == nullptr) && (tPx == nullptr);
-  const bool is_rks = (tPs != nullptr) && (not is_uks and not is_gks);
-  if( not is_rks and not is_uks and not is_gks )
-    GAUXC_GENERIC_EXCEPTION("Trial densities do not match RKS, UKS, or GKS schemes");
-
-  if( not allocated_terms.fxc_contraction )
-    GAUXC_GENERIC_EXCEPTION("Trial Density Not Stack Allocated");
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  const auto nbf = global_dims.nbf;
-  // Check dimensions and copy density
-  if( ldtps != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDTps must bf NBF");
-  device_backend_->copy_async( nbf*nbf, tPs, static_stack.tdmat_s_device, "tP_scalar H2D" );
-  if( not is_rks ) {
-    if( ldtpz != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDTpz must bf NBF");
-    device_backend_->copy_async( nbf*nbf, tPz, static_stack.tdmat_z_device, "tP_z H2D" );
-    if( is_gks ) {
-      if( ldtpy != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDTpy must bf NBF");
-      if( ldtpx != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDTpx must bf NBF");
-      device_backend_->copy_async( nbf*nbf, tPy, static_stack.tdmat_y_device, "tP_y H2D" );
-      device_backend_->copy_async( nbf*nbf, tPx, static_stack.tdmat_x_device, "tP_x H2D" );
-    }
-  }
-  
-  device_backend_->master_queue_synchronize();
-}
-
-
-void XCDeviceStackData::send_static_data_shell_pairs( 
-  const BasisSet<double>& basis,
-  const ShellPairCollection<double>& shell_pairs ) {
-
-  if( not allocated_terms.exx ) 
-    GAUXC_GENERIC_EXCEPTION("ShellPairs Not Stack Allocated");
-
-  const auto nshells = global_dims.nshells;
-  if( shell_pairs.nshells() != nshells )
-    GAUXC_GENERIC_EXCEPTION("Incompatible Basis for Stack Allocation");
-
-  const auto nshell_pairs = global_dims.nshell_pairs;
-  if( shell_pairs.npairs() != nshell_pairs )
-    GAUXC_GENERIC_EXCEPTION("Incompatible ShellPairs for Stack Allocation");
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  // Copy primitive pairs
-  std::vector<GauXC::PrimitivePair<double>> pp_host;
-  for(const auto& sp : shell_pairs) {
-    pp_host.insert( pp_host.end(), sp.prim_pairs(), sp.prim_pairs() + sp.nprim_pairs());
-  }
-  device_backend_->copy_async( global_dims.nprim_pairs, pp_host.data(),
-    static_stack.prim_pairs_device, "PrimPairs H2D" );
-
-  // Create SoA
-  shell_pair_soa.reset();
-  using point = XCDeviceShellPairSoA::point;
-  const auto sp_row_ptr = shell_pairs.row_ptr();
-  const auto sp_col_ind = shell_pairs.col_ind();
-
-  shell_pair_soa.sp_row_ptr = sp_row_ptr;
-  shell_pair_soa.sp_col_ind = sp_col_ind;
-
-  GauXC::PrimitivePair<double>* prim_pair_ptr = static_stack.prim_pairs_device;
-  for( auto i = 0ul, idx = 0ul; i < nshells; ++i ) {
-    const auto j_st = sp_row_ptr[i];
-    const auto j_en = sp_row_ptr[i+1];
-    for( auto _j = j_st; _j < j_en; ++_j, idx++ ) {
-      const auto j = sp_col_ind[_j];
-
-      const auto& sp = shell_pairs.shell_pairs()[idx];
-      const auto nprim_pairs = sp.nprim_pairs();
-      shell_pair_soa.prim_pair_dev_ptr.emplace_back( prim_pair_ptr );
-      prim_pair_ptr += nprim_pairs;
-
-      shell_pair_soa.shell_pair_nprim_pairs.push_back(nprim_pairs);
-      auto& bra = basis[i];
-      auto& ket = basis[j];
-      shell_pair_soa.shell_pair_shidx.emplace_back(i,j);
-      shell_pair_soa.shell_pair_ls.emplace_back( bra.l(), ket.l());
-      shell_pair_soa.shell_pair_centers.emplace_back(
-        point{ bra.O()[0], bra.O()[1], bra.O()[2] },
-        point{ ket.O()[0], ket.O()[1], ket.O()[2] }
-      );
-    }
-  }
-  
-  device_backend_->master_queue_synchronize(); 
-}
-
-void XCDeviceStackData::send_static_data_exx_ek_screening( const double* V_max, 
-  int32_t ldv, const BasisSetMap& basis_map, 
-  const ShellPairCollection<double>& shpairs ) {
-
-  if( not allocated_terms.exx_ek_screening ) 
-    GAUXC_GENERIC_EXCEPTION("VMAX Not Stack Allocated");
-
-  const auto nshells      = global_dims.nshells;
-  const auto nshell_pairs = global_dims.nshell_pairs;
-  if( ldv != (int)nshells ) GAUXC_GENERIC_EXCEPTION("LDV must bf NSHELLS");
-  if( shpairs.npairs() != nshell_pairs ) 
-    GAUXC_GENERIC_EXCEPTION("Inconsistent ShellPairs"); 
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-
-  // Pack VMAX
-  std::vector<double> V_pack(nshell_pairs);
-  const auto sp_row_ptr = shpairs.row_ptr();
-  const auto sp_col_ind = shpairs.col_ind();
-  for( auto i = 0ul; i < nshells; ++i ) {
-    const auto j_st = sp_row_ptr[i];
-    const auto j_en = sp_row_ptr[i+1];
-    for( auto _j = j_st; _j < j_en; ++_j ) {
-      const auto j = sp_col_ind[_j];
-      V_pack[_j] = V_max[i + j*ldv];
-    }
-  }
-
-  // Copy VMAX
-  device_backend_->copy_async( nshell_pairs, V_pack.data(), 
-    static_stack.vshell_max_sparse_device, "VMAX Sparse H2D");
-
-  // Create sparse triplet for device
-  std::vector<size_t> rowind(nshell_pairs);
-  for( auto i = 0ul; i < nshells; ++i ) {
-    const auto j_st = sp_row_ptr[i];
-    const auto j_en = sp_row_ptr[i+1];
-    for( auto _j = j_st; _j < j_en; ++_j ) {
-      rowind[_j] = i;
-    }
-  }
-
-  
-
-  // Send adjacency
-  device_backend_->copy_async( nshell_pairs, rowind.data(),
-    static_stack.shpair_row_ind_device, "SP RowInd H2D");
-  device_backend_->copy_async( nshell_pairs, sp_col_ind.data(),
-    static_stack.shpair_col_ind_device, "SP ColInd H2D");
-
-  std::vector<int32_t> shell2bf(nshells);
-  std::vector<int32_t> shell_sizes(nshells);
-  for(auto i = 0ul; i < nshells; ++i) {
-    shell2bf[i] = basis_map.shell_to_first_ao(i);
-    shell_sizes[i] = basis_map.shell_size(i);
-  }
-  
-
-  device_backend_->copy_async( nshells, shell2bf.data(), static_stack.shell_to_bf_device,
-    "Shell2BF H2D");
-  device_backend_->copy_async( nshells, shell_sizes.data(), static_stack.shell_sizes_device,
-    "ShellSizes H2D");
-  
-  device_backend_->master_queue_synchronize(); 
-
-}
-
-
-void XCDeviceStackData::zero_den_integrands() {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  device_backend_->set_zero( 1, static_stack.nel_device, "NEL Zero" );
-
-}
-
-
-void XCDeviceStackData::zero_exc_vxc_integrands(integrator_term_tracker enabled_terms) {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  const auto nbf = global_dims.nbf;
-  if(static_stack.vxc_s_device) device_backend_->set_zero( nbf*nbf, static_stack.vxc_s_device, "VXCs Zero" );
-  if(static_stack.vxc_z_device) device_backend_->set_zero( nbf*nbf, static_stack.vxc_z_device, "VXCz Zero" );
-  if(static_stack.vxc_y_device) device_backend_->set_zero( nbf*nbf, static_stack.vxc_y_device, "VXCy Zero" );
-  if(static_stack.vxc_x_device) device_backend_->set_zero( nbf*nbf, static_stack.vxc_x_device, "VXCx Zero" );
-  device_backend_->set_zero( 1,       static_stack.exc_device, "EXC Zero" );
-  device_backend_->set_zero( 1,       static_stack.nel_device, "NEL Zero" );
-
-}
-
-void XCDeviceStackData::zero_fxc_contraction_integrands() {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  const auto nbf = global_dims.nbf;
-  if(static_stack.fxc_s_device) device_backend_->set_zero( nbf*nbf, static_stack.fxc_s_device, "FXCs Zero" );
-  if(static_stack.fxc_z_device) device_backend_->set_zero( nbf*nbf, static_stack.fxc_z_device, "FXCz Zero" );
-  if(static_stack.fxc_y_device) device_backend_->set_zero( nbf*nbf, static_stack.fxc_y_device, "FXCy Zero" );
-  if(static_stack.fxc_x_device) device_backend_->set_zero( nbf*nbf, static_stack.fxc_x_device, "FXCx Zero" );
-  device_backend_->set_zero( 1,       static_stack.nel_device, "NEL Zero" );
-
-}
-
-void XCDeviceStackData::zero_exc_grad_integrands() {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  const auto natoms = global_dims.natoms;
-  device_backend_->set_zero( 3*natoms, static_stack.exc_grad_device, "EXC Gradient Zero" );
-  device_backend_->set_zero( 1,        static_stack.nel_device, "NEL Zero" );
-
-}
-
-
-void XCDeviceStackData::zero_exx_integrands() {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  const auto nbf = global_dims.nbf;
-  device_backend_->set_zero( nbf*nbf, static_stack.exx_k_device, "K Zero" );
-
-}
-
-void XCDeviceStackData::zero_exx_ek_screening_intermediates() {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  const auto ntask_ek = global_dims.ntask_ek;
-  const auto nbf      = global_dims.nbf;
-  device_backend_->set_zero( ntask_ek*nbf, static_stack.ek_bfn_max_device, "EK BFNMAX Zero" );
-
-}
-
-
-void XCDeviceStackData::retrieve_exc_vxc_integrands( double* EXC, double* N_EL,
-  double* VXCs, int32_t ldvxcs, double* VXCz, int32_t ldvxcz,
-  double* VXCy, int32_t ldvxcy, double* VXCx, int32_t ldvxcx ) {
-
-  const auto nbf = global_dims.nbf;
-
-  device_backend_->copy_async( 1,       static_stack.nel_device, N_EL, "NEL D2H" );
-  device_backend_->copy_async( 1,       static_stack.exc_device, EXC,  "EXC D2H" );
-
-  if( ldvxcs and (ldvxcs != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDVXCs must be NBF");
-  if( VXCs )
-    device_backend_->copy_async( nbf*nbf, static_stack.vxc_s_device, VXCs,  "VXCs D2H" );
-
-  if( ldvxcz and (ldvxcz != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDVXCz must be NBF");
-  if( VXCz )
-    device_backend_->copy_async( nbf*nbf, static_stack.vxc_z_device, VXCz,  "VXCz D2H" );
-
-  if( ldvxcy and (ldvxcy != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDVXCy must be NBF");
-  if( VXCy )
-    device_backend_->copy_async( nbf*nbf, static_stack.vxc_y_device, VXCy,  "VXCy D2H" );
-
-  if( ldvxcx and (ldvxcx != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDVXCx must be NBF");
-  if( VXCx )
-    device_backend_->copy_async( nbf*nbf, static_stack.vxc_x_device, VXCx,  "VXCx D2H" );
-
-}
-
-void XCDeviceStackData::retrieve_onedft_features( int32_t total_npts, int32_t ndm, 
-  double* DEN, double* DDEN, double* TAU, double* POINTS, double* WEIGHTS) {
-
-  if( DEN )
-    device_backend_->copy_async( total_npts*ndm, static_stack.den_eval_device, DEN,  "DEN D2H" );
-
-  if( DDEN )
-    device_backend_->copy_async( total_npts*ndm*3, static_stack.dden_eval_device, DDEN,  "DDEN D2H" );
-
-  if( TAU )
-    device_backend_->copy_async( total_npts*ndm, static_stack.tau_device, TAU,  "TAU D2H" );
-
-  if( POINTS )
-    device_backend_->copy_async( total_npts*3, static_stack.grid_coords_device, POINTS,  "POINTS D2H" );
-
-  if( WEIGHTS )
-    device_backend_->copy_async( total_npts, static_stack.grid_weights_device, WEIGHTS,  "WEIGHTS D2H" );
-
-}
-
-
-
-void XCDeviceStackData::retrieve_fxc_contraction_integrands( double* N_EL,
-  double* FXCs, int32_t ldfxcs, double* FXCz, int32_t ldfxcz,
-  double* FXCy, int32_t ldfxcy, double* FXCx, int32_t ldfxcx ) {
-
-  const auto nbf = global_dims.nbf;
-  device_backend_->copy_async( 1,       static_stack.nel_device, N_EL, "NEL D2H" );
-
-  if( ldfxcs and (ldfxcs != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDFXCs must be NBF");
-  if( FXCs )
-    device_backend_->copy_async( nbf*nbf, static_stack.fxc_s_device, FXCs,  "FXCs D2H" );
-
-  if( ldfxcz and (ldfxcz != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDFXCz must be NBF");
-  if( FXCz )
-    device_backend_->copy_async( nbf*nbf, static_stack.fxc_z_device, FXCz,  "FXCz D2H" );
-
-  if( ldfxcy and (ldfxcy != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDFXCy must be NBF");
-  if( FXCy )
-    device_backend_->copy_async( nbf*nbf, static_stack.fxc_y_device, FXCy,  "FXCy D2H" );
-
-  if( ldfxcx and (ldfxcx != (int)nbf) ) GAUXC_GENERIC_EXCEPTION("LDFXCx must be NBF");
-  if( FXCx )
-    device_backend_->copy_async( nbf*nbf, static_stack.fxc_x_device, FXCx,  "FXCx D2H" );
-
-}
-
-void XCDeviceStackData::retrieve_den_integrands( double* N_EL ) {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-  
-  device_backend_->copy_async( 1, static_stack.nel_device, N_EL, "NEL D2H" );
-
-}
-
-void XCDeviceStackData::retrieve_exc_grad_integrands( double* EXC_GRAD, double* N_EL ) {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-  
-  const auto natoms = global_dims.natoms;
-  device_backend_->copy_async( 3*natoms, static_stack.exc_grad_device, EXC_GRAD,  "EXC Gradient D2H" );
-  device_backend_->copy_async( 1,        static_stack.nel_device,      N_EL,      "NEL D2H" );
-
-}
-
-void XCDeviceStackData::retrieve_exx_integrands( double* K, int32_t ldk ) {
-
-  const auto nbf = global_dims.nbf;
-  if( ldk != (int)nbf ) GAUXC_GENERIC_EXCEPTION("LDK must bf NBF");
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-  
-  device_backend_->copy_async( nbf*nbf, static_stack.exx_k_device, K,  "K D2H" );
-
-}
-
-void XCDeviceStackData::retrieve_exx_ek_max_bfn_sum( double* MBS, int32_t nt ) {
-
-  const auto ntask_ek = global_dims.ntask_ek;
-  if( nt != (int)ntask_ek ) GAUXC_GENERIC_EXCEPTION("Inconsistent Task Count");
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  device_backend_->copy_async( ntask_ek , static_stack.ek_max_bfn_sum_device, MBS, 
-    "MBS D2H");
-
-}
-
-
-
-
-
-
-XCDeviceStackData::host_task_iterator XCDeviceStackData::generate_buffers(
-  integrator_term_tracker terms,
-  const BasisSetMap& basis_map,
-  host_task_iterator task_begin,
-  host_task_iterator task_end
-) {
-
-  if( get_static_mem_requirement() > dynmem_sz )
-    GAUXC_GENERIC_EXCEPTION("Insufficient memory to even start!");
-
-  size_t mem_left = dynmem_sz - get_static_mem_requirement();
-
-  // Determine the number of batches that will fit into device memory
-  host_task_iterator task_it = task_begin;
-  while( task_it != task_end ) {
-
-    // Get memory requirement for batch
-    size_t mem_req_batch = get_mem_req( terms, *task_it );
-
-    // Break out of loop if we can't allocate for this batch
-    if( mem_req_batch > mem_left ) break;
-
-    // Update remaining memory and increment task iterator
-    mem_left -= mem_req_batch;
-    task_it++;
-
-  }
-
-  // TODO: print this if verbose
-  //std::cout << "XCDeviceStackData will allocate for " << std::distance(task_begin, task_it) << " Tasks MEMLEFT = " << mem_left << std::endl;
-
-  // Pack host data and send to device
-  allocate_dynamic_stack( terms, task_begin, task_it,
-    device_buffer_t{dynmem_ptr, dynmem_sz} );
-
-  pack_and_send( terms, task_begin, task_it, basis_map );
-
-  return task_it;
-}
-
-
-
-
-
-size_t XCDeviceStackData::get_mem_req( 
-  integrator_term_tracker terms,
-  const host_task_type& task
-) {
-
-  const auto& points = task.points;
-  const size_t npts  = points.size();
-
-  required_term_storage reqt(terms);
-  
-  size_t mem_req = 
-    // Grid
-    reqt.grid_points_size (npts)  * sizeof(double) + 
-    reqt.grid_weights_size(npts)  * sizeof(double) +
-
-    // U Variables
-    reqt.grid_den_size(npts)      * sizeof(double) + 
-    reqt.grid_den_grad_size(npts) * sizeof(double) +
-    reqt.grid_lapl_size(npts)     * sizeof(double) +
-
-    // H/K Matrices (GKS)
-    reqt.grid_HK_size(npts)       * sizeof(double) +
-
-    // V Variables
-    reqt.grid_gamma_size(npts)    * sizeof(double) +
-    reqt.grid_tau_size(npts)      * sizeof(double) +
-
-    // XC output
-    reqt.grid_eps_size(npts)      * sizeof(double) +
-    reqt.grid_vrho_size(npts)     * sizeof(double) +
-    reqt.grid_vgamma_size(npts)   * sizeof(double) +
-    reqt.grid_vtau_size(npts)     * sizeof(double) +
-    reqt.grid_vlapl_size(npts)    * sizeof(double) ;
-
-    // second derivatives
-    mem_req += 
-    // U variables
-    reqt.grid_tden_size(npts)      * sizeof(double) +
-    reqt.grid_tden_grad_size(npts) * sizeof(double) +
-    reqt.grid_tlapl_size(npts)     * sizeof(double) +
-    reqt.grid_ttau_size(npts)      * sizeof(double) +
-    // XC output
-    reqt.grid_v2rho2_size(npts)    * sizeof(double) +
-    reqt.grid_v2rhogamma_size(npts)  * sizeof(double) +
-    reqt.grid_v2rholapl_size(npts)   * sizeof(double) +
-    reqt.grid_v2rhotau_size(npts)  * sizeof(double) +
-    reqt.grid_v2gamma2_size(npts) * sizeof(double) +
-    reqt.grid_v2gammalapl_size(npts) * sizeof(double) +
-    reqt.grid_v2gammatau_size(npts) * sizeof(double) +
-    reqt.grid_v2lapl2_size(npts) * sizeof(double) +
-    reqt.grid_v2lapltau_size(npts) * sizeof(double) +
-    reqt.grid_v2tau2_size(npts) * sizeof(double) +
-    // intermediate output
-    reqt.grid_FXC_A_size(npts) * sizeof(double) +
-    reqt.grid_FXC_B_size(npts) * sizeof(double) +
-    reqt.grid_FXC_C_size(npts) * sizeof(double);
-
-  return mem_req;
-}
-
-
-
-
-
-
-
-
-
-XCDeviceStackData::device_buffer_t XCDeviceStackData::allocate_dynamic_stack( 
-  integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end, 
-  device_buffer_t buf ) {
-
-
-  // Get total npts
-  total_npts_task_batch = std::accumulate( task_begin, task_end, 0ul,
-    [](const auto& a, const auto& b){ return a + b.points.size(); } );
-
-  // Allocate device memory
-  auto [ ptr, sz ] = buf;
-  buffer_adaptor mem( ptr, sz );
-
-
-  required_term_storage reqt(terms);
-  const size_t msz = total_npts_task_batch;
-  const size_t aln = 256;
-  
-  const bool is_rks = terms.ks_scheme == RKS;
-  const bool is_uks = terms.ks_scheme == UKS;
-  const bool is_gks = terms.ks_scheme == GKS;
-  const bool is_pol = is_uks or is_gks;
-  const bool is_gga = terms.xc_approx == GGA;
-
-  const bool is_den = terms.den;
-  
-  // Grid Points
-  if( reqt.grid_points ) {
-    base_stack.points_x_device = mem.aligned_alloc<double>( msz, aln, csl);
-    base_stack.points_y_device = mem.aligned_alloc<double>( msz, aln, csl);
-    base_stack.points_z_device = mem.aligned_alloc<double>( msz, aln, csl);
-  }
-
-
-  // Grid Weights
-  if( reqt.grid_weights ) {
-    base_stack.weights_device = mem.aligned_alloc<double>(msz, csl);
-  }
-
-  // Grid function evaluations
-  if( reqt.grid_den ) { // Density 
-    base_stack.den_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-
-    if(is_pol) {
-      base_stack.den_interleaved_device = mem.aligned_alloc<double>(2*msz, aln, csl);
-      base_stack.den_z_eval_device      = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-
-    if(is_gks){   
-      base_stack.den_y_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      base_stack.den_x_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    }
-  }
-
-  if( reqt.grid_den_grad ) { // Density gradient
-    base_stack.dden_sx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    base_stack.dden_sy_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    base_stack.dden_sz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-
-    if(is_pol) { 
-      base_stack.dden_zx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.dden_zy_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      base_stack.dden_zz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    }
-    if( is_gks ) { 
-      base_stack.dden_yx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.dden_yy_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      base_stack.dden_yz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      base_stack.dden_xx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.dden_xy_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      base_stack.dden_xz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    }
-  }
-
-  if( reqt.grid_tau ) { // Tau 
-    base_stack.tau_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    if(is_pol) {
-      base_stack.tau_interleaved_device = mem.aligned_alloc<double>(2*msz, aln, csl);
-      base_stack.tau_z_eval_device      = mem.aligned_alloc<double>(msz, aln, csl);
-    } 
-  }
-
-  if( reqt.grid_lapl ) { // Density Laplacian
-    base_stack.lapl_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    if(is_pol) {
-      base_stack.lapl_interleaved_device = mem.aligned_alloc<double>(2*msz, aln, csl);
-      base_stack.lapl_z_eval_device      = mem.aligned_alloc<double>(msz, aln, csl);
-    } 
-  }
-
-  if( reqt.grid_gamma ) { // Gamma
-    if( is_pol  ) {  
-      base_stack.gamma_eval_device    = mem.aligned_alloc<double>(3 * msz, aln, csl);
-      base_stack.gamma_pp_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.gamma_pm_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.gamma_mm_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    } else {           
-      base_stack.gamma_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-  if( reqt.grid_vrho ) { // Vrho
-    if( is_pol  ) { 
-      base_stack.vrho_eval_device     = mem.aligned_alloc<double>(2 * msz, aln, csl);
-      base_stack.vrho_pos_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.vrho_neg_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    } else {          
-      base_stack.vrho_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-  if( reqt.grid_vgamma ) { // Vgamma
-    if( is_pol  ) {  
-      base_stack.vgamma_eval_device    = mem.aligned_alloc<double>(3*msz, aln, csl);
-      base_stack.vgamma_pp_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.vgamma_pm_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.vgamma_mm_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    } else {
-      base_stack.vgamma_eval_device    = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-  if( is_gks ) {       // H, K matrices
-    base_stack.K_x_eval_device   = mem.aligned_alloc<double>(msz, aln, csl);
-    base_stack.K_y_eval_device   = mem.aligned_alloc<double>(msz, aln, csl);
-    base_stack.K_z_eval_device   = mem.aligned_alloc<double>(msz, aln, csl);
-    if( is_gga ) {
-      base_stack.H_x_eval_device   = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.H_y_eval_device   = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.H_z_eval_device   = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-  if( reqt.grid_eps ) { // Energy density 
-    base_stack.eps_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-  }
-
-  if( reqt.grid_vtau ) { // Vtau
-    if( is_pol  ) { 
-      base_stack.vtau_eval_device     = mem.aligned_alloc<double>(2 * msz, aln, csl);
-      base_stack.vtau_pos_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.vtau_neg_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    } else {          
-      base_stack.vtau_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-  if( reqt.grid_vlapl ) { // Vlapl
-    if( is_pol  ) { 
-      base_stack.vlapl_eval_device     = mem.aligned_alloc<double>(2 * msz, aln, csl);
-      base_stack.vlapl_pos_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.vlapl_neg_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-    } else {          
-      base_stack.vlapl_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-  if( terms.fxc_contraction ) {
-    // Trial density evaluation
-    if( reqt.grid_tden ) { 
-      base_stack.tden_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      if(is_pol) {
-        base_stack.tden_z_eval_device      = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-      if(is_gks){
-        base_stack.tden_y_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-        base_stack.tden_x_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      }
-    }
-
-    // Trial density gradient
-    if( reqt.grid_tden_grad ) {
-      base_stack.tdden_sx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.tdden_sy_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.tdden_sz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-
-      if(is_pol) { 
-        base_stack.tdden_zx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.tdden_zy_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-        base_stack.tdden_zz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      }
-      if( is_gks ) { 
-        base_stack.tdden_yx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.tdden_yy_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-        base_stack.tdden_yz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-        base_stack.tdden_xx_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.tdden_xy_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-        base_stack.tdden_xz_eval_device = mem.aligned_alloc<double>(msz, aln, csl); 
-      }
-    }
-
-    // Trial tau
-    if( reqt.grid_ttau ) {
-      base_stack.ttau_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      if(is_pol) {
-        base_stack.ttau_z_eval_device      = mem.aligned_alloc<double>(msz, aln, csl);
-      } 
-    }
-
-    // Trial laplacian
-    if( reqt.grid_tlapl ) {
-      base_stack.tlapl_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      if(is_pol) {
-        base_stack.tlapl_z_eval_device      = mem.aligned_alloc<double>(msz, aln, csl);
-      } 
-    }
-
-    // Second derivatives of XC functional
-    if( reqt.grid_v2rho2 ) {
-      if( is_pol  ) { 
-        base_stack.v2rho2_eval_device = mem.aligned_alloc<double>(3 * msz, aln, csl);
-        base_stack.v2rho2_a_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rho2_a_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rho2_b_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2rho2_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2rhogamma ) {
-      if( is_pol  ) { 
-        base_stack.v2rhogamma_eval_device = mem.aligned_alloc<double>(6 * msz, aln, csl);
-        base_stack.v2rhogamma_a_aa_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhogamma_a_ab_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhogamma_a_bb_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhogamma_b_aa_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhogamma_b_ab_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhogamma_b_bb_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2rhogamma_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2rholapl ) {
-      if( is_pol  ) { 
-        base_stack.v2rholapl_eval_device = mem.aligned_alloc<double>(4 * msz, aln, csl);
-        base_stack.v2rholapl_a_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rholapl_a_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rholapl_b_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rholapl_b_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2rholapl_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2rhotau ) {
-      if( is_pol  ) { 
-        base_stack.v2rhotau_eval_device = mem.aligned_alloc<double>(4 * msz, aln, csl);
-        base_stack.v2rhotau_a_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhotau_a_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhotau_b_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2rhotau_b_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2rhotau_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2gamma2 ) {
-      if( is_pol  ) { 
-        base_stack.v2gamma2_eval_device = mem.aligned_alloc<double>(6 * msz, aln, csl);
-        base_stack.v2gamma2_aa_aa_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gamma2_aa_ab_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gamma2_aa_bb_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gamma2_ab_ab_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gamma2_ab_bb_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gamma2_bb_bb_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2gamma2_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2gammalapl ) {
-      if( is_pol  ) { 
-        base_stack.v2gammalapl_eval_device = mem.aligned_alloc<double>(6 * msz, aln, csl);
-        base_stack.v2gammalapl_aa_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammalapl_aa_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammalapl_ab_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammalapl_ab_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammalapl_bb_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammalapl_bb_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2gammalapl_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2gammatau ) {
-      if( is_pol  ) { 
-        base_stack.v2gammatau_eval_device = mem.aligned_alloc<double>(6 * msz, aln, csl);
-        base_stack.v2gammatau_aa_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammatau_aa_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammatau_ab_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammatau_ab_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammatau_bb_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2gammatau_bb_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2gammatau_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2lapl2 ) {
-      if( is_pol  ) { 
-        base_stack.v2lapl2_eval_device = mem.aligned_alloc<double>(3 * msz, aln, csl);
-        base_stack.v2lapl2_a_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2lapl2_a_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2lapl2_b_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2lapl2_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2lapltau ) {
-      if( is_pol  ) { 
-        base_stack.v2lapltau_eval_device = mem.aligned_alloc<double>(4 * msz, aln, csl);
-        base_stack.v2lapltau_a_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2lapltau_a_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2lapltau_b_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2lapltau_b_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2lapltau_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_v2tau2 ) {
-      if( is_pol  ) { 
-        base_stack.v2tau2_eval_device = mem.aligned_alloc<double>(3 * msz, aln, csl);
-        base_stack.v2tau2_a_a_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2tau2_a_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.v2tau2_b_b_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      } else {          
-        base_stack.v2tau2_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    // Intermediate matrices for contraction
-    if( reqt.grid_FXC_A ) {
-      base_stack.FXC_A_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      if( is_pol  ) 
-        base_stack.FXC_A_z_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-    
-    if( reqt.grid_FXC_B ) {
-      base_stack.FXC_Bx_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.FXC_By_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      base_stack.FXC_Bz_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      if( is_pol  ) { 
-        base_stack.FXC_Bx_z_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.FXC_By_z_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-        base_stack.FXC_Bz_z_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      }
-    }
-
-    if( reqt.grid_FXC_C ) {
-      base_stack.FXC_C_s_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-      if( is_pol  ) 
-        base_stack.FXC_C_z_eval_device = mem.aligned_alloc<double>(msz, aln, csl);
-    }
-  }
-
-
-
-  // Update dynmem data for derived impls
-  return device_buffer_t{ mem.stack(), mem.nleft() };
-}
-
-void XCDeviceStackData::pack_and_send( integrator_term_tracker terms,
-  host_task_iterator task_begin, host_task_iterator task_end, const BasisSetMap& ) {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  // Host data packing arrays
-  std::vector<double> points_x_pack, points_y_pack, points_z_pack;
-  std::vector< double > weights_pack;
-
-  // Contatenation utility
-  auto concat_iterable = []( auto& a, const auto& b ) {
-    a.insert( a.end(), b.begin(), b.end() );
-  };
-
-  // Pack points / weights
-  for( auto it = task_begin; it != task_end; ++it ) {
-
-    const auto& points  = it->points;
-    const auto& weights = it->weights;
-
-    //concat_iterable( points_pack,  points  );
-    std::vector<double> pts_x, pts_y, pts_z;
-    for( auto pt : points ) {
-      pts_x.emplace_back( pt[0] );
-      pts_y.emplace_back( pt[1] );
-      pts_z.emplace_back( pt[2] );
-    }
-    concat_iterable( points_x_pack, pts_x );
-    concat_iterable( points_y_pack, pts_y );
-    concat_iterable( points_z_pack, pts_z );
-
-    concat_iterable( weights_pack, weights );
-    
-  } // Loop over tasks
-
-  if( points_x_pack.size() != total_npts_task_batch )
-    GAUXC_GENERIC_EXCEPTION("Inconsistent Points-X allocation");
-  if( points_y_pack.size() != total_npts_task_batch )
-    GAUXC_GENERIC_EXCEPTION("Inconsistent Points-Y allocation");
-  if( points_z_pack.size() != total_npts_task_batch )
-    GAUXC_GENERIC_EXCEPTION("Inconsistent Points-Z allocation");
-  if( weights_pack.size() != total_npts_task_batch )
-    GAUXC_GENERIC_EXCEPTION("Inconsistent weights allocation");
-
-
-
-  // Send grid data
-  device_backend_->copy_async( points_x_pack.size(), points_x_pack.data(),
-              base_stack.points_x_device, "send points_x buffer" );
-  device_backend_->copy_async( points_y_pack.size(), points_y_pack.data(),
-              base_stack.points_y_device, "send points_y buffer" );
-  device_backend_->copy_async( points_z_pack.size(), points_z_pack.data(),
-              base_stack.points_z_device, "send points_z buffer" );
-  device_backend_->copy_async( weights_pack.size(), weights_pack.data(),
-              base_stack.weights_device, "send weights buffer" );
-
-
-  // Synchronize on the copy stream to keep host vecs in scope
-  device_backend_->master_queue_synchronize(); 
-
-}
-
-
-void XCDeviceStackData::copy_weights_to_tasks( host_task_iterator task_begin, host_task_iterator task_end ) {
-
-  if( not device_backend_ ) GAUXC_GENERIC_EXCEPTION("Invalid Device Backend");
-
-  // Sanity check that npts is consistent
-  size_t local_npts = std::accumulate( task_begin, task_end, 0ul, 
-    []( const auto& a, const auto& b ) { return a + b.points.size(); } );
-
-  if( local_npts != total_npts_task_batch )
-    GAUXC_GENERIC_EXCEPTION("NPTS Mismatch");
-
-  // Copy weights into contiguous host data
-  std::vector<double> weights_host(local_npts);
-  device_backend_->copy_async( local_npts, base_stack.weights_device, 
-    weights_host.data(), "Weights D2H" );
-  device_backend_->master_queue_synchronize(); 
-
-  // Place into host memory 
-  auto* weights_ptr = weights_host.data();
-  for( auto it = task_begin; it != task_end; ++it ) {
-    const auto npts = it->points.size();
-    std::copy_n( weights_ptr, npts, it->weights.data() );
-    weights_ptr += npts;
-  }
-
-}
-
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_stack_data.hpp b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_stack_data.hpp
deleted file mode 100644
index 72a982b..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_stack_data.hpp
+++ /dev/null
@@ -1,455 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "xc_device_data.hpp"
-#include "xc_device_shell_pair_soa.hpp"
-#include "device/device_backend.hpp"
-#include <cstring>
-#include <gauxc/runtime_environment/fwd.hpp>
-
-namespace GauXC {
-
-// Collection of dimensions used in the XC integration
-struct allocated_dims {
-  size_t nshells      = 0; ///< Number of shells allocated for static data
-  size_t nshell_pairs = 0; ///< Number of shell pairs allocated for static data
-  size_t nprim_pairs  = 0; ///< Total number of prim pairs allocated 
-  size_t nbf          = 0; ///< Number of bfns allocated for static data
-  size_t natoms       = 0; ///< Number of atoms allocated for static data
-  size_t max_l        = 0; ///< Highest angular momentum value used
-  size_t ntask_ek     = 0; ///< Number of total tasks allocated for static data (EK)
-  size_t total_npts   = 0; ///< Total number of grid points allocated for onedft data
-};
-
-/// Base type for XCDeviceData instances that use stack data allocation.
-struct XCDeviceStackData : public XCDeviceData {
-
-  using XCDeviceData::host_task_type;
-  using XCDeviceData::host_task_container;
-  using XCDeviceData::host_task_iterator;
-
-  allocated_dims global_dims; ///< Global dimensions for allocated data structures
-  integrator_term_tracker allocated_terms;
-  
-  void* device_ptr = nullptr; ///< Device buffer for all device allocations
-  void* dynmem_ptr = nullptr; ///< Device buffer for dynamic allocations (mod static)
-  size_t devmem_sz = 0;       ///< Length of device_ptr in bytes
-  size_t dynmem_sz = 0;       ///< Length of dynmem_ptr in bytes 
-
-  // Stack static data (not dynamically allocated for each task batch)
-
-  struct static_data {
-    Shell<double>* shells_device = nullptr; ///< Array of static basis shells (nshells)
-    PrimitivePair<double>* prim_pairs_device = nullptr;
-
-    double* rab_device    = nullptr; ///< Static RAB matrix storage (*,natoms)
-    double* coords_device = nullptr; ///< Static atomic positions (3 * natoms)
-
-    double* exc_device     = nullptr;  ///< EXC storage (1)
-    double* nel_device     = nullptr;  ///< N_EL storage (1)
-    double* exx_k_device   = nullptr;  ///< EXX K storage (nbf,nbf)
-    double* acc_scr_device = nullptr;  ///< Accumulaion scratch (1)
-    double* exc_grad_device = nullptr; ///< EXC Gradient storage (3*natoms)
-    double* fxc_device     = nullptr; ///< FXC contraction storage (nbf,nbf)
-
-    double* vshell_max_sparse_device = nullptr;
-    size_t* shpair_row_ind_device = nullptr;
-    size_t* shpair_col_ind_device = nullptr;
-    double* ek_max_bfn_sum_device = nullptr;
-    double* ek_bfn_max_device     = nullptr;
-    int32_t* shell_to_bf_device = nullptr;
-    int32_t* shell_sizes_device = nullptr;
-
-    double* dmat_s_device   = nullptr;  ///< Static density matrix storage (nbf,nbf)
-    double* dmat_z_device   = nullptr;  /// Ditto for Z,Y,X densities
-    double* dmat_y_device   = nullptr;
-    double* dmat_x_device   = nullptr;
-    double* vxc_s_device    = nullptr;  ///< VXC storage (nbf, nbf)
-    double* vxc_z_device    = nullptr;  /// Ditto for Z,Y,X densities
-    double* vxc_y_device    = nullptr;
-    double* vxc_x_device    = nullptr;
-    
-    // Second derivatives
-    double* tdmat_s_device  = nullptr;  ///< Static trial density matrix storage (nbf,nbf)
-    double* tdmat_z_device  = nullptr;  /// Ditto for Z,Y,X trial densities
-    double* tdmat_y_device  = nullptr;
-    double* tdmat_x_device  = nullptr;
-    double* fxc_s_device    = nullptr;  ///< FXC storage (nbf, nbf)
-    double* fxc_z_device    = nullptr;  /// Ditto for Z,Y,X densities
-    double* fxc_y_device    = nullptr;
-    double* fxc_x_device    = nullptr;
-
-    // onedft input and output
-    double* grid_weights_device = nullptr; ///< Grid weights
-    double* grid_coords_device  = nullptr; ///< Grid coordinates
-    double* den_eval_device     = nullptr; ///< Grid densities
-    double* dden_eval_device = nullptr; ///< Grid density gradients
-    double* tau_device    = nullptr;
-
-    // onedft output
-    double* den_grad_device     = nullptr; ///< Grid density gradients
-    double* dden_grad_device    = nullptr; ///< Grid density gradients eps gradients
-    double* tau_grad_device     = nullptr;
-
-    inline void reset() { std::memset( this, 0, sizeof(static_data) ); }
-
-    inline double* den_selector(density_id den) {
-      switch(den) {
-        case DEN_S: return dmat_s_device;
-        case DEN_Z: return dmat_z_device;
-        case DEN_Y: return dmat_y_device;
-        case DEN_X: return dmat_x_device;
-        default: GAUXC_GENERIC_EXCEPTION("den_selector: density_id not recognized");
-      } 
-      return nullptr;
-    }
-
-    inline double* vxc_selector(density_id den) {
-      switch(den) {
-        case DEN_S: return vxc_s_device;
-        case DEN_Z: return vxc_z_device;
-        case DEN_Y: return vxc_y_device;
-        case DEN_X: return vxc_x_device;
-        default: GAUXC_GENERIC_EXCEPTION("vxc_selector: density_id not recognized");
-      } 
-      return nullptr;
-    }
-
-    inline double* tden_selector(density_id den) {
-      switch(den) {
-        case DEN_S: return tdmat_s_device;
-        case DEN_Z: return tdmat_z_device;
-        case DEN_Y: return tdmat_y_device;
-        case DEN_X: return tdmat_x_device;
-        default: GAUXC_GENERIC_EXCEPTION("tden_selector: density_id not recognized");
-      } 
-      return nullptr;
-    }
-
-    inline double* fxc_selector(density_id den) {
-      switch(den) {
-        case DEN_S: return fxc_s_device;
-        case DEN_Z: return fxc_z_device;
-        case DEN_Y: return fxc_y_device;
-        case DEN_X: return fxc_x_device;
-        default: GAUXC_GENERIC_EXCEPTION("fxc_selector: density_id not recognized");
-      } 
-      return nullptr;
-    }
-
-  };
-
-  XCDeviceShellPairSoA shell_pair_soa;
-  static_data static_stack;
-
-
-  // Stack dynamic data
-
-  size_t total_npts_task_batch = 0; ///< Number of grid points in task batch
-  struct base_stack_data {
-
-    //double* points_device  = nullptr; ///< Grid points for task batch
-    double* points_x_device = nullptr;
-    double* points_y_device = nullptr;
-    double* points_z_device = nullptr;
-    double* weights_device = nullptr; ///< Grid weights for task batch
-
-    // U variables
-    double* den_s_eval_device      = nullptr; ///< scalar density for task batch
-    double* dden_sx_eval_device    = nullptr; ///< d/dx scalar density for task batch
-    double* dden_sy_eval_device    = nullptr; ///< d/dy scalar density for task batch
-    double* dden_sz_eval_device    = nullptr; ///< d/dz scalar density for task batch
-    double* tau_s_eval_device      = nullptr; ///< scalar tau for task batch
-    double* lapl_s_eval_device     = nullptr; ///< scalar density laplacian for task batch
-    
-    double* den_z_eval_device      = nullptr; ///< z density for task batch
-    double* dden_zx_eval_device    = nullptr; ///< d/dx z density for task batch
-    double* dden_zy_eval_device    = nullptr; ///< d/dy z density for task batch
-    double* dden_zz_eval_device    = nullptr; ///< d/dz z density for task batch
-    double* tau_z_eval_device      = nullptr; ///< z tau for task batch
-    double* lapl_z_eval_device     = nullptr; ///< z density laplacian for task batch
-
-    double* den_y_eval_device   = nullptr; ///< y density for task batch
-    double* dden_yx_eval_device = nullptr; ///< d/dx y density for task batch
-    double* dden_yy_eval_device = nullptr; ///< d/dy y density for task batch
-    double* dden_yz_eval_device = nullptr; ///< d/dz y density for task batch
-
-    double* den_x_eval_device   = nullptr; ///< x density for task batch
-    double* dden_xx_eval_device = nullptr; ///< d/dx x density for task batch
-    double* dden_xy_eval_device = nullptr; ///< d/dy x density for task batch
-    double* dden_xz_eval_device = nullptr; ///< d/dz x density for task batch
-    
-    double* den_interleaved_device  = nullptr; /// Storage for interleaved density (non-RKS only)
-    double* tau_interleaved_device  = nullptr; /// Storage for interleaved tau (non-RKS only)
-    double* lapl_interleaved_device = nullptr; /// Storage for interleaved lapl (non-RKS only)
-
-    // V variables / XC output
-    double* gamma_eval_device  = nullptr; ///< gamma for task batch
-    double* eps_eval_device    = nullptr; ///< XC energy density for task batch
-    double* vrho_eval_device   = nullptr; ///< Rho XC derivative for task batch
-    double* vgamma_eval_device = nullptr; ///< Gamma XC derivative for task batch
-    double* vtau_eval_device   = nullptr; ///< Tau XC derivative for task batch
-    double* vlapl_eval_device  = nullptr; ///< Lapl XC derivative for task batch
-
-    double* vrho_pos_eval_device   = nullptr;  ///< Polarized Rho+ XC derivative for task batch
-    double* vrho_neg_eval_device   = nullptr;  ///< Polarized Rho+ XC derivative for task batch
-    double* vtau_pos_eval_device   = nullptr;
-    double* vtau_neg_eval_device   = nullptr;
-    double* vlapl_pos_eval_device  = nullptr;
-    double* vlapl_neg_eval_device  = nullptr;
-    
-
-    double* gamma_pp_eval_device  = nullptr;  ///< Polarized Gamma++ for task batch
-    double* gamma_pm_eval_device  = nullptr;  ///< Polarized Gamma+- for task batch
-    double* gamma_mm_eval_device  = nullptr;  ///< Polarized Gamma-- for task batch
-    double* vgamma_pp_eval_device  = nullptr; ///< Polarized Gamma++ XC derivative for task batch
-    double* vgamma_pm_eval_device  = nullptr; ///< Polarized Gamma+- XC derivative for task batch
-    double* vgamma_mm_eval_device  = nullptr; ///< Polarized Gamma-- XC derivative for task batch
-
-    double* H_x_eval_device     = nullptr;    ///< norm(m) dependent GGA X transformation factor for task batch
-    double* H_y_eval_device     = nullptr;    ///< norm(m) dependent GGA Y transformation factor for task batch
-    double* H_z_eval_device     = nullptr;    ///< norm(m) dependent GGA Z transformation factor for task batch
-    double* K_x_eval_device     = nullptr;    ///< norm(m) dependent LDA X transformation factor for task batch
-    double* K_y_eval_device     = nullptr;    ///< norm(m) dependent LDA Y transformation factor for task batch
-    double* K_z_eval_device     = nullptr;    ///< norm(m) dependent LDA Z transformation factor for task batch
-
-    // Second derivative intermediates - Trial variables (T)
-    double* tden_s_eval_device      = nullptr; ///< scalar trial density for task batch
-    double* tdden_sx_eval_device    = nullptr; ///< d/dx scalar trial density for task batch
-    double* tdden_sy_eval_device    = nullptr; ///< d/dy scalar trial density for task batch
-    double* tdden_sz_eval_device    = nullptr; ///< d/dz scalar trial density for task batch
-    double* ttau_s_eval_device      = nullptr; ///< scalar trial tau for task batch
-    double* tlapl_s_eval_device     = nullptr; ///< scalar trial density laplacian for task batch
-    
-    double* tden_z_eval_device      = nullptr; ///< z trial density for task batch
-    double* tdden_zx_eval_device    = nullptr; ///< d/dx z trial density for task batch
-    double* tdden_zy_eval_device    = nullptr; ///< d/dy z trial density for task batch
-    double* tdden_zz_eval_device    = nullptr; ///< d/dz z trial density for task batch
-    double* ttau_z_eval_device      = nullptr; ///< z trial tau for task batch
-    double* tlapl_z_eval_device     = nullptr; ///< z trial density laplacian for task batch
-
-    double* tden_y_eval_device      = nullptr; ///< y trial density for task batch
-    double* tdden_yx_eval_device    = nullptr; ///< d/dx y trial density for task batch
-    double* tdden_yy_eval_device    = nullptr; ///< d/dy y trial density for task batch
-    double* tdden_yz_eval_device    = nullptr; ///< d/dz y trial density for task batch
-
-    double* tden_x_eval_device      = nullptr; ///< x trial density for task batch
-    double* tdden_xx_eval_device    = nullptr; ///< d/dx x trial density for task batch
-    double* tdden_xy_eval_device    = nullptr; ///< d/dy x trial density for task batch
-    double* tdden_xz_eval_device    = nullptr; ///< d/dz x trial density for task batch
-
-    // Second derivative kernel outputs (V2 variables)
-    double* v2rho2_eval_device      = nullptr; ///< 2nd derivative of XC wrt rho^2
-    double* v2rhogamma_eval_device  = nullptr; ///< 2nd derivative of XC wrt rho-gamma
-    double* v2rholapl_eval_device   = nullptr; ///< 2nd derivative of XC wrt rho-lapl
-    double* v2rhotau_eval_device    = nullptr; ///< 2nd derivative of XC wrt rho-tau
-    double* v2gamma2_eval_device    = nullptr; ///< 2nd derivative of XC wrt gamma^2
-    double* v2gammalapl_eval_device = nullptr; ///< 2nd derivative of XC wrt gamma-lapl
-    double* v2gammatau_eval_device  = nullptr; ///< 2nd derivative of XC wrt gamma-tau
-    double* v2lapl2_eval_device     = nullptr; ///< 2nd derivative of XC wrt lapl^2
-    double* v2lapltau_eval_device   = nullptr; ///< 2nd derivative of XC wrt lapl-tau
-    double* v2tau2_eval_device      = nullptr; ///< 2nd derivative of XC wrt tau^2
-    // in unrestricted case, these are 2nd derivatives of XC with alpha (+) and beta (-) densities
-    double* v2rho2_a_a_eval_device = nullptr;
-    double* v2rho2_a_b_eval_device = nullptr;
-    double* v2rho2_b_b_eval_device = nullptr;
-    double* v2rhogamma_a_aa_eval_device = nullptr;
-    double* v2rhogamma_a_ab_eval_device = nullptr;
-    double* v2rhogamma_a_bb_eval_device = nullptr;
-    double* v2rhogamma_b_aa_eval_device = nullptr;
-    double* v2rhogamma_b_ab_eval_device = nullptr;
-    double* v2rhogamma_b_bb_eval_device = nullptr;
-    double* v2rholapl_a_a_eval_device = nullptr;
-    double* v2rholapl_a_b_eval_device = nullptr;
-    double* v2rholapl_b_a_eval_device = nullptr;
-    double* v2rholapl_b_b_eval_device = nullptr;
-    double* v2rhotau_a_a_eval_device = nullptr;
-    double* v2rhotau_a_b_eval_device = nullptr;
-    double* v2rhotau_b_a_eval_device = nullptr;
-    double* v2rhotau_b_b_eval_device = nullptr;
-    double* v2gamma2_aa_aa_eval_device = nullptr;
-    double* v2gamma2_aa_ab_eval_device = nullptr;
-    double* v2gamma2_aa_bb_eval_device = nullptr;
-    double* v2gamma2_ab_ab_eval_device = nullptr;
-    double* v2gamma2_ab_bb_eval_device = nullptr;
-    double* v2gamma2_bb_bb_eval_device = nullptr;
-    double* v2gammalapl_aa_a_eval_device = nullptr;
-    double* v2gammalapl_aa_b_eval_device = nullptr;
-    double* v2gammalapl_ab_a_eval_device = nullptr;
-    double* v2gammalapl_ab_b_eval_device = nullptr;
-    double* v2gammalapl_bb_a_eval_device = nullptr;
-    double* v2gammalapl_bb_b_eval_device = nullptr;
-    double* v2gammatau_aa_a_eval_device = nullptr;
-    double* v2gammatau_aa_b_eval_device = nullptr;
-    double* v2gammatau_ab_a_eval_device = nullptr;
-    double* v2gammatau_ab_b_eval_device = nullptr;
-    double* v2gammatau_bb_a_eval_device = nullptr;
-    double* v2gammatau_bb_b_eval_device = nullptr;
-    double* v2lapl2_a_a_eval_device = nullptr;
-    double* v2lapl2_a_b_eval_device = nullptr;
-    double* v2lapl2_b_b_eval_device = nullptr;
-    double* v2lapltau_a_a_eval_device = nullptr;
-    double* v2lapltau_a_b_eval_device = nullptr;
-    double* v2lapltau_b_a_eval_device = nullptr;
-    double* v2lapltau_b_b_eval_device = nullptr;
-    double* v2tau2_a_a_eval_device = nullptr;
-    double* v2tau2_a_b_eval_device = nullptr;
-    double* v2tau2_b_b_eval_device = nullptr;
-    
-    // Second derivative kernel outputs (A,B,C variables)
-    double* FXC_A_s_eval_device           = nullptr;
-    double* FXC_Bx_s_eval_device          = nullptr;
-    double* FXC_By_s_eval_device          = nullptr;
-    double* FXC_Bz_s_eval_device          = nullptr;
-    double* FXC_C_s_eval_device           = nullptr;
-    double* FXC_A_z_eval_device           = nullptr;
-    double* FXC_Bx_z_eval_device          = nullptr;
-    double* FXC_By_z_eval_device          = nullptr;
-    double* FXC_Bz_z_eval_device          = nullptr;
-    double* FXC_C_z_eval_device           = nullptr;
-
-    inline void reset() { std::memset( this, 0, sizeof(base_stack_data) ); }
-  };
-
-  base_stack_data base_stack;
-
-  /// Device backend instance to handle device specific execution
-  const DeviceRuntimeEnvironment& runtime_;
-  DeviceBackend* device_backend_ = nullptr;
-
-  XCDeviceStackData() = delete; // No default ctor, must have device backend
-  XCDeviceStackData( const DeviceRuntimeEnvironment& rt );
-
-  virtual ~XCDeviceStackData() noexcept;
-
-  // Final overrides
-  host_task_iterator generate_buffers( integrator_term_tracker, const BasisSetMap&,
-    host_task_iterator, host_task_iterator) override final;
-  void allocate_static_data_weights( int32_t natoms ) override final;
-  void allocate_static_data_onedft( int32_t nbf, int32_t nshells, int32_t natoms, int32_t total_npts, integrator_term_tracker enabled_terms ) override final;
-  void allocate_static_data_exc_vxc( int32_t nbf, int32_t nshells, integrator_term_tracker enabled_terms, bool do_vxc ) override final;
-  void allocate_static_data_fxc_contraction( int32_t nbf, int32_t nshells, integrator_term_tracker enabled_terms ) override final;
-  void allocate_static_data_den( int32_t nbf, int32_t nshells ) override final;
-  void allocate_static_data_exc_grad( int32_t nbf, int32_t nshells, int32_t natoms, integrator_term_tracker enabled_terms ) override final;
-  void allocate_static_data_exx( int32_t nbf, int32_t nshells, size_t nshell_pairs, size_t nprim_pair_total, int32_t max_l ) override final;
-  void allocate_static_data_exx_ek_screening( size_t ntasks, int32_t nbf, int32_t nshells, int nshell_pairs, int32_t max_l ) override final;
-  void send_static_data_weights( const Molecule& mol, const MolMeta& meta ) override final;
-  void send_static_data_density_basis( const double* Ps, int32_t ldps, const double* Pz, int32_t ldpz,
-                                        const double* Py, int32_t ldpy, const double* Px, int32_t ldpx,
-    const BasisSet<double>& basis ) override final;
-  void send_static_data_onedft( const Molecule& mol, const double* Ps, int32_t ldps, const double* Pz, int32_t ldpz, const double* Py, 
-      int32_t ldpy, const double* Px, int32_t ldpx, const BasisSet<double>& basis ) override final;
-  void send_static_data_onedft_results( int32_t total_npts, int32_t ndm, const double* EXC, const double* DEN, const double* DDEN, const double* TAU) override final;
-  void send_static_data_trial_density(
-    const double* tPs, int32_t ldtps, const double* tPz, int32_t ldtpz,
-    const double* tPy, int32_t ldtpy, const double* tPx, int32_t ldtpx ) override final;
-  void send_static_data_shell_pairs( const BasisSet<double>&, const ShellPairCollection<double>& ) 
-    override final;
-  void send_static_data_exx_ek_screening( const double* V_max, int32_t ldv, const BasisSetMap&, const ShellPairCollection<double>& ) override final;
-  void zero_den_integrands() override final;
-  void zero_exc_vxc_integrands(integrator_term_tracker t) override final;
-  void zero_fxc_contraction_integrands() override final;
-  void zero_exc_grad_integrands() override final;
-  void zero_exx_integrands() override final;
-  void zero_exx_ek_screening_intermediates() override final;
-  void retrieve_exc_vxc_integrands( double* EXC, double* N_EL,
-    double* VXCscalar, int32_t ldvxcscalar, double* VXCz, int32_t ldvxcz,
-    double* VXCy     , int32_t ldvxcy     , double* VXCx, int32_t ldvxcx ) override final;
-  void retrieve_onedft_features( int32_t total_npts, int32_t ndm, double* DEN, 
-    double* DDEN, double* TAU, double* POINTS, double* WEIGHTS) override final;
-  void retrieve_fxc_contraction_integrands( double* N_EL,
-    double* FXCs, int32_t ldfxcs, double* FXCz, int32_t ldfxcz,
-    double* FXCy, int32_t ldfxcy, double* FXCx, int32_t ldfxcx ) override final;
-  void retrieve_exc_grad_integrands( double* EXC_GRAD, double* N_EL ) override final;
-  void retrieve_den_integrands( double* N_EL ) override final;
-  void retrieve_exx_integrands( double* K, int32_t ldk ) override final;
-  void retrieve_exx_ek_max_bfn_sum( double* MBS, int32_t nt) override final;
-  void copy_weights_to_tasks( host_task_iterator task_begin, host_task_iterator task_end ) override final;
-
-  double* vxc_s_device_data() override;
-  double* vxc_z_device_data() override;
-  double* vxc_y_device_data() override;
-  double* vxc_x_device_data() override;
-  double* exc_device_data() override;
-  double* nel_device_data() override;
-  double* exx_k_device_data() override;
-
-  double* grid_weights_device_data() override;
-  double* grid_coords_device_data() override;
-  double* den_eval_device_data() override;
-  double* dden_eval_device_data() override;
-  double* tau_device_data() override;
-  double* coords_device_data() override;
-
-  double* fxc_s_device_data() override;
-  double* fxc_z_device_data() override;
-  double* fxc_y_device_data() override;
-  double* fxc_x_device_data() override;
-  device_queue queue() override;
-
-
-  virtual void reset_allocations() override;
-
-  // New overridable APIs
-  using device_buffer_t = std::tuple<void*, size_t>;
-
-  /** Allocate and populate device memory for a given task batch
-   *
-   *  Overridable in devrived classes - derived classes should call
-   *  this function explicitly to ensure that the correct information
-   *  is allocated on the stack
-   *
-   *  @param[in] begin      Start iterator for task batch
-   *  @param[in] end        End iterator for task batch
-   *  @param[in] buf        Current state of dynamic memory stack
-   *  @param[in] basis_map  Basis map instance for pass basis set 
-   *                        (TODO: should persist internally)
-   *
-   *  @returns The state of the dynamic memory stack after allocating
-   *           base information.
-   */
-
-
-  virtual device_buffer_t allocate_dynamic_stack( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, device_buffer_t buf );
-
-  virtual void pack_and_send( integrator_term_tracker terms,
-    host_task_iterator begin, host_task_iterator end, 
-    const BasisSetMap& basis_map );
-
-
-
-  /** Obtain the memory requirement for an XC task
-   *
-   *  Overridable in devrived classes - derived classes should call
-   *  this function explicitly to ensure that the correct information
-   *  is allocated on the stack
-   *
-   *  @param[in] task       Task to obtain the memory requirement
-   *
-   *  @returns Memory requirement (bytes) for `task` in device memory
-   */
-  virtual size_t get_mem_req( integrator_term_tracker terms,
-    const host_task_type& task );
-
-
-  // Implementation specific APIs
-  virtual size_t get_ldatoms()   = 0; ///< Stride of RAB in device memory
-  virtual size_t get_rab_align() = 0; ///< Alignment of RAB in device memory
-  virtual int get_points_per_subtask() = 0; ///< Number of points per subtask for OS kernels
-  virtual size_t get_static_mem_requirement() = 0;
-    ///< Static memory requirment for task batch which is independent of batch size
-
-};
-
-}
diff --git a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_task.hpp b/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_task.hpp
deleted file mode 100644
index 58ab323..0000000
--- a/third_party/gauxc/src/xc_integrator/xc_data/device/xc_device_task.hpp
+++ /dev/null
@@ -1,244 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-namespace GauXC {
-
-struct XCDeviceTask {
-
-  size_t npts = 0;
-
-  struct screening_quantities {
-    size_t nbe             = 0;
-    size_t ncut            = 0;
-    size_t nblock          = 0;
-    size_t nshells         = 0;
-    size_t ibf_begin       = 0;
-    size_t* shell_list     = nullptr;
-    size_t* shell_offs     = nullptr;
-    int32_t* submat_cut    = nullptr;
-    int32_t* submat_block  = nullptr;
-  };
-
-  screening_quantities bfn_screening;
-  screening_quantities cou_screening;
-
-  double* points_x       = nullptr;
-  double* points_y       = nullptr;
-  double* points_z       = nullptr;
-  double* weights        = nullptr;
-
-  double*   nbe_scr = nullptr;
-  double*   zmat    = nullptr;
-  double*   fmat    = nullptr;
-  double*   gmat    = nullptr;
-  double*   xmat_x  = nullptr;
-  double*   xmat_y  = nullptr;
-  double*   xmat_z  = nullptr;
-  double*   bf      = nullptr;
-  double*   dbfx    = nullptr;
-  double*   dbfy    = nullptr;
-  double*   dbfz    = nullptr;
-  double*   d2bfxx    = nullptr;
-  double*   d2bfxy    = nullptr;
-  double*   d2bfxz    = nullptr;
-  double*   d2bfyy    = nullptr;
-  double*   d2bfyz    = nullptr;
-  double*   d2bfzz    = nullptr;
-  double*   eps     = nullptr;
-
-  double* den    = nullptr;
-  double* gamma  = nullptr;
-  double* tau    = nullptr;
-  double* lapl   = nullptr;
-  double* vrho   = nullptr;
-  double* vgamma = nullptr;
-  double* vtau   = nullptr;
-  double* vlapl  = nullptr;
-    
-  // (S,Z,Y,X) densities
-  double* den_s     = nullptr;
-  double* den_z     = nullptr;
-  double* den_y     = nullptr;
-  double* den_x     = nullptr;
-  double* tau_s     = nullptr;
-  double* tau_z     = nullptr;
-  double* tau_y     = nullptr;
-  double* tau_x     = nullptr;
-  double* lapl_s    = nullptr;
-  double* lapl_z    = nullptr;
-  double* lapl_y    = nullptr;
-  double* lapl_x    = nullptr;
-
-  // Del(S,Z,Y,X) Gradients
-  double* dden_sx   = nullptr;
-  double* dden_sy   = nullptr;
-  double* dden_sz   = nullptr;
-  double* dden_zx   = nullptr;
-  double* dden_zy   = nullptr;
-  double* dden_zz   = nullptr;
-  double* dden_yx   = nullptr;
-  double* dden_yy   = nullptr;
-  double* dden_yz   = nullptr;
-  double* dden_xx   = nullptr;
-  double* dden_xy   = nullptr;
-  double* dden_xz   = nullptr;
-  
-  // 2C U vars
-  double* vrho_pos  = nullptr;
-  double* vrho_neg  = nullptr;
-  double* gamma_pp  = nullptr;
-  double* gamma_pm  = nullptr;
-  double* gamma_mm  = nullptr;
-  double* vgamma_pp  = nullptr;
-  double* vgamma_pm  = nullptr;
-  double* vgamma_mm  = nullptr;
-  double* vtau_pos  = nullptr;
-  double* vtau_neg  = nullptr;
-  double* vlapl_pos  = nullptr;
-  double* vlapl_neg  = nullptr;
-
-  // GKS K,H matrices
-  double* K_z        = nullptr;
-  double* K_y        = nullptr;
-  double* K_x        = nullptr;
-  double* H_z        = nullptr;
-  double* H_y        = nullptr;
-  double* H_x        = nullptr;
-
-  // MGGA
-  double*   d2bflapl    = nullptr;
-  double*   d3bflapl_x    = nullptr;
-  double*   d3bflapl_y    = nullptr;
-  double*   d3bflapl_z    = nullptr;
-
-  // Persistent X matrices for EXC gradients
-  double* xmatS   = nullptr;
-  double* xmatS_x = nullptr;
-  double* xmatS_y = nullptr;
-  double* xmatS_z = nullptr;
-  double* xmatZ   = nullptr;
-  double* xmatZ_x = nullptr;
-  double* xmatZ_y = nullptr;
-  double* xmatZ_z = nullptr;
-
-  // Second derivatives - Trial density and derivatives
-  double* tden    = nullptr;
-  double* ttau    = nullptr;
-  double* tlapl   = nullptr;
-  double* v2rho2      = nullptr;
-  double* v2rhogamma  = nullptr;
-  double* v2rholapl   = nullptr;
-  double* v2rhotau    = nullptr;
-  double* v2gamma2    = nullptr;
-  double* v2gammalapl = nullptr;
-  double* v2gammatau  = nullptr;
-  double* v2lapl2     = nullptr;
-  double* v2lapltau   = nullptr;
-  double* v2tau2      = nullptr;
-  
-  // (S,Z,Y,X) trial densities
-  double* tden_s     = nullptr;
-  double* tden_z     = nullptr;
-  double* tden_y     = nullptr;
-  double* tden_x     = nullptr;
-  double* ttau_s     = nullptr;
-  double* ttau_z     = nullptr;
-  double* ttau_y     = nullptr;
-  double* ttau_x     = nullptr;
-  double* tlapl_s    = nullptr;
-  double* tlapl_z    = nullptr;
-  double* tlapl_y    = nullptr;
-  double* tlapl_x    = nullptr;
-
-  // Del(S,Z,Y,X) trial density gradients
-  double* tdden_sx   = nullptr;
-  double* tdden_sy   = nullptr;
-  double* tdden_sz   = nullptr;
-  double* tdden_zx   = nullptr;
-  double* tdden_zy   = nullptr;
-  double* tdden_zz   = nullptr;
-  double* tdden_yx   = nullptr;
-  double* tdden_yy   = nullptr;
-  double* tdden_yz   = nullptr;
-  double* tdden_xx   = nullptr;
-  double* tdden_xy   = nullptr;
-  double* tdden_xz   = nullptr;
-  
-  //2C U variables for second derivatives
-  double* v2rho2_a_a = nullptr;
-  double* v2rho2_a_b = nullptr;
-  double* v2rho2_b_b = nullptr;
-  double* v2rhogamma_a_aa = nullptr;
-  double* v2rhogamma_a_ab = nullptr;
-  double* v2rhogamma_a_bb = nullptr;
-  double* v2rhogamma_b_aa = nullptr;
-  double* v2rhogamma_b_ab = nullptr;
-  double* v2rhogamma_b_bb = nullptr;
-  double* v2rholapl_a_a = nullptr;
-  double* v2rholapl_a_b = nullptr;
-  double* v2rholapl_b_a = nullptr;
-  double* v2rholapl_b_b = nullptr;
-  double* v2rhotau_a_a = nullptr;
-  double* v2rhotau_a_b = nullptr;
-  double* v2rhotau_b_a = nullptr;
-  double* v2rhotau_b_b = nullptr;
-  double* v2gamma2_aa_aa = nullptr;
-  double* v2gamma2_aa_ab = nullptr;
-  double* v2gamma2_aa_bb = nullptr;
-  double* v2gamma2_ab_ab = nullptr;
-  double* v2gamma2_ab_bb = nullptr;
-  double* v2gamma2_bb_bb = nullptr;
-  double* v2gammalapl_aa_a = nullptr;
-  double* v2gammalapl_aa_b = nullptr;
-  double* v2gammalapl_ab_a = nullptr;
-  double* v2gammalapl_ab_b = nullptr;
-  double* v2gammalapl_bb_a = nullptr;
-  double* v2gammalapl_bb_b = nullptr;
-  double* v2gammatau_aa_a = nullptr;
-  double* v2gammatau_aa_b = nullptr;
-  double* v2gammatau_ab_a = nullptr;
-  double* v2gammatau_ab_b = nullptr;
-  double* v2gammatau_bb_a = nullptr;
-  double* v2gammatau_bb_b = nullptr;
-  double* v2lapl2_a_a = nullptr;
-  double* v2lapl2_a_b = nullptr;
-  double* v2lapl2_b_b = nullptr;
-  double* v2lapltau_a_a = nullptr;
-  double* v2lapltau_a_b = nullptr;
-  double* v2lapltau_b_a = nullptr;
-  double* v2lapltau_b_b = nullptr;
-  double* v2tau2_a_a = nullptr;
-  double* v2tau2_a_b = nullptr;
-  double* v2tau2_b_b = nullptr;
-
-  // Second derivatives intermediate output
-  double* FXC_A_s = nullptr;
-  double* FXC_Bx_s = nullptr;
-  double* FXC_By_s = nullptr;
-  double* FXC_Bz_s = nullptr;
-  double* FXC_C_s = nullptr;
-  double* FXC_A_z = nullptr;
-  double* FXC_Bx_z = nullptr;
-  double* FXC_By_z = nullptr;
-  double* FXC_Bz_z = nullptr;
-  double* FXC_C_z = nullptr;
-
-  int32_t iParent       = -1;
-  double dist_nearest   = 0.;
-  double * dist_scratch = nullptr;
-
-  int32_t* bfn_shell_indirection = nullptr;
-
-};
-
-}
diff --git a/third_party/gauxc/tests/2nd_derivative_test.cxx b/third_party/gauxc/tests/2nd_derivative_test.cxx
deleted file mode 100644
index eedcb27..0000000
--- a/third_party/gauxc/tests/2nd_derivative_test.cxx
+++ /dev/null
@@ -1,243 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/xc_integrator.hpp>
-#include <gauxc/xc_integrator/impl.hpp>
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-#include <gauxc/molecular_weights.hpp>
-
-#include <gauxc/molgrid/defaults.hpp>
-
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include <Eigen/Core>
-
-using namespace GauXC;
-
-
-void test_fxc_contractioin(ExecutionSpace ex, const RuntimeEnvironment& rt,
-  std::string reference_file, 
-  functional_type& func, 
-  PruningScheme pruning_scheme,
-  std::string integrator_kernel = "Default",  
-  std::string reduction_kernel  = "Default",
-  std::string lwd_kernel        = "Default") {
-
-  // Read the reference file
-  using matrix_type = Eigen::MatrixXd;
-  Molecule mol;
-  BasisSet<double> basis;
-  matrix_type P, Pz, tP, tPz, FXC_ref, FXCz_ref;
-  bool rks = true, uks = false;
-  
-  {
-    read_hdf5_record( mol,   reference_file, "/MOLECULE" );
-    read_hdf5_record( basis, reference_file, "/BASIS"    );
-
-    HighFive::File file( reference_file, HighFive::File::ReadOnly );
-    
-    std::string den = "/DENSITY";
-    std::string tden_str = "/TRIAL_DENSITY";
-    std::string fxc_str = "/FXC";
-    std::string den2 = "/DENSITY_Z";
-
-    if (file.exist("/DENSITY_Z")) { 
-      rks = false; 
-      uks = true;
-      if (file.exist("/DENSITY_Y") && file.exist("/DENSITY_X")) {
-        std::cout << "FXC contraction for GKS is not supported yet. Skipping test." << std::endl;
-        return;
-      }
-    }
-
-    if (uks) {
-      tden_str = "/TRIAL_DENSITY_SCALAR";
-      den = "/DENSITY_SCALAR";
-      fxc_str = "/FXC_SCALAR";
-    }
-     
-    auto dset = file.getDataSet(den);
-    auto dims = dset.getDimensions();
-    
-    P = matrix_type(dims[0], dims[1]);
-    dset.read(P.data());
-    
-    if (not rks) {
-      Pz = matrix_type(dims[0], dims[1]);
-      dset = file.getDataSet(den2);
-      dset.read(Pz.data());
-    }
-    
-    tP = matrix_type(dims[0], dims[1]);
-    dset = file.getDataSet(tden_str);
-    dset.read(tP.data());
-    FXC_ref = matrix_type(dims[0], dims[1]);
-    dset = file.getDataSet(fxc_str);
-    dset.read(FXC_ref.data());
-    
-    if (not rks) {
-      FXCz_ref = matrix_type(dims[0], dims[1]);
-      dset = file.getDataSet("/FXC_Z");
-      dset.read(FXCz_ref.data());
-      tPz = matrix_type(dims[0], dims[1]);
-      dset = file.getDataSet("/TRIAL_DENSITY_Z");
-      dset.read(tPz.data());
-    }
-  }
-
-  // Set shell tolerance
-  for (auto& sh : basis) 
-    sh.set_shell_tolerance(std::numeric_limits<double>::epsilon());
-
-  // Create molecular grid
-  auto mg = MolGridFactory::create_default_molgrid(mol, pruning_scheme,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-  // Construct Load Balancer
-  LoadBalancerFactory lb_factory(ExecutionSpace::Host, "Default");
-  auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-
-  // Construct Weights Module
-  MolecularWeightsFactory mw_factory(ex, "Default", MolecularWeightsSettings{});
-  auto mw = mw_factory.get_instance();
-
-  // Apply partition weights
-  mw.modify_weights(lb);
-
-  // Construct XCIntegrator
-  XCIntegratorFactory<matrix_type> integrator_factory(ex, "Replicated", 
-    integrator_kernel, lwd_kernel, reduction_kernel);
-  auto integrator = integrator_factory.get_instance(func, lb);
-
-  // Test FXC contraction
-  if (rks) {
-    // Call FXC contraction
-    auto FXC = integrator.eval_fxc_contraction(P, tP);
-    auto FXC_diff_nrm = (FXC - FXC_ref).norm();
-    CHECK(FXC_diff_nrm / basis.nbf() < 1e-10);
-  } else if (uks) {
-    // Call FXC contraction
-    auto [FXCs, FXCz] = integrator.eval_fxc_contraction(P, Pz, tP, tPz);
-    
-    auto FXCs_diff_nrm = (FXCs - FXC_ref).norm();
-    auto FXCz_diff_nrm = (FXCz - FXCz_ref).norm();
-    CHECK(FXCs_diff_nrm / basis.nbf() < 1e-10);
-    CHECK(FXCz_diff_nrm / basis.nbf() < 1e-10);
-  
-  }
-}
-
-void test_integrator_2nd(std::string reference_file, functional_type& func, PruningScheme pruning_scheme) {
-
-#ifdef GAUXC_HAS_DEVICE
-  auto rt = DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.9);
-#else
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-#endif
-
-#ifdef GAUXC_HAS_HOST
-    SECTION( "Host" ) {
-      SECTION("Reference") {
-        test_fxc_contractioin( ExecutionSpace::Host, rt, reference_file, func,
-          pruning_scheme, "Default", "Default", "Default" );
-      }
-    }
-#endif
-
-#ifdef GAUXC_HAS_DEVICE
-  SECTION( "Device" ) {
-    SECTION( "Incore - MPI Reduction" ) {
-      test_fxc_contractioin( ExecutionSpace::Device, rt,
-        reference_file, func, pruning_scheme,  
-        "Default", "Default", "Default" );
-    }
-    #ifdef GAUXC_HAS_CUTLASS
-    SECTION( "Incore - MPI Reduction - CUTLASS" ) {
-      test_fxc_contractioin( ExecutionSpace::Device, rt, 
-        reference_file, func, pruning_scheme,
-        "Default", "Default", "Scheme1-CUTLASS" );
-    }
-    #endif
-
-  }
-#endif
-
-}
-
-functional_type make_functional_2nd(ExchCXX::Functional func_key, ExchCXX::Spin spin) {
-  return functional_type(ExchCXX::Backend::builtin, func_key, spin);
-}
-
-
-TEST_CASE( "XC Integrator FXC", "[xc-integrator]" ) {
-
-  auto pol     = ExchCXX::Spin::Polarized;
-  auto unpol   = ExchCXX::Spin::Unpolarized;
-  auto svwn5   = ExchCXX::Functional::SVWN5;
-  auto pbe0    = ExchCXX::Functional::PBE0;
-  auto blyp    = ExchCXX::Functional::BLYP;
-  auto scan    = ExchCXX::Functional::SCAN;
-  auto r2scanl = ExchCXX::Functional::R2SCANL;
-  auto m062x   = ExchCXX::Functional::M062X;
-
-  // LDA Test
-  SECTION( "Benzene / SVWN5 / cc-pVDZ" ) {
-    auto func = make_functional_2nd(svwn5, unpol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-  SECTION( "Benzene / SVWN5 / cc-pVDZ (Treutler)" ) {
-    auto func = make_functional_2nd(svwn5, unpol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf_treutler_prune.hdf5", 
-        func, PruningScheme::Treutler );
-  }
-  SECTION( "Benzene / SVWN5 / cc-pVDZ (Robust)" ) {
-    auto func = make_functional_2nd(svwn5, unpol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf_robust_prune.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  // GGA Test
-  SECTION( "Benzene / PBE0 / cc-pVDZ" ) {
-    auto func = make_functional_2nd(pbe0, unpol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/benzene_pbe0_cc-pvdz_ufg_ssf.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-
-  // MGGA Test (TAU Only)
-  SECTION( "Cytosine / SCAN / cc-pVDZ") {
-    auto func = make_functional_2nd(scan, unpol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  //UKS LDA Test
-  SECTION( "Li / SVWN5 / sto-3g" ) {
-    auto func = make_functional_2nd(svwn5, pol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/li_svwn5_sto3g_uks.bin",
-        func, PruningScheme::Unpruned );
-  }
-
-  //UKS GGA Test
-  SECTION( "Cytosine (doublet) / BLYP / cc-pVDZ") {
-    auto func = make_functional_2nd(blyp, pol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/cytosine_blyp_cc-pvdz_ufg_ssf_robust_uks.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  // UKS MGGA Test (TAU Only)
-  SECTION( "Cytosine (doublet) / SCAN / cc-pVDZ") {
-    auto func = make_functional_2nd(scan, pol);
-    test_integrator_2nd(GAUXC_REF_DATA_PATH "/cytosine_scan_cc-pvdz_ufg_ssf_robust_uks.hdf5", 
-        func, PruningScheme::Robust );
-  }
-}
diff --git a/third_party/gauxc/tests/CMakeLists.txt b/third_party/gauxc/tests/CMakeLists.txt
deleted file mode 100644
index c0ce1cc..0000000
--- a/third_party/gauxc/tests/CMakeLists.txt
+++ /dev/null
@@ -1,106 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-if(NOT GAUXC_HAS_HDF5)
-  message(WARNING "GauXC Tests were ENABLED but HDF5 was not FOUND/ENABLED. Please enable and ensure discovery of HDF5. Skipping Tests")
-  return()
-endif()
-message( STATUS "Building GauXC Tests" )
-add_library( gauxc_catch2 INTERFACE )
-
-find_package( Catch2 CONFIG QUIET )
-if( NOT Catch2_FOUND )
-
-  FetchContent_Declare(
-    catch2
-    GIT_REPOSITORY https://github.com/catchorg/Catch2.git
-    GIT_TAG        v2.13.10
-  )
-  
-  set(CATCH_BUILD_TESTING OFF CACHE BOOL "Build SelfTest project" FORCE)
-  set(CATCH_INSTALL_DOCS OFF CACHE BOOL "Install documentation alongside library" FORCE)
-  set(CATCH_INSTALL_HELPERS OFF CACHE BOOL "Install contrib alongside library" FORCE)
-
-  FetchContent_MakeAvailable( catch2 )
-  target_link_libraries( gauxc_catch2 INTERFACE Catch2::Catch2 )
-
-else()
-
-  target_link_libraries( gauxc_catch2 INTERFACE Catch2::Catch2 )
-
-endif()
-
-include( gauxc-eigen3 )
-include( gauxc-cereal )
-
-#add_library( catch2_main STATIC ut_main.cxx)
-#target_link_libraries( catch2_main PUBLIC gauxc_catch2 )
-#
-#add_executable( gauxc_moltypes_test moltypes_test.cxx )
-#target_link_libraries( gauxc_moltypes_test PUBLIC gauxc catch2_main )
-#
-#add_executable( gauxc_grid_test grid_test.cxx )
-#target_link_libraries( gauxc_grid_test PUBLIC gauxc catch2_main )
-
-add_executable( gauxc_test 
-  ut_main.cxx 
-  moltypes_test.cxx 
-  grid_test.cxx 
-  molgrid_test.cxx 
-  basisset_test.cxx 
-  load_balancer_test.cxx 
-  xc_integrator.cxx 
-  environment.cxx
-  collocation.cxx
-  weights.cxx
-  weight_derivative_test.cxx
-  standards.cxx 
-  runtime.cxx
-  basis/parse_basis.cxx
-  dd_psi_potential_test.cxx
-  onedft_test.cxx
-  2nd_derivative_test.cxx
-)
-target_link_libraries( gauxc_test PUBLIC gauxc gauxc_catch2 Eigen3::Eigen cereal )
-if(GAUXC_ENABLE_CUTLASS)
-  include(gauxc-cutlass)
-  target_link_libraries(gauxc_test PUBLIC gauxc_cutlass)
-endif()
-
-
-set( GAUXC_REF_DATA_PATH "${PROJECT_SOURCE_DIR}/tests/ref_data" )
-set( GAUXC_ONEDFT_MODEL_PATH "${PROJECT_SOURCE_DIR}/data/onedft_models" )
-configure_file( ut_common.hpp.in ${PROJECT_BINARY_DIR}/tests/ut_common.hpp )
-target_include_directories( gauxc_test PRIVATE ${PROJECT_BINARY_DIR}/tests )
-target_include_directories( gauxc_test PRIVATE ${PROJECT_SOURCE_DIR}/tests )
-
-
-add_executable( standalone_driver standalone_driver.cxx standards.cxx basis/parse_basis.cxx ini_input.cxx )
-target_link_libraries( standalone_driver PUBLIC gauxc gauxc_catch2 Eigen3::Eigen cereal )
-target_include_directories( standalone_driver PRIVATE ${PROJECT_BINARY_DIR}/tests )
-target_include_directories( standalone_driver PRIVATE ${PROJECT_SOURCE_DIR}/tests )
-
-#add_executable( grid_opt grid_opt.cxx standards.cxx basis/parse_basis.cxx ini_input.cxx )
-#target_link_libraries( grid_opt PUBLIC gauxc gauxc_catch2 Eigen3::Eigen cereal )
-#target_include_directories( grid_opt PRIVATE ${PROJECT_BINARY_DIR}/tests )
-#target_include_directories( grid_opt PRIVATE ${PROJECT_SOURCE_DIR}/tests )
-
-#add_executable( conv_cereal_to_hdf5 conv_cereal_to_hdf5.cxx standards.cxx basis/parse_basis.cxx )
-#target_link_libraries( conv_cereal_to_hdf5 PUBLIC gauxc gauxc_catch2 Eigen3::Eigen cereal )
-#target_include_directories( conv_cereal_to_hdf5 PRIVATE ${PROJECT_BINARY_DIR}/tests )
-#target_include_directories( conv_cereal_to_hdf5 PRIVATE ${PROJECT_SOURCE_DIR}/tests )
-
-add_test( NAME GAUXC_SERIAL_TEST COMMAND $<TARGET_FILE:gauxc_test> )
-if( GAUXC_ENABLE_MPI )
-  add_test( NAME GAUXC_MPI_TEST
-            COMMAND ${MPIEXEC_EXECUTABLE} ${MPIEXEC_NUMPROC_FLAG} 2 ${MPIEXEC_PREFLAGS} $<TARGET_FILE:gauxc_test> ${MPIEXEC_POSTFLAGS}
-  )
-endif()
diff --git a/third_party/gauxc/tests/basis/new/6-31g-star.g94 b/third_party/gauxc/tests/basis/new/6-31g-star.g94
deleted file mode 100644
index a24ab8a..0000000
--- a/third_party/gauxc/tests/basis/new/6-31g-star.g94
+++ /dev/null
@@ -1,1021 +0,0 @@
-!----------------------------------------------------------------------
-! Basis Set Exchange
-! Version v0.8.12
-! https://www.basissetexchange.org
-!----------------------------------------------------------------------
-!   Basis set: 6-31G*
-! Description: 6-31G + polarization on heavy atoms
-!        Role: orbital
-!     Version: 1  (Data from Gaussian 09/GAMESS)
-!----------------------------------------------------------------------
-****
-H     0
-S   3   1.00
-      0.1873113696D+02       0.3349460434D-01
-      0.2825394365D+01       0.2347269535D+00
-      0.6401216923D+00       0.8137573261D+00
-S   1   1.00
-      0.1612777588D+00       1.0000000
-****
-He     0
-S   3   1.00
-      0.3842163400D+02       0.4013973935D-01
-      0.5778030000D+01       0.2612460970D+00
-      0.1241774000D+01       0.7931846246D+00
-S   1   1.00
-      0.2979640000D+00       1.0000000
-****
-Li     0
-S   6   1.00
-      0.6424189150D+03       0.2142607810D-02
-      0.9679851530D+02       0.1620887150D-01
-      0.2209112120D+02       0.7731557250D-01
-      0.6201070250D+01       0.2457860520D+00
-      0.1935117680D+01       0.4701890040D+00
-      0.6367357890D+00       0.3454708450D+00
-SP   3   1.00
-      0.2324918408D+01      -0.3509174574D-01       0.8941508043D-02
-      0.6324303556D+00      -0.1912328431D+00       0.1410094640D+00
-      0.7905343475D-01       0.1083987795D+01       0.9453636953D+00
-SP   1   1.00
-      0.3596197175D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.2000000000D+00       1.0000000
-****
-Be     0
-S   6   1.00
-      0.1264585690D+04       0.1944757590D-02
-      0.1899368060D+03       0.1483505200D-01
-      0.4315908900D+02       0.7209054629D-01
-      0.1209866270D+02       0.2371541500D+00
-      0.3806323220D+01       0.4691986519D+00
-      0.1272890300D+01       0.3565202279D+00
-SP   3   1.00
-      0.3196463098D+01      -0.1126487285D+00       0.5598019980D-01
-      0.7478133038D+00      -0.2295064079D+00       0.2615506110D+00
-      0.2199663302D+00       0.1186916764D+01       0.7939723389D+00
-SP   1   1.00
-      0.8230990070D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.4000000000D+00       1.0000000
-****
-B     0
-S   6   1.00
-      0.2068882250D+04       0.1866274590D-02
-      0.3106495700D+03       0.1425148170D-01
-      0.7068303300D+02       0.6955161850D-01
-      0.1986108030D+02       0.2325729330D+00
-      0.6299304840D+01       0.4670787120D+00
-      0.2127026970D+01       0.3634314400D+00
-SP   3   1.00
-      0.4727971071D+01      -0.1303937974D+00       0.7459757992D-01
-      0.1190337736D+01      -0.1307889514D+00       0.3078466771D+00
-      0.3594116829D+00       0.1130944484D+01       0.7434568342D+00
-SP   1   1.00
-      0.1267512469D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.6000000000D+00       1.0000000
-****
-C     0
-S   6   1.00
-      0.3047524880D+04       0.1834737132D-02
-      0.4573695180D+03       0.1403732281D-01
-      0.1039486850D+03       0.6884262226D-01
-      0.2921015530D+02       0.2321844432D+00
-      0.9286662960D+01       0.4679413484D+00
-      0.3163926960D+01       0.3623119853D+00
-SP   3   1.00
-      0.7868272350D+01      -0.1193324198D+00       0.6899906659D-01
-      0.1881288540D+01      -0.1608541517D+00       0.3164239610D+00
-      0.5442492580D+00       0.1143456438D+01       0.7443082909D+00
-SP   1   1.00
-      0.1687144782D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.8000000000D+00       1.0000000
-****
-N     0
-S   6   1.00
-      0.4173511460D+04       0.1834772160D-02
-      0.6274579110D+03       0.1399462700D-01
-      0.1429020930D+03       0.6858655181D-01
-      0.4023432930D+02       0.2322408730D+00
-      0.1282021290D+02       0.4690699481D+00
-      0.4390437010D+01       0.3604551991D+00
-SP   3   1.00
-      0.1162636186D+02      -0.1149611817D+00       0.6757974388D-01
-      0.2716279807D+01      -0.1691174786D+00       0.3239072959D+00
-      0.7722183966D+00       0.1145851947D+01       0.7408951398D+00
-SP   1   1.00
-      0.2120314975D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.8000000000D+00       1.0000000
-****
-O     0
-S   6   1.00
-      0.5484671660D+04       0.1831074430D-02
-      0.8252349460D+03       0.1395017220D-01
-      0.1880469580D+03       0.6844507810D-01
-      0.5296450000D+02       0.2327143360D+00
-      0.1689757040D+02       0.4701928980D+00
-      0.5799635340D+01       0.3585208530D+00
-SP   3   1.00
-      0.1553961625D+02      -0.1107775495D+00       0.7087426823D-01
-      0.3599933586D+01      -0.1480262627D+00       0.3397528391D+00
-      0.1013761750D+01       0.1130767015D+01       0.7271585773D+00
-SP   1   1.00
-      0.2700058226D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.8000000000D+00       1.0000000
-****
-F     0
-S   6   1.00
-      0.7001713090D+04       0.1819616901D-02
-      0.1051366090D+04       0.1391607961D-01
-      0.2392856900D+03       0.6840532453D-01
-      0.6739744530D+02       0.2331857601D+00
-      0.2151995730D+02       0.4712674392D+00
-      0.7403101300D+01       0.3566185462D+00
-SP   3   1.00
-      0.2084795280D+02      -0.1085069751D+00       0.7162872424D-01
-      0.4808308340D+01      -0.1464516581D+00       0.3459121027D+00
-      0.1344069860D+01       0.1128688581D+01       0.7224699564D+00
-SP   1   1.00
-      0.3581513930D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Ne     0
-S   6   1.00
-      0.8425851530D+04       0.1884348050D-02
-      0.1268519400D+04       0.1433689940D-01
-      0.2896214140D+03       0.7010962331D-01
-      0.8185900400D+02       0.2373732660D+00
-      0.2625150790D+02       0.4730071261D+00
-      0.9094720510D+01       0.3484012410D+00
-SP   3   1.00
-      0.2653213100D+02      -0.1071182872D+00       0.7190958851D-01
-      0.6101755010D+01      -0.1461638213D+00       0.3495133720D+00
-      0.1696271530D+01       0.1127773503D+01       0.7199405121D+00
-SP   1   1.00
-      0.4458187000D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Na     0
-S   6   1.00
-      0.9993200000D+04       0.1937659277D-02
-      0.1499890000D+04       0.1480699448D-01
-      0.3419510000D+03       0.7270547288D-01
-      0.9467960000D+02       0.2526289058D+00
-      0.2973450000D+02       0.4932418160D+00
-      0.1000630000D+02       0.3131688832D+00
-SP   6   1.00
-      0.1509630000D+03      -0.3542083504D-02       0.5001659710D-02
-      0.3558780000D+02      -0.4395884348D-01       0.3551089794D-01
-      0.1116830000D+02      -0.1097521086D+00       0.1428249917D+00
-      0.3902010000D+01       0.1873981854D+00       0.3386199803D+00
-      0.1381770000D+01       0.6466996397D+00       0.4515789738D+00
-      0.4663820000D+00       0.3060583027D+00       0.2732709841D+00
-SP   3   1.00
-      0.4979660000D+00      -0.2485031593D+00      -0.2302250043D-01
-      0.8435290000D-01      -0.1317040844D+00       0.9503590176D+00
-      0.6663500000D-01       0.1233520791D+01       0.5985790111D-01
-SP   1   1.00
-      0.2595440000D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.1750000000D+00       1.0000000
-****
-Mg     0
-S   6   1.00
-      0.1172280000D+05       0.1977829317D-02
-      0.1759930000D+04       0.1511399478D-01
-      0.4008460000D+03       0.7391077448D-01
-      0.1128070000D+03       0.2491909140D+00
-      0.3599970000D+02       0.4879278316D+00
-      0.1218280000D+02       0.3196618896D+00
-SP   6   1.00
-      0.1891800000D+03      -0.3237170471D-02       0.4928129921D-02
-      0.4521190000D+02      -0.4100790597D-01       0.3498879944D-01
-      0.1435630000D+02      -0.1126000164D+00       0.1407249977D+00
-      0.5138860000D+01       0.1486330216D+00       0.3336419947D+00
-      0.1906520000D+01       0.6164970898D+00       0.4449399929D+00
-      0.7058870000D+00       0.3648290531D+00       0.2692539957D+00
-SP   3   1.00
-      0.9293400000D+00      -0.2122908985D+00      -0.2241918123D-01
-      0.2690350000D+00      -0.1079854570D+00       0.1922708390D+00
-      0.1173790000D+00       0.1175844977D+01       0.8461802916D+00
-SP   1   1.00
-      0.4210610000D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.1750000000D+00       1.0000000
-****
-Al     0
-S   6   1.00
-      0.1398310000D+05       0.1942669947D-02
-      0.2098750000D+04       0.1485989959D-01
-      0.4777050000D+03       0.7284939800D-01
-      0.1343600000D+03       0.2468299932D+00
-      0.4287090000D+02       0.4872579866D+00
-      0.1451890000D+02       0.3234959911D+00
-SP   6   1.00
-      0.2396680000D+03      -0.2926190028D-02       0.4602845582D-02
-      0.5744190000D+02      -0.3740830036D-01       0.3319896813D-01
-      0.1828590000D+02      -0.1144870011D+00       0.1362818692D+00
-      0.6599140000D+01       0.1156350011D+00       0.3304756828D+00
-      0.2490490000D+01       0.6125950058D+00       0.4491455689D+00
-      0.9445450000D+00       0.3937990037D+00       0.2657037450D+00
-SP   3   1.00
-      0.1277900000D+01      -0.2276069245D+00      -0.1751260189D-01
-      0.3975900000D+00       0.1445835873D-02       0.2445330264D+00
-      0.1600950000D+00       0.1092794439D+01       0.8049340867D+00
-SP   1   1.00
-      0.5565770000D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.3250000000D+00       1.0000000
-****
-Si     0
-S   6   1.00
-      0.1611590000D+05       0.1959480216D-02
-      0.2425580000D+04       0.1492880164D-01
-      0.5538670000D+03       0.7284780801D-01
-      0.1563400000D+03       0.2461300271D+00
-      0.5006830000D+02       0.4859140535D+00
-      0.1701780000D+02       0.3250020358D+00
-SP   6   1.00
-      0.2927180000D+03      -0.2780941415D-02       0.4438264521D-02
-      0.6987310000D+02      -0.3571461817D-01       0.3266793328D-01
-      0.2233630000D+02      -0.1149850585D+00       0.1347211372D+00
-      0.8150390000D+01       0.9356344760D-01       0.3286783348D+00
-      0.3134580000D+01       0.6030173068D+00       0.4496404580D+00
-      0.1225430000D+01       0.4189592131D+00       0.2613722662D+00
-SP   3   1.00
-      0.1727380000D+01      -0.2446310042D+00      -0.1779510605D-01
-      0.5729220000D+00       0.4315737717D-02       0.2535390863D+00
-      0.2221920000D+00       0.1098184508D+01       0.8006692724D+00
-SP   1   1.00
-      0.7783690000D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.4500000000D+00       1.0000000
-****
-P     0
-S   6   1.00
-      0.1941330000D+05       0.1851598923D-02
-      0.2909420000D+04       0.1420619174D-01
-      0.6613640000D+03       0.6999945928D-01
-      0.1857590000D+03       0.2400788603D+00
-      0.5919430000D+02       0.4847617180D+00
-      0.2003100000D+02       0.3351998050D+00
-SP   6   1.00
-      0.3394780000D+03      -0.2782170105D-02       0.4564616191D-02
-      0.8101010000D+02      -0.3604990135D-01       0.3369357188D-01
-      0.2587800000D+02      -0.1166310044D+00       0.1397548834D+00
-      0.9452210000D+01       0.9683280364D-01       0.3393617168D+00
-      0.3665660000D+01       0.6144180231D+00       0.4509206237D+00
-      0.1467460000D+01       0.4037980152D+00       0.2385858009D+00
-SP   3   1.00
-      0.2156230000D+01      -0.2529241139D+00      -0.1776531273D-01
-      0.7489970000D+00       0.3285184468D-01       0.2740581964D+00
-      0.2831450000D+00       0.1081254762D+01       0.7854215630D+00
-SP   1   1.00
-      0.9983170000D-01       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.5500000000D+00       1.0000000
-****
-S     0
-S   6   1.00
-      0.2191710000D+05       0.1869240849D-02
-      0.3301490000D+04       0.1423030646D-01
-      0.7541460000D+03       0.6969623166D-01
-      0.2127110000D+03       0.2384871083D+00
-      0.6798960000D+02       0.4833072195D+00
-      0.2305150000D+02       0.3380741536D+00
-SP   6   1.00
-      0.4237350000D+03      -0.2376770499D-02       0.4061009982D-02
-      0.1007100000D+03      -0.3169300665D-01       0.3068129986D-01
-      0.3215990000D+02      -0.1133170238D+00       0.1304519994D+00
-      0.1180790000D+02       0.5609001177D-01       0.3272049985D+00
-      0.4631100000D+01       0.5922551243D+00       0.4528509980D+00
-      0.1870250000D+01       0.4550060955D+00       0.2560419989D+00
-SP   3   1.00
-      0.2615840000D+01      -0.2503731142D+00      -0.1451048955D-01
-      0.9221670000D+00       0.6695676310D-01       0.3102627765D+00
-      0.3412870000D+00       0.1054506269D+01       0.7544824565D+00
-SP   1   1.00
-      0.1171670000D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.6500000000D+00       1.0000000
-****
-Cl     0
-S   6   1.00
-      0.2518010000D+05       0.1832959848D-02
-      0.3780350000D+04       0.1403419883D-01
-      0.8604740000D+03       0.6909739426D-01
-      0.2421450000D+03       0.2374519803D+00
-      0.7733490000D+02       0.4830339599D+00
-      0.2624700000D+02       0.3398559718D+00
-SP   6   1.00
-      0.4917650000D+03      -0.2297391417D-02       0.3989400879D-02
-      0.1169840000D+03      -0.3071371894D-01       0.3031770668D-01
-      0.3741530000D+02      -0.1125280694D+00       0.1298800286D+00
-      0.1378340000D+02       0.4501632776D-01       0.3279510723D+00
-      0.5452150000D+01       0.5893533634D+00       0.4535271000D+00
-      0.2225880000D+01       0.4652062868D+00       0.2521540556D+00
-SP   3   1.00
-      0.3186490000D+01      -0.2518280280D+00      -0.1429931472D-01
-      0.1144270000D+01       0.6158925141D-01       0.3235723331D+00
-      0.4203770000D+00       0.1060184328D+01       0.7435077653D+00
-SP   1   1.00
-      0.1426570000D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.7500000000D+00       1.0000000
-****
-Ar     0
-S   6   1.00
-      0.2834830000D+05       0.1825260192D-02
-      0.4257620000D+04       0.1396860147D-01
-      0.9698570000D+03       0.6870730723D-01
-      0.2732630000D+03       0.2362040249D+00
-      0.8736950000D+02       0.4822140508D+00
-      0.2968670000D+02       0.3420430360D+00
-SP   6   1.00
-      0.5758910000D+03      -0.2159720895D-02       0.3806649842D-02
-      0.1368160000D+03      -0.2907751206D-01       0.2923049879D-01
-      0.4380980000D+02      -0.1108270460D+00       0.1264669948D+00
-      0.1620940000D+02       0.2769991148D-01       0.3235099866D+00
-      0.6460840000D+01       0.5776132395D+00       0.4548959811D+00
-      0.2651140000D+01       0.4886882026D+00       0.2566299894D+00
-SP   3   1.00
-      0.3860280000D+01      -0.2555929604D+00      -0.1591969040D-01
-      0.1413730000D+01       0.3780674206D-01       0.3246458042D+00
-      0.5166460000D+00       0.1080564060D+01       0.7439895512D+00
-SP   1   1.00
-      0.1738880000D+00       0.1000000000D+01       0.1000000000D+01
-D   1   1.00
-      0.8500000000D+00       1.0000000
-****
-K     0
-S   6   1.00
-      0.3159442000D+05       0.1828009922D-02
-      0.4744330000D+04       0.1399402940D-01
-      0.1080419000D+04       0.6887128707D-01
-      0.3042338000D+03       0.2369759899D+00
-      0.9724586000D+02       0.4829039794D+00
-      0.3302495000D+02       0.3404794855D+00
-SP   6   1.00
-      0.6227625000D+03      -0.2502975932D-02       0.4094636754D-02
-      0.1478839000D+03      -0.3315549910D-01       0.3145198811D-01
-      0.4732735000D+02      -0.1226386967D+00       0.1351557919D+00
-      0.1751495000D+02       0.5353642855D-01       0.3390499796D+00
-      0.6922722000D+01       0.6193859832D+00       0.4629454722D+00
-      0.2768277000D+01       0.4345877882D+00       0.2242637865D+00
-SP   6   1.00
-      0.1184802000D+02       0.1277689027D-01      -0.1221377161D-01
-      0.4079211000D+01       0.2098767044D+00      -0.6900537911D-02
-      0.1763481000D+01      -0.3095274065D-02       0.2007466265D+00
-      0.7889270000D+00      -0.5593884117D+00       0.4281332565D+00
-      0.3503870000D+00      -0.5134760107D+00       0.3970156524D+00
-      0.1463440000D+00      -0.6598035138D-01       0.1104718146D+00
-SP   3   1.00
-      0.7168010000D+00      -0.5237766157D-01       0.3164300053D-01
-      0.2337410000D+00      -0.2798499878D+00      -0.4046160068D-01
-      0.3867500000D-01       0.1141545727D+01       0.1012029017D+01
-SP   1   1.00
-      0.1652100000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.9029078000D+01       0.8747672000D-01
-      0.2285045000D+01       0.3795635000D+00
-      0.6638920000D+00       0.7180393000D+00
-D   1   1.00
-      0.1793890000D+00       1.0000000
-D   1   1.00
-      0.4485000000D-01       1.0000000
-****
-Ca     0
-S   6   1.00
-      0.3526486000D+05       0.1813501124D-02
-      0.5295503000D+04       0.1388493095D-01
-      0.1206020000D+04       0.6836162469D-01
-      0.3396839000D+03       0.2356188162D+00
-      0.1086264000D+03       0.4820639331D+00
-      0.3692103000D+02       0.3429819235D+00
-SP   6   1.00
-      0.7063096000D+03       0.2448225082D-02       0.4020370978D-02
-      0.1678187000D+03       0.3241504109D-01       0.3100600983D-01
-      0.5382558000D+02       0.1226219041D+00       0.1337278993D+00
-      0.2001638000D+02      -0.4316965145D-01       0.3367982982D+00
-      0.7970279000D+01      -0.6126995206D+00       0.4631280975D+00
-      0.3212059000D+01      -0.4487540151D+00       0.2257531988D+00
-SP   6   1.00
-      0.1419518000D+02       0.1084500055D-01      -0.1289621138D-01
-      0.4880828000D+01       0.2088333107D+00      -0.1025198110D-01
-      0.2160390000D+01       0.3150338161D-01       0.1959781209D+00
-      0.9878990000D+00      -0.5526518282D+00       0.4357933466D+00
-      0.4495170000D+00      -0.5437997277D+00       0.3996452427D+00
-      0.1873870000D+00      -0.6669342340D-01       0.9713637038D-01
-SP   3   1.00
-      0.1032271000D+01      -0.4439718086D-01      -0.4298620974D+00
-      0.3811710000D+00      -0.3284561584D+00       0.6935828957D-02
-      0.6513100000D-01       0.1163009499D+01       0.9705932940D+00
-SP   1   1.00
-      0.2601000000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.1011067000D+02       0.8747672000D-01
-      0.2558769000D+01       0.3795635000D+00
-      0.7434200000D+00       0.7180393000D+00
-D   1   1.00
-      0.2008780000D+00       1.0000000
-D   1   1.00
-      0.5020000000D-01       1.0000000
-****
-Sc     0
-S   6   1.00
-      0.3908898000D+05       0.1803262955D-02
-      0.5869792000D+04       0.1380768965D-01
-      0.1336910000D+04       0.6800395829D-01
-      0.3766031000D+03       0.2347098941D+00
-      0.1204679000D+03       0.4815689879D+00
-      0.4098032000D+02       0.3445651913D+00
-SP   6   1.00
-      0.7862852000D+03       0.2451863032D-02       0.4039529691D-02
-      0.1868870000D+03       0.3259579042D-01       0.3122569761D-01
-      0.6000935000D+02       0.1238242016D+00       0.1349832897D+00
-      0.2225883000D+02      -0.4359890057D-01       0.3424792738D+00
-      0.8885149000D+01      -0.6177181080D+00       0.4623112646D+00
-      0.3609211000D+01      -0.4432823058D+00       0.2177523833D+00
-SP   6   1.00
-      0.2984355000D+02      -0.2586302031D-02      -0.6096652719D-02
-      0.9542383000D+01       0.7188424085D-01      -0.2628884310D-01
-      0.4056790000D+01       0.2503260030D+00       0.5091001601D-01
-      0.1704703000D+01      -0.2991003035D+00       0.3798097448D+00
-      0.7062340000D+00      -0.7446818088D+00       0.5170883610D+00
-      0.2795360000D+00      -0.1799776021D+00       0.1829772216D+00
-SP   3   1.00
-      0.1065609000D+01       0.6482978223D-01      -0.2938439989D+00
-      0.4259330000D+00       0.3253756112D+00       0.9235322967D-01
-      0.7632000000D-01      -0.1170806040D+01       0.9847929965D+00
-SP   1   1.00
-      0.2959400000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.1114701000D+02       0.8747672298D-01
-      0.2821043000D+01       0.3795635129D+00
-      0.8196200000D+00       0.7180393244D+00
-D   1   1.00
-      0.2214680000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Ti     0
-S   6   1.00
-      0.4315295000D+05       0.1791871976D-02
-      0.6479571000D+04       0.1372391982D-01
-      0.1475675000D+04       0.6762829911D-01
-      0.4156991000D+03       0.2337641969D+00
-      0.1330006000D+03       0.4810695937D+00
-      0.4527222000D+02       0.3462279954D+00
-SP   6   1.00
-      0.8746826000D+03       0.2431008053D-02       0.4017679296D-02
-      0.2079785000D+03       0.3233027071D-01       0.3113966230D-01
-      0.6687918000D+02       0.1242520027D+00       0.1349077100D+00
-      0.2487347000D+02      -0.3903905085D-01       0.3431672253D+00
-      0.9968441000D+01      -0.6171789135D+00       0.4625760341D+00
-      0.4063826000D+01      -0.4473097098D+00       0.2154603159D+00
-SP   6   1.00
-      0.3364363000D+02      -0.2940357957D-02      -0.6311620001D-02
-      0.1087565000D+02       0.7163102894D-01      -0.2697638000D-01
-      0.4628225000D+01       0.2528914963D+00       0.5316847001D-01
-      0.1950126000D+01      -0.2966400956D+00       0.3845549000D+00
-      0.8094520000D+00      -0.7432214890D+00       0.5127662001D+00
-      0.3204740000D+00      -0.1853519973D+00       0.1811135000D+00
-SP   3   1.00
-      0.1224148000D+01       0.6351460717D-01      -0.2112070099D+00
-      0.4842630000D+00       0.3151401875D+00       0.7771998364D-01
-      0.8409600000D-01      -0.1162594216D+01       0.9898214464D+00
-SP   1   1.00
-      0.3203600000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.1369085000D+02       0.8589417880D-01
-      0.3513154000D+01       0.3784670947D+00
-      0.1040434000D+01       0.7161238900D+00
-D   1   1.00
-      0.2869620000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-V     0
-S   6   1.00
-      0.4735433000D+05       0.1784512997D-02
-      0.7110787000D+04       0.1366753998D-01
-      0.1619591000D+04       0.6736121989D-01
-      0.4563379000D+03       0.2330551996D+00
-      0.1460606000D+03       0.4806315992D+00
-      0.4975791000D+02       0.3474801994D+00
-SP   6   1.00
-      0.9681484000D+03       0.2410599011D-02       0.3995005174D-02
-      0.2302821000D+03       0.3207243014D-01       0.3104061135D-01
-      0.7414591000D+02       0.1245942006D+00       0.1347747059D+00
-      0.2764107000D+02      -0.3482177015D-01       0.3437279150D+00
-      0.1111475000D+02      -0.6167374027D+00       0.4628759202D+00
-      0.4543113000D+01      -0.4509844020D+00       0.2135547093D+00
-SP   6   1.00
-      0.3764050000D+02      -0.3233199384D-02      -0.6494056098D-02
-      0.1228238000D+02       0.7130744847D-01      -0.2753453042D-01
-      0.5233366000D+01       0.2543820302D+00       0.5516284083D-01
-      0.2208950000D+01      -0.2933887348D+00       0.3879672059D+00
-      0.9178800000D+00      -0.7415695881D+00       0.5090258077D+00
-      0.3634120000D+00      -0.1909410227D+00       0.1803840027D+00
-SP   3   1.00
-      0.1392781000D+01       0.6139702133D-01      -0.1891264918D+00
-      0.5439130000D+00       0.3061129568D+00       0.8005452654D-01
-      0.9147600000D-01      -0.1154889837D+01       0.9877398574D+00
-SP   1   1.00
-      0.3431200000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.1605025000D+02       0.8599899166D-01
-      0.4160063000D+01       0.3802996074D+00
-      0.1243265000D+01       0.7127659138D+00
-D   1   1.00
-      0.3442770000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Cr     0
-S   6   1.00
-      0.5178981000D+05       0.1776181956D-02
-      0.7776849000D+04       0.1360475966D-01
-      0.1771385000D+04       0.6706924832D-01
-      0.4991588000D+03       0.2323103942D+00
-      0.1597982000D+03       0.4802409880D+00
-      0.5447021000D+02       0.3487652913D+00
-SP   6   1.00
-      0.1064328000D+04       0.2399669027D-02       0.3986996969D-02
-      0.2532138000D+03       0.3194886035D-01       0.3104661976D-01
-      0.8160924000D+02       0.1250868014D+00       0.1350517989D+00
-      0.3048193000D+02      -0.3221866036D-01       0.3448864973D+00
-      0.1229439000D+02      -0.6172284069D+00       0.4628570964D+00
-      0.5037722000D+01      -0.4525936050D+00       0.2110425984D+00
-SP   6   1.00
-      0.4156291000D+02      -0.3454215978D-02      -0.6722497017D-02
-      0.1367627000D+02       0.7218427953D-01      -0.2806471007D-01
-      0.5844390000D+01       0.2544819984D+00       0.5820028015D-01
-      0.2471609000D+01      -0.2934533981D+00       0.3916988010D+00
-      0.1028308000D+01      -0.7385454952D+00       0.5047823013D+00
-      0.4072500000D+00      -0.1947156987D+00       0.1790290005D+00
-SP   3   1.00
-      0.1571464000D+01       0.5892221460D-01      -0.1930100080D+00
-      0.6055800000D+00       0.2976056242D+00       0.9605620398D-01
-      0.9856100000D-01      -0.1147506479D+01       0.9817609407D+00
-SP   1   1.00
-      0.3645900000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.1841930000D+02       0.8650816335D-01
-      0.4812661000D+01       0.3826699148D+00
-      0.1446447000D+01       0.7093772274D+00
-D   1   1.00
-      0.4004130000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Mn     0
-S   6   1.00
-      0.5634714000D+05       0.1771579986D-02
-      0.8460943000D+04       0.1357080989D-01
-      0.1927325000D+04       0.6690604948D-01
-      0.5432343000D+03       0.2318540982D+00
-      0.1739905000D+03       0.4799045963D+00
-      0.5936005000D+02       0.3495736973D+00
-SP   6   1.00
-      0.1165412000D+04       0.2388751027D-02       0.3977317926D-02
-      0.2773276000D+03       0.3181708036D-01       0.3103111942D-01
-      0.8947278000D+02       0.1254670014D+00       0.1351893975D+00
-      0.3348256000D+02      -0.2955431033D-01       0.3457386935D+00
-      0.1354037000D+02      -0.6175160070D+00       0.4629204913D+00
-      0.5557972000D+01      -0.4544458051D+00       0.2090591961D+00
-SP   6   1.00
-      0.4583532000D+02      -0.3665856137D-02      -0.6887577902D-02
-      0.1518777000D+02       0.7231971269D-01      -0.2846815959D-01
-      0.6500710000D+01       0.2544486095D+00       0.6031831914D-01
-      0.2751583000D+01      -0.2910380108D+00       0.3938960944D+00
-      0.1145404000D+01      -0.7359860274D+00       0.5013768928D+00
-      0.4536870000D+00      -0.1997617074D+00       0.1792263974D+00
-SP   3   1.00
-      0.1757999000D+01       0.5628573186D-01      -0.5035023825D+00
-      0.6670220000D+00       0.2897491610D+00       0.2345010919D+00
-      0.1051290000D+00      -0.1140653240D+01       0.9141256682D+00
-SP   1   1.00
-      0.3841800000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.2094355000D+02       0.8672702314D-01
-      0.5510486000D+01       0.3841883139D+00
-      0.1665038000D+01       0.7069071256D+00
-D   1   1.00
-      0.4617330000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Fe     0
-S   6   1.00
-      0.6113262000D+05       0.1766110976D-02
-      0.9179342000D+04       0.1353037982D-01
-      0.2090857000D+04       0.6673127910D-01
-      0.5892479000D+03       0.2314822969D+00
-      0.1887543000D+03       0.4797057935D+00
-      0.6444629000D+02       0.3501975953D+00
-SP   6   1.00
-      0.1259980000D+04       0.2438014027D-02       0.4028018665D-02
-      0.2998761000D+03       0.3224048035D-01       0.3144646739D-01
-      0.9684917000D+02       0.1265724014D+00       0.1368316886D+00
-      0.3631020000D+02      -0.3139902035D-01       0.3487235710D+00
-      0.1472996000D+02      -0.6207593068D+00       0.4617930616D+00
-      0.6066075000D+01      -0.4502914050D+00       0.2043057830D+00
-SP   6   1.00
-      0.5043485000D+02      -0.3873255984D-02      -0.7017127880D-02
-      0.1683929000D+02       0.7196597971D-01      -0.2877659951D-01
-      0.7192086000D+01       0.2556590990D+00       0.6181382895D-01
-      0.3053420000D+01      -0.2882836988D+00       0.3954945933D+00
-      0.1273643000D+01      -0.7342821970D+00       0.4989058915D+00
-      0.5040910000D+00      -0.2049352992D+00       0.1791250969D+00
-SP   3   1.00
-      0.1950316000D+01       0.5694869031D-01      -0.4593796163D+00
-      0.7367210000D+00       0.2882915015D+00       0.2852139102D+00
-      0.1141770000D+00      -0.1138159006D+01       0.9076485323D+00
-SP   1   1.00
-      0.4114800000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.2314994000D+02       0.8876935479D-01
-      0.6122368000D+01       0.3896319210D+00
-      0.1846601000D+01       0.7014816379D+00
-D   1   1.00
-      0.5043610000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Co     0
-S   6   1.00
-      0.6614899000D+05       0.1759787106D-02
-      0.9933077000D+04       0.1348162081D-01
-      0.2262816000D+04       0.6649342399D-01
-      0.6379154000D+03       0.2307939139D+00
-      0.2044122000D+03       0.4792919288D+00
-      0.6982538000D+02       0.3514097211D+00
-SP   6   1.00
-      0.1378841000D+04       0.2376276103D-02       0.3971488140D-02
-      0.3282694000D+03       0.3167450137D-01       0.3108174109D-01
-      0.1060946000D+03       0.1262888054D+00       0.1357439048D+00
-      0.3983275000D+02      -0.2584552112D-01       0.3476827122D+00
-      0.1618622000D+02      -0.6183491267D+00       0.4626340163D+00
-      0.6667788000D+01      -0.4567008197D+00       0.2051632072D+00
-SP   6   1.00
-      0.5452355000D+02      -0.3993003860D-02      -0.7290771623D-02
-      0.1829783000D+02       0.7409662740D-01      -0.2926026849D-01
-      0.7867348000D+01       0.2541999911D+00       0.6564149661D-01
-      0.3340534000D+01      -0.2921656898D+00       0.4000651793D+00
-      0.1393756000D+01      -0.7318702744D+00       0.4950235744D+00
-      0.5513260000D+00      -0.2040783929D+00       0.1758239909D+00
-SP   3   1.00
-      0.2151947000D+01       0.5379840456D-01      -0.2165495935D+00
-      0.8110630000D+00       0.2759969695D+00       0.1240487963D+00
-      0.1210170000D+00      -0.1129691466D+01       0.9724063708D+00
-SP   1   1.00
-      0.4303700000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.2559306000D+02       0.9004748403D-01
-      0.6800990000D+01       0.3931703176D+00
-      0.2051647000D+01       0.6976844312D+00
-D   1   1.00
-      0.5556710000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Ni     0
-S   6   1.00
-      0.7139635000D+05       0.1753002902D-02
-      0.1072084000D+05       0.1343121925D-01
-      0.2442129000D+04       0.6627040631D-01
-      0.6884265000D+03       0.2302507872D+00
-      0.2206153000D+03       0.4790185733D+00
-      0.7539373000D+02       0.3523443804D+00
-SP   6   1.00
-      0.1492532000D+04       0.2370713841D-02       0.3967554145D-02
-      0.3554013000D+03       0.3160565787D-01       0.3109479114D-01
-      0.1149534000D+03       0.1266334915D+00       0.1359517050D+00
-      0.4322043000D+02      -0.2417036837D-01       0.3485136127D+00
-      0.1759710000D+02      -0.6187774584D+00       0.4625498169D+00
-      0.7257765000D+01      -0.4576769692D+00       0.2035186074D+00
-SP   6   1.00
-      0.5935261000D+02      -0.4162002046D-02      -0.7421451709D-02
-      0.2002181000D+02       0.7425111082D-01      -0.2953409884D-01
-      0.8614561000D+01       0.2541360028D+00       0.6731851736D-01
-      0.3660531000D+01      -0.2903477032D+00       0.4016659842D+00
-      0.1528111000D+01      -0.7302121080D+00       0.4926622807D+00
-      0.6040570000D+00      -0.2076057023D+00       0.1756892931D+00
-SP   3   1.00
-      0.2379276000D+01       0.5157890540D-01      -0.1887663036D+00
-      0.8858390000D+00       0.2707612333D+00       0.1015199019D+00
-      0.1285290000D+00      -0.1124770554D+01       0.9790906185D+00
-SP   1   1.00
-      0.4519500000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.2819147000D+02       0.9098880504D-01
-      0.7523584000D+01       0.3958207784D+00
-      0.2271228000D+01       0.6947153621D+00
-D   1   1.00
-      0.6116030000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Cu     0
-S   6   1.00
-      0.7679438000D+05       0.1748161083D-02
-      0.1153070000D+05       0.1339602064D-01
-      0.2626575000D+04       0.6610885315D-01
-      0.7404903000D+03       0.2298265110D+00
-      0.2373528000D+03       0.4787675228D+00
-      0.8115818000D+02       0.3530739168D+00
-SP   6   1.00
-      0.1610814000D+04       0.2364054998D-02       0.3963306847D-02
-      0.3836367000D+03       0.3153634997D-01       0.3110222880D-01
-      0.1241733000D+03       0.1269451999D+00       0.1361349948D+00
-      0.4674678000D+02      -0.2262839998D-01       0.3492913866D+00
-      0.1906569000D+02      -0.6192079994D+00       0.4624779822D+00
-      0.7871567000D+01      -0.4585392996D+00       0.2020101922D+00
-SP   6   1.00
-      0.6445732000D+02      -0.4331075387D-02      -0.7523724515D-02
-      0.2185212000D+02       0.7412307662D-01      -0.2975686808D-01
-      0.9405343000D+01       0.2542108227D+00       0.6849653559D-01
-      0.3999168000D+01      -0.2874843257D+00       0.4027140741D+00
-      0.1670297000D+01      -0.7291436651D+00       0.4908489684D+00
-      0.6596270000D+00      -0.2113951189D+00       0.1759267887D+00
-SP   3   1.00
-      0.2600088000D+01       0.5027577003D-01      -0.1702910950D+00
-      0.9630940000D+00       0.2650040002D+00       0.9310132728D-01
-      0.1361610000D+00      -0.1120155001D+01       0.9814335714D+00
-SP   1   1.00
-      0.4733200000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.3085341000D+02       0.9199905385D-01
-      0.8264985000D+01       0.3985021167D+00
-      0.2495332000D+01       0.6917897289D+00
-D   1   1.00
-      0.6676580000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Zn     0
-S   6   1.00
-      0.8240094000D+05       0.1743328988D-02
-      0.1237255000D+05       0.1335965991D-01
-      0.2818351000D+04       0.6594364956D-01
-      0.7945717000D+03       0.2294150985D+00
-      0.2547232000D+03       0.4785452968D+00
-      0.8713880000D+02       0.3537752977D+00
-SP   6   1.00
-      0.1732569000D+04       0.2361459089D-02       0.3963125053D-02
-      0.4127149000D+03       0.3150177119D-01       0.3113411042D-01
-      0.1336780000D+03       0.1272774048D+00       0.1363931018D+00
-      0.5038585000D+02      -0.2145928081D-01       0.3501266047D+00
-      0.2058358000D+02      -0.6197652235D+00       0.4623179062D+00
-      0.8505940000D+01      -0.4590180174D+00       0.2004995027D+00
-SP   6   1.00
-      0.6936492000D+02      -0.4440098182D-02      -0.7689261805D-02
-      0.2362082000D+02       0.7505253308D-01      -0.2997981924D-01
-      0.1018471000D+02       0.2533111104D+00       0.7082410821D-01
-      0.4334082000D+01      -0.2881897118D+00       0.4046140897D+00
-      0.1810918000D+01      -0.7267052298D+00       0.4882324876D+00
-      0.7148410000D+00      -0.2133439088D+00       0.1751969956D+00
-SP   3   1.00
-      0.2823842000D+01       0.4898545031D-01      -0.1586762981D+00
-      0.1039543000D+01       0.2592794075D+00       0.8379326898D-01
-      0.1432640000D+00      -0.1115711463D+01       0.9840546881D+00
-SP   1   1.00
-      0.4929600000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.3370764000D+02       0.9262647815D-01
-      0.9061106000D+01       0.4002979920D+00
-      0.2738383000D+01       0.6896607863D+00
-D   1   1.00
-      0.7302940000D+00       1.0000000
-F   1   1.00
-      0.8000000000D+00       1.0000000
-****
-Ga     0
-S   6   1.00
-      0.8828461000D+05       0.1736921000D-02
-      0.1325606000D+05       0.1331136000D-01
-      0.3019649000D+04       0.6571709000D-01
-      0.8514222000D+03       0.2287932000D+00
-      0.2729997000D+03       0.4781507000D+00
-      0.9342593000D+02       0.3549154000D+00
-SP   6   1.00
-      0.1877680000D+04       0.2316733000D-02       0.3896102000D-02
-      0.4474374000D+03       0.3090570000D-01       0.3066136000D-01
-      0.1451401000D+03       0.1264173000D+00       0.1344509000D+00
-      0.5484977000D+02      -0.1429714000D-01       0.3470761000D+00
-      0.2244351000D+02      -0.6132855000D+00       0.4635435000D+00
-      0.9286622000D+01      -0.4703598000D+00       0.2039435000D+00
-SP   6   1.00
-      0.8005681000D+02      -0.5056378000D-02      -0.6947816000D-02
-      0.2757856000D+02       0.6117037000D-01      -0.2938902000D-01
-      0.1171717000D+02       0.2575692000D+00       0.5377307000D-01
-      0.5054113000D+01      -0.2150754000D+00       0.3764511000D+00
-      0.2172525000D+01      -0.7213703000D+00       0.4923913000D+00
-      0.9041840000D+00      -0.2785244000D+00       0.2073613000D+00
-SP   3   1.00
-      0.1112438000D+01       0.1970334000D+00      -0.9151867000D-02
-      0.3287220000D+00      -0.2497645000D+00       0.3111786000D+00
-      0.1305520000D+00      -0.8749447000D+00       0.7436549000D+00
-SP   1   1.00
-      0.4758900000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.3911406000D+02       0.8790043000D-01
-      0.1061218000D+02       0.3915600000D+00
-      0.3273033000D+01       0.6956990000D+00
-D   1   1.00
-      0.9156600000D+00       1.0000000
-D   1   1.00
-      0.2289000000D+00       1.0000000
-****
-Ge     0
-S   6   1.00
-      0.9428132000D+05       0.1732993000D-02
-      0.1415642000D+05       0.1328181000D-01
-      0.3224935000D+04       0.6557319000D-01
-      0.9094821000D+03       0.2283712000D+00
-      0.2917149000D+03       0.4778104000D+00
-      0.9989074000D+02       0.3557135000D+00
-SP   6   1.00
-      0.2016629000D+04       0.2299186000D-02       0.3872605000D-02
-      0.4806599000D+03       0.3068823000D-01       0.3051218000D-01
-      0.1560616000D+03       0.1262906000D+00       0.1338971000D+00
-      0.5907914000D+02      -0.1105405000D-01       0.3462496000D+00
-      0.2422346000D+02      -0.6103659000D+00       0.4635741000D+00
-      0.1004418000D+02      -0.4755387000D+00       0.2047879000D+00
-SP   6   1.00
-      0.8728112000D+02      -0.5330845000D-02      -0.6893957000D-02
-      0.3028230000D+02       0.5874495000D-01      -0.2954252000D-01
-      0.1285367000D+02       0.2598349000D+00       0.5042291000D-01
-      0.5587437000D+01      -0.1926917000D+00       0.3699366000D+00
-      0.2438461000D+01      -0.7190570000D+00       0.4933147000D+00
-      0.1040324000D+01      -0.2995181000D+00       0.2116445000D+00
-SP   3   1.00
-      0.1344960000D+01       0.2338815000D+00      -0.1976804000D-01
-      0.4436620000D+00      -0.2189617000D+00       0.3028906000D+00
-      0.1760820000D+00      -0.9242006000D+00       0.7562828000D+00
-SP   1   1.00
-      0.6466500000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.4463105000D+02       0.8431036000D-01
-      0.1220184000D+02       0.3847726000D+00
-      0.3823423000D+01       0.7003323000D+00
-D   1   1.00
-      0.1108831000D+01       1.0000000
-D   1   1.00
-      0.2772000000D+00       1.0000000
-****
-As     0
-S   6   1.00
-      0.1005955000D+06       0.1726750000D-02
-      0.1510482000D+05       0.1323462000D-01
-      0.3440884000D+04       0.6535848000D-01
-      0.9703961000D+03       0.2278042000D+00
-      0.3112852000D+03       0.4774525000D+00
-      0.1066284000D+03       0.3567619000D+00
-SP   6   1.00
-      0.2166679000D+04       0.2271761000D-02       0.3832156000D-02
-      0.5165414000D+03       0.3033475000D-01       0.3023558000D-01
-      0.1678674000D+03       0.1259057000D+00       0.1328632000D+00
-      0.6364638000D+02      -0.6687172000D-02       0.3447648000D+00
-      0.2613673000D+02      -0.6065306000D+00       0.4640368000D+00
-      0.1085439000D+02      -0.4823144000D+00       0.2064824000D+00
-SP   6   1.00
-      0.9506989000D+02      -0.5587423000D-02      -0.6816583000D-02
-      0.3318087000D+02       0.5632506000D-01      -0.2970303000D-01
-      0.1406773000D+02       0.2625835000D+00       0.4704335000D-01
-      0.6153288000D+01      -0.1718349000D+00       0.3645042000D+00
-      0.2721712000D+01      -0.7175645000D+00       0.4945157000D+00
-      0.1185334000D+01      -0.3184598000D+00       0.2149830000D+00
-SP   3   1.00
-      0.1615315000D+01       0.2645372000D+00      -0.2574061000D-01
-      0.5513300000D+00      -0.1952737000D+00       0.3072764000D+00
-      0.2227620000D+00      -0.9595400000D+00       0.7537368000D+00
-SP   1   1.00
-      0.8292300000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.5030227000D+02       0.8144711000D-01
-      0.1384166000D+02       0.3792908000D+00
-      0.4393458000D+01       0.7040401000D+00
-D   1   1.00
-      0.1310755000D+01       1.0000000
-D   1   1.00
-      0.3277000000D+00       1.0000000
-****
-Se     0
-S   6   1.00
-      0.1070273000D+06       0.1722646000D-02
-      0.1607076000D+05       0.1320324000D-01
-      0.3661226000D+04       0.6520494000D-01
-      0.1032673000D+04       0.2273787000D+00
-      0.3313339000D+03       0.4771451000D+00
-      0.1135470000D+03       0.3575553000D+00
-SP   6   1.00
-      0.2313540000D+04       0.2261924000D-02       0.3818409000D-02
-      0.5516849000D+03       0.3019493000D-01       0.3015145000D-01
-      0.1794401000D+03       0.1258828000D+00       0.1325614000D+00
-      0.6813044000D+02      -0.4373809000D-02       0.3443419000D+00
-      0.2803062000D+02      -0.6043277000D+00       0.4639237000D+00
-      0.1166572000D+02      -0.4861200000D+00       0.2068198000D+00
-SP   6   1.00
-      0.1015754000D+03      -0.5752618000D-02      -0.6942389000D-02
-      0.3561545000D+02       0.5675608000D-01      -0.3014441000D-01
-      0.1513135000D+02       0.2651243000D+00       0.4776411000D-01
-      0.6646923000D+01      -0.1670582000D+00       0.3663827000D+00
-      0.2972805000D+01      -0.7188737000D+00       0.4940086000D+00
-      0.1316707000D+01      -0.3221907000D+00       0.2100109000D+00
-SP   3   1.00
-      0.1846991000D+01       0.2823156000D+00      -0.2653920000D-01
-      0.6471590000D+00      -0.2129616000D+00       0.3357291000D+00
-      0.2579870000D+00      -0.9545384000D+00       0.7301815000D+00
-SP   1   1.00
-      0.9410700000D-01       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.5618544000D+02       0.7904963000D-01
-      0.1554808000D+02       0.3746449000D+00
-      0.4989394000D+01       0.7071645000D+00
-D   1   1.00
-      0.1523844000D+01       1.0000000
-D   1   1.00
-      0.3810000000D+00       1.0000000
-****
-Br     0
-S   6   1.00
-      0.1137182000D+06       0.1717696000D-02
-      0.1707444000D+05       0.1316744000D-01
-      0.3889576000D+04       0.6504553000D-01
-      0.1097096000D+04       0.2269505000D+00
-      0.3520624000D+03       0.4768357000D+00
-      0.1207002000D+03       0.3583677000D+00
-SP   6   1.00
-      0.2471138000D+04       0.2243687000D-02       0.3790182000D-02
-      0.5893838000D+03       0.2994853000D-01       0.2995979000D-01
-      0.1918738000D+03       0.1256009000D+00       0.1318228000D+00
-      0.7295339000D+02      -0.9832786000D-03       0.3432708000D+00
-      0.3005839000D+02      -0.6013141000D+00       0.4642345000D+00
-      0.1252927000D+02      -0.4913983000D+00       0.2079387000D+00
-SP   6   1.00
-      0.1096411000D+03      -0.5975683000D-02      -0.6907483000D-02
-      0.3858948000D+02       0.5542122000D-01      -0.3041432000D-01
-      0.1637818000D+02       0.2681200000D+00       0.4602725000D-01
-      0.7221836000D+01      -0.1543606000D+00       0.3650689000D+00
-      0.3263697000D+01      -0.7206306000D+00       0.4949232000D+00
-      0.1465499000D+01      -0.3316437000D+00       0.2090394000D+00
-SP   3   1.00
-      0.2103651000D+01       0.3029029000D+00      -0.2826714000D-01
-      0.7547050000D+00      -0.2152659000D+00       0.3503065000D+00
-      0.3005140000D+00      -0.9633941000D+00       0.7182446000D+00
-SP   1   1.00
-      0.1090710000D+00       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.6225514000D+02       0.7704229000D-01
-      0.1731284000D+02       0.3707384000D+00
-      0.5607915000D+01       0.7097628000D+00
-D   1   1.00
-      0.1746486000D+01       1.0000000
-D   1   1.00
-      0.4366000000D+00       1.0000000
-****
-Kr     0
-S   6   1.00
-      0.1205524000D+06       0.1714050000D-02
-      0.1810225000D+05       0.1313805000D-01
-      0.4124126000D+04       0.6490006000D-01
-      0.1163472000D+04       0.2265185000D+00
-      0.3734612000D+03       0.4764961000D+00
-      0.1280897000D+03       0.3591952000D+00
-SP   6   1.00
-      0.2634681000D+04       0.2225111000D-02       0.3761911000D-02
-      0.6284533000D+03       0.2971122000D-01       0.2977531000D-01
-      0.2047081000D+03       0.1253926000D+00       0.1311878000D+00
-      0.7790827000D+02       0.1947058000D-02       0.3425019000D+00
-      0.3213816000D+02      -0.5987388000D+00       0.4644938000D+00
-      0.1341845000D+02      -0.4958972000D+00       0.2087284000D+00
-SP   6   1.00
-      0.1175107000D+03      -0.6157662000D-02      -0.6922855000D-02
-      0.4152553000D+02       0.5464841000D-01      -0.3069239000D-01
-      0.1765290000D+02       0.2706994000D+00       0.4480260000D-01
-      0.7818313000D+01      -0.1426136000D+00       0.3636775000D+00
-      0.3571775000D+01      -0.7216781000D+00       0.4952412000D+00
-      0.1623750000D+01      -0.3412008000D+00       0.2086340000D+00
-SP   3   1.00
-      0.2374560000D+01       0.3251184000D+00      -0.3009554000D-01
-      0.8691930000D+00      -0.2141533000D+00       0.3598893000D+00
-      0.3474730000D+00      -0.9755083000D+00       0.7103098000D+00
-SP   1   1.00
-      0.1264790000D+00       0.1000000000D+01       0.1000000000D+01
-D   3   1.00
-      0.6853888000D+02       0.7530705000D-01
-      0.1914333000D+02       0.3673551000D+00
-      0.6251213000D+01       0.7120146000D+00
-D   1   1.00
-      0.1979236000D+01       1.0000000
-D   1   1.00
-      0.4948000000D+00       1.0000000
-****
diff --git a/third_party/gauxc/tests/basis/new/cc-pvdz.g94 b/third_party/gauxc/tests/basis/new/cc-pvdz.g94
deleted file mode 100644
index 5bd6bf1..0000000
--- a/third_party/gauxc/tests/basis/new/cc-pvdz.g94
+++ /dev/null
@@ -1,3607 +0,0 @@
-!----------------------------------------------------------------------
-! Basis Set Exchange
-! Version v0.8.12
-! https://www.basissetexchange.org
-!----------------------------------------------------------------------
-!   Basis set: cc-pVDZ
-! Description: cc-pVDZ
-!        Role: orbital
-!     Version: 1  (Data from ccRepo/Grant Hill)
-!----------------------------------------------------------------------
-****
-H     0
-S   4   1.00
-      1.301000D+01           1.968500D-02
-      1.962000D+00           1.379770D-01
-      4.446000D-01           4.781480D-01
-      1.220000D-01           5.012400D-01
-S   1   1.00
-      1.220000D-01           1.000000D+00
-P   1   1.00
-      7.270000D-01           1.0000000
-****
-He     0
-S   4   1.00
-      3.836000D+01           2.380900D-02
-      5.770000D+00           1.548910D-01
-      1.240000D+00           4.699870D-01
-      2.976000D-01           5.130270D-01
-S   1   1.00
-      2.976000D-01           1.000000D+00
-P   1   1.00
-      1.275000D+00           1.0000000
-****
-Li     0
-S   9   1.00
-      1.469000D+03           7.660000D-04
-      2.205000D+02           5.892000D-03
-      5.026000D+01           2.967100D-02
-      1.424000D+01           1.091800D-01
-      4.581000D+00           2.827890D-01
-      1.580000D+00           4.531230D-01
-      5.640000D-01           2.747740D-01
-      7.345000D-02           9.751000D-03
-      2.805000D-02          -3.180000D-03
-S   9   1.00
-      1.469000D+03          -1.200000D-04
-      2.205000D+02          -9.230000D-04
-      5.026000D+01          -4.689000D-03
-      1.424000D+01          -1.768200D-02
-      4.581000D+00          -4.890200D-02
-      1.580000D+00          -9.600900D-02
-      5.640000D-01          -1.363800D-01
-      7.345000D-02           5.751020D-01
-      2.805000D-02           5.176610D-01
-S   1   1.00
-      2.805000D-02           1.000000D+00
-P   4   1.00
-      1.534000D+00           2.278400D-02
-      2.749000D-01           1.391070D-01
-      7.362000D-02           5.003750D-01
-      2.403000D-02           5.084740D-01
-P   1   1.00
-      2.403000D-02           1.000000D+00
-D   1   1.00
-      1.144000D-01           1.0000000
-****
-Be     0
-S   9   1.00
-      2.940000D+03           6.800000D-04
-      4.412000D+02           5.236000D-03
-      1.005000D+02           2.660600D-02
-      2.843000D+01           9.999300D-02
-      9.169000D+00           2.697020D-01
-      3.196000D+00           4.514690D-01
-      1.159000D+00           2.950740D-01
-      1.811000D-01           1.258700D-02
-      5.890000D-02          -3.756000D-03
-S   9   1.00
-      2.940000D+03          -1.230000D-04
-      4.412000D+02          -9.660000D-04
-      1.005000D+02          -4.831000D-03
-      2.843000D+01          -1.931400D-02
-      9.169000D+00          -5.328000D-02
-      3.196000D+00          -1.207230D-01
-      1.159000D+00          -1.334350D-01
-      1.811000D-01           5.307670D-01
-      5.890000D-02           5.801170D-01
-S   1   1.00
-      5.890000D-02           1.000000D+00
-P   4   1.00
-      3.619000D+00           2.911100D-02
-      7.110000D-01           1.693650D-01
-      1.951000D-01           5.134580D-01
-      6.018000D-02           4.793380D-01
-P   1   1.00
-      6.018000D-02           1.000000D+00
-D   1   1.00
-      2.354000D-01           1.0000000
-****
-B     0
-S   9   1.00
-      4.570000D+03           6.960000D-04
-      6.859000D+02           5.353000D-03
-      1.565000D+02           2.713400D-02
-      4.447000D+01           1.013800D-01
-      1.448000D+01           2.720550D-01
-      5.131000D+00           4.484030D-01
-      1.898000D+00           2.901230D-01
-      3.329000D-01           1.432200D-02
-      1.043000D-01          -3.486000D-03
-S   9   1.00
-      4.570000D+03          -1.390000D-04
-      6.859000D+02          -1.097000D-03
-      1.565000D+02          -5.444000D-03
-      4.447000D+01          -2.191600D-02
-      1.448000D+01          -5.975100D-02
-      5.131000D+00          -1.387320D-01
-      1.898000D+00          -1.314820D-01
-      3.329000D-01           5.395260D-01
-      1.043000D-01           5.807740D-01
-S   1   1.00
-      1.043000D-01           1.000000D+00
-P   4   1.00
-      6.001000D+00           3.548100D-02
-      1.241000D+00           1.980720D-01
-      3.364000D-01           5.052300D-01
-      9.538000D-02           4.794990D-01
-P   1   1.00
-      9.538000D-02           1.000000D+00
-D   1   1.00
-      3.430000D-01           1.0000000
-****
-C     0
-S   9   1.00
-      6.665000D+03           6.920000D-04
-      1.000000D+03           5.329000D-03
-      2.280000D+02           2.707700D-02
-      6.471000D+01           1.017180D-01
-      2.106000D+01           2.747400D-01
-      7.495000D+00           4.485640D-01
-      2.797000D+00           2.850740D-01
-      5.215000D-01           1.520400D-02
-      1.596000D-01          -3.191000D-03
-S   9   1.00
-      6.665000D+03          -1.460000D-04
-      1.000000D+03          -1.154000D-03
-      2.280000D+02          -5.725000D-03
-      6.471000D+01          -2.331200D-02
-      2.106000D+01          -6.395500D-02
-      7.495000D+00          -1.499810D-01
-      2.797000D+00          -1.272620D-01
-      5.215000D-01           5.445290D-01
-      1.596000D-01           5.804960D-01
-S   1   1.00
-      1.596000D-01           1.000000D+00
-P   4   1.00
-      9.439000D+00           3.810900D-02
-      2.002000D+00           2.094800D-01
-      5.456000D-01           5.085570D-01
-      1.517000D-01           4.688420D-01
-P   1   1.00
-      1.517000D-01           1.000000D+00
-D   1   1.00
-      5.500000D-01           1.0000000
-****
-N     0
-S   9   1.00
-      9.046000D+03           7.000000D-04
-      1.357000D+03           5.389000D-03
-      3.093000D+02           2.740600D-02
-      8.773000D+01           1.032070D-01
-      2.856000D+01           2.787230D-01
-      1.021000D+01           4.485400D-01
-      3.838000D+00           2.782380D-01
-      7.466000D-01           1.544000D-02
-      2.248000D-01          -2.864000D-03
-S   9   1.00
-      9.046000D+03          -1.530000D-04
-      1.357000D+03          -1.208000D-03
-      3.093000D+02          -5.992000D-03
-      8.773000D+01          -2.454400D-02
-      2.856000D+01          -6.745900D-02
-      1.021000D+01          -1.580780D-01
-      3.838000D+00          -1.218310D-01
-      7.466000D-01           5.490030D-01
-      2.248000D-01           5.788150D-01
-S   1   1.00
-      2.248000D-01           1.000000D+00
-P   4   1.00
-      1.355000D+01           3.991900D-02
-      2.917000D+00           2.171690D-01
-      7.973000D-01           5.103190D-01
-      2.185000D-01           4.622140D-01
-P   1   1.00
-      2.185000D-01           1.000000D+00
-D   1   1.00
-      8.170000D-01           1.0000000
-****
-O     0
-S   9   1.00
-      1.172000D+04           7.100000D-04
-      1.759000D+03           5.470000D-03
-      4.008000D+02           2.783700D-02
-      1.137000D+02           1.048000D-01
-      3.703000D+01           2.830620D-01
-      1.327000D+01           4.487190D-01
-      5.025000D+00           2.709520D-01
-      1.013000D+00           1.545800D-02
-      3.023000D-01          -2.585000D-03
-S   9   1.00
-      1.172000D+04          -1.600000D-04
-      1.759000D+03          -1.263000D-03
-      4.008000D+02          -6.267000D-03
-      1.137000D+02          -2.571600D-02
-      3.703000D+01          -7.092400D-02
-      1.327000D+01          -1.654110D-01
-      5.025000D+00          -1.169550D-01
-      1.013000D+00           5.573680D-01
-      3.023000D-01           5.727590D-01
-S   1   1.00
-      3.023000D-01           1.000000D+00
-P   4   1.00
-      1.770000D+01           4.301800D-02
-      3.854000D+00           2.289130D-01
-      1.046000D+00           5.087280D-01
-      2.753000D-01           4.605310D-01
-P   1   1.00
-      2.753000D-01           1.000000D+00
-D   1   1.00
-      1.185000D+00           1.0000000
-****
-F     0
-S   9   1.00
-      1.471000D+04           7.210000D-04
-      2.207000D+03           5.553000D-03
-      5.028000D+02           2.826700D-02
-      1.426000D+02           1.064440D-01
-      4.647000D+01           2.868140D-01
-      1.670000D+01           4.486410D-01
-      6.356000D+00           2.647610D-01
-      1.316000D+00           1.533300D-02
-      3.897000D-01          -2.332000D-03
-S   9   1.00
-      1.471000D+04          -1.650000D-04
-      2.207000D+03          -1.308000D-03
-      5.028000D+02          -6.495000D-03
-      1.426000D+02          -2.669100D-02
-      4.647000D+01          -7.369000D-02
-      1.670000D+01          -1.707760D-01
-      6.356000D+00          -1.123270D-01
-      1.316000D+00           5.628140D-01
-      3.897000D-01           5.687780D-01
-S   1   1.00
-      3.897000D-01           1.000000D+00
-P   4   1.00
-      2.267000D+01           4.487800D-02
-      4.977000D+00           2.357180D-01
-      1.347000D+00           5.085210D-01
-      3.471000D-01           4.581200D-01
-P   1   1.00
-      3.471000D-01           1.000000D+00
-D   1   1.00
-      1.640000D+00           1.0000000
-****
-Ne     0
-S   9   1.00
-      1.788000D+04           7.380000D-04
-      2.683000D+03           5.677000D-03
-      6.115000D+02           2.888300D-02
-      1.735000D+02           1.085400D-01
-      5.664000D+01           2.909070D-01
-      2.042000D+01           4.483240D-01
-      7.810000D+00           2.580260D-01
-      1.653000D+00           1.506300D-02
-      4.869000D-01          -2.100000D-03
-S   9   1.00
-      1.788000D+04          -1.720000D-04
-      2.683000D+03          -1.357000D-03
-      6.115000D+02          -6.737000D-03
-      1.735000D+02          -2.766300D-02
-      5.664000D+01          -7.620800D-02
-      2.042000D+01          -1.752270D-01
-      7.810000D+00          -1.070380D-01
-      1.653000D+00           5.670500D-01
-      4.869000D-01           5.652160D-01
-S   1   1.00
-      4.869000D-01           1.000000D+00
-P   4   1.00
-      2.839000D+01           4.608700D-02
-      6.270000D+00           2.401810D-01
-      1.695000D+00           5.087440D-01
-      4.317000D-01           4.556600D-01
-P   1   1.00
-      4.317000D-01           1.000000D+00
-D   1   1.00
-      2.202000D+00           1.0000000
-****
-Na     0
-S   12   1.00
-      3.170000D+04           4.588780D-04
-      4.755000D+03           3.550700D-03
-      1.082000D+03           1.826180D-02
-      3.064000D+02           7.166500D-02
-      9.953000D+01           2.123460D-01
-      3.542000D+01           4.162030D-01
-      1.330000D+01           3.730200D-01
-      4.392000D+00           6.250540D-02
-      1.676000D+00          -6.245320D-03
-      5.889000D-01           2.433740D-03
-      5.640000D-02          -4.423810D-04
-      2.307000D-02           2.419240D-04
-S   12   1.00
-      3.170000D+04          -1.121620D-04
-      4.755000D+03          -8.685120D-04
-      1.082000D+03          -4.513300D-03
-      3.064000D+02          -1.814360D-02
-      9.953000D+01          -5.807990D-02
-      3.542000D+01          -1.376530D-01
-      1.330000D+01          -1.939080D-01
-      4.392000D+00           8.580090D-02
-      1.676000D+00           6.044190D-01
-      5.889000D-01           4.417190D-01
-      5.640000D-02           1.305470D-02
-      2.307000D-02          -5.680850D-03
-S   12   1.00
-      3.170000D+04           1.701600D-05
-      4.755000D+03           1.306930D-04
-      1.082000D+03           6.877840D-04
-      3.064000D+02           2.723590D-03
-      9.953000D+01           8.955290D-03
-      3.542000D+01           2.078320D-02
-      1.330000D+01           3.193800D-02
-      4.392000D+00          -1.913680D-02
-      1.676000D+00          -1.025950D-01
-      5.889000D-01          -1.989450D-01
-      5.640000D-02           6.559520D-01
-      2.307000D-02           4.311530D-01
-S   1   1.00
-      2.307000D-02           1.000000D+00
-P   8   1.00
-      1.381000D+02           5.796410D-03
-      3.224000D+01           4.157560D-02
-      9.985000D+00           1.628730D-01
-      3.484000D+00           3.594010D-01
-      1.231000D+00           4.499880D-01
-      4.177000D-01           2.275070D-01
-      6.513000D-02           8.082470D-03
-      2.053000D-02          -1.962930D-03
-P   8   1.00
-      1.381000D+02          -5.815310D-04
-      3.224000D+01          -4.073060D-03
-      9.985000D+00          -1.679370D-02
-      3.484000D+00          -3.532680D-02
-      1.231000D+00          -5.219710D-02
-      4.177000D-01          -1.683590D-02
-      6.513000D-02           4.346130D-01
-      2.053000D-02           6.582180D-01
-P   1   1.00
-      2.053000D-02           1.000000D+00
-D   1   1.00
-      9.280000D-02           1.0000000
-****
-Mg     0
-S   12   1.00
-      4.739000D+04           3.460230D-04
-      7.108000D+03           2.680770D-03
-      1.618000D+03           1.383670D-02
-      4.584000D+02           5.517670D-02
-      1.493000D+02           1.696600D-01
-      5.359000D+01           3.647030D-01
-      2.070000D+01           4.068560D-01
-      8.384000D+00           1.350890D-01
-      2.542000D+00           4.908840D-03
-      8.787000D-01           2.864600D-04
-      1.077000D-01           2.645900D-05
-      3.999000D-02          -1.127080D-05
-S   12   1.00
-      4.739000D+04          -8.778390D-05
-      7.108000D+03          -6.747250D-04
-      1.618000D+03          -3.556030D-03
-      4.584000D+02          -1.421540D-02
-      1.493000D+02          -4.767480D-02
-      5.359000D+01          -1.148920D-01
-      2.070000D+01          -2.006760D-01
-      8.384000D+00          -3.412240D-02
-      2.542000D+00           5.704540D-01
-      8.787000D-01           5.423090D-01
-      1.077000D-01           2.181280D-02
-      3.999000D-02          -8.277000D-03
-S   12   1.00
-      4.739000D+04           1.696280D-05
-      7.108000D+03           1.298650D-04
-      1.618000D+03           6.888310D-04
-      4.584000D+02           2.735330D-03
-      1.493000D+02           9.312240D-03
-      5.359000D+01           2.232650D-02
-      2.070000D+01           4.111950D-02
-      8.384000D+00           5.456420D-03
-      2.542000D+00          -1.340120D-01
-      8.787000D-01          -2.561760D-01
-      1.077000D-01           6.058560D-01
-      3.999000D-02           5.094460D-01
-S   1   1.00
-      3.999000D-02           1.000000D+00
-P   8   1.00
-      1.799000D+02           5.381610D-03
-      4.214000D+01           3.924180D-02
-      1.313000D+01           1.574450D-01
-      4.628000D+00           3.585350D-01
-      1.670000D+00           4.572260D-01
-      5.857000D-01           2.159180D-01
-      1.311000D-01           6.649480D-03
-      4.112000D-02          -1.253040D-04
-P   8   1.00
-      1.799000D+02          -8.659480D-04
-      4.214000D+01          -6.159780D-03
-      1.313000D+01          -2.615190D-02
-      4.628000D+00          -5.706470D-02
-      1.670000D+00          -8.739060D-02
-      5.857000D-01          -1.229900D-02
-      1.311000D-01           5.020850D-01
-      4.112000D-02           5.972450D-01
-P   1   1.00
-      4.112000D-02           1.000000D+00
-D   1   1.00
-      1.932000D-01           1.0000000
-****
-Al     0
-S   12   1.00
-      6.415000D+04           2.902500D-04
-      9.617000D+03           2.250640D-03
-      2.189000D+03           1.164590D-02
-      6.205000D+02           4.673770D-02
-      2.027000D+02           1.462990D-01
-      7.315000D+01           3.302830D-01
-      2.855000D+01           4.158610D-01
-      1.177000D+01           1.892530D-01
-      3.300000D+00           1.158890D-02
-      1.173000D+00          -1.283850D-03
-      1.752000D-01           4.258830D-04
-      6.473000D-02          -1.992800D-04
-S   12   1.00
-      6.415000D+04          -7.580480D-05
-      9.617000D+03          -5.817910D-04
-      2.189000D+03          -3.081130D-03
-      6.205000D+02          -1.231120D-02
-      2.027000D+02          -4.197810D-02
-      7.315000D+01          -1.033710D-01
-      2.855000D+01          -1.963080D-01
-      1.177000D+01          -8.300020D-02
-      3.300000D+00           5.410400D-01
-      1.173000D+00           5.787960D-01
-      1.752000D-01           2.881470D-02
-      6.473000D-02          -9.537950D-03
-S   12   1.00
-      6.415000D+04           1.750780D-05
-      9.617000D+03           1.342080D-04
-      2.189000D+03           7.124420D-04
-      6.205000D+02           2.843300D-03
-      2.027000D+02           9.768420D-03
-      7.315000D+01           2.418500D-02
-      2.855000D+01           4.749930D-02
-      1.177000D+01           2.036210D-02
-      3.300000D+00          -1.587880D-01
-      1.173000D+00          -3.116940D-01
-      1.752000D-01           6.201470D-01
-      6.473000D-02           5.209430D-01
-S   1   1.00
-      6.473000D-02           1.000000D+00
-P   8   1.00
-      2.588000D+02           4.068470D-03
-      6.089000D+01           3.068150D-02
-      1.914000D+01           1.291490D-01
-      6.881000D+00           3.208310D-01
-      2.574000D+00           4.538150D-01
-      9.572000D-01           2.750660D-01
-      2.099000D-01           1.908070D-02
-      5.986000D-02          -3.128480D-03
-P   8   1.00
-      2.588000D+02          -7.480530D-04
-      6.089000D+01          -5.457960D-03
-      1.914000D+01          -2.453710D-02
-      6.881000D+00          -5.821380D-02
-      2.574000D+00          -9.837560D-02
-      9.572000D-01          -2.600640D-02
-      2.099000D-01           4.640200D-01
-      5.986000D-02           6.488700D-01
-P   1   1.00
-      5.986000D-02           1.000000D+00
-D   1   1.00
-      1.890000D-01           1.0000000
-****
-Si     0
-S   12   1.00
-      7.886000D+04           2.704430D-04
-      1.182000D+04           2.097170D-03
-      2.692000D+03           1.085060D-02
-      7.634000D+02           4.367540D-02
-      2.496000D+02           1.376530D-01
-      9.028000D+01           3.166440D-01
-      3.529000D+01           4.185810D-01
-      1.451000D+01           2.102120D-01
-      4.053000D+00           1.449520D-02
-      1.482000D+00          -2.035900D-03
-      2.517000D-01           6.241860D-04
-      9.243000D-02          -2.828720D-04
-S   12   1.00
-      7.886000D+04          -7.231770D-05
-      1.182000D+04          -5.551160D-04
-      2.692000D+03          -2.938050D-03
-      7.634000D+02          -1.176870D-02
-      2.496000D+02          -4.029070D-02
-      9.028000D+01          -1.006090D-01
-      3.529000D+01          -1.965280D-01
-      1.451000D+01          -1.023820D-01
-      4.053000D+00           5.271900D-01
-      1.482000D+00           5.932510D-01
-      2.517000D-01           3.326520D-02
-      9.243000D-02          -9.736620D-03
-S   12   1.00
-      7.886000D+04           1.851130D-05
-      1.182000D+04           1.422360D-04
-      2.692000D+03           7.521850D-04
-      7.634000D+02           3.022790D-03
-      2.496000D+02           1.036770D-02
-      9.028000D+01           2.625630D-02
-      3.529000D+01           5.239890D-02
-      1.451000D+01           2.909590D-02
-      4.053000D+00          -1.780030D-01
-      1.482000D+00          -3.468740D-01
-      2.517000D-01           6.230200D-01
-      9.243000D-02           5.377120D-01
-S   1   1.00
-      9.243000D-02           1.000000D+00
-P   8   1.00
-      3.159000D+02           3.926560D-03
-      7.442000D+01           2.988110D-02
-      2.348000D+01           1.272120D-01
-      8.488000D+00           3.209430D-01
-      3.217000D+00           4.554290D-01
-      1.229000D+00           2.685630D-01
-      2.964000D-01           1.883360D-02
-      8.768000D-02          -2.624310D-03
-P   8   1.00
-      3.159000D+02          -8.583020D-04
-      7.442000D+01          -6.303280D-03
-      2.348000D+01          -2.882550D-02
-      8.488000D+00          -6.945600D-02
-      3.217000D+00          -1.194930D-01
-      1.229000D+00          -1.995810D-02
-      2.964000D-01           5.102680D-01
-      8.768000D-02           6.003820D-01
-P   1   1.00
-      8.768000D-02           1.000000D+00
-D   1   1.00
-      2.750000D-01           1.0000000
-****
-P     0
-S   12   1.00
-      9.484000D+04           2.555090D-04
-      1.422000D+04           1.981930D-03
-      3.236000D+03           1.027600D-02
-      9.171000D+02           4.148230D-02
-      2.995000D+02           1.319840D-01
-      1.081000D+02           3.086620D-01
-      4.218000D+01           4.206470D-01
-      1.728000D+01           2.228780D-01
-      4.858000D+00           1.640350D-02
-      1.818000D+00          -2.542550D-03
-      3.372000D-01           7.480500D-04
-      1.232000D-01          -3.309630D-04
-S   12   1.00
-      9.484000D+04          -6.969390D-05
-      1.422000D+04          -5.352660D-04
-      3.236000D+03          -2.837090D-03
-      9.171000D+02          -1.139830D-02
-      2.995000D+02          -3.929290D-02
-      1.081000D+02          -9.963640D-02
-      4.218000D+01          -1.979830D-01
-      1.728000D+01          -1.148600D-01
-      4.858000D+00           5.185950D-01
-      1.818000D+00           6.018470D-01
-      3.372000D-01           3.686120D-02
-      1.232000D-01          -9.707590D-03
-S   12   1.00
-      9.484000D+04           1.911990D-05
-      1.422000D+04           1.472230D-04
-      3.236000D+03           7.779120D-04
-      9.171000D+02           3.145460D-03
-      2.995000D+02           1.082000D-02
-      1.081000D+02           2.799570D-02
-      4.218000D+01           5.639780D-02
-      1.728000D+01           3.581900D-02
-      4.858000D+00          -1.933870D-01
-      1.818000D+00          -3.720970D-01
-      3.372000D-01           6.242460D-01
-      1.232000D-01           5.517210D-01
-S   1   1.00
-      1.232000D-01           1.000000D+00
-P   8   1.00
-      3.705000D+02           3.950050D-03
-      8.733000D+01           3.024920D-02
-      2.759000D+01           1.295540D-01
-      1.000000D+01           3.275940D-01
-      3.825000D+00           4.569920D-01
-      1.494000D+00           2.530860D-01
-      3.921000D-01           1.687980D-02
-      1.186000D-01          -2.070930D-03
-P   8   1.00
-      3.705000D+02          -9.598320D-04
-      8.733000D+01          -7.111770D-03
-      2.759000D+01          -3.271220D-02
-      1.000000D+01          -7.957840D-02
-      3.825000D+00          -1.350160D-01
-      1.494000D+00          -9.105850D-03
-      3.921000D-01           5.378020D-01
-      1.186000D-01           5.690660D-01
-P   1   1.00
-      1.186000D-01           1.000000D+00
-D   1   1.00
-      3.730000D-01           1.0000000
-****
-S     0
-S   12   1.00
-      1.108000D+05           2.476350D-04
-      1.661000D+04           1.920260D-03
-      3.781000D+03           9.961920D-03
-      1.071000D+03           4.029750D-02
-      3.498000D+02           1.286040D-01
-      1.263000D+02           3.034800D-01
-      4.926000D+01           4.214320D-01
-      2.016000D+01           2.307810D-01
-      5.720000D+00           1.789710D-02
-      2.182000D+00          -2.975160D-03
-      4.327000D-01           8.495220D-04
-      1.570000D-01          -3.679360D-04
-S   12   1.00
-      1.108000D+05          -6.870390D-05
-      1.661000D+04          -5.276810D-04
-      3.781000D+03          -2.796710D-03
-      1.071000D+03          -1.126510D-02
-      3.498000D+02          -3.888340D-02
-      1.263000D+02          -9.950250D-02
-      4.926000D+01          -1.997400D-01
-      2.016000D+01          -1.233600D-01
-      5.720000D+00           5.131940D-01
-      2.182000D+00           6.071200D-01
-      4.327000D-01           3.967530D-02
-      1.570000D-01          -9.468640D-03
-S   12   1.00
-      1.108000D+05           1.990770D-05
-      1.661000D+04           1.534830D-04
-      3.781000D+03           8.095030D-04
-      1.071000D+03           3.289740D-03
-      3.498000D+02           1.129670D-02
-      1.263000D+02           2.963850D-02
-      4.926000D+01           5.998510D-02
-      2.016000D+01           4.132480D-02
-      5.720000D+00          -2.074740D-01
-      2.182000D+00          -3.928890D-01
-      4.327000D-01           6.328400D-01
-      1.570000D-01           5.569240D-01
-S   1   1.00
-      1.570000D-01           1.000000D+00
-P   8   1.00
-      3.997000D+02           4.475410D-03
-      9.419000D+01           3.417080D-02
-      2.975000D+01           1.442500D-01
-      1.077000D+01           3.539280D-01
-      4.119000D+00           4.590850D-01
-      1.625000D+00           2.063830D-01
-      4.726000D-01           1.021410D-02
-      1.407000D-01          -6.031220D-05
-P   8   1.00
-      3.997000D+02          -1.162510D-03
-      9.419000D+01          -8.656640D-03
-      2.975000D+01          -3.908860D-02
-      1.077000D+01          -9.346250D-02
-      4.119000D+00          -1.479940D-01
-      1.625000D+00           3.019040D-02
-      4.726000D-01           5.615730D-01
-      1.407000D-01           5.347760D-01
-P   1   1.00
-      1.407000D-01           1.000000D+00
-D   1   1.00
-      4.790000D-01           1.0000000
-****
-Cl     0
-S   12   1.00
-      1.279000D+05           2.411530D-04
-      1.917000D+04           1.870950D-03
-      4.363000D+03           9.708270D-03
-      1.236000D+03           3.931530D-02
-      4.036000D+02           1.259320D-01
-      1.457000D+02           2.993410D-01
-      5.681000D+01           4.218860D-01
-      2.323000D+01           2.372010D-01
-      6.644000D+00           1.915310D-02
-      2.575000D+00          -3.347920D-03
-      5.371000D-01           9.298830D-04
-      1.938000D-01          -3.963790D-04
-S   12   1.00
-      1.279000D+05          -6.789220D-05
-      1.917000D+04          -5.218360D-04
-      4.363000D+03          -2.765130D-03
-      1.236000D+03          -1.115370D-02
-      4.036000D+02          -3.859190D-02
-      1.457000D+02          -9.948480D-02
-      5.681000D+01          -2.013920D-01
-      2.323000D+01          -1.303130D-01
-      6.644000D+00           5.094430D-01
-      2.575000D+00           6.107250D-01
-      5.371000D-01           4.215490D-02
-      1.938000D-01          -9.234270D-03
-S   12   1.00
-      1.279000D+05           2.049860D-05
-      1.917000D+04           1.582980D-04
-      4.363000D+03           8.336390D-04
-      1.236000D+03           3.398800D-03
-      4.036000D+02           1.167380D-02
-      1.457000D+02           3.096220D-02
-      5.681000D+01           6.295330D-02
-      2.323000D+01           4.602570D-02
-      6.644000D+00          -2.193120D-01
-      2.575000D+00          -4.087730D-01
-      5.371000D-01           6.384650D-01
-      1.938000D-01           5.623620D-01
-S   1   1.00
-      1.938000D-01           1.000000D+00
-P   8   1.00
-      4.176000D+02           5.259820D-03
-      9.833000D+01           3.983320D-02
-      3.104000D+01           1.646550D-01
-      1.119000D+01           3.873220D-01
-      4.249000D+00           4.570720D-01
-      1.624000D+00           1.516360D-01
-      5.322000D-01           1.816150D-03
-      1.620000D-01           1.882960D-03
-P   8   1.00
-      4.176000D+02          -1.435700D-03
-      9.833000D+01          -1.077960D-02
-      3.104000D+01          -4.700750D-02
-      1.119000D+01          -1.110300D-01
-      4.249000D+00          -1.532750D-01
-      1.624000D+00           8.946090D-02
-      5.322000D-01           5.794440D-01
-      1.620000D-01           4.832720D-01
-P   1   1.00
-      1.620000D-01           1.000000D+00
-D   1   1.00
-      6.000000D-01           1.0000000
-****
-Ar     0
-S   12   1.00
-      1.457000D+05           2.367000D-04
-      2.184000D+04           1.835230D-03
-      4.972000D+03           9.528600D-03
-      1.408000D+03           3.862830D-02
-      4.597000D+02           1.240810D-01
-      1.659000D+02           2.964710D-01
-      6.469000D+01           4.220680D-01
-      2.644000D+01           2.417110D-01
-      7.628000D+00           2.005090D-02
-      2.996000D+00          -3.610000D-03
-      6.504000D-01           9.756070D-04
-      2.337000D-01          -4.113160D-04
-S   12   1.00
-      1.457000D+05          -6.749100D-05
-      2.184000D+04          -5.185220D-04
-      4.972000D+03          -2.748250D-03
-      1.408000D+03          -1.110070D-02
-      4.597000D+02          -3.848200D-02
-      1.659000D+02          -9.975990D-02
-      6.469000D+01          -2.030880D-01
-      2.644000D+01          -1.356080D-01
-      7.628000D+00           5.071950D-01
-      2.996000D+00           6.128980D-01
-      6.504000D-01           4.429680D-02
-      2.337000D-01          -8.992780D-03
-S   12   1.00
-      1.457000D+05           2.104570D-05
-      2.184000D+04           1.625650D-04
-      4.972000D+03           8.554630D-04
-      1.408000D+03           3.497450D-03
-      4.597000D+02           1.201560D-02
-      1.659000D+02           3.213680D-02
-      6.469000D+01           6.552790D-02
-      2.644000D+01           4.993700D-02
-      7.628000D+00          -2.297690D-01
-      2.996000D+00          -4.210060D-01
-      6.504000D-01           6.423310D-01
-      2.337000D-01           5.675400D-01
-S   1   1.00
-      2.337000D-01           1.000000D+00
-P   8   1.00
-      4.537000D+02           5.705550D-03
-      1.068000D+02           4.304600D-02
-      3.373000D+01           1.765910D-01
-      1.213000D+01           4.068630D-01
-      4.594000D+00           4.525490D-01
-      1.678000D+00           1.228010D-01
-      5.909000D-01          -4.459960D-03
-      1.852000D-01           2.052250D-03
-P   8   1.00
-      4.537000D+02          -1.606550D-03
-      1.068000D+02          -1.217140D-02
-      3.373000D+01          -5.207890D-02
-      1.213000D+01          -1.237370D-01
-      4.594000D+00          -1.516190D-01
-      1.678000D+00           1.424250D-01
-      5.909000D-01           5.845010D-01
-      1.852000D-01           4.375400D-01
-P   1   1.00
-      1.852000D-01           1.000000D+00
-D   1   1.00
-      7.380000D-01           1.0000000
-****
-Ca     0
-S   14   1.00
-      1.900007D+05           2.214500D-04
-      2.848146D+04           1.718300D-03
-      6.482701D+03           8.923480D-03
-      1.835891D+03           3.630183D-02
-      5.987243D+02           1.176222D-01
-      2.158841D+02           2.860435D-01
-      8.401242D+01           4.226071D-01
-      3.422488D+01           2.577437D-01
-      1.002497D+01           2.391893D-02
-      4.055920D+00          -4.952180D-03
-      1.020261D+00           1.717790D-03
-      4.268650D-01          -8.920900D-04
-      6.334700D-02           2.451000D-04
-      2.630100D-02          -1.239500D-04
-S   14   1.00
-      1.900007D+05          -6.453000D-05
-      2.848146D+04          -4.966200D-04
-      6.482701D+03          -2.628260D-03
-      1.835891D+03          -1.066845D-02
-      5.987243D+02          -3.713509D-02
-      2.158841D+02          -9.804284D-02
-      8.401242D+01          -2.034269D-01
-      3.422488D+01          -1.524465D-01
-      1.002497D+01           4.827941D-01
-      4.055920D+00           6.292384D-01
-      1.020261D+00           6.164842D-02
-      4.268650D-01          -1.479971D-02
-      6.334700D-02           3.610890D-03
-      2.630100D-02          -1.792730D-03
-S   14   1.00
-      1.900007D+05           2.223000D-05
-      2.848146D+04           1.717000D-04
-      6.482701D+03           9.045200D-04
-      1.835891D+03           3.703430D-03
-      5.987243D+02           1.283750D-02
-      2.158841D+02           3.475459D-02
-      8.401242D+01           7.303491D-02
-      3.422488D+01           6.100083D-02
-      1.002497D+01          -2.429293D-01
-      4.055920D+00          -4.870850D-01
-      1.020261D+00           5.650280D-01
-      4.268650D-01           6.557439D-01
-      6.334700D-02           2.672894D-02
-      2.630100D-02          -9.999590D-03
-S   14   1.00
-      1.900007D+05           5.310000D-06
-      2.848146D+04           4.111000D-05
-      6.482701D+03           2.156800D-04
-      1.835891D+03           8.882700D-04
-      5.987243D+02           3.058130D-03
-      2.158841D+02           8.376080D-03
-      8.401242D+01           1.741056D-02
-      3.422488D+01           1.515453D-02
-      1.002497D+01          -6.207919D-02
-      4.055920D+00          -1.261180D-01
-      1.020261D+00           1.736069D-01
-      4.268650D-01           3.782294D-01
-      6.334700D-02          -6.596470D-01
-      2.630100D-02          -4.902216D-01
-S   1   1.00
-      2.630100D-02           1.000000D+00
-P   11   1.00
-      1.072043D+03           1.981660D-03
-      2.538439D+02           1.612944D-02
-      8.131626D+01           7.657851D-02
-      3.024183D+01           2.326959D-01
-      1.210110D+01           4.244521D-01
-      5.022554D+00           3.732640D-01
-      1.909220D+00           7.868530D-02
-      7.713040D-01          -5.999270D-03
-      3.005700D-01           2.642570D-03
-      7.664900D-02          -8.569400D-04
-      2.777200D-02           3.314700D-04
-P   11   1.00
-      1.072043D+03          -6.489100D-04
-      2.538439D+02          -5.279070D-03
-      8.131626D+01          -2.581131D-02
-      3.024183D+01          -8.062892D-02
-      1.210110D+01          -1.584655D-01
-      5.022554D+00          -1.281682D-01
-      1.909220D+00           2.561010D-01
-      7.713040D-01           5.872407D-01
-      3.005700D-01           3.037256D-01
-      7.664900D-02           1.416451D-02
-      2.777200D-02          -1.152240D-03
-P   11   1.00
-      1.072043D+03           1.359500D-04
-      2.538439D+02           1.094200D-03
-      8.131626D+01           5.426800D-03
-      3.024183D+01           1.674718D-02
-      1.210110D+01           3.389863D-02
-      5.022554D+00           2.531183D-02
-      1.909220D+00          -5.895713D-02
-      7.713040D-01          -1.587612D-01
-      3.005700D-01          -8.554523D-02
-      7.664900D-02           5.446467D-01
-      2.777200D-02           5.663128D-01
-P   1   1.00
-      2.777200D-02           1.000000D+00
-D   5   1.00
-      1.031820D+01           3.284900D-02
-      2.592420D+00           1.481920D-01
-      7.617000D-01           3.109210D-01
-      2.083800D-01           4.521950D-01
-      5.370000D-02           4.808650D-01
-D   1   1.00
-      5.370000D-02           1.000000D+00
-****
-Sc     0
-S   20   1.00
-      2.715278D+06           8.147221D-06
-      4.065984D+05           6.334788D-05
-      9.253004D+04           3.330384D-04
-      2.620792D+04           1.404055D-03
-      8.549429D+03           5.081725D-03
-      3.085975D+03           1.626926D-02
-      1.203172D+03           4.624577D-02
-      4.984869D+02           1.137223D-01
-      2.167360D+02           2.257636D-01
-      9.787476D+01           3.106700D-01
-      4.520433D+01           2.191906D-01
-      2.021187D+01           7.215879D-02
-      9.574751D+00           1.187030D-01
-      4.540346D+00           1.220532D-01
-      1.995687D+00           2.136795D-02
-      9.422150D-01          -5.357246D-04
-      4.178450D-01           2.435774D-04
-      9.576100D-02          -8.796617D-05
-      5.135100D-02           7.878246D-05
-      2.387800D-02          -1.637155D-05
-S   20   1.00
-      2.715278D+06          -4.722109D-06
-      4.065984D+05          -3.671829D-05
-      9.253004D+04          -1.930883D-04
-      2.620792D+04          -8.146870D-04
-      8.549429D+03          -2.955526D-03
-      3.085975D+03          -9.520035D-03
-      1.203172D+03          -2.746858D-02
-      4.984869D+02          -6.991528D-02
-      2.167360D+02          -1.499251D-01
-      9.787476D+01          -2.459153D-01
-      4.520433D+01          -2.401293D-01
-      2.021187D+01           3.567987D-02
-      9.574751D+00           4.915023D-01
-      4.540346D+00           4.911381D-01
-      1.995687D+00           9.120633D-02
-      9.422150D-01          -5.356723D-03
-      4.178450D-01           8.812836D-04
-      9.576100D-02          -7.605536D-04
-      5.135100D-02           6.340116D-04
-      2.387800D-02          -1.556163D-04
-S   20   1.00
-      2.715278D+06           9.139905D-07
-      4.065984D+05           7.108513D-06
-      9.253004D+04           3.738126D-05
-      2.620792D+04           1.578828D-04
-      8.549429D+03           5.737686D-04
-      3.085975D+03           1.859244D-03
-      1.203172D+03           5.433182D-03
-      4.984869D+02           1.425387D-02
-      2.167360D+02           3.246144D-02
-      9.787476D+01           6.003454D-02
-      4.520433D+01           6.916105D-02
-      2.021187D+01          -2.113084D-02
-      9.574751D+00          -2.666832D-01
-      4.540346D+00          -4.367591D-01
-      1.995687D+00           6.498243D-02
-      9.422150D-01           7.009599D-01
-      4.178450D-01           4.515562D-01
-      9.576100D-02           3.011910D-02
-      5.135100D-02          -1.329480D-02
-      2.387800D-02           4.633679D-03
-S   20   1.00
-      2.715278D+06          -2.201951D-07
-      4.065984D+05          -1.711419D-06
-      9.253004D+04          -9.008469D-06
-      2.620792D+04          -3.799997D-05
-      8.549429D+03          -1.383227D-04
-      3.085975D+03          -4.473692D-04
-      1.203172D+03          -1.310691D-03
-      4.984869D+02          -3.429860D-03
-      2.167360D+02          -7.847579D-03
-      9.787476D+01          -1.447189D-02
-      4.520433D+01          -1.690669D-02
-      2.021187D+01           5.396115D-03
-      9.574751D+00           6.671062D-02
-      4.540346D+00           1.178356D-01
-      1.995687D+00          -2.738134D-02
-      9.422150D-01          -2.260149D-01
-      4.178450D-01          -3.073539D-01
-      9.576100D-02           2.544054D-01
-      5.135100D-02           5.981590D-01
-      2.387800D-02           3.115202D-01
-S   20   1.00
-      2.715278D+06          -3.757238D-07
-      4.065984D+05          -2.981907D-06
-      9.253004D+04          -1.522586D-05
-      2.620792D+04          -6.684686D-05
-      8.549429D+03          -2.313129D-04
-      3.085975D+03          -7.959729D-04
-      1.203172D+03          -2.161961D-03
-      4.984869D+02          -6.206459D-03
-      2.167360D+02          -1.261905D-02
-      9.787476D+01          -2.739459D-02
-      4.520433D+01          -2.336516D-02
-      2.021187D+01          -5.734627D-03
-      9.574751D+00           1.536025D-01
-      4.540346D+00           1.447100D-01
-      1.995687D+00           9.359699D-02
-      9.422150D-01          -8.687730D-01
-      4.178450D-01           2.114597D-02
-      9.576100D-02           2.275498D+00
-      5.135100D-02          -1.190770D+00
-      2.387800D-02          -7.674257D-01
-S   1   1.00
-      2.387800D-02           1.000000D+00
-P   16   1.00
-      1.059219D+04           4.500000D-05
-      2.507533D+03           4.010000D-04
-      8.144571D+02           2.302000D-03
-      3.115195D+02           1.003700D-02
-      1.319617D+02           3.495400D-02
-      5.998718D+01           9.790900D-02
-      2.866250D+01           2.106800D-01
-      1.410851D+01           3.300930D-01
-      7.103706D+00           3.310270D-01
-      3.609200D+00           1.579600D-01
-      1.776070D+00           2.209900D-02
-      8.547600D-01          -1.605000D-03
-      4.022390D-01          -1.326000D-03
-      1.546650D-01          -2.800000D-04
-      6.494500D-02           3.400000D-05
-      2.635900D-02          -1.300000D-05
-P   16   1.00
-      1.059219D+04          -1.500000D-05
-      2.507533D+03          -1.310000D-04
-      8.144571D+02          -7.570000D-04
-      3.115195D+02          -3.318000D-03
-      1.319617D+02          -1.170600D-02
-      5.998718D+01          -3.360400D-02
-      2.866250D+01          -7.487900D-02
-      1.410851D+01          -1.225480D-01
-      7.103706D+00          -1.302760D-01
-      3.609200D+00           1.459600D-02
-      1.776070D+00           3.091840D-01
-      8.547600D-01           4.629980D-01
-      4.022390D-01           3.049570D-01
-      1.546650D-01           5.087800D-02
-      6.494500D-02          -4.493000D-03
-      2.635900D-02           1.832000D-03
-P   16   1.00
-      1.059219D+04          -4.000000D-06
-      2.507533D+03          -3.200000D-05
-      8.144571D+02          -1.850000D-04
-      3.115195D+02          -8.080000D-04
-      1.319617D+02          -2.870000D-03
-      5.998718D+01          -8.207000D-03
-      2.866250D+01          -1.847300D-02
-      1.410851D+01          -3.010100D-02
-      7.103706D+00          -3.294300D-02
-      3.609200D+00           7.958000D-03
-      1.776070D+00           8.799300D-02
-      8.547600D-01           1.523770D-01
-      4.022390D-01           9.717000D-02
-      1.546650D-01          -2.569380D-01
-      6.494500D-02          -5.878150D-01
-      2.635900D-02          -3.054210D-01
-P   16   1.00
-      1.059219D+04           4.000000D-06
-      2.507533D+03           3.900000D-05
-      8.144571D+02           2.210000D-04
-      3.115195D+02           9.840000D-04
-      1.319617D+02           3.423000D-03
-      5.998718D+01           9.993000D-03
-      2.866250D+01           2.191600D-02
-      1.410851D+01           3.700800D-02
-      7.103706D+00           3.779400D-02
-      3.609200D+00          -4.379000D-03
-      1.776070D+00          -1.101640D-01
-      8.547600D-01          -1.610170D-01
-      4.022390D-01          -1.824820D-01
-      1.546650D-01           3.886110D-01
-      6.494500D-02           6.911000D-01
-      2.635900D-02           7.960400D-02
-P   1   1.00
-      2.635900D-02           1.000000D+00
-D   8   1.00
-      5.051380D+01           4.266000D-03
-      1.474050D+01           2.770800D-02
-      5.195000D+00           1.000010D-01
-      2.028460D+00           2.315810D-01
-      8.040860D-01           3.460330D-01
-      3.076890D-01           3.733740D-01
-      1.113920D-01           2.642880D-01
-      3.735200D-02           6.366700D-02
-D   8   1.00
-      5.051380D+01          -4.389000D-03
-      1.474050D+01          -2.836300D-02
-      5.195000D+00          -1.051370D-01
-      2.028460D+00          -2.348540D-01
-      8.040860D-01          -3.246090D-01
-      3.076890D-01          -6.428900D-02
-      1.113920D-01           6.017490D-01
-      3.735200D-02           3.903000D-01
-D   1   1.00
-      3.735200D-02           1.000000D+00
-F   2   1.00
-      7.126000D-01           3.617450D-01
-      1.636000D-01           8.218680D-01
-****
-Ti     0
-S   20   1.00
-      3.014643D+06           8.060782D-06
-      4.514329D+05           6.267518D-05
-      1.027338D+05           3.295006D-04
-      2.909817D+04           1.389203D-03
-      9.492330D+03           5.028469D-03
-      3.426346D+03           1.610419D-02
-      1.335896D+03           4.581232D-02
-      5.535026D+02           1.128613D-01
-      2.406925D+02           2.248193D-01
-      1.087293D+02           3.114571D-01
-      5.026457D+01           2.224995D-01
-      2.258004D+01           7.293128D-02
-      1.071432D+01           1.160683D-01
-      5.093546D+00           1.194774D-01
-      2.244183D+00           2.097868D-02
-      1.059570D+00          -5.091715D-04
-      4.688490D-01           2.217859D-04
-      1.061430D-01          -7.636896D-05
-      5.526200D-02           7.719539D-05
-      2.546500D-02          -1.149056D-05
-S   20   1.00
-      3.014643D+06          -4.630486D-06
-      4.514329D+05          -3.600451D-05
-      1.027338D+05          -1.893420D-04
-      2.909817D+04          -7.988781D-04
-      9.492330D+03          -2.898698D-03
-      3.426346D+03          -9.339701D-03
-      1.335896D+03          -2.697464D-02
-      5.535026D+02          -6.878913D-02
-      2.406925D+02          -1.481037D-01
-      1.087293D+02          -2.445253D-01
-      5.026457D+01          -2.419916D-01
-      2.258004D+01           3.183790D-02
-      1.071432D+01           4.932686D-01
-      5.093546D+00           4.939655D-01
-      2.244183D+00           9.196313D-02
-      1.059570D+00          -5.316992D-03
-      4.688490D-01           8.085624D-04
-      1.061430D-01          -6.918459D-04
-      5.526200D-02           6.086512D-04
-      2.546500D-02          -1.313842D-04
-S   20   1.00
-      3.014643D+06           9.230559D-07
-      4.514329D+05           7.178974D-06
-      1.027338D+05           3.775134D-05
-      2.909817D+04           1.594532D-04
-      9.492330D+03           5.795150D-04
-      3.426346D+03           1.878414D-03
-      1.335896D+03           5.492747D-03
-      5.535026D+02           1.443297D-02
-      2.406925D+02           3.296408D-02
-      1.087293D+02           6.125493D-02
-      5.026457D+01           7.134113D-02
-      2.258004D+01          -1.973150D-02
-      1.071432D+01          -2.741869D-01
-      5.093546D+00          -4.440977D-01
-      2.244183D+00           7.776084D-02
-      1.059570D+00           7.068444D-01
-      4.688490D-01           4.413892D-01
-      1.061430D-01           2.799769D-02
-      5.526200D-02          -1.210790D-02
-      2.546500D-02           4.324762D-03
-S   20   1.00
-      3.014643D+06          -2.180323D-07
-      4.514329D+05          -1.694860D-06
-      1.027338D+05          -8.919208D-06
-      2.909817D+04          -3.763633D-05
-      9.492330D+03          -1.369575D-04
-      3.426346D+03          -4.432894D-04
-      1.335896D+03          -1.298868D-03
-      5.535026D+02          -3.406752D-03
-      2.406925D+02          -7.810829D-03
-      1.087293D+02          -1.449245D-02
-      5.026457D+01          -1.708136D-02
-      2.258004D+01           4.897666D-03
-      1.071432D+01           6.753108D-02
-      5.093546D+00           1.173318D-01
-      2.244183D+00          -2.985025D-02
-      1.059570D+00          -2.277634D-01
-      4.688490D-01          -2.928115D-01
-      1.061430D-01           2.665300D-01
-      5.526200D-02           5.912406D-01
-      2.546500D-02           3.037229D-01
-S   20   1.00
-      3.014643D+06          -3.975126D-07
-      4.514329D+05          -3.161080D-06
-      1.027338D+05          -1.609375D-05
-      2.909817D+04          -7.092947D-05
-      9.492330D+03          -2.442710D-04
-      3.426346D+03          -8.457892D-04
-      1.335896D+03          -2.282208D-03
-      5.535026D+02          -6.619873D-03
-      2.406925D+02          -1.335024D-02
-      1.087293D+02          -2.955830D-02
-      5.026457D+01          -2.477039D-02
-      2.258004D+01          -8.414624D-03
-      1.071432D+01           1.693855D-01
-      5.093546D+00           1.500787D-01
-      2.244183D+00           9.787777D-02
-      1.059570D+00          -9.653608D-01
-      4.688490D-01           1.489721D-01
-      1.061430D-01           2.191179D+00
-      5.526200D-02          -1.243325D+00
-      2.546500D-02          -6.711916D-01
-S   1   1.00
-      2.546500D-02           1.000000D+00
-P   16   1.00
-      1.191203D+04           4.400000D-05
-      2.819947D+03           3.910000D-04
-      9.159479D+02           2.248000D-03
-      3.503842D+02           9.823000D-03
-      1.484825D+02           3.433800D-02
-      6.753944D+01           9.666600D-02
-      3.230332D+01           2.094170D-01
-      1.592786D+01           3.301890D-01
-      8.038035D+00           3.319360D-01
-      4.093916D+00           1.584880D-01
-      2.022390D+00           2.231000D-02
-      9.761020D-01          -1.566000D-03
-      4.595950D-01          -1.324000D-03
-      1.771520D-01          -2.710000D-04
-      7.351700D-02           3.200000D-05
-      2.940100D-02          -1.200000D-05
-P   16   1.00
-      1.191203D+04          -1.500000D-05
-      2.819947D+03          -1.310000D-04
-      9.159479D+02          -7.550000D-04
-      3.503842D+02          -3.319000D-03
-      1.484825D+02          -1.175000D-02
-      6.753944D+01          -3.392200D-02
-      3.230332D+01          -7.616400D-02
-      1.592786D+01          -1.257020D-01
-      8.038035D+00          -1.330980D-01
-      4.093916D+00           1.740600D-02
-      2.022390D+00           3.151650D-01
-      9.761020D-01           4.618140D-01
-      4.595950D-01           2.998560D-01
-      1.771520D-01           5.000000D-02
-      7.351700D-02          -4.230000D-03
-      2.940100D-02           1.725000D-03
-P   16   1.00
-      1.191203D+04           4.000000D-06
-      2.819947D+03           3.100000D-05
-      9.159479D+02           1.820000D-04
-      3.503842D+02           7.950000D-04
-      1.484825D+02           2.833000D-03
-      6.753944D+01           8.154000D-03
-      3.230332D+01           1.847200D-02
-      1.592786D+01           3.040000D-02
-      8.038035D+00           3.304700D-02
-      4.093916D+00          -8.251000D-03
-      2.022390D+00          -8.855400D-02
-      9.761020D-01          -1.496120D-01
-      4.595950D-01          -9.422700D-02
-      1.771520D-01           2.508460D-01
-      7.351700D-02           5.866430D-01
-      2.940100D-02           3.135350D-01
-P   16   1.00
-      1.191203D+04           4.000000D-06
-      2.819947D+03           3.900000D-05
-      9.159479D+02           2.230000D-04
-      3.503842D+02           9.920000D-04
-      1.484825D+02           3.476000D-03
-      6.753944D+01           1.017200D-02
-      3.230332D+01           2.257600D-02
-      1.592786D+01           3.823800D-02
-      8.038035D+00           3.933700D-02
-      4.093916D+00          -6.106000D-03
-      2.022390D+00          -1.129620D-01
-      9.761020D-01          -1.681140D-01
-      4.595950D-01          -1.659320D-01
-      1.771520D-01           3.914030D-01
-      7.351700D-02           6.818400D-01
-      2.940100D-02           8.403100D-02
-P   1   1.00
-      2.940100D-02           1.000000D+00
-D   8   1.00
-      6.401300D+01           3.887000D-03
-      1.881790D+01           2.639900D-02
-      6.728700D+00           9.751100D-02
-      2.664130D+00           2.328480D-01
-      1.078680D+00           3.531520D-01
-      4.232090D-01           3.721860D-01
-      1.559990D-01           2.476720D-01
-      5.188400D-02           5.823600D-02
-D   8   1.00
-      6.401300D+01          -3.970000D-03
-      1.881790D+01          -2.687300D-02
-      6.728700D+00          -1.022750D-01
-      2.664130D+00          -2.377280D-01
-      1.078680D+00          -3.121140D-01
-      4.232090D-01          -4.237800D-02
-      1.559990D-01           5.886580D-01
-      5.188400D-02           4.103020D-01
-D   1   1.00
-      5.188400D-02           1.000000D+00
-F   2   1.00
-      1.227400D+00           3.581580D-01
-      2.788000D-01           8.257940D-01
-****
-V     0
-S   20   1.00
-      3.321857D+06           8.039999D-06
-      4.974356D+05           6.251402D-05
-      1.132027D+05           3.286553D-04
-      3.206333D+04           1.385697D-03
-      1.045962D+04           5.016217D-03
-      3.775506D+03           1.606931D-02
-      1.472040D+03           4.574242D-02
-      6.099331D+02           1.128544D-01
-      2.652634D+02           2.254344D-01
-      1.198607D+02           3.140461D-01
-      5.544891D+01           2.267819D-01
-      2.498372D+01           7.334069D-02
-      1.188056D+01           1.102474D-01
-      5.660311D+00           1.131358D-01
-      2.495703D+00           1.971295D-02
-      1.177866D+00          -4.719088D-04
-      5.200440D-01           1.861606D-04
-      1.159650D-01          -6.208598D-05
-      5.893800D-02           7.295314D-05
-      2.694600D-02          -6.362062D-06
-S   20   1.00
-      3.321857D+06          -4.503003D-06
-      4.974356D+05          -3.501295D-05
-      1.132027D+05          -1.841339D-04
-      3.206333D+04          -7.769216D-04
-      1.045962D+04          -2.819505D-03
-      3.775506D+03          -9.087486D-03
-      1.472040D+03          -2.627134D-02
-      6.099331D+02          -6.712726D-02
-      2.652634D+02          -1.451130D-01
-      1.198607D+02          -2.412483D-01
-      5.544891D+01          -2.416314D-01
-      2.498372D+01           3.067362D-02
-      1.188056D+01           4.970415D-01
-      5.660311D+00           4.958875D-01
-      2.495703D+00           9.181868D-02
-      1.177866D+00          -5.392514D-03
-      5.200440D-01           7.102380D-04
-      1.159650D-01          -6.363128D-04
-      5.893800D-02           5.979932D-04
-      2.694600D-02          -1.100879D-04
-S   20   1.00
-      3.321857D+06           9.320648D-07
-      4.974356D+05           7.249306D-06
-      1.132027D+05           3.811967D-05
-      3.206333D+04           1.610238D-04
-      1.045962D+04           5.852210D-04
-      3.775506D+03           1.897502D-03
-      1.472040D+03           5.550909D-03
-      6.099331D+02           1.460584D-02
-      2.652634D+02           3.342974D-02
-      1.198607D+02           6.235722D-02
-      5.544891D+01           7.312435D-02
-      2.498372D+01          -1.911472D-02
-      1.188056D+01          -2.817249D-01
-      5.660311D+00          -4.488151D-01
-      2.495703D+00           9.202696D-02
-      1.177866D+00           7.110117D-01
-      5.200440D-01           4.309274D-01
-      1.159650D-01           2.604589D-02
-      5.893800D-02          -1.101049D-02
-      2.694600D-02           4.106300D-03
-S   20   1.00
-      3.321857D+06          -2.158944D-07
-      4.974356D+05          -1.678519D-06
-      1.132027D+05          -8.831213D-06
-      3.206333D+04          -3.727769D-05
-      1.045962D+04          -1.356099D-04
-      3.775506D+03          -4.392351D-04
-      1.472040D+03          -1.286948D-03
-      6.099331D+02          -3.382149D-03
-      2.652634D+02          -7.765646D-03
-      1.198607D+02          -1.447985D-02
-      5.544891D+01          -1.715502D-02
-      2.498372D+01           4.610101D-03
-      1.188056D+01           6.827831D-02
-      5.660311D+00           1.161368D-01
-      2.495703D+00          -3.277049D-02
-      1.177866D+00          -2.280000D-01
-      5.200440D-01          -2.793991D-01
-      1.159650D-01           2.771165D-01
-      5.893800D-02           5.852999D-01
-      2.694600D-02           2.963946D-01
-S   20   1.00
-      3.321857D+06          -4.093416D-07
-      4.974356D+05          -3.258956D-06
-      1.132027D+05          -1.656390D-05
-      3.206333D+04          -7.316689D-05
-      1.045962D+04          -2.512784D-04
-      3.775506D+03          -8.732657D-04
-      1.472040D+03          -2.347654D-03
-      6.099331D+02          -6.853150D-03
-      2.652634D+02          -1.376420D-02
-      1.198607D+02          -3.084679D-02
-      5.544891D+01          -2.562208D-02
-      2.498372D+01          -1.005123D-02
-      1.188056D+01           1.795330D-01
-      5.660311D+00           1.522400D-01
-      2.495703D+00           9.483887D-02
-      1.177866D+00          -1.014876D+00
-      5.200440D-01           2.308810D-01
-      1.159650D-01           2.113321D+00
-      5.893800D-02          -1.253048D+00
-      2.694600D-02          -6.139502D-01
-S   1   1.00
-      2.694600D-02           1.000000D+00
-P   16   1.00
-      1.327320D+04           4.300000D-05
-      3.142126D+03           3.840000D-04
-      1.020588D+03           2.210000D-03
-      3.904407D+02           9.678000D-03
-      1.655043D+02           3.393600D-02
-      7.532006D+01           9.591700D-02
-      3.605503D+01           2.088530D-01
-      1.780436D+01           3.306600D-01
-      9.002929D+00           3.323120D-01
-      4.594544D+00           1.581880D-01
-      2.276760D+00           2.225200D-02
-      1.101178D+00          -1.565000D-03
-      5.186380D-01          -1.353000D-03
-      2.005650D-01          -2.650000D-04
-      8.129100D-02           2.900000D-05
-      3.179500D-02          -1.100000D-05
-P   16   1.00
-      1.327320D+04          -1.500000D-05
-      3.142126D+03          -1.310000D-04
-      1.020588D+03          -7.550000D-04
-      3.904407D+02          -3.325000D-03
-      1.655043D+02          -1.181100D-02
-      7.532006D+01          -3.425600D-02
-      3.605503D+01          -7.736300D-02
-      1.780436D+01          -1.284560D-01
-      9.002929D+00          -1.350780D-01
-      4.594544D+00           2.083800D-02
-      2.276760D+00           3.204990D-01
-      1.101178D+00           4.602600D-01
-      5.186380D-01           2.953460D-01
-      2.005650D-01           4.904600D-02
-      8.129100D-02          -3.824000D-03
-      3.179500D-02           1.585000D-03
-P   16   1.00
-      1.327320D+04           4.000000D-06
-      3.142126D+03           3.200000D-05
-      1.020588D+03           1.830000D-04
-      3.904407D+02           8.020000D-04
-      1.655043D+02           2.862000D-03
-      7.532006D+01           8.287000D-03
-      3.605503D+01           1.887000D-02
-      1.780436D+01           3.130700D-02
-      9.002929D+00           3.366000D-02
-      4.594544D+00          -9.479000D-03
-      2.276760D+00          -9.231300D-02
-      1.101178D+00          -1.489890D-01
-      5.186380D-01          -8.364400D-02
-      2.005650D-01           2.493390D-01
-      8.129100D-02           5.805150D-01
-      3.179500D-02           3.223800D-01
-P   16   1.00
-      1.327320D+04           4.000000D-06
-      3.142126D+03           3.900000D-05
-      1.020588D+03           2.230000D-04
-      3.904407D+02           9.960000D-04
-      1.655043D+02           3.498000D-03
-      7.532006D+01           1.029600D-02
-      3.605503D+01           2.296200D-02
-      1.780436D+01           3.920800D-02
-      9.002929D+00           3.994300D-02
-      4.594544D+00          -7.121000D-03
-      2.276760D+00          -1.162250D-01
-      1.101178D+00          -1.694960D-01
-      5.186380D-01          -1.553740D-01
-      2.005650D-01           3.950220D-01
-      8.129100D-02           6.789080D-01
-      3.179500D-02           8.312200D-02
-P   1   1.00
-      3.179500D-02           1.000000D+00
-D   8   1.00
-      7.761150D+01           3.595000D-03
-      2.291590D+01           2.521000D-02
-      8.279540D+00           9.478600D-02
-      3.309930D+00           2.303630D-01
-      1.358630D+00           3.528940D-01
-      5.413500D-01           3.704140D-01
-      2.023560D-01           2.457180D-01
-      6.756800D-02           6.099300D-02
-D   8   1.00
-      7.761150D+01          -3.818000D-03
-      2.291590D+01          -2.671700D-02
-      8.279540D+00          -1.036900D-01
-      3.309930D+00          -2.476890D-01
-      1.358630D+00          -3.115230D-01
-      5.413500D-01          -2.282700D-02
-      2.023560D-01           5.697260D-01
-      6.756800D-02           4.194930D-01
-D   1   1.00
-      6.756800D-02           1.000000D+00
-F   2   1.00
-      1.748800D+00           3.900680D-01
-      4.057000D-01           8.008410D-01
-****
-Cr     0
-S   20   1.00
-      6.177194D+06           4.128667D-06
-      9.249295D+05           3.210767D-05
-      2.104865D+05           1.688416D-04
-      5.962005D+04           7.128520D-04
-      1.945076D+04           2.589325D-03
-      7.022056D+03           8.377350D-03
-      2.738763D+03           2.441725D-02
-      1.135814D+03           6.365135D-02
-      4.950923D+02           1.427618D-01
-      2.247487D+02           2.541275D-01
-      1.053836D+02           3.009512D-01
-      5.019359D+01           1.766513D-01
-      2.224957D+01           6.936709D-02
-      1.098265D+01           1.179579D-01
-      5.383665D+00           8.916187D-02
-      2.343685D+00           1.103630D-02
-      1.105202D+00          -3.546048D-04
-      4.878480D-01           1.057311D-04
-      8.959900D-02           1.114640D-05
-      3.342300D-02           2.661387D-05
-S   20   1.00
-      6.177194D+06          -2.301772D-06
-      9.249295D+05          -1.789536D-05
-      2.104865D+05          -9.416174D-05
-      5.962005D+04          -3.975074D-04
-      1.945076D+04          -1.447025D-03
-      7.022056D+03          -4.694622D-03
-      2.738763D+03          -1.382387D-02
-      1.135814D+03          -3.674643D-02
-      4.950923D+02          -8.647185D-02
-      2.247487D+02          -1.696735D-01
-      1.053836D+02          -2.507089D-01
-      5.019359D+01          -1.961156D-01
-      2.224957D+01           1.457244D-01
-      1.098265D+01           5.466706D-01
-      5.383665D+00           3.979434D-01
-      2.343685D+00           5.277007D-02
-      1.105202D+00          -4.374537D-03
-      4.878480D-01           3.204035D-04
-      8.959900D-02          -5.142077D-05
-      3.342300D-02           1.584134D-04
-S   20   1.00
-      6.177194D+06           4.862957D-07
-      9.249295D+05           3.776645D-06
-      2.104865D+05           1.990664D-05
-      5.962005D+04           8.389164D-05
-      1.945076D+04           3.065706D-04
-      7.022056D+03           9.944107D-04
-      2.738763D+03           2.961959D-03
-      1.135814D+03           7.969473D-03
-      4.950923D+02           1.955017D-02
-      2.247487D+02           4.085035D-02
-      1.053836D+02           6.929003D-02
-      5.019359D+01           6.146984D-02
-      2.224957D+01          -6.981302D-02
-      1.098265D+01          -3.517597D-01
-      5.383665D+00          -3.828629D-01
-      2.343685D+00           2.676401D-01
-      1.105202D+00           7.175950D-01
-      4.878480D-01           3.020814D-01
-      8.959900D-02           7.749514D-03
-      3.342300D-02           2.696096D-04
-S   20   1.00
-      6.177194D+06          -1.102451D-07
-      9.249295D+05          -8.530233D-07
-      2.104865D+05          -4.520358D-06
-      5.962005D+04          -1.891612D-05
-      1.945076D+04          -6.974344D-05
-      7.022056D+03          -2.237867D-04
-      2.738763D+03          -6.754503D-04
-      1.135814D+03          -1.789346D-03
-      4.950923D+02          -4.477858D-03
-      2.247487D+02          -9.140144D-03
-      1.053836D+02          -1.610562D-02
-      5.019359D+01          -1.334870D-02
-      2.224957D+01           1.426027D-02
-      1.098265D+01           8.931690D-02
-      5.383665D+00           8.885279D-02
-      2.343685D+00          -6.368776D-02
-      1.105202D+00          -2.783262D-01
-      4.878480D-01          -1.830071D-01
-      8.959900D-02           6.790937D-01
-      3.342300D-02           4.672953D-01
-S   20   1.00
-      6.177194D+06           2.179893D-07
-      9.249295D+05           1.612940D-06
-      2.104865D+05           9.111842D-06
-      5.962005D+04           3.500645D-05
-      1.945076D+04           1.435315D-04
-      7.022056D+03           4.035896D-04
-      2.738763D+03           1.425177D-03
-      1.135814D+03           3.114009D-03
-      4.950923D+02           9.814449D-03
-      2.247487D+02           1.474698D-02
-      1.053836D+02           3.911512D-02
-      5.019359D+01           9.170888D-03
-      2.224957D+01           1.559878D-02
-      1.098265D+01          -2.816844D-01
-      5.383665D+00          -6.895261D-03
-      2.343685D+00          -1.769781D-01
-      1.105202D+00           1.443061D+00
-      4.878480D-01          -1.029318D+00
-      8.959900D-02          -1.307667D+00
-      3.342300D-02           1.503842D+00
-S   1   1.00
-      3.342300D-02           1.000000D+00
-P   16   1.00
-      1.445420D+04           4.400000D-05
-      3.421676D+03           3.890000D-04
-      1.111387D+03           2.241000D-03
-      4.251918D+02           9.821000D-03
-      1.802623D+02           3.447100D-02
-      8.206117D+01           9.746000D-02
-      3.929726D+01           2.119850D-01
-      1.941959D+01           3.339900D-01
-      9.828899D+00           3.301370D-01
-      5.016810D+00           1.522270D-01
-      2.487091D+00           2.042500D-02
-      1.198780D+00          -1.360000D-03
-      5.586950D-01          -1.195000D-03
-      2.089240D-01          -1.970000D-04
-      8.460800D-02           2.300000D-05
-      3.325800D-02          -9.000000D-06
-P   16   1.00
-      1.445420D+04          -1.500000D-05
-      3.421676D+03          -1.350000D-04
-      1.111387D+03          -7.770000D-04
-      4.251918D+02          -3.427000D-03
-      1.802623D+02          -1.218900D-02
-      8.206117D+01          -3.538800D-02
-      3.929726D+01          -7.991500D-02
-      1.941959D+01          -1.323350D-01
-      9.828899D+00          -1.354010D-01
-      5.016810D+00           3.200800D-02
-      2.487091D+00           3.338490D-01
-      1.198780D+00           4.617730D-01
-      5.586950D-01           2.812900D-01
-      2.089240D-01           4.184300D-02
-      8.460800D-02          -4.002000D-03
-      3.325800D-02           1.521000D-03
-P   16   1.00
-      1.445420D+04           4.000000D-06
-      3.421676D+03           3.200000D-05
-      1.111387D+03           1.850000D-04
-      4.251918D+02           8.100000D-04
-      1.802623D+02           2.906000D-03
-      8.206117D+01           8.391000D-03
-      3.929726D+01           1.919300D-02
-      1.941959D+01           3.156400D-02
-      9.828899D+00           3.341700D-02
-      5.016810D+00          -1.290700D-02
-      2.487091D+00          -9.365900D-02
-      1.198780D+00          -1.499770D-01
-      5.586950D-01          -6.723400D-02
-      2.089240D-01           2.707590D-01
-      8.460800D-02           5.758070D-01
-      3.325800D-02           3.011210D-01
-P   16   1.00
-      1.445420D+04           4.000000D-06
-      3.421676D+03           4.000000D-05
-      1.111387D+03           2.290000D-04
-      4.251918D+02           1.019000D-03
-      1.802623D+02           3.602000D-03
-      8.206117D+01           1.055000D-02
-      3.929726D+01           2.370200D-02
-      1.941959D+01           3.998800D-02
-      9.828899D+00           4.043700D-02
-      5.016810D+00          -1.207400D-02
-      2.487091D+00          -1.189390D-01
-      1.198780D+00          -1.781000D-01
-      5.586950D-01          -1.238650D-01
-      2.089240D-01           4.297220D-01
-      8.460800D-02           6.507860D-01
-      3.325800D-02           6.417100D-02
-P   1   1.00
-      3.325800D-02           1.000000D+00
-D   8   1.00
-      8.857680D+01           3.621000D-03
-      2.620450D+01           2.576600D-02
-      9.517470D+00           9.755600D-02
-      3.822480D+00           2.363120D-01
-      1.575120D+00           3.582860D-01
-      6.289280D-01           3.685430D-01
-      2.344240D-01           2.354940D-01
-      7.681500D-02           5.315600D-02
-D   8   1.00
-      8.857680D+01          -4.122000D-03
-      2.620450D+01          -2.930700D-02
-      9.517470D+00          -1.150620D-01
-      3.822480D+00          -2.730680D-01
-      1.575120D+00          -3.144230D-01
-      6.289280D-01           4.209700D-02
-      2.344240D-01           5.914030D-01
-      7.681500D-02           3.582150D-01
-D   1   1.00
-      7.681500D-02           1.000000D+00
-F   2   1.00
-      2.221100D+00           4.235450D-01
-      5.231000D-01           7.741140D-01
-****
-Mn     0
-S   20   1.00
-      3.960805D+06           8.242127D-06
-      5.931155D+05           6.408587D-05
-      1.349768D+05           3.369253D-04
-      3.823067D+04           1.420648D-03
-      1.247154D+04           5.143683D-03
-      4.501743D+03           1.648569D-02
-      1.755212D+03           4.698560D-02
-      7.273039D+02           1.162437D-01
-      3.163678D+02           2.335277D-01
-      1.430098D+02           3.292837D-01
-      6.621805D+01           2.440304D-01
-      2.991896D+01           7.219806D-02
-      1.430318D+01           7.687806D-02
-      6.839451D+00           7.852235D-02
-      3.012374D+00           1.294109D-02
-      1.418808D+00          -3.784873D-04
-      6.236240D-01          -2.503203D-05
-      1.340980D-01          -2.421517D-05
-      6.554800D-02           3.462071D-05
-      2.958400D-02           4.261482D-07
-S   20   1.00
-      3.960805D+06          -3.936095D-06
-      5.931155D+05          -3.060481D-05
-      1.349768D+05          -1.609626D-04
-      3.823067D+04          -6.792348D-04
-      1.247154D+04          -2.466182D-03
-      4.501743D+03          -7.957629D-03
-      1.755212D+03          -2.307248D-02
-      7.273039D+02          -5.932956D-02
-      3.163678D+02          -1.299451D-01
-      1.430098D+02          -2.212352D-01
-      6.621805D+01          -2.292550D-01
-      2.991896D+01           3.580733D-02
-      1.430318D+01           5.107602D-01
-      6.839451D+00           5.008307D-01
-      3.012374D+00           9.011830D-02
-      1.418808D+00          -6.909909D-03
-      6.236240D-01          -1.912925D-04
-      1.340980D-01          -6.032312D-04
-      6.554800D-02           5.621608D-04
-      2.958400D-02          -1.021109D-04
-S   20   1.00
-      3.960805D+06           9.462709D-07
-      5.931155D+05           7.360584D-06
-      1.349768D+05           3.869935D-05
-      3.823067D+04           1.635110D-04
-      1.247154D+04           5.941775D-04
-      4.501743D+03           1.927737D-03
-      1.755212D+03           5.641731D-03
-      7.273039D+02           1.487848D-02
-      3.163678D+02           3.414783D-02
-      1.430098D+02           6.405794D-02
-      6.621805D+01           7.557659D-02
-      2.991896D+01          -1.946070D-02
-      1.430318D+01          -2.957874D-01
-      6.839451D+00          -4.521170D-01
-      3.012374D+00           1.224531D-01
-      1.418808D+00           7.169756D-01
-      6.236240D-01           4.092712D-01
-      1.340980D-01           2.221969D-02
-      6.554800D-02          -9.011202D-03
-      2.958400D-02           3.691727D-03
-S   20   1.00
-      3.960805D+06          -2.095391D-07
-      5.931155D+05          -1.629439D-06
-      1.349768D+05          -8.570592D-06
-      3.823067D+04          -3.619272D-05
-      1.247154D+04          -1.316146D-04
-      4.501743D+03          -4.266810D-04
-      1.755212D+03          -1.250270D-03
-      7.273039D+02          -3.294665D-03
-      3.163678D+02          -7.581860D-03
-      1.430098D+02          -1.422864D-02
-      6.621805D+01          -1.693796D-02
-      2.991896D+01           4.454298D-03
-      1.430318D+01           6.867042D-02
-      6.839451D+00           1.113335D-01
-      3.012374D+00          -3.900820D-02
-      1.418808D+00          -2.215755D-01
-      6.236240D-01          -2.544359D-01
-      1.340980D-01           2.865866D-01
-      6.554800D-02           5.755741D-01
-      2.958400D-02           2.898778D-01
-S   20   1.00
-      3.960805D+06          -4.121231D-07
-      5.931155D+05          -3.282099D-06
-      1.349768D+05          -1.667433D-05
-      3.823067D+04          -7.369999D-05
-      1.247154D+04          -2.529495D-04
-      4.501743D+03          -8.801425D-04
-      1.755212D+03          -2.365482D-03
-      7.273039D+02          -6.926354D-03
-      3.163678D+02          -1.393851D-02
-      1.430098D+02          -3.143840D-02
-      6.621805D+01          -2.625749D-02
-      2.991896D+01          -1.048313D-02
-      1.430318D+01           1.856472D-01
-      6.839451D+00           1.524839D-01
-      3.012374D+00           7.411368D-02
-      1.418808D+00          -1.018097D+00
-      6.236240D-01           2.980372D-01
-      1.340980D-01           1.971989D+00
-      6.554800D-02          -1.179253D+00
-      2.958400D-02          -5.837703D-01
-S   1   1.00
-      2.958400D-02           1.000000D+00
-P   16   1.00
-      1.620586D+04           4.200000D-05
-      3.836274D+03           3.730000D-04
-      1.246048D+03           2.149000D-03
-      4.767535D+02           9.445000D-03
-      2.021895D+02           3.329700D-02
-      9.209487D+01           9.475900D-02
-      4.414720D+01           2.081440D-01
-      2.185468D+01           3.318050D-01
-      1.108596D+01           3.331750D-01
-      5.674108D+00           1.576010D-01
-      2.823170D+00           2.144500D-02
-      1.368621D+00          -2.558000D-03
-      6.444310D-01          -2.027000D-03
-      2.483820D-01          -3.600000D-04
-      9.725500D-02           3.400000D-05
-      3.663300D-02          -1.300000D-05
-P   16   1.00
-      1.620586D+04          -1.500000D-05
-      3.836274D+03          -1.290000D-04
-      1.246048D+03          -7.480000D-04
-      4.767535D+02          -3.308000D-03
-      2.021895D+02          -1.181100D-02
-      9.209487D+01          -3.453300D-02
-      4.414720D+01          -7.878500D-02
-      2.185468D+01          -1.321830D-01
-      1.108596D+01          -1.371950D-01
-      5.674108D+00           2.707500D-02
-      2.823170D+00           3.288910D-01
-      1.368621D+00           4.572800D-01
-      6.444310D-01           2.889080D-01
-      2.483820D-01           4.743300D-02
-      9.725500D-02          -3.522000D-03
-      3.663300D-02           1.456000D-03
-P   16   1.00
-      1.620586D+04           3.000000D-06
-      3.836274D+03           3.000000D-05
-      1.246048D+03           1.720000D-04
-      4.767535D+02           7.620000D-04
-      2.021895D+02           2.726000D-03
-      9.209487D+01           7.976000D-03
-      4.414720D+01           1.828700D-02
-      2.185468D+01           3.077600D-02
-      1.108596D+01           3.237300D-02
-      5.674108D+00          -9.978000D-03
-      2.823170D+00          -9.052900D-02
-      1.368621D+00          -1.380040D-01
-      6.444310D-01          -7.796500D-02
-      2.483820D-01           2.295600D-01
-      9.725500D-02           5.761220D-01
-      3.663300D-02           3.485380D-01
-P   16   1.00
-      1.620586D+04           4.000000D-06
-      3.836274D+03           4.000000D-05
-      1.246048D+03           2.260000D-04
-      4.767535D+02           1.013000D-03
-      2.021895D+02           3.575000D-03
-      9.209487D+01           1.061200D-02
-      4.414720D+01           2.390200D-02
-      2.185468D+01           4.127900D-02
-      1.108596D+01           4.147500D-02
-      5.674108D+00          -9.458000D-03
-      2.823170D+00          -1.236950D-01
-      1.368621D+00          -1.743920D-01
-      6.444310D-01          -1.291700D-01
-      2.483820D-01           4.003480D-01
-      9.725500D-02           6.696460D-01
-      3.663300D-02           8.273200D-02
-P   1   1.00
-      3.663300D-02           1.000000D+00
-D   8   1.00
-      1.006630D+02           3.579000D-03
-      2.983360D+01           2.582700D-02
-      1.088940D+01           9.855900D-02
-      4.393580D+00           2.383270D-01
-      1.817820D+00           3.587070D-01
-      7.278270D-01           3.650920D-01
-      2.712950D-01           2.337380D-01
-      8.830900D-02           5.661800D-02
-D   8   1.00
-      1.006630D+02          -3.454000D-03
-      2.983360D+01          -2.492500D-02
-      1.088940D+01          -9.763500D-02
-      4.393580D+00          -2.366920D-01
-      1.817820D+00          -2.923500D-01
-      7.278270D-01          -4.973000D-03
-      2.712950D-01           5.065880D-01
-      8.830900D-02           4.979510D-01
-D   1   1.00
-      8.830900D-02           1.000000D+00
-F   2   1.00
-      2.703200D+00           4.267760D-01
-      6.438000D-01           7.697990D-01
-****
-Fe     0
-S   20   1.00
-      4.316265D+06           8.048803D-06
-      6.463424D+05           6.258306D-05
-      1.470897D+05           3.290239D-04
-      4.166152D+04           1.387355D-03
-      1.359077D+04           5.023256D-03
-      4.905750D+03           1.610140D-02
-      1.912746D+03           4.590034D-02
-      7.926043D+02           1.136154D-01
-      3.448065D+02           2.283869D-01
-      1.558999D+02           3.221159D-01
-      7.223091D+01           2.383661D-01
-      3.272506D+01           7.404667D-02
-      1.566762D+01           9.214197D-02
-      7.503483D+00           9.339790D-02
-      3.312223D+00           1.573965D-02
-      1.558471D+00          -4.186682D-04
-      6.839140D-01           5.376318D-05
-      1.467570D-01          -3.816654D-05
-      7.058300D-02           4.319603D-05
-      3.144900D-02          -3.401019D-06
-S   20   1.00
-      4.316265D+06          -4.155954D-06
-      6.463424D+05          -3.231401D-05
-      1.470897D+05          -1.699525D-04
-      4.166152D+04          -7.171369D-04
-      1.359077D+04          -2.603625D-03
-      4.905750D+03          -8.399109D-03
-      1.912746D+03          -2.434109D-02
-      7.926043D+02          -6.251948D-02
-      3.448065D+02          -1.365929D-01
-      1.558999D+02          -2.312707D-01
-      7.223091D+01          -2.383734D-01
-      3.272506D+01           3.123837D-02
-      1.566762D+01           5.086818D-01
-      7.503483D+00           4.987695D-01
-      3.312223D+00           9.033552D-02
-      1.558471D+00          -6.005337D-03
-      6.839140D-01           2.312454D-04
-      1.467570D-01          -5.643680D-04
-      7.058300D-02           4.992260D-04
-      3.144900D-02          -1.015293D-04
-S   20   1.00
-      4.316265D+06           9.532178D-07
-      6.463424D+05           7.414605D-06
-      1.470897D+05           3.898393D-05
-      4.166152D+04           1.647152D-04
-      1.359077D+04           5.985980D-04
-      4.905750D+03           1.942390D-03
-      1.912746D+03           5.687237D-03
-      7.926043D+02           1.501329D-02
-      3.448065D+02           3.452455D-02
-      1.558999D+02           6.495820D-02
-      7.223091D+01           7.716194D-02
-      3.272506D+01          -1.873411D-02
-      1.566762D+01          -3.009185D-01
-      7.503483D+00          -4.554661D-01
-      3.312223D+00           1.286463D-01
-      1.558471D+00           7.183316D-01
-      6.839140D-01           4.051743D-01
-      1.467570D-01           2.168227D-02
-      7.058300D-02          -8.343566D-03
-      3.144900D-02           3.658979D-03
-S   20   1.00
-      4.316265D+06          -2.063008D-07
-      6.463424D+05          -1.604169D-06
-      1.470897D+05          -8.438437D-06
-      4.166152D+04          -3.563151D-05
-      1.359077D+04          -1.295998D-04
-      4.905750D+03          -4.201534D-04
-      1.912746D+03          -1.231954D-03
-      7.926043D+02          -3.248922D-03
-      3.448065D+02          -7.493717D-03
-      1.558999D+02          -1.410102D-02
-      7.223091D+01          -1.691600D-02
-      3.272506D+01           4.218996D-03
-      1.566762D+01           6.833810D-02
-      7.503483D+00           1.098201D-01
-      3.312223D+00          -4.009005D-02
-      1.558471D+00          -2.174739D-01
-      6.839140D-01          -2.465135D-01
-      1.467570D-01           2.731435D-01
-      7.058300D-02           5.748321D-01
-      3.144900D-02           3.012713D-01
-S   20   1.00
-      4.316265D+06          -4.009367D-07
-      6.463424D+05          -3.189255D-06
-      1.470897D+05          -1.623079D-05
-      4.166152D+04          -7.157920D-05
-      1.359077D+04          -2.463958D-04
-      4.905750D+03          -8.544907D-04
-      1.912746D+03          -2.307593D-03
-      7.926043D+02          -6.728292D-03
-      3.448065D+02          -1.366165D-02
-      1.558999D+02          -3.062240D-02
-      7.223091D+01          -2.631137D-02
-      3.272506D+01          -9.760183D-03
-      1.566762D+01           1.801906D-01
-      7.503483D+00           1.529634D-01
-      3.312223D+00           5.505413D-02
-      1.558471D+00          -9.551364D-01
-      6.839140D-01           2.586813D-01
-      1.467570D-01           1.834049D+00
-      7.058300D-02          -9.333240D-01
-      3.144900D-02          -6.981605D-01
-S   1   1.00
-      3.144900D-02           1.000000D+00
-P   16   1.00
-      1.774569D+04           4.100000D-05
-      4.200721D+03           3.690000D-04
-      1.364429D+03           2.129000D-03
-      5.220806D+02           9.369000D-03
-      2.214595D+02           3.309700D-02
-      1.009096D+02           9.443100D-02
-      4.840115D+01           2.080770D-01
-      2.398536D+01           3.323330D-01
-      1.218250D+01           3.329870D-01
-      6.242298D+00           1.568430D-01
-      3.110944D+00           2.154900D-02
-      1.509958D+00          -2.095000D-03
-      7.108450D-01          -1.739000D-03
-      2.731900D-01          -3.000000D-04
-      1.042330D-01           2.900000D-05
-      3.829100D-02          -1.100000D-05
-P   16   1.00
-      1.774569D+04          -1.500000D-05
-      4.200721D+03          -1.300000D-04
-      1.364429D+03          -7.510000D-04
-      5.220806D+02          -3.329000D-03
-      2.214595D+02          -1.191200D-02
-      1.009096D+02          -3.493300D-02
-      4.840115D+01          -7.998900D-02
-      2.398536D+01          -1.346360D-01
-      1.218250D+01          -1.385980D-01
-      6.242298D+00           3.027800D-02
-      3.110944D+00           3.332160D-01
-      1.509958D+00           4.561530D-01
-      7.108450D-01           2.850510D-01
-      2.731900D-01           4.614400D-02
-      1.042330D-01          -3.249000D-03
-      3.829100D-02           1.357000D-03
-P   16   1.00
-      1.774569D+04           3.000000D-06
-      4.200721D+03           2.900000D-05
-      1.364429D+03           1.650000D-04
-      5.220806D+02           7.340000D-04
-      2.214595D+02           2.626000D-03
-      1.009096D+02           7.725000D-03
-      4.840115D+01           1.773300D-02
-      2.398536D+01           3.005500D-02
-      1.218250D+01           3.109400D-02
-      6.242298D+00          -1.004800D-02
-      3.110944D+00          -8.830600D-02
-      1.509958D+00          -1.298240D-01
-      7.108450D-01          -7.693700D-02
-      2.731900D-01           2.126610D-01
-      1.042330D-01           5.730610D-01
-      3.829100D-02           3.696510D-01
-P   16   1.00
-      1.774569D+04           5.000000D-06
-      4.200721D+03           4.200000D-05
-      1.364429D+03           2.410000D-04
-      5.220806D+02           1.085000D-03
-      2.214595D+02           3.831000D-03
-      1.009096D+02           1.142300D-02
-      4.840115D+01           2.579200D-02
-      2.398536D+01           4.481800D-02
-      1.218250D+01           4.459800D-02
-      6.242298D+00          -1.117700D-02
-      3.110944D+00          -1.381340D-01
-      1.509958D+00          -1.882850D-01
-      7.108450D-01          -1.073990D-01
-      2.731900D-01           4.448630D-01
-      1.042330D-01           6.402390D-01
-      3.829100D-02           6.445700D-02
-P   1   1.00
-      3.829100D-02           1.000000D+00
-D   8   1.00
-      1.133440D+02           3.530000D-03
-      3.364140D+01           2.578400D-02
-      1.233100D+01           9.911900D-02
-      4.994780D+00           2.390730D-01
-      2.072800D+00           3.571990D-01
-      8.307530D-01           3.621880D-01
-      3.091780D-01           2.364610D-01
-      1.001300D-01           6.011800D-02
-D   8   1.00
-      1.133440D+02          -3.890000D-03
-      3.364140D+01          -2.844200D-02
-      1.233100D+01          -1.124290D-01
-      4.994780D+00          -2.742570D-01
-      2.072800D+00          -3.155460D-01
-      8.307530D-01           5.710900D-02
-      3.091780D-01           5.636040D-01
-      1.001300D-01           3.846370D-01
-D   1   1.00
-      1.001300D-01           1.000000D+00
-F   2   1.00
-      3.224300D+00           4.222490D-01
-      7.758000D-01           7.714680D-01
-****
-Co     0
-S   20   1.00
-      4.675675D+06           7.979026D-06
-      7.001615D+05           6.204071D-05
-      1.593373D+05           3.261735D-04
-      4.513046D+04           1.375360D-03
-      1.472238D+04           4.979997D-03
-      5.314222D+03           1.596434D-02
-      2.072018D+03           4.552086D-02
-      8.586188D+02           1.127385D-01
-      3.735497D+02           2.268262D-01
-      1.689229D+02           3.203074D-01
-      7.829639D+01           2.374021D-01
-      3.552123D+01           7.477686D-02
-      1.704144D+01           9.581872D-02
-      8.173000D+00           9.649911D-02
-      3.610318D+00           1.623362D-02
-      1.697047D+00          -4.535497D-04
-      7.435320D-01           5.113519D-05
-      1.583440D-01          -4.174508D-05
-      7.503600D-02           4.027577D-05
-      3.309100D-02          -5.789067D-06
-S   20   1.00
-      4.675675D+06          -4.200240D-06
-      7.001615D+05          -3.265831D-05
-      1.593373D+05          -1.717644D-04
-      4.513046D+04          -7.247853D-04
-      1.472238D+04          -2.631462D-03
-      5.314222D+03          -8.489272D-03
-      2.072018D+03          -2.460619D-02
-      8.586188D+02          -6.322059D-02
-      3.735497D+02          -1.381957D-01
-      1.689229D+02          -2.340680D-01
-      7.829639D+01          -2.415002D-01
-      3.552123D+01           3.035312D-02
-      1.704144D+01           5.101341D-01
-      8.173000D+00           4.974939D-01
-      3.610318D+00           8.970746D-02
-      1.697047D+00          -5.941034D-03
-      7.435320D-01           2.175362D-04
-      1.583440D-01          -5.480155D-04
-      7.503600D-02           4.525804D-04
-      3.309100D-02          -1.066748D-04
-S   20   1.00
-      4.675675D+06           9.592692D-07
-      7.001615D+05           7.461851D-06
-      1.593373D+05           3.923137D-05
-      4.513046D+04           1.657706D-04
-      1.472238D+04           6.024335D-04
-      5.314222D+03           1.955217D-03
-      2.072018D+03           5.726326D-03
-      8.586188D+02           1.512984D-02
-      3.735497D+02           3.483973D-02
-      1.689229D+02           6.570351D-02
-      7.829639D+01           7.831503D-02
-      3.552123D+01          -1.877037D-02
-      1.704144D+01          -3.062663D-01
-      8.173000D+00          -4.566429D-01
-      3.610318D+00           1.378169D-01
-      1.697047D+00           7.193676D-01
-      7.435320D-01           3.992579D-01
-      1.583440D-01           2.079933D-02
-      7.503600D-02          -7.820663D-03
-      3.309100D-02           3.533911D-03
-S   20   1.00
-      4.675675D+06          -2.028840D-07
-      7.001615D+05          -1.577580D-06
-      1.593373D+05          -8.298813D-06
-      4.513046D+04          -3.504154D-05
-      1.472238D+04          -1.274655D-04
-      5.314222D+03          -4.132695D-04
-      2.072018D+03          -1.212261D-03
-      8.586188D+02          -3.199318D-03
-      3.735497D+02          -7.390972D-03
-      1.689229D+02          -1.393649D-02
-      7.829639D+01          -1.678575D-02
-      3.552123D+01           4.149856D-03
-      1.704144D+01           6.797646D-02
-      8.173000D+00           1.075807D-01
-      3.610318D+00          -4.166022D-02
-      1.697047D+00          -2.128044D-01
-      7.435320D-01          -2.381360D-01
-      1.583440D-01           2.650788D-01
-      7.503600D-02           5.722774D-01
-      3.309100D-02           3.091556D-01
-S   20   1.00
-      4.675675D+06          -3.863053D-07
-      7.001615D+05          -3.068788D-06
-      1.593373D+05          -1.564826D-05
-      4.513046D+04          -6.883588D-05
-      1.472238D+04          -2.377367D-04
-      5.314222D+03          -8.213173D-04
-      2.072018D+03          -2.229630D-03
-      8.586188D+02          -6.467841D-03
-      3.735497D+02          -1.325463D-02
-      1.689229D+02          -2.946686D-02
-      7.829639D+01          -2.599066D-02
-      3.552123D+01          -8.499807D-03
-      1.704144D+01           1.727316D-01
-      8.173000D+00           1.512189D-01
-      3.610318D+00           3.554509D-02
-      1.697047D+00          -8.829353D-01
-      7.435320D-01           2.143530D-01
-      1.583440D-01           1.711865D+00
-      7.503600D-02          -7.140037D-01
-      3.309100D-02          -8.027727D-01
-S   1   1.00
-      3.309100D-02           1.000000D+00
-P   16   1.00
-      1.926778D+04           4.100000D-05
-      4.560986D+03           3.690000D-04
-      1.481436D+03           2.128000D-03
-      5.668671D+02           9.372000D-03
-      2.404910D+02           3.315500D-02
-      1.096105D+02           9.475200D-02
-      5.259491D+01           2.090930D-01
-      2.608361D+01           3.337220D-01
-      1.326143D+01           3.322080D-01
-      6.799778D+00           1.546130D-01
-      3.393414D+00           2.090200D-02
-      1.648766D+00          -2.024000D-03
-      7.762820D-01          -1.697000D-03
-      2.980030D-01          -2.800000D-04
-      1.136180D-01           2.600000D-05
-      4.162400D-02          -1.000000D-05
-P   16   1.00
-      1.926778D+04          -1.500000D-05
-      4.560986D+03          -1.310000D-04
-      1.481436D+03          -7.580000D-04
-      5.668671D+02          -3.363000D-03
-      2.404910D+02          -1.205400D-02
-      1.096105D+02          -3.542400D-02
-      5.259491D+01          -8.128700D-02
-      2.608361D+01          -1.369080D-01
-      1.326143D+01          -1.390190D-01
-      6.799778D+00           3.546800D-02
-      3.393414D+00           3.384980D-01
-      1.648766D+00           4.544330D-01
-      7.762820D-01           2.797930D-01
-      2.980030D-01           4.477600D-02
-      1.136180D-01          -3.151000D-03
-      4.162400D-02           1.317000D-03
-P   16   1.00
-      1.926778D+04          -3.000000D-06
-      4.560986D+03          -2.900000D-05
-      1.481436D+03          -1.670000D-04
-      5.668671D+02          -7.420000D-04
-      2.404910D+02          -2.662000D-03
-      1.096105D+02          -7.841000D-03
-      5.259491D+01          -1.805100D-02
-      2.608361D+01          -3.058000D-02
-      1.326143D+01          -3.131200D-02
-      6.799778D+00           1.131100D-02
-      3.393414D+00           8.999000D-02
-      1.648766D+00           1.307330D-01
-      7.762820D-01           7.180800D-02
-      2.980030D-01          -2.216580D-01
-      1.136180D-01          -5.710250D-01
-      4.162400D-02          -3.637890D-01
-P   16   1.00
-      1.926778D+04           5.000000D-06
-      4.560986D+03           4.500000D-05
-      1.481436D+03           2.550000D-04
-      5.668671D+02           1.144000D-03
-      2.404910D+02           4.061000D-03
-      1.096105D+02           1.209500D-02
-      5.259491D+01           2.747600D-02
-      2.608361D+01           4.755700D-02
-      1.326143D+01           4.730200D-02
-      6.799778D+00          -1.441800D-02
-      3.393414D+00          -1.500620D-01
-      1.648766D+00          -1.990920D-01
-      7.762820D-01          -7.978300D-02
-      2.980030D-01           4.590350D-01
-      1.136180D-01           6.174950D-01
-      4.162400D-02           6.469000D-02
-P   1   1.00
-      4.162400D-02           1.000000D+00
-D   8   1.00
-      1.262640D+02           3.510000D-03
-      3.752260D+01           2.588400D-02
-      1.380210D+01           1.000580D-01
-      5.609270D+00           2.405470D-01
-      2.333690D+00           3.568430D-01
-      9.364150D-01           3.595790D-01
-      3.482370D-01           2.366290D-01
-      1.123530D-01           6.212900D-02
-D   8   1.00
-      1.262640D+02          -4.067000D-03
-      3.752260D+01          -3.005300D-02
-      1.380210D+01          -1.196200D-01
-      5.609270D+00          -2.915130D-01
-      2.333690D+00          -3.180480D-01
-      9.364150D-01           9.169800D-02
-      3.482370D-01           5.608230D-01
-      1.123530D-01           3.586780D-01
-D   1   1.00
-      1.123530D-01           1.000000D+00
-F   2   1.00
-      3.772400D+00           4.239660D-01
-      9.170000D-01           7.684290D-01
-****
-Ni     0
-S   20   1.00
-      5.045991D+06           8.208996D-06
-      7.556142D+05           6.382884D-05
-      1.719568D+05           3.355800D-04
-      4.870479D+04           1.415075D-03
-      1.588841D+04           5.124444D-03
-      5.735123D+03           1.643256D-02
-      2.236137D+03           4.689398D-02
-      9.266468D+02           1.163534D-01
-      4.031743D+02           2.350511D-01
-      1.823476D+02           3.350184D-01
-      8.454885D+01           2.534779D-01
-      3.839634D+01           7.300901D-02
-      1.845859D+01           6.184244D-02
-      8.863548D+00           6.302956D-02
-      3.916227D+00           1.008063D-02
-      1.838870D+00          -2.244528D-04
-      8.043620D-01          -5.932767D-05
-      1.697970D-01          -1.158562D-05
-      7.930600D-02           8.115109D-06
-      3.467700D-02          -1.681699D-06
-S   20   1.00
-      5.045991D+06          -3.657849D-06
-      7.556142D+05          -2.844094D-05
-      1.719568D+05          -1.495928D-04
-      4.870479D+04          -6.313009D-04
-      1.588841D+04          -2.293052D-03
-      5.735123D+03          -7.405123D-03
-      2.236137D+03          -2.152032D-02
-      9.266468D+02          -5.560974D-02
-      4.031743D+02          -1.230176D-01
-      1.823476D+02          -2.130104D-01
-      8.454885D+01          -2.265837D-01
-      3.839634D+01           3.546796D-02
-      1.845859D+01           5.181697D-01
-      8.863548D+00           5.025630D-01
-      3.916227D+00           8.955674D-02
-      1.838870D+00          -7.031311D-03
-      8.043620D-01          -4.339167D-04
-      1.697970D-01          -5.831711D-04
-      7.930600D-02           4.228788D-04
-      3.467700D-02          -1.266714D-04
-S   20   1.00
-      5.045991D+06           9.594149D-07
-      7.556142D+05           7.462614D-06
-      1.719568D+05           3.923843D-05
-      4.870479D+04           1.657868D-04
-      1.588841D+04           6.025905D-04
-      5.735123D+03           1.955662D-03
-      2.236137D+03           5.730391D-03
-      9.266468D+02           1.514756D-02
-      4.031743D+02           3.493499D-02
-      1.823476D+02           6.598072D-02
-      8.454885D+01           7.893083D-02
-      3.839634D+01          -1.906249D-02
-      1.845859D+01          -3.095921D-01
-      8.863548D+00          -4.558610D-01
-      3.916227D+00           1.482931D-01
-      1.838870D+00           7.134039D-01
-      8.043620D-01           3.976063D-01
-      1.697970D-01           2.295523D-02
-      7.930600D-02          -9.151758D-03
-      3.467700D-02           3.875414D-03
-S   20   1.00
-      5.045991D+06          -2.013753D-07
-      7.556142D+05          -1.565832D-06
-      1.719568D+05          -8.237182D-06
-      4.870479D+04          -3.478105D-05
-      1.588841D+04          -1.265265D-04
-      5.735123D+03          -4.102589D-04
-      2.236137D+03          -1.203834D-03
-      9.266468D+02          -3.179062D-03
-      4.031743D+02          -7.353828D-03
-      1.823476D+02          -1.389022D-02
-      8.454885D+01          -1.677875D-02
-      3.839634D+01           4.163378D-03
-      1.845859D+01           6.814703D-02
-      8.863548D+00           1.061029D-01
-      3.916227D+00          -4.339980D-02
-      1.838870D+00          -2.094950D-01
-      8.043620D-01          -2.310271D-01
-      1.697970D-01           2.590532D-01
-      7.930600D-02           5.691426D-01
-      3.467700D-02           3.158125D-01
-S   20   1.00
-      5.045991D+06          -3.924245D-07
-      7.556142D+05          -3.113909D-06
-      1.719568D+05          -1.590447D-05
-      4.870479D+04          -6.981394D-05
-      1.588841D+04          -2.417848D-04
-      5.735123D+03          -8.326195D-04
-      2.236137D+03          -2.270294D-03
-      9.266468D+02          -6.557427D-03
-      4.031743D+02          -1.354288D-02
-      1.823476D+02          -2.989768D-02
-      8.454885D+01          -2.693106D-02
-      3.839634D+01          -7.827693D-03
-      1.845859D+01           1.741667D-01
-      8.863548D+00           1.595468D-01
-      3.916227D+00           1.995550D-02
-      1.838870D+00          -8.897000D-01
-      8.043620D-01           2.486892D-01
-      1.697970D-01           1.613012D+00
-      7.930600D-02          -5.990277D-01
-      3.467700D-02          -8.369078D-01
-S   1   1.00
-      3.467700D-02           1.000000D+00
-P   16   1.00
-      2.102792D+04           4.100000D-05
-      4.977560D+03           3.630000D-04
-      1.616740D+03           2.097000D-03
-      6.186718D+02           9.250000D-03
-      2.625183D+02           3.279600D-02
-      1.196907D+02           9.400400D-02
-      5.746585D+01           2.082800D-01
-      2.852829D+01           3.336540D-01
-      1.452148D+01           3.329040D-01
-      7.453850D+00           1.553720D-01
-      3.723553D+00           2.085900D-02
-      1.809813D+00          -2.440000D-03
-      8.513360D-01          -1.998000D-03
-      3.248140D-01          -3.380000D-04
-      1.195220D-01           3.500000D-05
-      4.236600D-02          -1.200000D-05
-P   16   1.00
-      2.102792D+04          -1.500000D-05
-      4.977560D+03          -1.290000D-04
-      1.616740D+03          -7.490000D-04
-      6.186718D+02          -3.328000D-03
-      2.625183D+02          -1.194700D-02
-      1.196907D+02          -3.524200D-02
-      5.746585D+01          -8.120400D-02
-      2.852829D+01          -1.374930D-01
-      1.452148D+01          -1.392260D-01
-      7.453850D+00           3.601600D-02
-      3.723553D+00           3.391280D-01
-      1.809813D+00           4.504720D-01
-      8.513360D-01           2.817830D-01
-      3.248140D-01           4.789800D-02
-      1.195220D-01          -2.987000D-03
-      4.236600D-02           1.309000D-03
-P   16   1.00
-      2.102792D+04           3.000000D-06
-      4.977560D+03           2.600000D-05
-      1.616740D+03           1.520000D-04
-      6.186718D+02           6.780000D-04
-      2.625183D+02           2.427000D-03
-      1.196907D+02           7.201000D-03
-      5.746585D+01           1.657800D-02
-      2.852829D+01           2.839200D-02
-      1.452148D+01           2.859900D-02
-      7.453850D+00          -1.013200D-02
-      3.723553D+00          -8.291200D-02
-      1.809813D+00          -1.159980D-01
-      8.513360D-01          -7.279500D-02
-      3.248140D-01           1.956400D-01
-      1.195220D-01           5.670990D-01
-      4.236600D-02           3.952700D-01
-P   16   1.00
-      2.102792D+04           6.000000D-06
-      4.977560D+03           5.300000D-05
-      1.616740D+03           3.050000D-04
-      6.186718D+02           1.364000D-03
-      2.625183D+02           4.876000D-03
-      1.196907D+02           1.450300D-02
-      5.746585D+01           3.329600D-02
-      2.852829D+01           5.748200D-02
-      1.452148D+01           5.870200D-02
-      7.453850D+00          -1.990400D-02
-      3.723553D+00          -1.946950D-01
-      1.809813D+00          -2.396130D-01
-      8.513360D-01          -2.232000D-03
-      3.248140D-01           5.214350D-01
-      1.195220D-01           5.455400D-01
-      4.236600D-02           4.362200D-02
-P   1   1.00
-      4.236600D-02           1.000000D+00
-D   8   1.00
-      1.402527D+02           3.376000D-03
-      4.172610D+01           2.514100D-02
-      1.539810D+01           9.774600D-02
-      6.277100D+00           2.347090D-01
-      2.618500D+00           3.469450D-01
-      1.052600D+00           3.510680D-01
-      3.916000D-01           2.502550D-01
-      1.262000D-01           1.000820D-01
-D   8   1.00
-      1.402527D+02          -3.495000D-03
-      4.172610D+01          -2.601500D-02
-      1.539810D+01          -1.038760D-01
-      6.277100D+00          -2.520700D-01
-      2.618500D+00          -2.945800D-01
-      1.052600D+00           1.152000D-03
-      3.916000D-01           4.385890D-01
-      1.262000D-01           5.436260D-01
-D   1   1.00
-      1.262000D-01           1.000000D+00
-F   2   1.00
-      4.345500D+00           4.174290D-01
-      1.068000D+00           7.714830D-01
-****
-Cu     0
-S   20   1.00
-      5.430321D+06           7.801026D-06
-      8.131665D+05           6.065666D-05
-      1.850544D+05           3.188964D-04
-      5.241466D+04           1.344687D-03
-      1.709868D+04           4.869050D-03
-      6.171994D+03           1.561013D-02
-      2.406481D+03           4.452077D-02
-      9.972584D+02           1.103111D-01
-      4.339289D+02           2.220342D-01
-      1.962869D+02           3.133739D-01
-      9.104280D+01           2.315121D-01
-      4.138425D+01           7.640920D-02
-      1.993278D+01           1.103818D-01
-      9.581891D+00           1.094372D-01
-      4.234516D+00           1.836311D-02
-      1.985814D+00          -6.043084D-04
-      8.670830D-01           5.092245D-05
-      1.813390D-01          -5.540730D-05
-      8.365700D-02           3.969482D-05
-      3.626700D-02          -1.269538D-05
-S   20   1.00
-      5.430321D+06          -4.404706D-06
-      8.131665D+05          -3.424801D-05
-      1.850544D+05          -1.801238D-04
-      5.241466D+04          -7.600455D-04
-      1.709868D+04          -2.759348D-03
-      6.171994D+03          -8.900970D-03
-      2.406481D+03          -2.579378D-02
-      9.972584D+02          -6.623861D-02
-      4.339289D+02          -1.445927D-01
-      1.962869D+02          -2.440110D-01
-      9.104280D+01          -2.504837D-01
-      4.138425D+01           2.852577D-02
-      1.993278D+01           5.115874D-01
-      9.581891D+00           4.928061D-01
-      4.234516D+00           8.788437D-02
-      1.985814D+00          -5.820281D-03
-      8.670830D-01           2.013508D-04
-      1.813390D-01          -5.182553D-04
-      8.365700D-02           3.731503D-04
-      3.626700D-02          -1.193171D-04
-S   20   1.00
-      5.430321D+06           9.704682D-07
-      8.131665D+05           7.549245D-06
-      1.850544D+05           3.968892D-05
-      5.241466D+04           1.677200D-04
-      1.709868D+04           6.095101D-04
-      6.171994D+03           1.978846D-03
-      2.406481D+03           5.798049D-03
-      9.972584D+02           1.534158D-02
-      4.339289D+02           3.540484D-02
-      1.962869D+02           6.702098D-02
-      9.104280D+01           8.026945D-02
-      4.138425D+01          -1.927231D-02
-      1.993278D+01          -3.160129D-01
-      9.581891D+00          -4.573162D-01
-      4.234516D+00           1.550841D-01
-      1.985814D+00           7.202872D-01
-      8.670830D-01           3.885122D-01
-      1.813390D-01           1.924326D-02
-      8.365700D-02          -7.103807D-03
-      3.626700D-02           3.272906D-03
-S   20   1.00
-      5.430321D+06          -1.959354D-07
-      8.131665D+05          -1.523472D-06
-      1.850544D+05          -8.014808D-06
-      5.241466D+04          -3.383992D-05
-      1.709868D+04          -1.231191D-04
-      6.171994D+03          -3.992085D-04
-      2.406481D+03          -1.171900D-03
-      9.972584D+02          -3.096141D-03
-      4.339289D+02          -7.171993D-03
-      1.962869D+02          -1.356621D-02
-      9.104280D+01          -1.643989D-02
-      4.138425D+01           4.107628D-03
-      1.993278D+01           6.693964D-02
-      9.581891D+00           1.028221D-01
-      4.234516D+00          -4.422945D-02
-      1.985814D+00          -2.031191D-01
-      8.670830D-01          -2.230022D-01
-      1.813390D-01           2.517975D-01
-      8.365700D-02           5.650091D-01
-      3.626700D-02           3.247243D-01
-S   20   1.00
-      5.430321D+06          -3.532229D-07
-      8.131665D+05          -2.798812D-06
-      1.850544D+05          -1.432517D-05
-      5.241466D+04          -6.270946D-05
-      1.709868D+04          -2.179490D-04
-      6.171994D+03          -7.474316D-04
-      2.406481D+03          -2.049271D-03
-      9.972584D+02          -5.885203D-03
-      4.339289D+02          -1.226885D-02
-      1.962869D+02          -2.683147D-02
-      9.104280D+01          -2.479261D-02
-      4.138425D+01          -5.984746D-03
-      1.993278D+01           1.557124D-01
-      9.581891D+00           1.436683D-01
-      4.234516D+00           8.374103D-03
-      1.985814D+00          -7.460711D-01
-      8.670830D-01           1.244367D-01
-      1.813390D-01           1.510110D+00
-      8.365700D-02          -3.477122D-01
-      3.626700D-02          -9.774169D-01
-S   1   1.00
-      3.626700D-02           1.000000D+00
-P   16   1.00
-      2.276057D+04           4.000000D-05
-      5.387679D+03           3.610000D-04
-      1.749945D+03           2.083000D-03
-      6.696653D+02           9.197000D-03
-      2.841948D+02           3.266000D-02
-      1.296077D+02           9.379500D-02
-      6.225415D+01           2.082740D-01
-      3.092964D+01           3.339930D-01
-      1.575827D+01           3.324930D-01
-      8.094211D+00           1.547280D-01
-      4.046921D+00           2.127100D-02
-      1.967869D+00          -1.690000D-03
-      9.252950D-01          -1.516000D-03
-      3.529920D-01          -2.420000D-04
-      1.273070D-01           2.300000D-05
-      4.435600D-02          -9.000000D-06
-P   16   1.00
-      2.276057D+04          -1.500000D-05
-      5.387679D+03          -1.310000D-04
-      1.749945D+03          -7.550000D-04
-      6.696653D+02          -3.359000D-03
-      2.841948D+02          -1.208100D-02
-      1.296077D+02          -3.570300D-02
-      6.225415D+01          -8.250200D-02
-      3.092964D+01          -1.398900D-01
-      1.575827D+01          -1.407290D-01
-      8.094211D+00           3.876600D-02
-      4.046921D+00           3.426950D-01
-      1.967869D+00           4.523100D-01
-      9.252950D-01           2.770540D-01
-      3.529920D-01           4.388500D-02
-      1.273070D-01          -2.802000D-03
-      4.435600D-02           1.152000D-03
-P   16   1.00
-      2.276057D+04           3.000000D-06
-      5.387679D+03           2.500000D-05
-      1.749945D+03           1.470000D-04
-      6.696653D+02           6.560000D-04
-      2.841948D+02           2.351000D-03
-      1.296077D+02           7.004000D-03
-      6.225415D+01           1.613100D-02
-      3.092964D+01           2.777000D-02
-      1.575827D+01           2.756700D-02
-      8.094211D+00          -1.011500D-02
-      4.046921D+00          -8.100900D-02
-      1.967869D+00          -1.104090D-01
-      9.252950D-01          -7.173200D-02
-      3.529920D-01           1.879300D-01
-      1.273070D-01           5.646290D-01
-      4.435600D-02           4.070000D-01
-P   16   1.00
-      2.276057D+04           5.000000D-06
-      5.387679D+03           4.900000D-05
-      1.749945D+03           2.780000D-04
-      6.696653D+02           1.253000D-03
-      2.841948D+02           4.447000D-03
-      1.296077D+02           1.337000D-02
-      6.225415D+01           3.046900D-02
-      3.092964D+01           5.344700D-02
-      1.575827D+01           5.263900D-02
-      8.094211D+00          -1.688100D-02
-      4.046921D+00          -1.794480D-01
-      1.967869D+00          -2.095880D-01
-      9.252950D-01          -3.963300D-02
-      3.529920D-01           5.021300D-01
-      1.273070D-01           5.811110D-01
-      4.435600D-02           4.566600D-02
-P   1   1.00
-      4.435600D-02           1.000000D+00
-D   8   1.00
-      1.738970D+02           2.700000D-03
-      5.188690D+01           2.090900D-02
-      1.934190D+01           8.440800D-02
-      7.975720D+00           2.139990D-01
-      3.398230D+00           3.359800D-01
-      1.409320D+00           3.573010D-01
-      5.488580D-01           2.645780D-01
-      1.901990D-01           1.039720D-01
-D   8   1.00
-      1.738970D+02          -3.363000D-03
-      5.188690D+01          -2.607900D-02
-      1.934190D+01          -1.082310D-01
-      7.975720D+00          -2.822170D-01
-      3.398230D+00          -3.471900D-01
-      1.409320D+00           2.671100D-02
-      5.488580D-01           4.920470D-01
-      1.901990D-01           4.384220D-01
-D   1   1.00
-      1.901990D-01           1.000000D+00
-F   2   1.00
-      5.028600D+00           4.242800D-01
-      1.259400D+00           7.630250D-01
-****
-Zn     0
-S   20   1.00
-      5.820021D+06           8.549241D-06
-      8.715234D+05           6.647410D-05
-      1.983350D+05           3.494962D-04
-      5.617631D+04           1.473832D-03
-      1.832582D+04           5.338330D-03
-      6.614955D+03           1.712708D-02
-      2.579199D+03           4.894085D-02
-      1.068849D+03           1.217934D-01
-      4.651045D+02           2.476589D-01
-      2.104130D+02           3.582431D-01
-      9.761629D+01           2.798174D-01
-      4.438020D+01           6.857491D-02
-      2.142308D+01          -1.311092D-03
-      1.030891D+01           1.914001D-03
-      4.553645D+00          -8.759220D-04
-      2.132821D+00           3.740096D-04
-      9.296970D-01          -1.401399D-04
-      1.921470D-01           4.757132D-05
-      8.759500D-02          -3.642711D-05
-      3.770200D-02           1.153248D-05
-S   20   1.00
-      5.820021D+06          -2.640069D-06
-      8.715234D+05          -2.052720D-05
-      1.983350D+05          -1.079859D-04
-      5.617631D+04          -4.558577D-04
-      1.832582D+04          -1.657758D-03
-      6.614955D+03          -5.368492D-03
-      2.579199D+03          -1.571249D-02
-      1.068849D+03          -4.122558D-02
-      4.651045D+02          -9.406459D-02
-      2.104130D+02          -1.719954D-01
-      9.761629D+01          -1.958523D-01
-      4.438020D+01           4.532907D-02
-      2.142308D+01           5.244442D-01
-      1.030891D+01           5.006142D-01
-      4.553645D+00           8.945527D-02
-      2.132821D+00          -2.146262D-03
-      9.296970D-01           2.112113D-03
-      1.921470D-01          -4.133980D-04
-      8.759500D-02           3.209752D-04
-      3.770200D-02          -1.016140D-04
-S   20   1.00
-      5.820021D+06           9.967103D-07
-      8.715234D+05           7.754163D-06
-      1.983350D+05           4.076019D-05
-      5.617631D+04           1.722811D-04
-      1.832582D+04           6.259370D-04
-      6.614955D+03           2.032855D-03
-      2.579199D+03           5.954646D-03
-      1.068849D+03           1.576640D-02
-      4.651045D+02           3.637638D-02
-      2.104130D+02           6.892343D-02
-      9.761629D+01           8.238093D-02
-      4.438020D+01          -2.011360D-02
-      2.142308D+01          -3.252526D-01
-      1.030891D+01          -4.602899D-01
-      4.553645D+00           1.635546D-01
-      2.132821D+00           7.297118D-01
-      9.296970D-01           3.769751D-01
-      1.921470D-01           1.433224D-02
-      8.759500D-02          -6.671210D-03
-      3.770200D-02           1.766214D-03
-S   20   1.00
-      5.820021D+06           1.995818D-07
-      8.715234D+05           1.552973D-06
-      1.983350D+05           8.161259D-06
-      5.617631D+04           3.450747D-05
-      1.832582D+04           1.253275D-04
-      6.614955D+03           4.072990D-04
-      2.579199D+03           1.192734D-03
-      1.068849D+03           3.163140D-03
-      4.651045D+02           7.303942D-03
-      2.104130D+02           1.391279D-02
-      9.761629D+01           1.670620D-02
-      4.438020D+01          -4.035586D-03
-      2.142308D+01          -6.968861D-02
-      1.030891D+01          -1.030105D-01
-      4.553645D+00           4.471442D-02
-      2.132821D+00           2.150027D-01
-      9.296970D-01           2.220163D-01
-      1.921470D-01          -3.114776D-01
-      8.759500D-02          -5.693429D-01
-      3.770200D-02          -2.678440D-01
-S   20   1.00
-      5.820021D+06          -5.435910D-07
-      8.715234D+05          -4.336894D-06
-      1.983350D+05          -2.197572D-05
-      5.617631D+04          -9.747392D-05
-      1.832582D+04          -3.331615D-04
-      6.614955D+03          -1.166192D-03
-      2.579199D+03          -3.119308D-03
-      1.068849D+03          -9.239504D-03
-      4.651045D+02          -1.855471D-02
-      2.104130D+02          -4.281189D-02
-      9.761629D+01          -3.571095D-02
-      4.438020D+01          -1.638350D-02
-      2.142308D+01           2.644664D-01
-      1.030891D+01           2.086588D-01
-      4.553645D+00          -1.774382D-02
-      2.132821D+00          -1.353873D+00
-      9.296970D-01           8.182926D-01
-      1.921470D-01           1.695036D+00
-      8.759500D-02          -1.388656D+00
-      3.770200D-02          -2.188900D-01
-S   1   1.00
-      3.770200D-02           1.000000D+00
-P   16   1.00
-      2.441198D+04          -1.500000D-05
-      5.778518D+03          -1.350000D-04
-      1.876862D+03          -7.820000D-04
-      7.182361D+02          -3.478000D-03
-      3.048327D+02          -1.252000D-02
-      1.390453D+02          -3.701600D-02
-      6.680417D+01          -8.555900D-02
-      3.320699D+01          -1.447180D-01
-      1.692816D+01          -1.434420D-01
-      8.696229D+00           4.359500D-02
-      4.350510D+00           3.488880D-01
-      2.116523D+00           4.538650D-01
-      9.953870D-01           2.685940D-01
-      3.781120D-01           3.886800D-02
-      1.345790D-01          -2.492000D-03
-      4.628200D-02           1.014000D-03
-P   16   1.00
-      2.441198D+04           3.000000D-06
-      5.778518D+03           2.500000D-05
-      1.876862D+03           1.440000D-04
-      7.182361D+02           6.450000D-04
-      3.048327D+02           2.311000D-03
-      1.390453D+02           6.898000D-03
-      6.680417D+01           1.588200D-02
-      3.320699D+01           2.735000D-02
-      1.692816D+01           2.662100D-02
-      8.696229D+00          -1.085800D-02
-      4.350510D+00          -7.985300D-02
-      2.116523D+00          -1.061270D-01
-      9.953870D-01          -6.888300D-02
-      3.781120D-01           1.843850D-01
-      1.345790D-01           5.617880D-01
-      4.628200D-02           4.144160D-01
-P   16   1.00
-      2.441198D+04           5.000000D-06
-      5.778518D+03           4.200000D-05
-      1.876862D+03           2.380000D-04
-      7.182361D+02           1.088000D-03
-      3.048327D+02           3.821000D-03
-      1.390453D+02           1.164400D-02
-      6.680417D+01           2.616700D-02
-      3.320699D+01           4.675000D-02
-      1.692816D+01           4.330900D-02
-      8.696229D+00          -1.342900D-02
-      4.350510D+00          -1.538970D-01
-      2.116523D+00          -1.674130D-01
-      9.953870D-01          -8.499500D-02
-      3.781120D-01           4.508130D-01
-      1.345790D-01           6.408690D-01
-      4.628200D-02           5.417200D-02
-P   15   1.00
-      2.441198D+04           4.100000D-05
-      5.778518D+03           3.610000D-04
-      1.876862D+03           2.088000D-03
-      7.182361D+02           9.221000D-03
-      3.048327D+02           3.277300D-02
-      1.390453D+02           9.417900D-02
-      6.680417D+01           2.091320D-01
-      3.320699D+01           3.345690D-01
-      1.692816D+01           3.303590D-01
-      8.696229D+00           1.523470D-01
-      4.350510D+00           2.298400D-02
-      2.116523D+00           1.607000D-03
-      9.953870D-01           4.680000D-04
-      3.781120D-01           6.600000D-05
-      1.345790D-01          -2.000000D-06
-P   1   1.00
-      4.628200D-02           1.000000D+00
-D   8   1.00
-      2.056177D+02           2.342000D-03
-      6.144981D+01           1.860600D-02
-      2.305689D+01           7.710200D-02
-      9.577739D+00           2.020260D-01
-      4.133734D+00           3.294540D-01
-      1.747518D+00           3.609760D-01
-      6.995600D-01           2.716570D-01
-      2.516080D-01           1.049810D-01
-D   8   1.00
-      2.056177D+02           3.279000D-03
-      6.144981D+01           2.617600D-02
-      2.305689D+01           1.113670D-01
-      9.577739D+00           3.045810D-01
-      4.133734D+00           3.862990D-01
-      1.747518D+00          -5.837500D-02
-      6.995600D-01          -5.388760D-01
-      2.516080D-01          -3.454730D-01
-D   1   1.00
-      2.516080D-01           1.000000D+00
-F   2   1.00
-      5.734400D+00           4.311320D-01
-      1.461500D+00           7.546420D-01
-****
-Ga     0
-S   14   1.00
-      4.851300D+05           2.068000D-04
-      7.271900D+04           1.604700D-03
-      1.655200D+04           8.340200D-03
-      4.687800D+03           3.402480D-02
-      1.529100D+03           1.111699D-01
-      5.518100D+02           2.753930D-01
-      2.151800D+02           4.212628D-01
-      8.817400D+01           2.738906D-01
-      2.715400D+01           2.837200D-02
-      1.150300D+01          -6.293100D-03
-      3.301800D+00           2.060600D-03
-      1.331400D+00          -9.269000D-04
-      1.931600D-01           2.273000D-04
-      7.089500D-02          -1.063000D-04
-S   14   1.00
-      4.851300D+05          -6.430000D-05
-      7.271900D+04          -4.954000D-04
-      1.655200D+04          -2.620800D-03
-      4.687800D+03          -1.068390D-02
-      1.529100D+03          -3.741230D-02
-      5.518100D+02          -1.009636D-01
-      2.151800D+02          -2.145141D-01
-      8.817400D+01          -1.752297D-01
-      2.715400D+01           4.831599D-01
-      1.150300D+01           6.323677D-01
-      3.301800D+00           6.849420D-02
-      1.331400D+00          -1.187120D-02
-      1.931600D-01           2.665200D-03
-      7.089500D-02          -1.225100D-03
-S   14   1.00
-      4.851300D+05           2.450000D-05
-      7.271900D+04           1.895000D-04
-      1.655200D+04           9.964000D-04
-      4.687800D+03           4.108200D-03
-      1.529100D+03           1.429380D-02
-      5.518100D+02           3.980340D-02
-      2.151800D+02           8.559400D-02
-      8.817400D+01           7.963050D-02
-      2.715400D+01          -2.939107D-01
-      1.150300D+01          -5.263914D-01
-      3.301800D+00           5.864249D-01
-      1.331400D+00           6.726347D-01
-      1.931600D-01           2.761230D-02
-      7.089500D-02          -9.365100D-03
-S   14   1.00
-      4.851300D+05          -5.700000D-06
-      7.271900D+04          -4.400000D-05
-      1.655200D+04          -2.305000D-04
-      4.687800D+03          -9.544000D-04
-      1.529100D+03          -3.305500D-03
-      5.518100D+02          -9.288800D-03
-      2.151800D+02          -1.986440D-02
-      8.817400D+01          -1.908880D-02
-      2.715400D+01           7.323560D-02
-      1.150300D+01           1.341526D-01
-      3.301800D+00          -1.831929D-01
-      1.331400D+00          -3.571308D-01
-      1.931600D-01           6.246013D-01
-      7.089500D-02           5.238430D-01
-S   1   1.00
-      7.089500D-02           1.000000D+00
-P   11   1.00
-      3.248600D+03           1.526000D-03
-      7.699700D+02           1.274860D-02
-      2.482000D+02           6.337420D-02
-      9.336400D+01           2.065775D-01
-      3.825100D+01           4.092963D-01
-      1.642200D+01           3.919183D-01
-      6.791800D+00           1.029441D-01
-      2.833600D+00          -7.203000D-04
-      1.106200D+00           2.095000D-03
-      2.225000D-01          -3.290000D-04
-      6.177200D-02           1.162000D-04
-P   11   1.00
-      3.248600D+03          -5.803000D-04
-      7.699700D+02          -4.864700D-03
-      2.482000D+02          -2.483940D-02
-      9.336400D+01          -8.417590D-02
-      3.825100D+01          -1.800885D-01
-      1.642200D+01          -1.585555D-01
-      6.791800D+00           2.355376D-01
-      2.833600D+00           5.820587D-01
-      1.106200D+00           3.366619D-01
-      2.225000D-01           1.719120D-02
-      6.177200D-02          -3.326500D-03
-P   11   1.00
-      3.248600D+03           9.500000D-05
-      7.699700D+02           7.832000D-04
-      2.482000D+02           4.085500D-03
-      9.336400D+01           1.359870D-02
-      3.825100D+01           3.026950D-02
-      1.642200D+01           2.417900D-02
-      6.791800D+00          -4.237770D-02
-      2.833600D+00          -1.265661D-01
-      1.106200D+00          -4.994440D-02
-      2.225000D-01           4.494199D-01
-      6.177200D-02           6.718899D-01
-P   1   1.00
-      6.177200D-02           1.000000D+00
-D   5   1.00
-      6.533700D+01           2.738250D-02
-      1.849700D+01           1.510805D-01
-      6.315000D+00           3.749217D-01
-      2.163500D+00           4.750799D-01
-      6.667500D-01           2.982750D-01
-D   1   1.00
-      1.884000D-01           1.000000D+00
-****
-Ge     0
-S   14   1.00
-      5.218000D+05           2.045000D-04
-      7.821400D+04           1.586800D-03
-      1.780300D+04           8.248000D-03
-      5.041900D+03           3.366490D-02
-      1.644500D+03           1.101249D-01
-      5.934300D+02           2.735607D-01
-      2.313600D+02           4.210670D-01
-      9.476200D+01           2.766791D-01
-      2.927400D+01           2.921800D-02
-      1.245000D+01          -6.590300D-03
-      3.646300D+00           2.243000D-03
-      1.502500D+00          -1.038200D-03
-      2.450300D-01           2.695000D-04
-      9.159400D-02          -1.228000D-04
-S   14   1.00
-      5.218000D+05          -6.380000D-05
-      7.821400D+04          -4.916000D-04
-      1.780300D+04          -2.600200D-03
-      5.041900D+03          -1.060800D-02
-      1.644500D+03          -3.716020D-02
-      5.934300D+02          -1.005790D-01
-      2.313600D+02          -2.143977D-01
-      9.476200D+01          -1.782617D-01
-      2.927400D+01           4.777404D-01
-      1.245000D+01           6.355983D-01
-      3.646300D+00           7.221740D-02
-      1.502500D+00          -1.272650D-02
-      2.450300D-01           2.960800D-03
-      9.159400D-02          -1.329200D-03
-S   14   1.00
-      5.218000D+05           2.460000D-05
-      7.821400D+04           1.900000D-04
-      1.780300D+04           9.993000D-04
-      5.041900D+03           4.120000D-03
-      1.644500D+03           1.435570D-02
-      5.934300D+02           4.003750D-02
-      2.313600D+02           8.657940D-02
-      9.476200D+01           8.158610D-02
-      2.927400D+01          -2.934770D-01
-      1.245000D+01          -5.367983D-01
-      3.646300D+00           5.637985D-01
-      1.502500D+00           6.947182D-01
-      2.450300D-01           3.157300D-02
-      9.159400D-02          -9.894900D-03
-S   14   1.00
-      5.218000D+05          -6.300000D-06
-      7.821400D+04          -4.860000D-05
-      1.780300D+04          -2.553000D-04
-      5.041900D+03          -1.056000D-03
-      1.644500D+03          -3.667400D-03
-      5.934300D+02          -1.030530D-02
-      2.313600D+02          -2.222000D-02
-      9.476200D+01          -2.152750D-02
-      2.927400D+01           8.067520D-02
-      1.245000D+01           1.524958D-01
-      3.646300D+00          -1.980528D-01
-      1.502500D+00          -4.073954D-01
-      2.450300D-01           6.477288D-01
-      9.159400D-02           5.222033D-01
-S   1   1.00
-      9.159400D-02           1.000000D+00
-P   11   1.00
-      3.568100D+03           1.459100D-03
-      8.457200D+02           1.221760D-02
-      2.727400D+02           6.104900D-02
-      1.026800D+02           2.008039D-01
-      4.214800D+01           4.038942D-01
-      1.814900D+01           3.970027D-01
-      7.593400D+00           1.105481D-01
-      3.196400D+00           7.680000D-05
-      1.274300D+00           2.126300D-03
-      2.825800D-01          -3.744000D-04
-      8.409000D-02           1.321000D-04
-P   11   1.00
-      3.568100D+03          -5.630000D-04
-      8.457200D+02          -4.735400D-03
-      2.727400D+02          -2.426430D-02
-      1.026800D+02          -8.309000D-02
-      4.214800D+01          -1.800247D-01
-      1.814900D+01          -1.663295D-01
-      7.593400D+00           2.193717D-01
-      3.196400D+00           5.820239D-01
-      1.274300D+00           3.477720D-01
-      2.825800D-01           1.924550D-02
-      8.409000D-02          -3.482500D-03
-P   11   1.00
-      3.568100D+03           1.115000D-04
-      8.457200D+02           9.212000D-04
-      2.727400D+02           4.827300D-03
-      1.026800D+02           1.622720D-02
-      4.214800D+01           3.663540D-02
-      1.814900D+01           3.078670D-02
-      7.593400D+00          -4.806430D-02
-      3.196400D+00          -1.559804D-01
-      1.274300D+00          -6.323700D-02
-      2.825800D-01           5.040819D-01
-      8.409000D-02           6.182200D-01
-P   1   1.00
-      8.409000D-02           1.000000D+00
-D   5   1.00
-      7.476200D+01           2.576840D-02
-      2.130200D+01           1.454421D-01
-      7.343600D+00           3.713721D-01
-      2.565100D+00           4.800002D-01
-      8.197000D-01           2.896800D-01
-D   1   1.00
-      2.470000D-01           1.000000D+00
-****
-As     0
-S   14   1.00
-      5.595838D+05           2.024000D-04
-      8.387933D+04           1.570900D-03
-      1.909267D+04           8.166200D-03
-      5.407392D+03           3.333990D-02
-      1.763756D+03           1.091726D-01
-      6.364567D+02           2.718853D-01
-      2.480884D+02           4.208509D-01
-      1.015785D+02           2.792257D-01
-      3.147551D+01           3.003010D-02
-      1.343728D+01          -6.880400D-03
-      4.008690D+00           2.424000D-03
-      1.684929D+00          -1.149100D-03
-      3.000190D-01           3.095000D-04
-      1.135870D-01          -1.377000D-04
-S   14   1.00
-      5.595838D+05          -6.340000D-05
-      8.387933D+04          -4.883000D-04
-      1.909267D+04          -2.582100D-03
-      5.407392D+03          -1.054020D-02
-      1.763756D+03          -3.693250D-02
-      6.364567D+02          -1.002355D-01
-      2.480884D+02          -2.142948D-01
-      1.015785D+02          -1.810526D-01
-      3.147551D+01           4.725410D-01
-      1.343728D+01           6.386194D-01
-      4.008690D+00           7.581070D-02
-      1.684929D+00          -1.352780D-02
-      3.000190D-01           3.197000D-03
-      1.135870D-01          -1.405600D-03
-S   14   1.00
-      5.595838D+05           2.460000D-05
-      8.387933D+04           1.907000D-04
-      1.909267D+04           1.003100D-03
-      5.407392D+03           4.135300D-03
-      1.763756D+03           1.442590D-02
-      6.364567D+02           4.029620D-02
-      2.480884D+02           8.756700D-02
-      1.015785D+02           8.351780D-02
-      3.147551D+01          -2.932935D-01
-      1.343728D+01          -5.470520D-01
-      4.008690D+00           5.438738D-01
-      1.684929D+00           7.143591D-01
-      3.000190D-01           3.534430D-02
-      1.135870D-01          -1.028920D-02
-S   14   1.00
-      5.595838D+05          -6.800000D-06
-      8.387933D+04          -5.250000D-05
-      1.909267D+04          -2.756000D-04
-      5.407392D+03          -1.138900D-03
-      1.763756D+03          -3.964600D-03
-      6.364567D+02          -1.114230D-02
-      2.480884D+02          -2.419910D-02
-      1.015785D+02          -2.363390D-02
-      3.147551D+01           8.663170D-02
-      1.343728D+01           1.685839D-01
-      4.008690D+00          -2.091425D-01
-      1.684929D+00          -4.500918D-01
-      3.000190D-01           6.603978D-01
-      1.135870D-01           5.284152D-01
-S   1   1.00
-      1.135870D-01           1.000000D+00
-P   11   1.00
-      3.886356D+03           1.409700D-03
-      9.212020D+02           1.182770D-02
-      2.971932D+02           5.932800D-02
-      1.119751D+02           1.965115D-01
-      4.603462D+01           3.997891D-01
-      1.987419D+01           4.004653D-01
-      8.386088D+00           1.164196D-01
-      3.558728D+00           6.918000D-04
-      1.447282D+00           2.163300D-03
-      3.477790D-01          -4.150000D-04
-      1.076990D-01           1.452000D-04
-P   11   1.00
-      3.886356D+03          -5.519000D-04
-      9.212020D+02          -4.655000D-03
-      2.971932D+02          -2.391760D-02
-      1.119751D+02          -8.256270D-02
-      4.603462D+01          -1.806791D-01
-      1.987419D+01          -1.724848D-01
-      8.386088D+00           2.086700D-01
-      3.558728D+00           5.823622D-01
-      1.447282D+00           3.537465D-01
-      3.477790D-01           2.064390D-02
-      1.076990D-01          -3.638200D-03
-P   11   1.00
-      3.886356D+03           1.236000D-04
-      9.212020D+02           1.024000D-03
-      2.971932D+02           5.380500D-03
-      1.119751D+02           1.824430D-02
-      4.603462D+01           4.159790D-02
-      1.987419D+01           3.629980D-02
-      8.386088D+00          -5.235690D-02
-      3.558728D+00          -1.791667D-01
-      1.447282D+00          -7.404770D-02
-      3.477790D-01           5.358094D-01
-      1.076990D-01           5.888104D-01
-P   1   1.00
-      1.076990D-01           1.000000D+00
-D   5   1.00
-      8.442423D+01           2.452880D-02
-      2.418159D+01           1.411340D-01
-      8.401777D+00           3.687579D-01
-      2.980502D+00           4.840626D-01
-      9.790030D-01           2.824434D-01
-D   1   1.00
-      3.098000D-01           1.000000D+00
-****
-Se     0
-S   14   1.00
-      5.989900D+05           2.004000D-04
-      8.978300D+04           1.555400D-03
-      2.043500D+04           8.087200D-03
-      5.786900D+03           3.303440D-02
-      1.887300D+03           1.082924D-01
-      6.809700D+02           2.703361D-01
-      2.653900D+02           4.206236D-01
-      1.086300D+02           2.815922D-01
-      3.376000D+01           3.081100D-02
-      1.446500D+01          -7.161700D-03
-      4.389000D+00           2.602200D-03
-      1.878300D+00          -1.258300D-03
-      3.585900D-01           3.465000D-04
-      1.364900D-01          -1.503000D-04
-S   14   1.00
-      5.989900D+05          -6.290000D-05
-      8.978300D+04          -4.850000D-04
-      2.043500D+04          -2.564400D-03
-      5.786900D+03          -1.047610D-02
-      1.887300D+03          -3.672230D-02
-      6.809700D+02          -9.992250D-02
-      2.653900D+02          -2.141973D-01
-      1.086300D+02          -1.836593D-01
-      3.376000D+01           4.675454D-01
-      1.446500D+01           6.414740D-01
-      4.389000D+00           7.925690D-02
-      1.878300D+00          -1.426970D-02
-      3.585900D-01           3.379200D-03
-      1.364900D-01          -1.453700D-03
-S   14   1.00
-      5.989900D+05           2.470000D-05
-      8.978300D+04           1.913000D-04
-      2.043500D+04           1.006800D-03
-      5.786900D+03           4.151400D-03
-      1.887300D+03           1.449910D-02
-      6.809700D+02           4.056580D-02
-      2.653900D+02           8.853640D-02
-      1.086300D+02           8.542120D-02
-      3.376000D+01          -2.932581D-01
-      1.446500D+01          -5.570727D-01
-      4.389000D+00           5.261436D-01
-      1.878300D+00           7.320371D-01
-      3.585900D-01           3.882460D-02
-      1.364900D-01          -1.050360D-02
-S   14   1.00
-      5.989900D+05          -7.200000D-06
-      8.978300D+04          -5.590000D-05
-      2.043500D+04          -2.938000D-04
-      5.786900D+03          -1.213600D-03
-      1.887300D+03          -4.234000D-03
-      6.809700D+02          -1.190350D-02
-      2.653900D+02          -2.602060D-02
-      1.086300D+02          -2.561480D-02
-      3.376000D+01           9.194270D-02
-      1.446500D+01           1.838700D-01
-      4.389000D+00          -2.188461D-01
-      1.878300D+00          -4.896524D-01
-      3.585900D-01           6.775818D-01
-      1.364900D-01           5.296721D-01
-S   1   1.00
-      1.364900D-01           1.000000D+00
-P   11   1.00
-      4.135600D+03           1.412700D-03
-      9.803400D+02           1.185880D-02
-      3.163500D+02           5.951530D-02
-      1.192500D+02           1.972201D-01
-      4.906800D+01           4.007439D-01
-      2.121200D+01           3.994740D-01
-      8.946200D+00           1.153364D-01
-      3.823600D+00           2.219000D-04
-      1.588300D+00           2.283800D-03
-      4.096900D-01          -4.756000D-04
-      1.245900D-01           1.516000D-04
-P   11   1.00
-      4.135600D+03          -5.610000D-04
-      9.803400D+02          -4.734000D-03
-      3.163500D+02          -2.435040D-02
-      1.192500D+02          -8.410710D-02
-      4.906800D+01          -1.841384D-01
-      2.121200D+01          -1.735004D-01
-      8.946200D+00           2.167263D-01
-      3.823600D+00           5.850099D-01
-      1.588300D+00           3.416816D-01
-      4.096900D-01           1.991250D-02
-      1.245900D-01          -2.613100D-03
-P   11   1.00
-      4.135600D+03           1.366000D-04
-      9.803400D+02           1.130800D-03
-      3.163500D+02           5.958100D-03
-      1.192500D+02           2.018660D-02
-      4.906800D+01           4.619390D-02
-      2.121200D+01           3.940500D-02
-      8.946200D+00          -5.928460D-02
-      3.823600D+00          -2.014663D-01
-      1.588300D+00          -6.878210D-02
-      4.096900D-01           5.595944D-01
-      1.245900D-01           5.709784D-01
-P   1   1.00
-      1.245900D-01           1.000000D+00
-D   5   1.00
-      9.447200D+01           2.349820D-02
-      2.718000D+01           1.375183D-01
-      9.506800D+00           3.664824D-01
-      3.416800D+00           4.874717D-01
-      1.147900D+00           2.765769D-01
-D   1   1.00
-      3.682000D-01           1.000000D+00
-****
-Br     0
-S   14   1.00
-      6.401000D+05           1.984000D-04
-      9.593800D+04           1.540000D-03
-      2.183300D+04           8.009600D-03
-      6.181900D+03           3.273410D-02
-      2.015700D+03           1.074480D-01
-      7.271000D+02           2.688946D-01
-      2.832800D+02           4.204411D-01
-      1.159100D+02           2.838041D-01
-      3.612400D+01           3.154550D-02
-      1.553200D+01          -7.426800D-03
-      4.785700D+00           2.772800D-03
-      2.081700D+00          -1.363500D-03
-      4.202800D-01           3.812000D-04
-      1.606900D-01          -1.615000D-04
-S   14   1.00
-      6.401000D+05          -6.250000D-05
-      9.593800D+04          -4.816000D-04
-      2.183300D+04          -2.546600D-03
-      6.181900D+03          -1.041120D-02
-      2.015700D+03          -3.651790D-02
-      7.271000D+02          -9.962950D-02
-      2.832800D+02          -2.141310D-01
-      1.159100D+02          -1.860911D-01
-      3.612400D+01           4.628261D-01
-      1.553200D+01           6.441141D-01
-      4.785700D+00           8.255020D-02
-      2.081700D+00          -1.496940D-02
-      4.202800D-01           3.528800D-03
-      1.606900D-01          -1.490900D-03
-S   14   1.00
-      6.401000D+05           2.480000D-05
-      9.593800D+04           1.919000D-04
-      2.183300D+04           1.010000D-03
-      6.181900D+03           4.165900D-03
-      2.015700D+03           1.456830D-02
-      7.271000D+02           4.083450D-02
-      2.832800D+02           8.948590D-02
-      1.159100D+02           8.727860D-02
-      3.612400D+01          -2.933644D-01
-      1.553200D+01          -5.667109D-01
-      4.785700D+00           5.105658D-01
-      2.081700D+00           7.477214D-01
-      4.202800D-01           4.215120D-02
-      1.606900D-01          -1.066120D-02
-S   14   1.00
-      6.401000D+05          -7.600000D-06
-      9.593800D+04          -5.880000D-05
-      2.183300D+04          -3.092000D-04
-      6.181900D+03          -1.276600D-03
-      2.015700D+03          -4.463400D-03
-      7.271000D+02          -1.255750D-02
-      2.832800D+02          -2.761450D-02
-      1.159100D+02          -2.739450D-02
-      3.612400D+01           9.640940D-02
-      1.553200D+01           1.976871D-01
-      4.785700D+00          -2.266693D-01
-      2.081700D+00          -5.241165D-01
-      4.202800D-01           6.889865D-01
-      1.606900D-01           5.344331D-01
-S   1   1.00
-      1.606900D-01           1.000000D+00
-P   11   1.00
-      4.340800D+03           1.444800D-03
-      1.028900D+03           1.212880D-02
-      3.320200D+02           6.080770D-02
-      1.251600D+02           2.009358D-01
-      5.151100D+01           4.047419D-01
-      2.228100D+01           3.957151D-01
-      9.341700D+00           1.102213D-01
-      4.013200D+00          -9.090000D-04
-      1.700200D+00           2.483200D-03
-      4.719400D-01          -5.744000D-04
-      1.442100D-01           1.691000D-04
-P   11   1.00
-      4.340800D+03          -5.819000D-04
-      1.028900D+03          -4.906500D-03
-      3.320200D+02          -2.525140D-02
-      1.251600D+02          -8.694450D-02
-      5.151100D+01          -1.893422D-01
-      2.228100D+01          -1.710882D-01
-      9.341700D+00           2.368755D-01
-      4.013200D+00           5.898400D-01
-      1.700200D+00           3.171944D-01
-      4.719400D-01           1.798330D-02
-      1.442100D-01          -1.468300D-03
-P   11   1.00
-      4.340800D+03           1.518000D-04
-      1.028900D+03           1.256300D-03
-      3.320200D+02           6.622400D-03
-      1.251600D+02           2.238160D-02
-      5.151100D+01           5.097170D-02
-      2.228100D+01           4.140090D-02
-      9.341700D+00          -7.039700D-02
-      4.013200D+00          -2.232540D-01
-      1.700200D+00          -5.641790D-02
-      4.719400D-01           5.808079D-01
-      1.442100D-01           5.508132D-01
-P   1   1.00
-      1.442100D-01           1.000000D+00
-D   5   1.00
-      1.048300D+02           2.265830D-02
-      3.027200D+01           1.345895D-01
-      1.064900D+01           3.647181D-01
-      3.869600D+00           4.904196D-01
-      1.323900D+00           2.713885D-01
-D   1   1.00
-      4.098000D-01           1.000000D+00
-****
-Kr     0
-S   14   1.00
-      6.813588D+05           1.969000D-04
-      1.021265D+05           1.528600D-03
-      2.324371D+04           7.950000D-03
-      6.582007D+03           3.249380D-02
-      2.146429D+03           1.067240D-01
-      7.743378D+02           2.675701D-01
-      3.016702D+02           4.201851D-01
-      1.234118D+02           2.858015D-01
-      3.856755D+01           3.224610D-02
-      1.663738D+01          -7.682800D-03
-      5.198795D+00           2.939300D-03
-      2.294814D+00          -1.466200D-03
-      4.852110D-01           4.144000D-04
-      1.862700D-01          -1.720000D-04
-S   14   1.00
-      6.813588D+05          -6.220000D-05
-      1.021265D+05          -4.794000D-04
-      2.324371D+04          -2.534100D-03
-      6.582007D+03          -1.036360D-02
-      2.146429D+03          -3.635160D-02
-      7.743378D+02          -9.937370D-02
-      3.016702D+02          -2.140610D-01
-      1.234118D+02          -1.883192D-01
-      3.856755D+01           4.583816D-01
-      1.663738D+01           6.465664D-01
-      5.198795D+00           8.565790D-02
-      2.294814D+00          -1.561230D-02
-      4.852110D-01           3.649000D-03
-      1.862700D-01          -1.518900D-03
-S   14   1.00
-      6.813588D+05           2.490000D-05
-      1.021265D+05           1.928000D-04
-      2.324371D+04           1.014900D-03
-      6.582007D+03           4.185700D-03
-      2.146429D+03           1.464590D-02
-      7.743378D+02           4.110700D-02
-      3.016702D+02           9.039550D-02
-      1.234118D+02           8.906230D-02
-      3.856755D+01          -2.935718D-01
-      1.663738D+01          -5.759698D-01
-      5.198795D+00           4.968578D-01
-      2.294814D+00           7.616895D-01
-      4.852110D-01           4.532670D-02
-      1.862700D-01          -1.077220D-02
-S   14   1.00
-      6.813588D+05          -7.900000D-06
-      1.021265D+05          -6.140000D-05
-      2.324371D+04          -3.230000D-04
-      6.582007D+03          -1.333000D-03
-      2.146429D+03          -4.667200D-03
-      7.743378D+02          -1.313520D-02
-      3.016702D+02          -2.903420D-02
-      1.234118D+02          -2.901730D-02
-      3.856755D+01           1.002664D-01
-      1.663738D+01           2.103818D-01
-      5.198795D+00          -2.332471D-01
-      2.294814D+00          -5.546497D-01
-      4.852110D-01           6.969522D-01
-      1.862700D-01           5.408152D-01
-S   1   1.00
-      1.862700D-01           1.000000D+00
-P   11   1.00
-      4.474270D+03           1.519500D-03
-      1.060579D+03           1.274240D-02
-      3.422081D+02           6.364650D-02
-      1.289984D+02           2.085635D-01
-      5.308722D+01           4.122423D-01
-      2.295942D+01           3.878103D-01
-      9.507300D+00           1.003820D-01
-      4.083055D+00          -2.507800D-03
-      1.750446D+00           2.713900D-03
-      5.291900D-01          -6.977000D-04
-      1.643690D-01           2.107000D-04
-P   11   1.00
-      4.474270D+03          -6.208000D-04
-      1.060579D+03          -5.221200D-03
-      3.422081D+02          -2.684630D-02
-      1.289984D+02          -9.158230D-02
-      5.308722D+01          -1.968164D-01
-      2.295942D+01          -1.634750D-01
-      9.507300D+00           2.738204D-01
-      4.083055D+00           5.981592D-01
-      1.750446D+00           2.750453D-01
-      5.291900D-01           1.277060D-02
-      1.643690D-01          -1.013500D-03
-P   11   1.00
-      4.474270D+03           1.701000D-04
-      1.060579D+03           1.406400D-03
-      3.422081D+02           7.396300D-03
-      1.289984D+02           2.482540D-02
-      5.308722D+01           5.571550D-02
-      2.295942D+01           4.121320D-02
-      9.507300D+00          -8.760570D-02
-      4.083055D+00          -2.440586D-01
-      1.750446D+00          -2.950070D-02
-      5.291900D-01           6.012295D-01
-      1.643690D-01           5.254807D-01
-P   1   1.00
-      1.643690D-01           1.000000D+00
-D   5   1.00
-      1.155253D+02           2.195570D-02
-      3.346525D+01           1.321620D-01
-      1.183046D+01           3.633484D-01
-      4.339771D+00           4.929582D-01
-      1.507524D+00           2.667560D-01
-D   1   1.00
-      5.030000D-01           1.000000D+00
-****
-
diff --git a/third_party/gauxc/tests/basis/old/6-31g-star.g94 b/third_party/gauxc/tests/basis/old/6-31g-star.g94
deleted file mode 100644
index 7441a1f..0000000
--- a/third_party/gauxc/tests/basis/old/6-31g-star.g94
+++ /dev/null
@@ -1,804 +0,0 @@
-!  6-31G*  EMSL  Basis Set Exchange Library   4/12/14 5:25
-! Elements                             References
-! --------                             ----------
-! H - He: W.J. Hehre, R. Ditchfield and J.A. Pople, J. Chem. Phys. 56,
-! Li - Ne: 2257 (1972).  Note: Li and B come from J.D. Dill and J.A.
-! Pople, J. Chem. Phys. 62, 2921 (1975).
-! Na - Ar: M.M. Francl, W.J. Petro, W.J. Hehre, J.S. Binkley, M.S. Gordon,
-! D.J. DeFrees and J.A. Pople, J. Chem. Phys. 77, 3654 (1982)
-! K  - Zn: V. Rassolov, J.A. Pople, M. Ratner and T.L. Windus, J. Chem. Phys.
-! 109, 1223 (1998)
-! Note: He and Ne are unpublished basis sets taken from the Gaussian
-! program
-! 
-
-
-! Elements                             References
-! --------                             ----------
-! Li - Ne: P.C. Hariharan and J.A. Pople, Theoret. Chimica Acta 28, 213 (1973).
-! Na - Ar: M.M. Francl, W.J. Petro, W.J. Hehre, J.S. Binkley, M.S. Gordon, D.J.
-!          DeFrees and J.A. Pople, J. Chem. Phys. 77, 3654 (1982).
-! K  - Zn: V. Rassolov, J.A. Pople, M. Ratner and T.L. Windus, J. Chem. Phys. 
-!          109, 1223 (1998) 
-!          
-!          Note: He and Ne are unpublished basis sets taken from Gaussian.
-!   
-
-****
-H     0 
-S   3   1.00
-     18.7311370              0.03349460       
-      2.8253937              0.23472695       
-      0.6401217              0.81375733       
-S   1   1.00
-      0.1612778              1.0000000        
-****
-He     0 
-S   3   1.00
-     38.4216340              0.0237660        
-      5.7780300              0.1546790        
-      1.2417740              0.4696300        
-S   1   1.00
-      0.2979640              1.0000000        
-****
-Li     0 
-S   6   1.00
-    642.4189200              0.0021426        
-     96.7985150              0.0162089        
-     22.0911210              0.0773156        
-      6.2010703              0.2457860        
-      1.9351177              0.4701890        
-      0.6367358              0.3454708        
-SP   3   1.00
-      2.3249184             -0.0350917              0.0089415        
-      0.6324306             -0.1912328              0.1410095        
-      0.0790534              1.0839878              0.9453637        
-SP   1   1.00
-      0.0359620              1.0000000              1.0000000        
-D   1   1.00
-      0.2000000              1.0000000        
-****
-Be     0 
-S   6   1.00
-   1264.5857000              0.0019448        
-    189.9368100              0.0148351        
-     43.1590890              0.0720906        
-     12.0986630              0.2371542        
-      3.8063232              0.4691987        
-      1.2728903              0.3565202        
-SP   3   1.00
-      3.1964631             -0.1126487              0.0559802        
-      0.7478133             -0.2295064              0.2615506        
-      0.2199663              1.1869167              0.7939723        
-SP   1   1.00
-      0.0823099              1.0000000              1.0000000        
-D   1   1.00
-      0.4000000              1.0000000        
-****
-B     0 
-S   6   1.00
-   2068.8823000              0.0018663        
-    310.6495700              0.0142515        
-     70.6830330              0.0695516        
-     19.8610800              0.2325729        
-      6.2993048              0.4670787        
-      2.1270270              0.3634314        
-SP   3   1.00
-      4.7279710             -0.1303938              0.0745976        
-      1.1903377             -0.1307889              0.3078467        
-      0.3594117              1.1309444              0.7434568        
-SP   1   1.00
-      0.1267512              1.0000000              1.0000000        
-D   1   1.00
-      0.6000000              1.0000000        
-****
-C     0 
-S   6   1.00
-   3047.5249000              0.0018347        
-    457.3695100              0.0140373        
-    103.9486900              0.0688426        
-     29.2101550              0.2321844        
-      9.2866630              0.4679413        
-      3.1639270              0.3623120        
-SP   3   1.00
-      7.8682724             -0.1193324              0.0689991        
-      1.8812885             -0.1608542              0.3164240        
-      0.5442493              1.1434564              0.7443083        
-SP   1   1.00
-      0.1687144              1.0000000              1.0000000        
-D   1   1.00
-      0.8000000              1.0000000        
-****
-N     0 
-S   6   1.00
-   4173.5110000              0.0018348        
-    627.4579000              0.0139950        
-    142.9021000              0.0685870        
-     40.2343300              0.2322410        
-     12.8202100              0.4690700        
-      4.3904370              0.3604550        
-SP   3   1.00
-     11.6263580             -0.1149610              0.0675800        
-      2.7162800             -0.1691180              0.3239070        
-      0.7722180              1.1458520              0.7408950        
-SP   1   1.00
-      0.2120313              1.0000000              1.0000000        
-D   1   1.00
-      0.8000000              1.0000000        
-****
-O     0 
-S   6   1.00
-   5484.6717000              0.0018311        
-    825.2349500              0.0139501        
-    188.0469600              0.0684451        
-     52.9645000              0.2327143        
-     16.8975700              0.4701930        
-      5.7996353              0.3585209        
-SP   3   1.00
-     15.5396160             -0.1107775              0.0708743        
-      3.5999336             -0.1480263              0.3397528        
-      1.0137618              1.1307670              0.7271586        
-SP   1   1.00
-      0.2700058              1.0000000              1.0000000        
-D   1   1.00
-      0.8000000              1.0000000        
-****
-F     0 
-S   6   1.00
-   7001.7130900              0.0018196169     
-   1051.3660900              0.0139160796     
-    239.2856900              0.0684053245     
-     67.3974453              0.233185760      
-     21.5199573              0.471267439      
-      7.40310130             0.356618546      
-SP   3   1.00
-     20.8479528             -0.108506975            0.0716287243     
-      4.80830834            -0.146451658            0.3459121030     
-      1.34406986             1.128688580            0.7224699570     
-SP   1   1.00
-      0.358151393            1.0000000              1.0000000        
-D   1   1.00
-      0.8000000              1.0000000        
-****
-Ne     0 
-S   6   1.00
-   8425.8515300              0.0018843481     
-   1268.5194000              0.0143368994     
-    289.6214140              0.0701096233     
-     81.8590040              0.2373732660     
-     26.2515079              0.4730071260     
-      9.09472051             0.3484012410     
-SP   3   1.00
-     26.5321310             -0.107118287            0.0719095885     
-      6.10175501            -0.146163821            0.3495133720     
-      1.69627153             1.127773500            0.7199405120     
-SP   1   1.00
-      0.44581870             1.0000000              1.0000000        
-D   1   1.00
-      0.8000000              1.0000000        
-****
-Na     0 
-S   6   1.00
-   9993.2000000              0.0019377        
-   1499.8900000              0.0148070        
-    341.9510000              0.0727060        
-     94.6797000              0.2526290        
-     29.7345000              0.4932420        
-     10.0063000              0.3131690        
-SP   6   1.00
-    150.9630000             -0.0035421              0.0050017        
-     35.5878000             -0.0439590              0.0355110        
-     11.1683000             -0.1097521              0.1428250        
-      3.9020100              0.1873980              0.3386200        
-      1.3817700              0.6466990              0.4515790        
-      0.4663820              0.3060580              0.2732710        
-SP   3   1.00
-      0.4979660             -0.2485030             -0.0230230        
-      0.0843530             -0.1317040              0.9503590        
-      0.0666350              1.2335200              0.0598580        
-SP   1   1.00
-      0.0259544              1.0000000              1.0000000        
-D   1   1.00
-      0.1750000              1.0000000        
-****
-Mg     0 
-S   6   1.00
-  11722.8000000              0.0019778        
-   1759.9300000              0.0151140        
-    400.8460000              0.0739110        
-    112.8070000              0.2491910        
-     35.9997000              0.4879280        
-     12.1828000              0.3196620        
-SP   6   1.00
-    189.1800000             -0.0032372              0.0049281        
-     45.2119000             -0.0410080              0.0349890        
-     14.3563000             -0.1126000              0.1407250        
-      5.1388600              0.1486330              0.3336420        
-      1.9065200              0.6164970              0.4449400        
-      0.7058870              0.3648290              0.2692540        
-SP   3   1.00
-      0.9293400             -0.2122900             -0.0224190        
-      0.2690350             -0.1079850              0.1922700        
-      0.1173790              1.1758400              0.8461810        
-SP   1   1.00
-      0.0421061              1.0000000              1.0000000        
-D   1   1.00
-      0.1750000              1.0000000        
-****
-Al     0 
-S   6   1.00
-  13983.1000000              0.00194267       
-   2098.7500000              0.0148599        
-    477.7050000              0.0728494        
-    134.3600000              0.2468300        
-     42.8709000              0.4872580        
-     14.5189000              0.3234960        
-SP   6   1.00
-    239.6680000             -0.00292619             0.00460285       
-     57.4419000             -0.0374080              0.0331990        
-     18.2859000             -0.1144870              0.1362820        
-      6.5991400              0.1156350              0.3304760        
-      2.4904900              0.6125950              0.4491460        
-      0.9445400              0.3937990              0.2657040        
-SP   3   1.00
-      1.2779000             -0.2276060             -0.0175130        
-      0.3975900              0.00144583             0.2445330        
-      0.1600950              1.0927900              0.8049340        
-SP   1   1.00
-      0.0556577              1.0000000              1.0000000        
-D   1   1.00
-      0.3250000              1.0000000        
-****
-Si     0 
-S   6   1.00
-  16115.9000000              0.00195948       
-   2425.5800000              0.01492880       
-    553.8670000              0.07284780       
-    156.3400000              0.24613000       
-     50.0683000              0.48591400       
-     17.0178000              0.32500200       
-SP   6   1.00
-    292.7180000             -0.00278094             0.00443826       
-     69.8731000             -0.03571460             0.03266790       
-     22.3363000             -0.11498500             0.13472100       
-      8.1503900              0.09356340             0.32867800       
-      3.1345800              0.60301700             0.44964000       
-      1.2254300              0.41895900             0.26137200       
-SP   3   1.00
-      1.7273800             -0.24463000            -0.01779510       
-      0.5729220              0.00431572             0.25353900       
-      0.2221920              1.09818000             0.80066900       
-SP   1   1.00
-      0.0778369              1.00000000             1.00000000       
-D   1   1.00
-      0.4500000              1.0000000        
-****
-P     0 
-S   6   1.00
-  19413.3000000              0.0018516        
-   2909.4200000              0.0142062        
-    661.3640000              0.0699995        
-    185.7590000              0.2400790        
-     59.1943000              0.4847620        
-     20.0310000              0.3352000        
-SP   6   1.00
-    339.4780000             -0.00278217             0.00456462       
-     81.0101000             -0.0360499              0.03369360       
-     25.8780000             -0.1166310              0.13975500       
-      9.4522100              0.0968328              0.33936200       
-      3.6656600              0.6144180              0.45092100       
-      1.4674600              0.4037980              0.23858600       
-SP   3   1.00
-      2.1562300             -0.2529230             -0.01776530       
-      0.7489970              0.0328517              0.27405800       
-      0.2831450              1.0812500              0.78542100       
-SP   1   1.00
-      0.0998317              1.0000000              1.00000000       
-D   1   1.00
-      0.5500000              1.0000000        
-****
-S     0 
-S   6   1.00
-  21917.1000000              0.0018690        
-   3301.4900000              0.0142300        
-    754.1460000              0.0696960        
-    212.7110000              0.2384870        
-     67.9896000              0.4833070        
-     23.0515000              0.3380740        
-SP   6   1.00
-    423.7350000             -0.0023767              0.0040610        
-    100.7100000             -0.0316930              0.0306810        
-     32.1599000             -0.1133170              0.1304520        
-     11.8079000              0.0560900              0.3272050        
-      4.6311000              0.5922550              0.4528510        
-      1.8702500              0.4550060              0.2560420        
-SP   3   1.00
-      2.6158400             -0.2503740             -0.0145110        
-      0.9221670              0.0669570              0.3102630        
-      0.3412870              1.0545100              0.7544830        
-SP   1   1.00
-      0.1171670              1.0000000              1.0000000        
-D   1   1.00
-      0.6500000              1.0000000        
-****
-Cl     0 
-S   6   1.00
-  25180.1000000              0.0018330        
-   3780.3500000              0.0140340        
-    860.4740000              0.0690970        
-    242.1450000              0.2374520        
-     77.3349000              0.4830340        
-     26.2470000              0.3398560        
-SP   6   1.00
-    491.7650000             -0.0022974              0.0039894        
-    116.9840000             -0.0307140              0.0303180        
-     37.4153000             -0.1125280              0.1298800        
-     13.7834000              0.0450160              0.3279510        
-      5.4521500              0.5893530              0.4535270        
-      2.2258800              0.4652060              0.2521540        
-SP   3   1.00
-      3.1864900             -0.2518300             -0.0142990        
-      1.1442700              0.0615890              0.3235720        
-      0.4203770              1.0601800              0.7435070        
-SP   1   1.00
-      0.1426570              1.0000000              1.0000000        
-D   1   1.00
-      0.7500000              1.0000000        
-****
-Ar     0 
-S   6   1.00
-  28348.3000000              0.00182526       
-   4257.6200000              0.01396860       
-    969.8570000              0.06870730       
-    273.2630000              0.23620400       
-     87.3695000              0.48221400       
-     29.6867000              0.34204300       
-SP   6   1.00
-    575.8910000             -0.00215972             0.00380665       
-    136.8160000             -0.02907750             0.02923050       
-     43.8098000             -0.11082700             0.12646700       
-     16.2094000              0.02769990             0.32351000       
-      6.4608400              0.57761300             0.45489600       
-      2.6511400              0.48868800             0.25663000       
-SP   3   1.00
-      3.8602800             -0.2555920             -0.01591970       
-      1.4137300              0.0378066              0.32464600       
-      0.5166460              1.0805600              0.74399000       
-SP   1   1.00
-      0.1738880              1.0000000              1.0000000        
-D   1   1.00
-      0.8500000              1.0000000        
-****
-K     0 
-S   6   1.00
-  31594.4200000              1.828010E-03     
-   4744.3300000              1.399403E-02     
-   1080.4190000              6.887129E-02     
-    304.2338000              2.369760E-01     
-     97.2458600              4.829040E-01     
-     33.0249500              3.404795E-01     
-SP   6   1.00
-    622.7625000             -2.502976E-03           4.094637E-03     
-    147.8839000             -3.315550E-02           3.145199E-02     
-     47.3273500             -1.226387E-01           1.351558E-01     
-     17.5149500              5.353643E-02           3.390500E-01     
-      6.9227220              6.193860E-01           4.629455E-01     
-      2.7682770              4.345878E-01           2.242638E-01     
-SP   6   1.00
-     11.8480200              1.277689E-02          -1.221377E-02     
-      4.0792110              2.098767E-01          -6.900537E-03     
-      1.7634810             -3.095274E-03           2.007466E-01     
-      0.7889270             -5.593884E-01           4.281332E-01     
-      0.3503870             -5.134760E-01           3.970156E-01     
-      0.1463440             -6.598035E-02           1.104718E-01     
-SP   3   1.00
-      0.7168010             -5.237772E-02           0.0316430        
-      0.2337410             -2.798503E-01          -0.0404616        
-      0.0386750              1.141547E+00           1.0120290        
-SP   1   1.00
-      0.0165210              1.000000E+00           1.00000000       
-D   1   1.00
-      0.2000000              1.0000000        
-****
-Ca     0 
-S   6   1.00
-  35264.8600000              1.813501E-03     
-   5295.5030000              1.388493E-02     
-   1206.0200000              6.836162E-02     
-    339.6839000              2.356188E-01     
-    108.6264000              4.820639E-01     
-     36.9210300              3.429819E-01     
-SP   6   1.00
-    706.3096000              2.448225E-03           4.020371E-03     
-    167.8187000              3.241504E-02           3.100601E-02     
-     53.8255800              1.226219E-01           1.337279E-01     
-     20.0163800             -4.316965E-02           3.367983E-01     
-      7.9702790             -6.126995E-01           4.631281E-01     
-      3.2120590             -4.487540E-01           2.257532E-01     
-SP   6   1.00
-     14.1951800              1.084500E-02          -1.289621E-02     
-      4.8808280              2.088333E-01          -1.025198E-02     
-      2.1603900              3.150338E-02           1.959781E-01     
-      0.9878990             -5.526518E-01           4.357933E-01     
-      0.4495170             -5.437997E-01           3.996452E-01     
-      0.1873870             -6.669342E-02           9.713636E-02     
-SP   3   1.00
-      1.0322710             -4.439720E-02          -0.4298621        
-      0.3811710             -3.284563E-01           0.006935829      
-      0.0651310              1.163010E+00           0.9705933        
-SP   1   1.00
-      0.0260100              1.000000E+00           1.00000000       
-D   1   1.00
-      0.2000000              1.0000000        
-****
-Sc     0 
-S   6   1.00
-  39088.9800000              1.803263E-03     
-   5869.7920000              1.380769E-02     
-   1336.9100000              6.800396E-02     
-    376.6031000              2.347099E-01     
-    120.4679000              4.815690E-01     
-     40.9803200              3.445652E-01     
-SP   6   1.00
-    786.2852000              2.451863E-03           4.039530E-03     
-    186.8870000              3.259579E-02           3.122570E-02     
-     60.0093500              1.238242E-01           1.349833E-01     
-     22.2588300             -4.359890E-02           3.424793E-01     
-      8.8851490             -6.177181E-01           4.623113E-01     
-      3.6092110             -4.432823E-01           2.177524E-01     
-SP   6   1.00
-     29.8435500             -2.586302E-03          -6.096652E-03     
-      9.5423830              7.188424E-02          -2.628884E-02     
-      4.0567900              2.503260E-01           5.091001E-02     
-      1.7047030             -2.991003E-01           3.798097E-01     
-      0.7062340             -7.446818E-01           5.170883E-01     
-      0.2795360             -1.799776E-01           1.829772E-01     
-SP   3   1.00
-      1.0656090              6.482978E-02          -0.2938440        
-      0.4259330              3.253756E-01           0.09235323       
-      0.0763200             -1.170806E+00           0.9847930        
-SP   1   1.00
-      0.0295940              1.000000E+00           1.00000000       
-D   3   1.00
-     11.1470100              8.747672E-02     
-      2.8210430              3.795635E-01     
-      0.8196200              7.180393E-01     
-D   1   1.00
-      0.2214680              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Ti     0 
-S   6   1.00
-  43152.9500000              1.791872E-03     
-   6479.5710000              1.372392E-02     
-   1475.6750000              6.762830E-02     
-    415.6991000              2.337642E-01     
-    133.0006000              4.810696E-01     
-     45.2722200              3.462280E-01     
-SP   6   1.00
-    874.6826000              2.431008E-03           4.017679E-03     
-    207.9785000              3.233027E-02           3.113966E-02     
-     66.8791800              1.242520E-01           1.349077E-01     
-     24.8734700             -3.903905E-02           3.431672E-01     
-      9.9684410             -6.171789E-01           4.625760E-01     
-      4.0638260             -4.473097E-01           2.154603E-01     
-SP   6   1.00
-     33.6436300             -2.940358E-03          -6.311620E-03     
-     10.8756500              7.163103E-02          -2.697638E-02     
-      4.6282250              2.528915E-01           5.316847E-02     
-      1.9501260             -2.966401E-01           3.845549E-01     
-      0.8094520             -7.432215E-01           5.127662E-01     
-      0.3204740             -1.853520E-01           1.811135E-01     
-SP   3   1.00
-      1.2241480              6.351465E-02          -0.2112070        
-      0.4842630              3.151404E-01           0.07771998       
-      0.0840960             -1.162595E+00           0.9898214        
-SP   1   1.00
-      0.0320360              1.000000E+00           1.00000000       
-D   3   1.00
-     13.6908500              8.589418E-02     
-      3.5131540              3.784671E-01     
-      1.0404340              7.161239E-01     
-D   1   1.00
-      0.2869620              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-V     0 
-S   6   1.00
-  47354.3300000              1.784513E-03     
-   7110.7870000              1.366754E-02     
-   1619.5910000              6.736122E-02     
-    456.3379000              2.330552E-01     
-    146.0606000              4.806316E-01     
-     49.7579100              3.474802E-01     
-SP   6   1.00
-    968.1484000              2.410599E-03           3.995005E-03     
-    230.2821000              3.207243E-02           3.104061E-02     
-     74.1459100              1.245942E-01           1.347747E-01     
-     27.6410700             -3.482177E-02           3.437279E-01     
-     11.1147500             -6.167374E-01           4.628759E-01     
-      4.5431130             -4.509844E-01           2.135547E-01     
-SP   6   1.00
-     37.6405000             -3.233199E-03          -6.494056E-03     
-     12.2823800              7.130744E-02          -2.753453E-02     
-      5.2333660              2.543820E-01           5.516284E-02     
-      2.2089500             -2.933887E-01           3.879672E-01     
-      0.9178800             -7.415695E-01           5.090258E-01     
-      0.3634120             -1.909410E-01           1.803840E-01     
-SP   3   1.00
-      1.3927810              6.139703E-02          -0.1891265        
-      0.5439130              3.061130E-01           0.08005453       
-      0.0914760             -1.154890E+00           0.9877399        
-SP   1   1.00
-      0.0343120              1.000000E+00           1.00000000       
-D   3   1.00
-     16.0502500              8.599899E-02     
-      4.1600630              3.802996E-01     
-      1.2432650              7.127659E-01     
-D   1   1.00
-      0.3442770              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Cr     0 
-S   6   1.00
-  51789.8100000              1.776182E-03     
-   7776.8490000              1.360476E-02     
-   1771.3850000              6.706925E-02     
-    499.1588000              2.323104E-01     
-    159.7982000              4.802410E-01     
-     54.4702100              3.487653E-01     
-SP   6   1.00
-   1064.3280000              2.399669E-03           3.986997E-03     
-    253.2138000              3.194886E-02           3.104662E-02     
-     81.6092400              1.250868E-01           1.350518E-01     
-     30.4819300             -3.221866E-02           3.448865E-01     
-     12.2943900             -6.172284E-01           4.628571E-01     
-      5.0377220             -4.525936E-01           2.110426E-01     
-SP   6   1.00
-     41.5629100             -3.454216E-03          -6.722497E-03     
-     13.6762700              7.218428E-02          -2.806471E-02     
-      5.8443900              2.544820E-01           5.820028E-02     
-      2.4716090             -2.934534E-01           3.916988E-01     
-      1.0283080             -7.385455E-01           5.047823E-01     
-      0.4072500             -1.947157E-01           1.790290E-01     
-SP   3   1.00
-      1.5714640              0.05892219            -0.1930100        
-      0.6055800              0.2976055              0.0960562        
-      0.0985610             -1.1475060              0.9817609        
-SP   1   1.00
-      0.0364590              1.000000E+00           1.0000000        
-D   3   1.00
-     18.4193000              8.650816E-02     
-      4.8126610              3.826699E-01     
-      1.4464470              7.093772E-01     
-D   1   1.00
-      0.4004130              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Mn     0 
-S   6   1.00
-  56347.1400000              1.771580E-03     
-   8460.9430000              1.357081E-02     
-   1927.3250000              6.690605E-02     
-    543.2343000              2.318541E-01     
-    173.9905000              4.799046E-01     
-     59.3600500              3.495737E-01     
-SP   6   1.00
-   1165.4120000              2.388751E-03           3.977318E-03     
-    277.3276000              3.181708E-02           3.103112E-02     
-     89.4727800              1.254670E-01           1.351894E-01     
-     33.4825600             -2.955431E-02           3.457387E-01     
-     13.5403700             -6.175160E-01           4.629205E-01     
-      5.5579720             -4.544458E-01           2.090592E-01     
-SP   6   1.00
-     45.8353200             -3.665856E-03          -6.887578E-03     
-     15.1877700              7.231971E-02          -2.846816E-02     
-      6.5007100              2.544486E-01           6.031832E-02     
-      2.7515830             -2.910380E-01           3.938961E-01     
-      1.1454040             -7.359860E-01           5.013769E-01     
-      0.4536870             -1.997617E-01           1.792264E-01     
-SP   3   1.00
-      1.7579990              0.05628572            -0.5035024        
-      0.6670220              0.2897491              0.2345011        
-      0.1051290             -1.1406530              0.9141257        
-SP   1   1.00
-      0.0384180              1.000000E+00           1.00000000       
-D   3   1.00
-     20.9435500              8.672702E-02     
-      5.5104860              3.841883E-01     
-      1.6650380              7.069071E-01     
-D   1   1.00
-      0.4617330              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Fe     0 
-S   6   1.00
-  61132.6200000              1.766111E-03     
-   9179.3420000              1.353038E-02     
-   2090.8570000              6.673128E-02     
-    589.2479000              2.314823E-01     
-    188.7543000              4.797058E-01     
-     64.4462900              3.501976E-01     
-SP   6   1.00
-   1259.9800000              2.438014E-03           4.028019E-03     
-    299.8761000              3.224048E-02           3.144647E-02     
-     96.8491700              1.265724E-01           1.368317E-01     
-     36.3102000             -3.139902E-02           3.487236E-01     
-     14.7299600             -6.207593E-01           4.617931E-01     
-      6.0660750             -4.502914E-01           2.043058E-01     
-SP   6   1.00
-     50.4348500             -3.873256E-03          -7.017128E-03     
-     16.8392900              7.196598E-02          -2.877660E-02     
-      7.1920860              2.556591E-01           6.181383E-02     
-      3.0534200             -2.882837E-01           3.954946E-01     
-      1.2736430             -7.342822E-01           4.989059E-01     
-      0.5040910             -2.049353E-01           1.791251E-01     
-SP   3   1.00
-      1.9503160              0.05694869            -0.4593796        
-      0.7367210              0.2882915              0.2852139        
-      0.1141770             -1.1381590              0.9076485        
-SP   1   1.00
-      0.0411480              1.000000E+00           1.00000000       
-D   3   1.00
-     23.1499400              8.876935E-02     
-      6.1223680              3.896319E-01     
-      1.8466010              7.014816E-01     
-D   1   1.00
-      0.5043610              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Co     0 
-S   6   1.00
-  66148.9900000              1.759787E-03     
-   9933.0770000              1.348162E-02     
-   2262.8160000              6.649342E-02     
-    637.9154000              2.307939E-01     
-    204.4122000              4.792919E-01     
-     69.8253800              3.514097E-01     
-SP   6   1.00
-   1378.8410000              2.376276E-03           3.971488E-03     
-    328.2694000              3.167450E-02           3.108174E-02     
-    106.0946000              1.262888E-01           1.357439E-01     
-     39.8327500             -2.584552E-02           3.476827E-01     
-     16.1862200             -6.183491E-01           4.626340E-01     
-      6.6677880             -4.567008E-01           2.051632E-01     
-SP   6   1.00
-     54.5235500             -3.993004E-03          -7.290772E-03     
-     18.2978300              7.409663E-02          -2.926027E-02     
-      7.8673480              2.542000E-01           6.564150E-02     
-      3.3405340             -2.921657E-01           4.000652E-01     
-      1.3937560             -7.318703E-01           4.950236E-01     
-      0.5513260             -2.040784E-01           1.758240E-01     
-SP   3   1.00
-      2.1519470              0.05379843            -0.2165496        
-      0.8110630              0.2759971              0.1240488        
-      0.1210170             -1.1296920              0.9724064        
-SP   1   1.00
-      0.0430370              1.000000E+00           1.00000000       
-D   3   1.00
-     25.5930600              9.004748E-02     
-      6.8009900              3.931703E-01     
-      2.0516470              6.976844E-01     
-D   1   1.00
-      0.5556710              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Ni     0 
-S   6   1.00
-  71396.3500000              1.753003E-03     
-  10720.8400000              1.343122E-02     
-   2442.1290000              6.627041E-02     
-    688.4265000              2.302508E-01     
-    220.6153000              4.790186E-01     
-     75.3937300              3.523444E-01     
-SP   6   1.00
-   1492.5320000              2.370714E-03           3.967554E-03     
-    355.4013000              3.160566E-02           3.109479E-02     
-    114.9534000              1.266335E-01           1.359517E-01     
-     43.2204300             -2.417037E-02           3.485136E-01     
-     17.5971000             -6.187775E-01           4.625498E-01     
-      7.2577650             -4.576770E-01           2.035186E-01     
-SP   6   1.00
-     59.3526100             -4.162002E-03          -7.421452E-03     
-     20.0218100              7.425111E-02          -2.953410E-02     
-      8.6145610              2.541360E-01           6.731852E-02     
-      3.6605310             -2.903477E-01           4.016660E-01     
-      1.5281110             -7.302121E-01           4.926623E-01     
-      0.6040570             -2.076057E-01           1.756893E-01     
-SP   3   1.00
-      2.3792760              0.05157888            -0.1887663        
-      0.8858390              0.2707611              0.1015199        
-      0.1285290             -1.1247700              0.9790906        
-SP   1   1.00
-      0.0451950              1.000000E+00           1.00000000       
-D   3   1.00
-     28.1914700              9.098881E-02     
-      7.5235840              3.958208E-01     
-      2.2712280              6.947154E-01     
-D   1   1.00
-      0.6116030              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Cu     0 
-S   6   1.00
-  76794.3800000              1.748161E-03     
-  11530.7000000              1.339602E-02     
-   2626.5750000              6.610885E-02     
-    740.4903000              2.298265E-01     
-    237.3528000              4.787675E-01     
-     81.1581800              3.530739E-01     
-SP   6   1.00
-   1610.8140000              2.364055E-03           3.963307E-03     
-    383.6367000              3.153635E-02           3.110223E-02     
-    124.1733000              1.269452E-01           1.361350E-01     
-     46.7467800             -2.262840E-02           3.492914E-01     
-     19.0656900             -6.192080E-01           4.624780E-01     
-      7.8715670             -4.585393E-01           2.020102E-01     
-SP   6   1.00
-     64.4573200             -4.331075E-03          -7.523725E-03     
-     21.8521200              7.412307E-02          -2.975687E-02     
-      9.4053430              2.542108E-01           6.849654E-02     
-      3.9991680             -2.874843E-01           4.027141E-01     
-      1.6702970             -7.291436E-01           4.908490E-01     
-      0.6596270             -2.113951E-01           1.759268E-01     
-SP   3   1.00
-      2.6000880              0.05027577            -0.1702911        
-      0.9630940              0.2650040              0.09310133       
-      0.1361610             -1.1201550              0.9814336        
-SP   1   1.00
-      0.0473320              1.000000E+00           1.00000000       
-D   3   1.00
-     30.8534100              9.199905E-02     
-      8.2649850              3.985021E-01     
-      2.4953320              6.917897E-01     
-D   1   1.00
-      0.6676580              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-Zn     0 
-S   6   1.00
-  82400.9400000              1.743329E-03     
-  12372.5500000              1.335966E-02     
-   2818.3510000              6.594365E-02     
-    794.5717000              2.294151E-01     
-    254.7232000              4.785453E-01     
-     87.1388000              3.537753E-01     
-SP   6   1.00
-   1732.5690000              2.361459E-03           3.963125E-03     
-    412.7149000              3.150177E-02           3.113411E-02     
-    133.6780000              1.272774E-01           1.363931E-01     
-     50.3858500             -2.145928E-02           3.501266E-01     
-     20.5835800             -6.197652E-01           4.623179E-01     
-      8.5059400             -4.590180E-01           2.004995E-01     
-SP   6   1.00
-     69.3649200             -4.440098E-03          -7.689262E-03     
-     23.6208200              7.505253E-02          -2.997982E-02     
-     10.1847100              2.533111E-01           7.082411E-02     
-      4.3340820             -2.881897E-01           4.046141E-01     
-      1.8109180             -7.267052E-01           4.882325E-01     
-      0.7148410             -2.133439E-01           1.751970E-01     
-SP   3   1.00
-      2.8238420              0.04898543            -0.1586763        
-      1.0395430              0.2592793              0.08379327       
-      0.1432640             -1.1157110              0.9840547        
-SP   1   1.00
-      0.0492960              1.000000E+00           1.00000000       
-D   3   1.00
-     33.7076400              9.262648E-02     
-      9.0611060              4.002980E-01     
-      2.7383830              6.896608E-01     
-D   1   1.00
-      0.7302940              1.0000000        
-F   1   1.00
-      0.8000000              1.0000000        
-****
-
diff --git a/third_party/gauxc/tests/basis/old/cc-pvdz.g94 b/third_party/gauxc/tests/basis/old/cc-pvdz.g94
deleted file mode 100644
index ce616a6..0000000
--- a/third_party/gauxc/tests/basis/old/cc-pvdz.g94
+++ /dev/null
@@ -1,3387 +0,0 @@
-!  cc-pVDZ  EMSL  Basis Set Exchange Library   12/1/14 10:27 PM
-! Elements                             References
-! --------                             ----------
-! H     : T.H. Dunning, Jr. J. Chem. Phys. 90, 1007 (1989).
-! He    : D.E. Woon and T.H. Dunning, Jr. J. Chem. Phys. 100, 2975 (1994).
-! Li - Ne: T.H. Dunning, Jr. J. Chem. Phys. 90, 1007 (1989).
-! Na - Mg: D.E. Woon and T.H. Dunning, Jr.  (to be published)
-! Al - Ar: D.E. Woon and T.H. Dunning, Jr.  J. Chem. Phys. 98, 1358 (1993).
-! Sc - Zn: N.B. Balabanov and K.A. Peterson, J. Chem. Phys. 123, 064107 (2005),
-! N.B. Balabanov and K.A. Peterson, J. Chem. Phys. 125, 074110 (2006)
-! Ca     : J. Koput and K.A. Peterson, J. Phys. Chem. A, 106, 9595 (2002).
-! 
-
-
-
-****
-H     0 
-S   3   1.00
-     13.0100000              0.0196850        
-      1.9620000              0.1379770        
-      0.4446000              0.4781480        
-S   1   1.00
-      0.1220000              1.0000000        
-P   1   1.00
-      0.7270000              1.0000000        
-****
-He     0 
-S   3   1.00
-     38.3600000              0.0238090        
-      5.7700000              0.1548910        
-      1.2400000              0.4699870        
-S   1   1.00
-      0.2976000              1.0000000        
-P   1   1.00
-      1.2750000              1.0000000        
-****
-Li     0 
-S   8   1.00
-   1469.0000000              0.0007660        
-    220.5000000              0.0058920        
-     50.2600000              0.0296710        
-     14.2400000              0.1091800        
-      4.5810000              0.2827890        
-      1.5800000              0.4531230        
-      0.5640000              0.2747740        
-      0.0734500              0.0097510        
-S   8   1.00
-   1469.0000000             -0.0001200        
-    220.5000000             -0.0009230        
-     50.2600000             -0.0046890        
-     14.2400000             -0.0176820        
-      4.5810000             -0.0489020        
-      1.5800000             -0.0960090        
-      0.5640000             -0.1363800        
-      0.0734500              0.5751020        
-S   1   1.00
-      0.0280500              1.0000000        
-P   3   1.00
-      1.5340000              0.0227840        
-      0.2749000              0.1391070        
-      0.0736200              0.5003750        
-P   1   1.00
-      0.0240300              1.0000000        
-D   1   1.00
-      0.1239000              1.0000000        
-****
-Be     0 
-S   8   1.00
-   2940.0000000              0.0006800        
-    441.2000000              0.0052360        
-    100.5000000              0.0266060        
-     28.4300000              0.0999930        
-      9.1690000              0.2697020        
-      3.1960000              0.4514690        
-      1.1590000              0.2950740        
-      0.1811000              0.0125870        
-S   8   1.00
-   2940.0000000             -0.0001230        
-    441.2000000             -0.0009660        
-    100.5000000             -0.0048310        
-     28.4300000             -0.0193140        
-      9.1690000             -0.0532800        
-      3.1960000             -0.1207230        
-      1.1590000             -0.1334350        
-      0.1811000              0.5307670        
-S   1   1.00
-      0.0589000              1.0000000        
-P   3   1.00
-      3.6190000              0.0291110        
-      0.7110000              0.1693650        
-      0.1951000              0.5134580        
-P   1   1.00
-      0.0601800              1.0000000        
-D   1   1.00
-      0.2380000              1.0000000        
-****
-B     0 
-S   8   1.00
-   4570.0000000              0.0006960        
-    685.9000000              0.0053530        
-    156.5000000              0.0271340        
-     44.4700000              0.1013800        
-     14.4800000              0.2720550        
-      5.1310000              0.4484030        
-      1.8980000              0.2901230        
-      0.3329000              0.0143220        
-S   8   1.00
-   4570.0000000             -0.0001390        
-    685.9000000             -0.0010970        
-    156.5000000             -0.0054440        
-     44.4700000             -0.0219160        
-     14.4800000             -0.0597510        
-      5.1310000             -0.1387320        
-      1.8980000             -0.1314820        
-      0.3329000              0.5395260        
-S   1   1.00
-      0.1043000              1.0000000        
-P   3   1.00
-      6.0010000              0.0354810        
-      1.2410000              0.1980720        
-      0.3364000              0.5052300        
-P   1   1.00
-      0.0953800              1.0000000        
-D   1   1.00
-      0.3430000              1.0000000        
-****
-C     0 
-S   8   1.00
-   6665.0000000              0.0006920        
-   1000.0000000              0.0053290        
-    228.0000000              0.0270770        
-     64.7100000              0.1017180        
-     21.0600000              0.2747400        
-      7.4950000              0.4485640        
-      2.7970000              0.2850740        
-      0.5215000              0.0152040        
-S   8   1.00
-   6665.0000000             -0.0001460        
-   1000.0000000             -0.0011540        
-    228.0000000             -0.0057250        
-     64.7100000             -0.0233120        
-     21.0600000             -0.0639550        
-      7.4950000             -0.1499810        
-      2.7970000             -0.1272620        
-      0.5215000              0.5445290        
-S   1   1.00
-      0.1596000              1.0000000        
-P   3   1.00
-      9.4390000              0.0381090        
-      2.0020000              0.2094800        
-      0.5456000              0.5085570        
-P   1   1.00
-      0.1517000              1.0000000        
-D   1   1.00
-      0.5500000              1.0000000        
-****
-N     0 
-S   8   1.00
-   9046.0000000              0.0007000        
-   1357.0000000              0.0053890        
-    309.3000000              0.0274060        
-     87.7300000              0.1032070        
-     28.5600000              0.2787230        
-     10.2100000              0.4485400        
-      3.8380000              0.2782380        
-      0.7466000              0.0154400        
-S   8   1.00
-   9046.0000000             -0.0001530        
-   1357.0000000             -0.0012080        
-    309.3000000             -0.0059920        
-     87.7300000             -0.0245440        
-     28.5600000             -0.0674590        
-     10.2100000             -0.1580780        
-      3.8380000             -0.1218310        
-      0.7466000              0.5490030        
-S   1   1.00
-      0.2248000              1.0000000        
-P   3   1.00
-     13.5500000              0.0399190        
-      2.9170000              0.2171690        
-      0.7973000              0.5103190        
-P   1   1.00
-      0.2185000              1.0000000        
-D   1   1.00
-      0.8170000              1.0000000        
-****
-O     0 
-S   8   1.00
-  11720.0000000              0.0007100        
-   1759.0000000              0.0054700        
-    400.8000000              0.0278370        
-    113.7000000              0.1048000        
-     37.0300000              0.2830620        
-     13.2700000              0.4487190        
-      5.0250000              0.2709520        
-      1.0130000              0.0154580        
-S   8   1.00
-  11720.0000000             -0.0001600        
-   1759.0000000             -0.0012630        
-    400.8000000             -0.0062670        
-    113.7000000             -0.0257160        
-     37.0300000             -0.0709240        
-     13.2700000             -0.1654110        
-      5.0250000             -0.1169550        
-      1.0130000              0.5573680        
-S   1   1.00
-      0.3023000              1.0000000        
-P   3   1.00
-     17.7000000              0.0430180        
-      3.8540000              0.2289130        
-      1.0460000              0.5087280        
-P   1   1.00
-      0.2753000              1.0000000        
-D   1   1.00
-      1.1850000              1.0000000        
-****
-F     0 
-S   8   1.00
-  14710.0000000              0.0007210        
-   2207.0000000              0.0055530        
-    502.8000000              0.0282670        
-    142.6000000              0.1064440        
-     46.4700000              0.2868140        
-     16.7000000              0.4486410        
-      6.3560000              0.2647610        
-      1.3160000              0.0153330        
-S   8   1.00
-  14710.0000000             -0.0001650        
-   2207.0000000             -0.0013080        
-    502.8000000             -0.0064950        
-    142.6000000             -0.0266910        
-     46.4700000             -0.0736900        
-     16.7000000             -0.1707760        
-      6.3560000             -0.1123270        
-      1.3160000              0.5628140        
-S   1   1.00
-      0.3897000              1.0000000        
-P   3   1.00
-     22.6700000              0.0448780        
-      4.9770000              0.2357180        
-      1.3470000              0.5085210        
-P   1   1.00
-      0.3471000              1.0000000        
-D   1   1.00
-      1.6400000              1.0000000        
-****
-Ne     0 
-S   8   1.00
-  17880.0000000              0.0007380        
-   2683.0000000              0.0056770        
-    611.5000000              0.0288830        
-    173.5000000              0.1085400        
-     56.6400000              0.2909070        
-     20.4200000              0.4483240        
-      7.8100000              0.2580260        
-      1.6530000              0.0150630        
-S   8   1.00
-  17880.0000000             -0.0001720        
-   2683.0000000             -0.0013570        
-    611.5000000             -0.0067370        
-    173.5000000             -0.0276630        
-     56.6400000             -0.0762080        
-     20.4200000             -0.1752270        
-      7.8100000             -0.1070380        
-      1.6530000              0.5670500        
-S   1   1.00
-      0.4869000              1.0000000        
-P   3   1.00
-     28.3900000              0.0460870        
-      6.2700000              0.2401810        
-      1.6950000              0.5087440        
-P   1   1.00
-      0.4317000              1.0000000        
-D   1   1.00
-      2.2020000              1.0000000        
-****
-Na     0 
-S   11   1.00
-  31700.0000000              0.458878D-03     
-   4755.0000000              0.355070D-02     
-   1082.0000000              0.182618D-01     
-    306.4000000              0.716650D-01     
-     99.5300000              0.212346D+00     
-     35.4200000              0.416203D+00     
-     13.3000000              0.373020D+00     
-      4.3920000              0.625054D-01     
-      1.6760000             -0.624532D-02     
-      0.5889000              0.243374D-02     
-      0.0564000             -0.442381D-03     
-S   11   1.00
-  31700.0000000             -0.112162D-03     
-   4755.0000000             -0.868512D-03     
-   1082.0000000             -0.451330D-02     
-    306.4000000             -0.181436D-01     
-     99.5300000             -0.580799D-01     
-     35.4200000             -0.137653D+00     
-     13.3000000             -0.193908D+00     
-      4.3920000              0.858009D-01     
-      1.6760000              0.604419D+00     
-      0.5889000              0.441719D+00     
-      0.0564000              0.130547D-01     
-S   11   1.00
-  31700.0000000              0.170160D-04     
-   4755.0000000              0.130693D-03     
-   1082.0000000              0.687784D-03     
-    306.4000000              0.272359D-02     
-     99.5300000              0.895529D-02     
-     35.4200000              0.207832D-01     
-     13.3000000              0.319380D-01     
-      4.3920000             -0.191368D-01     
-      1.6760000             -0.102595D+00     
-      0.5889000             -0.198945D+00     
-      0.0564000              0.655952D+00     
-S   1   1.00
-      0.0230700              1.0000000        
-P   7   1.00
-    138.1000000              0.579641D-02     
-     32.2400000              0.415756D-01     
-      9.9850000              0.162873D+00     
-      3.4840000              0.359401D+00     
-      1.2310000              0.449988D+00     
-      0.4177000              0.227507D+00     
-      0.0651300              0.808247D-02     
-P   7   1.00
-    138.1000000             -0.581531D-03     
-     32.2400000             -0.407306D-02     
-      9.9850000             -0.167937D-01     
-      3.4840000             -0.353268D-01     
-      1.2310000             -0.521971D-01     
-      0.4177000             -0.168359D-01     
-      0.0651300              0.434613D+00     
-P   1   1.00
-      0.0205300              1.0000000        
-D   1   1.00
-      0.0973000              1.0000000        
-****
-Mg     0 
-S   11   1.00
-  47390.0000000              0.346023D-03     
-   7108.0000000              0.268077D-02     
-   1618.0000000              0.138367D-01     
-    458.4000000              0.551767D-01     
-    149.3000000              0.169660D+00     
-     53.5900000              0.364703D+00     
-     20.7000000              0.406856D+00     
-      8.3840000              0.135089D+00     
-      2.5420000              0.490884D-02     
-      0.8787000              0.286460D-03     
-      0.1077000              0.264590D-04     
-S   11   1.00
-  47390.0000000             -0.877839D-04     
-   7108.0000000             -0.674725D-03     
-   1618.0000000             -0.355603D-02     
-    458.4000000             -0.142154D-01     
-    149.3000000             -0.476748D-01     
-     53.5900000             -0.114892D+00     
-     20.7000000             -0.200676D+00     
-      8.3840000             -0.341224D-01     
-      2.5420000              0.570454D+00     
-      0.8787000              0.542309D+00     
-      0.1077000              0.218128D-01     
-S   11   1.00
-  47390.0000000              0.169628D-04     
-   7108.0000000              0.129865D-03     
-   1618.0000000              0.688831D-03     
-    458.4000000              0.273533D-02     
-    149.3000000              0.931224D-02     
-     53.5900000              0.223265D-01     
-     20.7000000              0.411195D-01     
-      8.3840000              0.545642D-02     
-      2.5420000             -0.134012D+00     
-      0.8787000             -0.256176D+00     
-      0.1077000              0.605856D+00     
-S   1   1.00
-      0.0399900              1.0000000        
-P   7   1.00
-    179.9000000              0.538161D-02     
-     42.1400000              0.392418D-01     
-     13.1300000              0.157445D+00     
-      4.6280000              0.358535D+00     
-      1.6700000              0.457226D+00     
-      0.5857000              0.215918D+00     
-      0.1311000              0.664948D-02     
-P   7   1.00
-    179.9000000             -0.865948D-03     
-     42.1400000             -0.615978D-02     
-     13.1300000             -0.261519D-01     
-      4.6280000             -0.570647D-01     
-      1.6700000             -0.873906D-01     
-      0.5857000             -0.122990D-01     
-      0.1311000              0.502085D+00     
-P   1   1.00
-      0.0411200              1.0000000        
-D   1   1.00
-      0.1870000              1.0000000        
-****
-Al     0 
-S   11   1.00
-  64150.0000000              0.290250D-03     
-   9617.0000000              0.225064D-02     
-   2189.0000000              0.116459D-01     
-    620.5000000              0.467377D-01     
-    202.7000000              0.146299D+00     
-     73.1500000              0.330283D+00     
-     28.5500000              0.415861D+00     
-     11.7700000              0.189253D+00     
-      3.3000000              0.115889D-01     
-      1.1730000             -0.128385D-02     
-      0.1752000              0.425883D-03     
-S   11   1.00
-  64150.0000000             -0.758048D-04     
-   9617.0000000             -0.581791D-03     
-   2189.0000000             -0.308113D-02     
-    620.5000000             -0.123112D-01     
-    202.7000000             -0.419781D-01     
-     73.1500000             -0.103371D+00     
-     28.5500000             -0.196308D+00     
-     11.7700000             -0.830002D-01     
-      3.3000000              0.541040D+00     
-      1.1730000              0.578796D+00     
-      0.1752000              0.288147D-01     
-S   11   1.00
-  64150.0000000              0.175078D-04     
-   9617.0000000              0.134208D-03     
-   2189.0000000              0.712442D-03     
-    620.5000000              0.284330D-02     
-    202.7000000              0.976842D-02     
-     73.1500000              0.241850D-01     
-     28.5500000              0.474993D-01     
-     11.7700000              0.203621D-01     
-      3.3000000             -0.158788D+00     
-      1.1730000             -0.311694D+00     
-      0.1752000              0.620147D+00     
-S   1   1.00
-      0.0647300              1.0000000        
-P   7   1.00
-    258.8000000              0.406847D-02     
-     60.8900000              0.306815D-01     
-     19.1400000              0.129149D+00     
-      6.8810000              0.320831D+00     
-      2.5740000              0.453815D+00     
-      0.9572000              0.275066D+00     
-      0.2099000              0.190807D-01     
-P   7   1.00
-    258.8000000             -0.748053D-03     
-     60.8900000             -0.545796D-02     
-     19.1400000             -0.245371D-01     
-      6.8810000             -0.582138D-01     
-      2.5740000             -0.983756D-01     
-      0.9572000             -0.260064D-01     
-      0.2099000              0.464020D+00     
-P   1   1.00
-      0.0598600              1.0000000        
-D   1   1.00
-      0.1890000              1.0000000        
-****
-Si     0 
-S   11   1.00
-  78860.0000000              0.270443D-03     
-  11820.0000000              0.209717D-02     
-   2692.0000000              0.108506D-01     
-    763.4000000              0.436754D-01     
-    249.6000000              0.137653D+00     
-     90.2800000              0.316644D+00     
-     35.2900000              0.418581D+00     
-     14.5100000              0.210212D+00     
-      4.0530000              0.144952D-01     
-      1.4820000             -0.203590D-02     
-      0.2517000              0.624186D-03     
-S   11   1.00
-  78860.0000000             -0.723177D-04     
-  11820.0000000             -0.555116D-03     
-   2692.0000000             -0.293805D-02     
-    763.4000000             -0.117687D-01     
-    249.6000000             -0.402907D-01     
-     90.2800000             -0.100609D+00     
-     35.2900000             -0.196528D+00     
-     14.5100000             -0.102382D+00     
-      4.0530000              0.527190D+00     
-      1.4820000              0.593251D+00     
-      0.2517000              0.332652D-01     
-S   11   1.00
-  78860.0000000              0.185113D-04     
-  11820.0000000              0.142236D-03     
-   2692.0000000              0.752185D-03     
-    763.4000000              0.302279D-02     
-    249.6000000              0.103677D-01     
-     90.2800000              0.262563D-01     
-     35.2900000              0.523989D-01     
-     14.5100000              0.290959D-01     
-      4.0530000             -0.178003D+00     
-      1.4820000             -0.346874D+00     
-      0.2517000              0.623020D+00     
-S   1   1.00
-      0.0924300              1.0000000        
-P   7   1.00
-    315.9000000              0.392656D-02     
-     74.4200000              0.298811D-01     
-     23.4800000              0.127212D+00     
-      8.4880000              0.320943D+00     
-      3.2170000              0.455429D+00     
-      1.2290000              0.268563D+00     
-      0.2964000              0.188336D-01     
-P   7   1.00
-    315.9000000             -0.858302D-03     
-     74.4200000             -0.630328D-02     
-     23.4800000             -0.288255D-01     
-      8.4880000             -0.694560D-01     
-      3.2170000             -0.119493D+00     
-      1.2290000             -0.199581D-01     
-      0.2964000              0.510268D+00     
-P   1   1.00
-      0.0876800              1.0000000        
-D   1   1.00
-      0.2750000              1.0000000        
-****
-P     0 
-S   11   1.00
-  94840.0000000              0.255509D-03     
-  14220.0000000              0.198193D-02     
-   3236.0000000              0.102760D-01     
-    917.1000000              0.414823D-01     
-    299.5000000              0.131984D+00     
-    108.1000000              0.308662D+00     
-     42.1800000              0.420647D+00     
-     17.2800000              0.222878D+00     
-      4.8580000              0.164035D-01     
-      1.8180000             -0.254255D-02     
-      0.3372000              0.748050D-03     
-S   11   1.00
-  94840.0000000             -0.696939D-04     
-  14220.0000000             -0.535266D-03     
-   3236.0000000             -0.283709D-02     
-    917.1000000             -0.113983D-01     
-    299.5000000             -0.392929D-01     
-    108.1000000             -0.996364D-01     
-     42.1800000             -0.197983D+00     
-     17.2800000             -0.114860D+00     
-      4.8580000              0.518595D+00     
-      1.8180000              0.601847D+00     
-      0.3372000              0.368612D-01     
-S   11   1.00
-  94840.0000000              0.191199D-04     
-  14220.0000000              0.147223D-03     
-   3236.0000000              0.777912D-03     
-    917.1000000              0.314546D-02     
-    299.5000000              0.108200D-01     
-    108.1000000              0.279957D-01     
-     42.1800000              0.563978D-01     
-     17.2800000              0.358190D-01     
-      4.8580000             -0.193387D+00     
-      1.8180000             -0.372097D+00     
-      0.3372000              0.624246D+00     
-S   1   1.00
-      0.1232000              1.0000000        
-P   7   1.00
-    370.5000000              0.395005D-02     
-     87.3300000              0.302492D-01     
-     27.5900000              0.129554D+00     
-     10.0000000              0.327594D+00     
-      3.8250000              0.456992D+00     
-      1.4940000              0.253086D+00     
-      0.3921000              0.168798D-01     
-P   7   1.00
-    370.5000000             -0.959832D-03     
-     87.3300000             -0.711177D-02     
-     27.5900000             -0.327122D-01     
-     10.0000000             -0.795784D-01     
-      3.8250000             -0.135016D+00     
-      1.4940000             -0.910585D-02     
-      0.3921000              0.537802D+00     
-P   1   1.00
-      0.1186000              1.0000000        
-D   1   1.00
-      0.3730000              1.0000000        
-****
-S     0 
-S   11   1.00
- 110800.0000000              0.247635D-03     
-  16610.0000000              0.192026D-02     
-   3781.0000000              0.996192D-02     
-   1071.0000000              0.402975D-01     
-    349.8000000              0.128604D+00     
-    126.3000000              0.303480D+00     
-     49.2600000              0.421432D+00     
-     20.1600000              0.230781D+00     
-      5.7200000              0.178971D-01     
-      2.1820000             -0.297516D-02     
-      0.4327000              0.849522D-03     
-S   11   1.00
- 110800.0000000             -0.687039D-04     
-  16610.0000000             -0.527681D-03     
-   3781.0000000             -0.279671D-02     
-   1071.0000000             -0.112651D-01     
-    349.8000000             -0.388834D-01     
-    126.3000000             -0.995025D-01     
-     49.2600000             -0.199740D+00     
-     20.1600000             -0.123360D+00     
-      5.7200000              0.513194D+00     
-      2.1820000              0.607120D+00     
-      0.4327000              0.396753D-01     
-S   11   1.00
- 110800.0000000              0.199077D-04     
-  16610.0000000              0.153483D-03     
-   3781.0000000              0.809503D-03     
-   1071.0000000              0.328974D-02     
-    349.8000000              0.112967D-01     
-    126.3000000              0.296385D-01     
-     49.2600000              0.599851D-01     
-     20.1600000              0.413248D-01     
-      5.7200000             -0.207474D+00     
-      2.1820000             -0.392889D+00     
-      0.4327000              0.632840D+00     
-S   1   1.00
-      0.1570000              1.0000000        
-P   7   1.00
-    399.7000000              0.447541D-02     
-     94.1900000              0.341708D-01     
-     29.7500000              0.144250D+00     
-     10.7700000              0.353928D+00     
-      4.1190000              0.459085D+00     
-      1.6250000              0.206383D+00     
-      0.4726000              0.102141D-01     
-P   7   1.00
-    399.7000000             -0.116251D-02     
-     94.1900000             -0.865664D-02     
-     29.7500000             -0.390886D-01     
-     10.7700000             -0.934625D-01     
-      4.1190000             -0.147994D+00     
-      1.6250000              0.301904D-01     
-      0.4726000              0.561573D+00     
-P   1   1.00
-      0.1407000              1.0000000        
-D   1   1.00
-      0.4790000              1.0000000        
-****
-Cl     0 
-S   11   1.00
- 127900.0000000              0.241153D-03     
-  19170.0000000              0.187095D-02     
-   4363.0000000              0.970827D-02     
-   1236.0000000              0.393153D-01     
-    403.6000000              0.125932D+00     
-    145.7000000              0.299341D+00     
-     56.8100000              0.421886D+00     
-     23.2300000              0.237201D+00     
-      6.6440000              0.191531D-01     
-      2.5750000             -0.334792D-02     
-      0.5371000              0.929883D-03     
-S   11   1.00
- 127900.0000000             -0.678922D-04     
-  19170.0000000             -0.521836D-03     
-   4363.0000000             -0.276513D-02     
-   1236.0000000             -0.111537D-01     
-    403.6000000             -0.385919D-01     
-    145.7000000             -0.994848D-01     
-     56.8100000             -0.201392D+00     
-     23.2300000             -0.130313D+00     
-      6.6440000              0.509443D+00     
-      2.5750000              0.610725D+00     
-      0.5371000              0.421549D-01     
-S   11   1.00
- 127900.0000000              0.204986D-04     
-  19170.0000000              0.158298D-03     
-   4363.0000000              0.833639D-03     
-   1236.0000000              0.339880D-02     
-    403.6000000              0.116738D-01     
-    145.7000000              0.309622D-01     
-     56.8100000              0.629533D-01     
-     23.2300000              0.460257D-01     
-      6.6440000             -0.219312D+00     
-      2.5750000             -0.408773D+00     
-      0.5371000              0.638465D+00     
-S   1   1.00
-      0.1938000              1.0000000        
-P   7   1.00
-    417.6000000              0.525982D-02     
-     98.3300000              0.398332D-01     
-     31.0400000              0.164655D+00     
-     11.1900000              0.387322D+00     
-      4.2490000              0.457072D+00     
-      1.6240000              0.151636D+00     
-      0.5322000              0.181615D-02     
-P   7   1.00
-    417.6000000             -0.143570D-02     
-     98.3300000             -0.107796D-01     
-     31.0400000             -0.470075D-01     
-     11.1900000             -0.111030D+00     
-      4.2490000             -0.153275D+00     
-      1.6240000              0.894609D-01     
-      0.5322000              0.579444D+00     
-P   1   1.00
-      0.1620000              1.0000000        
-D   1   1.00
-      0.6000000              1.0000000        
-****
-Ar     0 
-S   11   1.00
- 145700.0000000              0.236700D-03     
-  21840.0000000              0.183523D-02     
-   4972.0000000              0.952860D-02     
-   1408.0000000              0.386283D-01     
-    459.7000000              0.124081D+00     
-    165.9000000              0.296471D+00     
-     64.6900000              0.422068D+00     
-     26.4400000              0.241711D+00     
-      7.6280000              0.200509D-01     
-      2.9960000             -0.361000D-02     
-      0.6504000              0.975607D-03     
-S   11   1.00
- 145700.0000000             -0.674910D-04     
-  21840.0000000             -0.518522D-03     
-   4972.0000000             -0.274825D-02     
-   1408.0000000             -0.111007D-01     
-    459.7000000             -0.384820D-01     
-    165.9000000             -0.997599D-01     
-     64.6900000             -0.203088D+00     
-     26.4400000             -0.135608D+00     
-      7.6280000              0.507195D+00     
-      2.9960000              0.612898D+00     
-      0.6504000              0.442968D-01     
-S   11   1.00
- 145700.0000000              0.210457D-04     
-  21840.0000000              0.162565D-03     
-   4972.0000000              0.855463D-03     
-   1408.0000000              0.349745D-02     
-    459.7000000              0.120156D-01     
-    165.9000000              0.321368D-01     
-     64.6900000              0.655279D-01     
-     26.4400000              0.499370D-01     
-      7.6280000             -0.229769D+00     
-      2.9960000             -0.421006D+00     
-      0.6504000              0.642331D+00     
-S   1   1.00
-      0.2337000              1.0000000        
-P   7   1.00
-    453.7000000              0.570555D-02     
-    106.8000000              0.430460D-01     
-     33.7300000              0.176591D+00     
-     12.1300000              0.406863D+00     
-      4.5940000              0.452549D+00     
-      1.6780000              0.122801D+00     
-      0.5909000             -0.445996D-02     
-P   7   1.00
-    453.7000000             -0.160655D-02     
-    106.8000000             -0.121714D-01     
-     33.7300000             -0.520789D-01     
-     12.1300000             -0.123737D+00     
-      4.5940000             -0.151619D+00     
-      1.6780000              0.142425D+00     
-      0.5909000              0.584501D+00     
-P   1   1.00
-      0.1852000              1.0000000        
-D   1   1.00
-      0.7380000              1.0000000        
-****
-Ca     0 
-S   13   1.00
- 190000.7000000              0.00022145       
-  28481.4600000              0.00171830       
-   6482.7010000              0.00892348       
-   1835.8910000              0.03630183       
-    598.7243000              0.11762223       
-    215.8841000              0.28604352       
-     84.0124200              0.42260708       
-     34.2248800              0.25774366       
-     10.0249700              0.02391893       
-      4.0559200             -0.00495218       
-      1.0202610              0.00171779       
-      0.4268650             -0.00089209       
-      0.0633470              0.00024510       
-S   13   1.00
- 190000.7000000             -0.00006453       
-  28481.4600000             -0.00049662       
-   6482.7010000             -0.00262826       
-   1835.8910000             -0.01066845       
-    598.7243000             -0.03713509       
-    215.8841000             -0.09804284       
-     84.0124200             -0.20342692       
-     34.2248800             -0.15244655       
-     10.0249700              0.48279406       
-      4.0559200              0.62923839       
-      1.0202610              0.06164842       
-      0.4268650             -0.01479971       
-      0.0633470              0.00361089       
-S   13   1.00
- 190000.7000000              0.00002223       
-  28481.4600000              0.00017170       
-   6482.7010000              0.00090452       
-   1835.8910000              0.00370343       
-    598.7243000              0.01283750       
-    215.8841000              0.03475459       
-     84.0124200              0.07303491       
-     34.2248800              0.06100083       
-     10.0249700             -0.24292928       
-      4.0559200             -0.48708500       
-      1.0202610              0.56502804       
-      0.4268650              0.65574386       
-      0.0633470              0.02672894       
-S   13   1.00
- 190000.7000000              0.00000531       
-  28481.4600000              0.00004111       
-   6482.7010000              0.00021568       
-   1835.8910000              0.00088827       
-    598.7243000              0.00305813       
-    215.8841000              0.00837608       
-     84.0124200              0.01741056       
-     34.2248800              0.01515453       
-     10.0249700             -0.06207919       
-      4.0559200             -0.12611803       
-      1.0202610              0.17360694       
-      0.4268650              0.37822943       
-      0.0633470             -0.65964698       
-S   1   1.00
-      0.0263010              1.0000000        
-P   10   1.00
-   1072.0430000              0.00198166       
-    253.8439000              0.01612944       
-     81.3162600              0.07657851       
-     30.2418300              0.23269594       
-     12.1011000              0.42445210       
-      5.0225540              0.37326402       
-      1.9092200              0.07868530       
-      0.7713040             -0.00599927       
-      0.3005700              0.00264257       
-      0.0766490             -0.00085694       
-P   10   1.00
-   1072.0430000             -0.00064891       
-    253.8439000             -0.00527907       
-     81.3162600             -0.02581131       
-     30.2418300             -0.08062892       
-     12.1011000             -0.15846552       
-      5.0225540             -0.12816816       
-      1.9092200              0.25610103       
-      0.7713040              0.58724068       
-      0.3005700              0.30372561       
-      0.0766490              0.01416451       
-P   10   1.00
-   1072.0430000              0.00013595       
-    253.8439000              0.00109420       
-     81.3162600              0.00542680       
-     30.2418300              0.01674718       
-     12.1011000              0.03389863       
-      5.0225540              0.02531183       
-      1.9092200             -0.05895713       
-      0.7713040             -0.15876120       
-      0.3005700             -0.08554523       
-      0.0766490              0.54464665       
-P   1   1.00
-      0.0277720              1.0000000        
-D   4   1.00
-     10.3182000              0.03284900       
-      2.5924200              0.14819200       
-      0.7617000              0.31092100       
-      0.2083800              0.45219500       
-D   1   1.00
-      0.0537000              1.0000000        
-****
-Sc     0 
-S   19   1.00
-      2.715278E+06           8.147221E-06     
-      4.065984E+05           6.334788E-05     
-      9.253004E+04           3.330384E-04     
-      2.620792E+04           1.404055E-03     
-      8.549429E+03           5.081725E-03     
-      3.085975E+03           1.626926E-02     
-      1.203172E+03           4.624577E-02     
-      4.984869E+02           1.137223E-01     
-      2.167360E+02           2.257636E-01     
-      9.787476E+01           3.106700E-01     
-      4.520433E+01           2.191906E-01     
-      2.021187E+01           7.215879E-02     
-      9.574751E+00           1.187030E-01     
-      4.540346E+00           1.220532E-01     
-      1.995687E+00           2.136795E-02     
-      9.422150E-01          -5.357246E-04     
-      4.178450E-01           2.435774E-04     
-      9.576100E-02          -8.796617E-05     
-      5.135100E-02           7.878246E-05     
-S   19   1.00
-      2.715278E+06          -4.722109E-06     
-      4.065984E+05          -3.671829E-05     
-      9.253004E+04          -1.930883E-04     
-      2.620792E+04          -8.146870E-04     
-      8.549429E+03          -2.955526E-03     
-      3.085975E+03          -9.520035E-03     
-      1.203172E+03          -2.746858E-02     
-      4.984869E+02          -6.991528E-02     
-      2.167360E+02          -1.499251E-01     
-      9.787476E+01          -2.459153E-01     
-      4.520433E+01          -2.401293E-01     
-      2.021187E+01           3.567987E-02     
-      9.574751E+00           4.915023E-01     
-      4.540346E+00           4.911381E-01     
-      1.995687E+00           9.120633E-02     
-      9.422150E-01          -5.356723E-03     
-      4.178450E-01           8.812836E-04     
-      9.576100E-02          -7.605536E-04     
-      5.135100E-02           6.340116E-04     
-S   19   1.00
-      2.715278E+06           9.139905E-07     
-      4.065984E+05           7.108513E-06     
-      9.253004E+04           3.738126E-05     
-      2.620792E+04           1.578828E-04     
-      8.549429E+03           5.737686E-04     
-      3.085975E+03           1.859244E-03     
-      1.203172E+03           5.433182E-03     
-      4.984869E+02           1.425387E-02     
-      2.167360E+02           3.246144E-02     
-      9.787476E+01           6.003454E-02     
-      4.520433E+01           6.916105E-02     
-      2.021187E+01          -2.113084E-02     
-      9.574751E+00          -2.666832E-01     
-      4.540346E+00          -4.367591E-01     
-      1.995687E+00           6.498243E-02     
-      9.422150E-01           7.009599E-01     
-      4.178450E-01           4.515562E-01     
-      9.576100E-02           3.011910E-02     
-      5.135100E-02          -1.329480E-02     
-S   19   1.00
-      2.715278E+06          -2.201951E-07     
-      4.065984E+05          -1.711419E-06     
-      9.253004E+04          -9.008469E-06     
-      2.620792E+04          -3.799997E-05     
-      8.549429E+03          -1.383227E-04     
-      3.085975E+03          -4.473692E-04     
-      1.203172E+03          -1.310691E-03     
-      4.984869E+02          -3.429860E-03     
-      2.167360E+02          -7.847579E-03     
-      9.787476E+01          -1.447189E-02     
-      4.520433E+01          -1.690669E-02     
-      2.021187E+01           5.396115E-03     
-      9.574751E+00           6.671062E-02     
-      4.540346E+00           1.178356E-01     
-      1.995687E+00          -2.738134E-02     
-      9.422150E-01          -2.260149E-01     
-      4.178450E-01          -3.073539E-01     
-      9.576100E-02           2.544054E-01     
-      5.135100E-02           5.981590E-01     
-S   19   1.00
-      2.715278E+06          -3.757238E-07     
-      4.065984E+05          -2.981907E-06     
-      9.253004E+04          -1.522586E-05     
-      2.620792E+04          -6.684686E-05     
-      8.549429E+03          -2.313129E-04     
-      3.085975E+03          -7.959729E-04     
-      1.203172E+03          -2.161961E-03     
-      4.984869E+02          -6.206459E-03     
-      2.167360E+02          -1.261905E-02     
-      9.787476E+01          -2.739459E-02     
-      4.520433E+01          -2.336516E-02     
-      2.021187E+01          -5.734627E-03     
-      9.574751E+00           1.536025E-01     
-      4.540346E+00           1.447100E-01     
-      1.995687E+00           9.359699E-02     
-      9.422150E-01          -8.687730E-01     
-      4.178450E-01           2.114597E-02     
-      9.576100E-02           2.275498E+00     
-      5.135100E-02          -1.190770E+00     
-S   1   1.00
-      2.387800E-02           1.0000000        
-P   15   1.00
-      1.059219E+04           4.500000E-05     
-      2.507533E+03           4.010000E-04     
-      8.144571E+02           2.302000E-03     
-      3.115195E+02           1.003700E-02     
-      1.319617E+02           3.495400E-02     
-      5.998718E+01           9.790900E-02     
-      2.866250E+01           2.106800E-01     
-      1.410851E+01           3.300930E-01     
-      7.103706E+00           3.310270E-01     
-      3.609200E+00           1.579600E-01     
-      1.776070E+00           2.209900E-02     
-      8.547600E-01          -1.605000E-03     
-      4.022390E-01          -1.326000E-03     
-      1.546650E-01          -2.800000E-04     
-      6.494500E-02           3.400000E-05     
-P   15   1.00
-      1.059219E+04          -1.500000E-05     
-      2.507533E+03          -1.310000E-04     
-      8.144571E+02          -7.570000E-04     
-      3.115195E+02          -3.318000E-03     
-      1.319617E+02          -1.170600E-02     
-      5.998718E+01          -3.360400E-02     
-      2.866250E+01          -7.487900E-02     
-      1.410851E+01          -1.225480E-01     
-      7.103706E+00          -1.302760E-01     
-      3.609200E+00           1.459600E-02     
-      1.776070E+00           3.091840E-01     
-      8.547600E-01           4.629980E-01     
-      4.022390E-01           3.049570E-01     
-      1.546650E-01           5.087800E-02     
-      6.494500E-02          -4.493000E-03     
-P   15   1.00
-      1.059219E+04          -4.000000E-06     
-      2.507533E+03          -3.200000E-05     
-      8.144571E+02          -1.850000E-04     
-      3.115195E+02          -8.080000E-04     
-      1.319617E+02          -2.870000E-03     
-      5.998718E+01          -8.207000E-03     
-      2.866250E+01          -1.847300E-02     
-      1.410851E+01          -3.010100E-02     
-      7.103706E+00          -3.294300E-02     
-      3.609200E+00           7.958000E-03     
-      1.776070E+00           8.799300E-02     
-      8.547600E-01           1.523770E-01     
-      4.022390E-01           9.717000E-02     
-      1.546650E-01          -2.569380E-01     
-      6.494500E-02          -5.878150E-01     
-P   15   1.00
-      1.059219E+04           4.000000E-06     
-      2.507533E+03           3.900000E-05     
-      8.144571E+02           2.210000E-04     
-      3.115195E+02           9.840000E-04     
-      1.319617E+02           3.423000E-03     
-      5.998718E+01           9.993000E-03     
-      2.866250E+01           2.191600E-02     
-      1.410851E+01           3.700800E-02     
-      7.103706E+00           3.779400E-02     
-      3.609200E+00          -4.379000E-03     
-      1.776070E+00          -1.101640E-01     
-      8.547600E-01          -1.610170E-01     
-      4.022390E-01          -1.824820E-01     
-      1.546650E-01           3.886110E-01     
-      6.494500E-02           6.911000E-01     
-P   1   1.00
-      2.635900E-02           1.0000000        
-D   7   1.00
-      5.051380E+01           4.266000E-03     
-      1.474050E+01           2.770800E-02     
-      5.195000E+00           1.000010E-01     
-      2.028460E+00           2.315810E-01     
-      8.040860E-01           3.460330E-01     
-      3.076890E-01           3.733740E-01     
-      1.113920E-01           2.642880E-01     
-D   7   1.00
-      5.051380E+01          -4.389000E-03     
-      1.474050E+01          -2.836300E-02     
-      5.195000E+00          -1.051370E-01     
-      2.028460E+00          -2.348540E-01     
-      8.040860E-01          -3.246090E-01     
-      3.076890E-01          -6.428900E-02     
-      1.113920E-01           6.017490E-01     
-D   1   1.00
-      3.735200E-02           1.0000000        
-F   2   1.00
-      7.126000E-01           3.617450E-01     
-      1.636000E-01           8.218680E-01     
-****
-Ti     0 
-S   19   1.00
-      3.014643E+06           8.060782E-06     
-      4.514329E+05           6.267518E-05     
-      1.027338E+05           3.295006E-04     
-      2.909817E+04           1.389203E-03     
-      9.492330E+03           5.028469E-03     
-      3.426346E+03           1.610419E-02     
-      1.335896E+03           4.581232E-02     
-      5.535026E+02           1.128613E-01     
-      2.406925E+02           2.248193E-01     
-      1.087293E+02           3.114571E-01     
-      5.026457E+01           2.224995E-01     
-      2.258004E+01           7.293128E-02     
-      1.071432E+01           1.160683E-01     
-      5.093546E+00           1.194774E-01     
-      2.244183E+00           2.097868E-02     
-      1.059570E+00          -5.091715E-04     
-      4.688490E-01           2.217859E-04     
-      1.061430E-01          -7.636896E-05     
-      5.526200E-02           7.719539E-05     
-S   19   1.00
-      3.014643E+06          -4.630486E-06     
-      4.514329E+05          -3.600451E-05     
-      1.027338E+05          -1.893420E-04     
-      2.909817E+04          -7.988781E-04     
-      9.492330E+03          -2.898698E-03     
-      3.426346E+03          -9.339701E-03     
-      1.335896E+03          -2.697464E-02     
-      5.535026E+02          -6.878913E-02     
-      2.406925E+02          -1.481037E-01     
-      1.087293E+02          -2.445253E-01     
-      5.026457E+01          -2.419916E-01     
-      2.258004E+01           3.183790E-02     
-      1.071432E+01           4.932686E-01     
-      5.093546E+00           4.939655E-01     
-      2.244183E+00           9.196313E-02     
-      1.059570E+00          -5.316992E-03     
-      4.688490E-01           8.085624E-04     
-      1.061430E-01          -6.918459E-04     
-      5.526200E-02           6.086512E-04     
-S   19   1.00
-      3.014643E+06           9.230559E-07     
-      4.514329E+05           7.178974E-06     
-      1.027338E+05           3.775134E-05     
-      2.909817E+04           1.594532E-04     
-      9.492330E+03           5.795150E-04     
-      3.426346E+03           1.878414E-03     
-      1.335896E+03           5.492747E-03     
-      5.535026E+02           1.443297E-02     
-      2.406925E+02           3.296408E-02     
-      1.087293E+02           6.125493E-02     
-      5.026457E+01           7.134113E-02     
-      2.258004E+01          -1.973150E-02     
-      1.071432E+01          -2.741869E-01     
-      5.093546E+00          -4.440977E-01     
-      2.244183E+00           7.776084E-02     
-      1.059570E+00           7.068444E-01     
-      4.688490E-01           4.413892E-01     
-      1.061430E-01           2.799769E-02     
-      5.526200E-02          -1.210790E-02     
-S   19   1.00
-      3.014643E+06          -2.180323E-07     
-      4.514329E+05          -1.694860E-06     
-      1.027338E+05          -8.919208E-06     
-      2.909817E+04          -3.763633E-05     
-      9.492330E+03          -1.369575E-04     
-      3.426346E+03          -4.432894E-04     
-      1.335896E+03          -1.298868E-03     
-      5.535026E+02          -3.406752E-03     
-      2.406925E+02          -7.810829E-03     
-      1.087293E+02          -1.449245E-02     
-      5.026457E+01          -1.708136E-02     
-      2.258004E+01           4.897666E-03     
-      1.071432E+01           6.753108E-02     
-      5.093546E+00           1.173318E-01     
-      2.244183E+00          -2.985025E-02     
-      1.059570E+00          -2.277634E-01     
-      4.688490E-01          -2.928115E-01     
-      1.061430E-01           2.665300E-01     
-      5.526200E-02           5.912406E-01     
-S   19   1.00
-      3.014643E+06          -3.975126E-07     
-      4.514329E+05          -3.161080E-06     
-      1.027338E+05          -1.609375E-05     
-      2.909817E+04          -7.092947E-05     
-      9.492330E+03          -2.442710E-04     
-      3.426346E+03          -8.457892E-04     
-      1.335896E+03          -2.282208E-03     
-      5.535026E+02          -6.619873E-03     
-      2.406925E+02          -1.335024E-02     
-      1.087293E+02          -2.955830E-02     
-      5.026457E+01          -2.477039E-02     
-      2.258004E+01          -8.414624E-03     
-      1.071432E+01           1.693855E-01     
-      5.093546E+00           1.500787E-01     
-      2.244183E+00           9.787777E-02     
-      1.059570E+00          -9.653608E-01     
-      4.688490E-01           1.489721E-01     
-      1.061430E-01           2.191179E+00     
-      5.526200E-02          -1.243325E+00     
-S   1   1.00
-      2.546500E-02           1.0000000        
-P   15   1.00
-      1.191203E+04           4.400000E-05     
-      2.819947E+03           3.910000E-04     
-      9.159479E+02           2.248000E-03     
-      3.503842E+02           9.823000E-03     
-      1.484825E+02           3.433800E-02     
-      6.753944E+01           9.666600E-02     
-      3.230332E+01           2.094170E-01     
-      1.592786E+01           3.301890E-01     
-      8.038035E+00           3.319360E-01     
-      4.093916E+00           1.584880E-01     
-      2.022390E+00           2.231000E-02     
-      9.761020E-01          -1.566000E-03     
-      4.595950E-01          -1.324000E-03     
-      1.771520E-01          -2.710000E-04     
-      7.351700E-02           3.200000E-05     
-P   15   1.00
-      1.191203E+04          -1.500000E-05     
-      2.819947E+03          -1.310000E-04     
-      9.159479E+02          -7.550000E-04     
-      3.503842E+02          -3.319000E-03     
-      1.484825E+02          -1.175000E-02     
-      6.753944E+01          -3.392200E-02     
-      3.230332E+01          -7.616400E-02     
-      1.592786E+01          -1.257020E-01     
-      8.038035E+00          -1.330980E-01     
-      4.093916E+00           1.740600E-02     
-      2.022390E+00           3.151650E-01     
-      9.761020E-01           4.618140E-01     
-      4.595950E-01           2.998560E-01     
-      1.771520E-01           5.000000E-02     
-      7.351700E-02          -4.230000E-03     
-P   15   1.00
-      1.191203E+04           4.000000E-06     
-      2.819947E+03           3.100000E-05     
-      9.159479E+02           1.820000E-04     
-      3.503842E+02           7.950000E-04     
-      1.484825E+02           2.833000E-03     
-      6.753944E+01           8.154000E-03     
-      3.230332E+01           1.847200E-02     
-      1.592786E+01           3.040000E-02     
-      8.038035E+00           3.304700E-02     
-      4.093916E+00          -8.251000E-03     
-      2.022390E+00          -8.855400E-02     
-      9.761020E-01          -1.496120E-01     
-      4.595950E-01          -9.422700E-02     
-      1.771520E-01           2.508460E-01     
-      7.351700E-02           5.866430E-01     
-P   15   1.00
-      1.191203E+04           4.000000E-06     
-      2.819947E+03           3.900000E-05     
-      9.159479E+02           2.230000E-04     
-      3.503842E+02           9.920000E-04     
-      1.484825E+02           3.476000E-03     
-      6.753944E+01           1.017200E-02     
-      3.230332E+01           2.257600E-02     
-      1.592786E+01           3.823800E-02     
-      8.038035E+00           3.933700E-02     
-      4.093916E+00          -6.106000E-03     
-      2.022390E+00          -1.129620E-01     
-      9.761020E-01          -1.681140E-01     
-      4.595950E-01          -1.659320E-01     
-      1.771520E-01           3.914030E-01     
-      7.351700E-02           6.818400E-01     
-P   1   1.00
-      2.940100E-02           1.0000000        
-D   7   1.00
-      6.401300E+01           3.887000E-03     
-      1.881790E+01           2.639900E-02     
-      6.728700E+00           9.751100E-02     
-      2.664130E+00           2.328480E-01     
-      1.078680E+00           3.531520E-01     
-      4.232090E-01           3.721860E-01     
-      1.559990E-01           2.476720E-01     
-D   7   1.00
-      6.401300E+01          -3.970000E-03     
-      1.881790E+01          -2.687300E-02     
-      6.728700E+00          -1.022750E-01     
-      2.664130E+00          -2.377280E-01     
-      1.078680E+00          -3.121140E-01     
-      4.232090E-01          -4.237800E-02     
-      1.559990E-01           5.886580E-01     
-D   1   1.00
-      5.188400E-02           1.0000000        
-F   2   1.00
-      1.227400E+00           3.581580E-01     
-      2.788000E-01           8.257940E-01     
-****
-V     0 
-S   19   1.00
-      3.321857E+06           8.039999E-06     
-      4.974356E+05           6.251402E-05     
-      1.132027E+05           3.286553E-04     
-      3.206333E+04           1.385697E-03     
-      1.045962E+04           5.016217E-03     
-      3.775506E+03           1.606931E-02     
-      1.472040E+03           4.574242E-02     
-      6.099331E+02           1.128544E-01     
-      2.652634E+02           2.254344E-01     
-      1.198607E+02           3.140461E-01     
-      5.544891E+01           2.267819E-01     
-      2.498372E+01           7.334069E-02     
-      1.188056E+01           1.102474E-01     
-      5.660311E+00           1.131358E-01     
-      2.495703E+00           1.971295E-02     
-      1.177866E+00          -4.719088E-04     
-      5.200440E-01           1.861606E-04     
-      1.159650E-01          -6.208598E-05     
-      5.893800E-02           7.295314E-05     
-S   19   1.00
-      3.321857E+06          -4.503003E-06     
-      4.974356E+05          -3.501295E-05     
-      1.132027E+05          -1.841339E-04     
-      3.206333E+04          -7.769216E-04     
-      1.045962E+04          -2.819505E-03     
-      3.775506E+03          -9.087486E-03     
-      1.472040E+03          -2.627134E-02     
-      6.099331E+02          -6.712726E-02     
-      2.652634E+02          -1.451130E-01     
-      1.198607E+02          -2.412483E-01     
-      5.544891E+01          -2.416314E-01     
-      2.498372E+01           3.067362E-02     
-      1.188056E+01           4.970415E-01     
-      5.660311E+00           4.958875E-01     
-      2.495703E+00           9.181868E-02     
-      1.177866E+00          -5.392514E-03     
-      5.200440E-01           7.102380E-04     
-      1.159650E-01          -6.363128E-04     
-      5.893800E-02           5.979932E-04     
-S   19   1.00
-      3.321857E+06           9.320648E-07     
-      4.974356E+05           7.249306E-06     
-      1.132027E+05           3.811967E-05     
-      3.206333E+04           1.610238E-04     
-      1.045962E+04           5.852210E-04     
-      3.775506E+03           1.897502E-03     
-      1.472040E+03           5.550909E-03     
-      6.099331E+02           1.460584E-02     
-      2.652634E+02           3.342974E-02     
-      1.198607E+02           6.235722E-02     
-      5.544891E+01           7.312435E-02     
-      2.498372E+01          -1.911472E-02     
-      1.188056E+01          -2.817249E-01     
-      5.660311E+00          -4.488151E-01     
-      2.495703E+00           9.202696E-02     
-      1.177866E+00           7.110117E-01     
-      5.200440E-01           4.309274E-01     
-      1.159650E-01           2.604589E-02     
-      5.893800E-02          -1.101049E-02     
-S   19   1.00
-      3.321857E+06          -2.158944E-07     
-      4.974356E+05          -1.678519E-06     
-      1.132027E+05          -8.831213E-06     
-      3.206333E+04          -3.727769E-05     
-      1.045962E+04          -1.356099E-04     
-      3.775506E+03          -4.392351E-04     
-      1.472040E+03          -1.286948E-03     
-      6.099331E+02          -3.382149E-03     
-      2.652634E+02          -7.765646E-03     
-      1.198607E+02          -1.447985E-02     
-      5.544891E+01          -1.715502E-02     
-      2.498372E+01           4.610101E-03     
-      1.188056E+01           6.827831E-02     
-      5.660311E+00           1.161368E-01     
-      2.495703E+00          -3.277049E-02     
-      1.177866E+00          -2.280000E-01     
-      5.200440E-01          -2.793991E-01     
-      1.159650E-01           2.771165E-01     
-      5.893800E-02           5.852999E-01     
-S   19   1.00
-      3.321857E+06          -4.093416E-07     
-      4.974356E+05          -3.258956E-06     
-      1.132027E+05          -1.656390E-05     
-      3.206333E+04          -7.316689E-05     
-      1.045962E+04          -2.512784E-04     
-      3.775506E+03          -8.732657E-04     
-      1.472040E+03          -2.347654E-03     
-      6.099331E+02          -6.853150E-03     
-      2.652634E+02          -1.376420E-02     
-      1.198607E+02          -3.084679E-02     
-      5.544891E+01          -2.562208E-02     
-      2.498372E+01          -1.005123E-02     
-      1.188056E+01           1.795330E-01     
-      5.660311E+00           1.522400E-01     
-      2.495703E+00           9.483887E-02     
-      1.177866E+00          -1.014876E+00     
-      5.200440E-01           2.308810E-01     
-      1.159650E-01           2.113321E+00     
-      5.893800E-02          -1.253048E+00     
-S   1   1.00
-      2.694600E-02           1.0000000        
-P   15   1.00
-      1.327320E+04           4.300000E-05     
-      3.142126E+03           3.840000E-04     
-      1.020588E+03           2.210000E-03     
-      3.904407E+02           9.678000E-03     
-      1.655043E+02           3.393600E-02     
-      7.532006E+01           9.591700E-02     
-      3.605503E+01           2.088530E-01     
-      1.780436E+01           3.306600E-01     
-      9.002929E+00           3.323120E-01     
-      4.594544E+00           1.581880E-01     
-      2.276760E+00           2.225200E-02     
-      1.101178E+00          -1.565000E-03     
-      5.186380E-01          -1.353000E-03     
-      2.005650E-01          -2.650000E-04     
-      8.129100E-02           2.900000E-05     
-P   15   1.00
-      1.327320E+04          -1.500000E-05     
-      3.142126E+03          -1.310000E-04     
-      1.020588E+03          -7.550000E-04     
-      3.904407E+02          -3.325000E-03     
-      1.655043E+02          -1.181100E-02     
-      7.532006E+01          -3.425600E-02     
-      3.605503E+01          -7.736300E-02     
-      1.780436E+01          -1.284560E-01     
-      9.002929E+00          -1.350780E-01     
-      4.594544E+00           2.083800E-02     
-      2.276760E+00           3.204990E-01     
-      1.101178E+00           4.602600E-01     
-      5.186380E-01           2.953460E-01     
-      2.005650E-01           4.904600E-02     
-      8.129100E-02          -3.824000E-03     
-P   15   1.00
-      1.327320E+04           4.000000E-06     
-      3.142126E+03           3.200000E-05     
-      1.020588E+03           1.830000E-04     
-      3.904407E+02           8.020000E-04     
-      1.655043E+02           2.862000E-03     
-      7.532006E+01           8.287000E-03     
-      3.605503E+01           1.887000E-02     
-      1.780436E+01           3.130700E-02     
-      9.002929E+00           3.366000E-02     
-      4.594544E+00          -9.479000E-03     
-      2.276760E+00          -9.231300E-02     
-      1.101178E+00          -1.489890E-01     
-      5.186380E-01          -8.364400E-02     
-      2.005650E-01           2.493390E-01     
-      8.129100E-02           5.805150E-01     
-P   15   1.00
-      1.327320E+04           4.000000E-06     
-      3.142126E+03           3.900000E-05     
-      1.020588E+03           2.230000E-04     
-      3.904407E+02           9.960000E-04     
-      1.655043E+02           3.498000E-03     
-      7.532006E+01           1.029600E-02     
-      3.605503E+01           2.296200E-02     
-      1.780436E+01           3.920800E-02     
-      9.002929E+00           3.994300E-02     
-      4.594544E+00          -7.121000E-03     
-      2.276760E+00          -1.162250E-01     
-      1.101178E+00          -1.694960E-01     
-      5.186380E-01          -1.553740E-01     
-      2.005650E-01           3.950220E-01     
-      8.129100E-02           6.789080E-01     
-P   1   1.00
-      3.179500E-02           1.0000000        
-D   7   1.00
-      7.761150E+01           3.595000E-03     
-      2.291590E+01           2.521000E-02     
-      8.279540E+00           9.478600E-02     
-      3.309930E+00           2.303630E-01     
-      1.358630E+00           3.528940E-01     
-      5.413500E-01           3.704140E-01     
-      2.023560E-01           2.457180E-01     
-D   7   1.00
-      7.761150E+01          -3.818000E-03     
-      2.291590E+01          -2.671700E-02     
-      8.279540E+00          -1.036900E-01     
-      3.309930E+00          -2.476890E-01     
-      1.358630E+00          -3.115230E-01     
-      5.413500E-01          -2.282700E-02     
-      2.023560E-01           5.697260E-01     
-D   1   1.00
-      6.756800E-02           1.0000000        
-F   2   1.00
-      1.748800E+00           3.900680E-01     
-      4.057000E-01           8.008410E-01     
-****
-Cr     0 
-S   19   1.00
-      6.177194E+06           4.128667E-06     
-      9.249295E+05           3.210767E-05     
-      2.104865E+05           1.688416E-04     
-      5.962005E+04           7.128520E-04     
-      1.945076E+04           2.589325E-03     
-      7.022056E+03           8.377350E-03     
-      2.738763E+03           2.441725E-02     
-      1.135814E+03           6.365135E-02     
-      4.950923E+02           1.427618E-01     
-      2.247487E+02           2.541275E-01     
-      1.053836E+02           3.009512E-01     
-      5.019359E+01           1.766513E-01     
-      2.224957E+01           6.936709E-02     
-      1.098265E+01           1.179579E-01     
-      5.383665E+00           8.916187E-02     
-      2.343685E+00           1.103630E-02     
-      1.105202E+00          -3.546048E-04     
-      4.878480E-01           1.057311E-04     
-      8.959900E-02           1.114640E-05     
-S   19   1.00
-      6.177194E+06          -2.301772E-06     
-      9.249295E+05          -1.789536E-05     
-      2.104865E+05          -9.416174E-05     
-      5.962005E+04          -3.975074E-04     
-      1.945076E+04          -1.447025E-03     
-      7.022056E+03          -4.694622E-03     
-      2.738763E+03          -1.382387E-02     
-      1.135814E+03          -3.674643E-02     
-      4.950923E+02          -8.647185E-02     
-      2.247487E+02          -1.696735E-01     
-      1.053836E+02          -2.507089E-01     
-      5.019359E+01          -1.961156E-01     
-      2.224957E+01           1.457244E-01     
-      1.098265E+01           5.466706E-01     
-      5.383665E+00           3.979434E-01     
-      2.343685E+00           5.277007E-02     
-      1.105202E+00          -4.374537E-03     
-      4.878480E-01           3.204035E-04     
-      8.959900E-02          -5.142077E-05     
-S   19   1.00
-      6.177194E+06           4.862957E-07     
-      9.249295E+05           3.776645E-06     
-      2.104865E+05           1.990664E-05     
-      5.962005E+04           8.389164E-05     
-      1.945076E+04           3.065706E-04     
-      7.022056E+03           9.944107E-04     
-      2.738763E+03           2.961959E-03     
-      1.135814E+03           7.969473E-03     
-      4.950923E+02           1.955017E-02     
-      2.247487E+02           4.085035E-02     
-      1.053836E+02           6.929003E-02     
-      5.019359E+01           6.146984E-02     
-      2.224957E+01          -6.981302E-02     
-      1.098265E+01          -3.517597E-01     
-      5.383665E+00          -3.828629E-01     
-      2.343685E+00           2.676401E-01     
-      1.105202E+00           7.175950E-01     
-      4.878480E-01           3.020814E-01     
-      8.959900E-02           7.749514E-03     
-S   19   1.00
-      6.177194E+06          -1.102451E-07     
-      9.249295E+05          -8.530233E-07     
-      2.104865E+05          -4.520358E-06     
-      5.962005E+04          -1.891612E-05     
-      1.945076E+04          -6.974344E-05     
-      7.022056E+03          -2.237867E-04     
-      2.738763E+03          -6.754503E-04     
-      1.135814E+03          -1.789346E-03     
-      4.950923E+02          -4.477858E-03     
-      2.247487E+02          -9.140144E-03     
-      1.053836E+02          -1.610562E-02     
-      5.019359E+01          -1.334870E-02     
-      2.224957E+01           1.426027E-02     
-      1.098265E+01           8.931690E-02     
-      5.383665E+00           8.885279E-02     
-      2.343685E+00          -6.368776E-02     
-      1.105202E+00          -2.783262E-01     
-      4.878480E-01          -1.830071E-01     
-      8.959900E-02           6.790937E-01     
-S   19   1.00
-      6.177194E+06           2.179893E-07     
-      9.249295E+05           1.612940E-06     
-      2.104865E+05           9.111842E-06     
-      5.962005E+04           3.500645E-05     
-      1.945076E+04           1.435315E-04     
-      7.022056E+03           4.035896E-04     
-      2.738763E+03           1.425177E-03     
-      1.135814E+03           3.114009E-03     
-      4.950923E+02           9.814449E-03     
-      2.247487E+02           1.474698E-02     
-      1.053836E+02           3.911512E-02     
-      5.019359E+01           9.170888E-03     
-      2.224957E+01           1.559878E-02     
-      1.098265E+01          -2.816844E-01     
-      5.383665E+00          -6.895261E-03     
-      2.343685E+00          -1.769781E-01     
-      1.105202E+00           1.443061E+00     
-      4.878480E-01          -1.029318E+00     
-      8.959900E-02          -1.307667E+00     
-S   1   1.00
-      3.342300E-02           1.0000000        
-P   15   1.00
-      1.445420E+04           4.400000E-05     
-      3.421676E+03           3.890000E-04     
-      1.111387E+03           2.241000E-03     
-      4.251918E+02           9.821000E-03     
-      1.802623E+02           3.447100E-02     
-      8.206117E+01           9.746000E-02     
-      3.929726E+01           2.119850E-01     
-      1.941959E+01           3.339900E-01     
-      9.828899E+00           3.301370E-01     
-      5.016810E+00           1.522270E-01     
-      2.487091E+00           2.042500E-02     
-      1.198780E+00          -1.360000E-03     
-      5.586950E-01          -1.195000E-03     
-      2.089240E-01          -1.970000E-04     
-      8.460800E-02           2.300000E-05     
-P   15   1.00
-      1.445420E+04          -1.500000E-05     
-      3.421676E+03          -1.350000E-04     
-      1.111387E+03          -7.770000E-04     
-      4.251918E+02          -3.427000E-03     
-      1.802623E+02          -1.218900E-02     
-      8.206117E+01          -3.538800E-02     
-      3.929726E+01          -7.991500E-02     
-      1.941959E+01          -1.323350E-01     
-      9.828899E+00          -1.354010E-01     
-      5.016810E+00           3.200800E-02     
-      2.487091E+00           3.338490E-01     
-      1.198780E+00           4.617730E-01     
-      5.586950E-01           2.812900E-01     
-      2.089240E-01           4.184300E-02     
-      8.460800E-02          -4.002000E-03     
-P   15   1.00
-      1.445420E+04           4.000000E-06     
-      3.421676E+03           3.200000E-05     
-      1.111387E+03           1.850000E-04     
-      4.251918E+02           8.100000E-04     
-      1.802623E+02           2.906000E-03     
-      8.206117E+01           8.391000E-03     
-      3.929726E+01           1.919300E-02     
-      1.941959E+01           3.156400E-02     
-      9.828899E+00           3.341700E-02     
-      5.016810E+00          -1.290700E-02     
-      2.487091E+00          -9.365900E-02     
-      1.198780E+00          -1.499770E-01     
-      5.586950E-01          -6.723400E-02     
-      2.089240E-01           2.707590E-01     
-      8.460800E-02           5.758070E-01     
-P   15   1.00
-      1.445420E+04           4.000000E-06     
-      3.421676E+03           4.000000E-05     
-      1.111387E+03           2.290000E-04     
-      4.251918E+02           1.019000E-03     
-      1.802623E+02           3.602000E-03     
-      8.206117E+01           1.055000E-02     
-      3.929726E+01           2.370200E-02     
-      1.941959E+01           3.998800E-02     
-      9.828899E+00           4.043700E-02     
-      5.016810E+00          -1.207400E-02     
-      2.487091E+00          -1.189390E-01     
-      1.198780E+00          -1.781000E-01     
-      5.586950E-01          -1.238650E-01     
-      2.089240E-01           4.297220E-01     
-      8.460800E-02           6.507860E-01     
-P   1   1.00
-      3.325800E-02           1.0000000        
-D   7   1.00
-      8.857680E+01           3.621000E-03     
-      2.620450E+01           2.576600E-02     
-      9.517470E+00           9.755600E-02     
-      3.822480E+00           2.363120E-01     
-      1.575120E+00           3.582860E-01     
-      6.289280E-01           3.685430E-01     
-      2.344240E-01           2.354940E-01     
-D   7   1.00
-      8.857680E+01          -4.122000E-03     
-      2.620450E+01          -2.930700E-02     
-      9.517470E+00          -1.150620E-01     
-      3.822480E+00          -2.730680E-01     
-      1.575120E+00          -3.144230E-01     
-      6.289280E-01           4.209700E-02     
-      2.344240E-01           5.914030E-01     
-D   1   1.00
-      7.681500E-02           1.0000000        
-F   2   1.00
-      2.221100E+00           4.235450E-01     
-      5.231000E-01           7.741140E-01     
-****
-Mn     0 
-S   19   1.00
-      3.960805E+06           8.242127E-06     
-      5.931155E+05           6.408587E-05     
-      1.349768E+05           3.369253E-04     
-      3.823067E+04           1.420648E-03     
-      1.247154E+04           5.143683E-03     
-      4.501743E+03           1.648569E-02     
-      1.755212E+03           4.698560E-02     
-      7.273039E+02           1.162437E-01     
-      3.163678E+02           2.335277E-01     
-      1.430098E+02           3.292837E-01     
-      6.621805E+01           2.440304E-01     
-      2.991896E+01           7.219806E-02     
-      1.430318E+01           7.687806E-02     
-      6.839451E+00           7.852235E-02     
-      3.012374E+00           1.294109E-02     
-      1.418808E+00          -3.784873E-04     
-      6.236240E-01          -2.503203E-05     
-      1.340980E-01          -2.421517E-05     
-      6.554800E-02           3.462071E-05     
-S   19   1.00
-      3.960805E+06          -3.936095E-06     
-      5.931155E+05          -3.060481E-05     
-      1.349768E+05          -1.609626E-04     
-      3.823067E+04          -6.792348E-04     
-      1.247154E+04          -2.466182E-03     
-      4.501743E+03          -7.957629E-03     
-      1.755212E+03          -2.307248E-02     
-      7.273039E+02          -5.932956E-02     
-      3.163678E+02          -1.299451E-01     
-      1.430098E+02          -2.212352E-01     
-      6.621805E+01          -2.292550E-01     
-      2.991896E+01           3.580733E-02     
-      1.430318E+01           5.107602E-01     
-      6.839451E+00           5.008307E-01     
-      3.012374E+00           9.011830E-02     
-      1.418808E+00          -6.909909E-03     
-      6.236240E-01          -1.912925E-04     
-      1.340980E-01          -6.032312E-04     
-      6.554800E-02           5.621608E-04     
-S   19   1.00
-      3.960805E+06           9.462709E-07     
-      5.931155E+05           7.360584E-06     
-      1.349768E+05           3.869935E-05     
-      3.823067E+04           1.635110E-04     
-      1.247154E+04           5.941775E-04     
-      4.501743E+03           1.927737E-03     
-      1.755212E+03           5.641731E-03     
-      7.273039E+02           1.487848E-02     
-      3.163678E+02           3.414783E-02     
-      1.430098E+02           6.405794E-02     
-      6.621805E+01           7.557659E-02     
-      2.991896E+01          -1.946070E-02     
-      1.430318E+01          -2.957874E-01     
-      6.839451E+00          -4.521170E-01     
-      3.012374E+00           1.224531E-01     
-      1.418808E+00           7.169756E-01     
-      6.236240E-01           4.092712E-01     
-      1.340980E-01           2.221969E-02     
-      6.554800E-02          -9.011202E-03     
-S   19   1.00
-      3.960805E+06          -2.095391E-07     
-      5.931155E+05          -1.629439E-06     
-      1.349768E+05          -8.570592E-06     
-      3.823067E+04          -3.619272E-05     
-      1.247154E+04          -1.316146E-04     
-      4.501743E+03          -4.266810E-04     
-      1.755212E+03          -1.250270E-03     
-      7.273039E+02          -3.294665E-03     
-      3.163678E+02          -7.581860E-03     
-      1.430098E+02          -1.422864E-02     
-      6.621805E+01          -1.693796E-02     
-      2.991896E+01           4.454298E-03     
-      1.430318E+01           6.867042E-02     
-      6.839451E+00           1.113335E-01     
-      3.012374E+00          -3.900820E-02     
-      1.418808E+00          -2.215755E-01     
-      6.236240E-01          -2.544359E-01     
-      1.340980E-01           2.865866E-01     
-      6.554800E-02           5.755741E-01     
-S   19   1.00
-      3.960805E+06          -4.121231E-07     
-      5.931155E+05          -3.282099E-06     
-      1.349768E+05          -1.667433E-05     
-      3.823067E+04          -7.369999E-05     
-      1.247154E+04          -2.529495E-04     
-      4.501743E+03          -8.801425E-04     
-      1.755212E+03          -2.365482E-03     
-      7.273039E+02          -6.926354E-03     
-      3.163678E+02          -1.393851E-02     
-      1.430098E+02          -3.143840E-02     
-      6.621805E+01          -2.625749E-02     
-      2.991896E+01          -1.048313E-02     
-      1.430318E+01           1.856472E-01     
-      6.839451E+00           1.524839E-01     
-      3.012374E+00           7.411368E-02     
-      1.418808E+00          -1.018097E+00     
-      6.236240E-01           2.980372E-01     
-      1.340980E-01           1.971989E+00     
-      6.554800E-02          -1.179253E+00     
-S   1   1.00
-      2.958400E-02           1.0000000        
-P   15   1.00
-      1.620586E+04           4.200000E-05     
-      3.836274E+03           3.730000E-04     
-      1.246048E+03           2.149000E-03     
-      4.767535E+02           9.445000E-03     
-      2.021895E+02           3.329700E-02     
-      9.209487E+01           9.475900E-02     
-      4.414720E+01           2.081440E-01     
-      2.185468E+01           3.318050E-01     
-      1.108596E+01           3.331750E-01     
-      5.674108E+00           1.576010E-01     
-      2.823170E+00           2.144500E-02     
-      1.368621E+00          -2.558000E-03     
-      6.444310E-01          -2.027000E-03     
-      2.483820E-01          -3.600000E-04     
-      9.725500E-02           3.400000E-05     
-P   15   1.00
-      1.620586E+04          -1.500000E-05     
-      3.836274E+03          -1.290000E-04     
-      1.246048E+03          -7.480000E-04     
-      4.767535E+02          -3.308000E-03     
-      2.021895E+02          -1.181100E-02     
-      9.209487E+01          -3.453300E-02     
-      4.414720E+01          -7.878500E-02     
-      2.185468E+01          -1.321830E-01     
-      1.108596E+01          -1.371950E-01     
-      5.674108E+00           2.707500E-02     
-      2.823170E+00           3.288910E-01     
-      1.368621E+00           4.572800E-01     
-      6.444310E-01           2.889080E-01     
-      2.483820E-01           4.743300E-02     
-      9.725500E-02          -3.522000E-03     
-P   15   1.00
-      1.620586E+04           3.000000E-06     
-      3.836274E+03           3.000000E-05     
-      1.246048E+03           1.720000E-04     
-      4.767535E+02           7.620000E-04     
-      2.021895E+02           2.726000E-03     
-      9.209487E+01           7.976000E-03     
-      4.414720E+01           1.828700E-02     
-      2.185468E+01           3.077600E-02     
-      1.108596E+01           3.237300E-02     
-      5.674108E+00          -9.978000E-03     
-      2.823170E+00          -9.052900E-02     
-      1.368621E+00          -1.380040E-01     
-      6.444310E-01          -7.796500E-02     
-      2.483820E-01           2.295600E-01     
-      9.725500E-02           5.761220E-01     
-P   15   1.00
-      1.620586E+04           4.000000E-06     
-      3.836274E+03           4.000000E-05     
-      1.246048E+03           2.260000E-04     
-      4.767535E+02           1.013000E-03     
-      2.021895E+02           3.575000E-03     
-      9.209487E+01           1.061200E-02     
-      4.414720E+01           2.390200E-02     
-      2.185468E+01           4.127900E-02     
-      1.108596E+01           4.147500E-02     
-      5.674108E+00          -9.458000E-03     
-      2.823170E+00          -1.236950E-01     
-      1.368621E+00          -1.743920E-01     
-      6.444310E-01          -1.291700E-01     
-      2.483820E-01           4.003480E-01     
-      9.725500E-02           6.696460E-01     
-P   1   1.00
-      3.663300E-02           1.0000000        
-D   7   1.00
-      1.006630E+02           3.579000E-03     
-      2.983360E+01           2.582700E-02     
-      1.088940E+01           9.855900E-02     
-      4.393580E+00           2.383270E-01     
-      1.817820E+00           3.587070E-01     
-      7.278270E-01           3.650920E-01     
-      2.712950E-01           2.337380E-01     
-D   7   1.00
-      1.006630E+02          -3.454000E-03     
-      2.983360E+01          -2.492500E-02     
-      1.088940E+01          -9.763500E-02     
-      4.393580E+00          -2.366920E-01     
-      1.817820E+00          -2.923500E-01     
-      7.278270E-01          -4.973000E-03     
-      2.712950E-01           5.065880E-01     
-D   1   1.00
-      8.830900E-02           1.0000000        
-F   2   1.00
-      2.703200E+00           4.267760E-01     
-      6.438000E-01           7.697990E-01     
-****
-Fe     0 
-S   19   1.00
-      4.316265E+06           8.048803E-06     
-      6.463424E+05           6.258306E-05     
-      1.470897E+05           3.290239E-04     
-      4.166152E+04           1.387355E-03     
-      1.359077E+04           5.023256E-03     
-      4.905750E+03           1.610140E-02     
-      1.912746E+03           4.590034E-02     
-      7.926043E+02           1.136154E-01     
-      3.448065E+02           2.283869E-01     
-      1.558999E+02           3.221159E-01     
-      7.223091E+01           2.383661E-01     
-      3.272506E+01           7.404667E-02     
-      1.566762E+01           9.214197E-02     
-      7.503483E+00           9.339790E-02     
-      3.312223E+00           1.573965E-02     
-      1.558471E+00          -4.186682E-04     
-      6.839140E-01           5.376318E-05     
-      1.467570E-01          -3.816654E-05     
-      7.058300E-02           4.319603E-05     
-S   19   1.00
-      4.316265E+06          -4.155954E-06     
-      6.463424E+05          -3.231401E-05     
-      1.470897E+05          -1.699525E-04     
-      4.166152E+04          -7.171369E-04     
-      1.359077E+04          -2.603625E-03     
-      4.905750E+03          -8.399109E-03     
-      1.912746E+03          -2.434109E-02     
-      7.926043E+02          -6.251948E-02     
-      3.448065E+02          -1.365929E-01     
-      1.558999E+02          -2.312707E-01     
-      7.223091E+01          -2.383734E-01     
-      3.272506E+01           3.123837E-02     
-      1.566762E+01           5.086818E-01     
-      7.503483E+00           4.987695E-01     
-      3.312223E+00           9.033552E-02     
-      1.558471E+00          -6.005337E-03     
-      6.839140E-01           2.312454E-04     
-      1.467570E-01          -5.643680E-04     
-      7.058300E-02           4.992260E-04     
-S   19   1.00
-      4.316265E+06           9.532178E-07     
-      6.463424E+05           7.414605E-06     
-      1.470897E+05           3.898393E-05     
-      4.166152E+04           1.647152E-04     
-      1.359077E+04           5.985980E-04     
-      4.905750E+03           1.942390E-03     
-      1.912746E+03           5.687237E-03     
-      7.926043E+02           1.501329E-02     
-      3.448065E+02           3.452455E-02     
-      1.558999E+02           6.495820E-02     
-      7.223091E+01           7.716194E-02     
-      3.272506E+01          -1.873411E-02     
-      1.566762E+01          -3.009185E-01     
-      7.503483E+00          -4.554661E-01     
-      3.312223E+00           1.286463E-01     
-      1.558471E+00           7.183316E-01     
-      6.839140E-01           4.051743E-01     
-      1.467570E-01           2.168227E-02     
-      7.058300E-02          -8.343566E-03     
-S   19   1.00
-      4.316265E+06          -2.063008E-07     
-      6.463424E+05          -1.604169E-06     
-      1.470897E+05          -8.438437E-06     
-      4.166152E+04          -3.563151E-05     
-      1.359077E+04          -1.295998E-04     
-      4.905750E+03          -4.201534E-04     
-      1.912746E+03          -1.231954E-03     
-      7.926043E+02          -3.248922E-03     
-      3.448065E+02          -7.493717E-03     
-      1.558999E+02          -1.410102E-02     
-      7.223091E+01          -1.691600E-02     
-      3.272506E+01           4.218996E-03     
-      1.566762E+01           6.833810E-02     
-      7.503483E+00           1.098201E-01     
-      3.312223E+00          -4.009005E-02     
-      1.558471E+00          -2.174739E-01     
-      6.839140E-01          -2.465135E-01     
-      1.467570E-01           2.731435E-01     
-      7.058300E-02           5.748321E-01     
-S   19   1.00
-      4.316265E+06          -4.009367E-07     
-      6.463424E+05          -3.189255E-06     
-      1.470897E+05          -1.623079E-05     
-      4.166152E+04          -7.157920E-05     
-      1.359077E+04          -2.463958E-04     
-      4.905750E+03          -8.544907E-04     
-      1.912746E+03          -2.307593E-03     
-      7.926043E+02          -6.728292E-03     
-      3.448065E+02          -1.366165E-02     
-      1.558999E+02          -3.062240E-02     
-      7.223091E+01          -2.631137E-02     
-      3.272506E+01          -9.760183E-03     
-      1.566762E+01           1.801906E-01     
-      7.503483E+00           1.529634E-01     
-      3.312223E+00           5.505413E-02     
-      1.558471E+00          -9.551364E-01     
-      6.839140E-01           2.586813E-01     
-      1.467570E-01           1.834049E+00     
-      7.058300E-02          -9.333240E-01     
-S   1   1.00
-      3.144900E-02           1.0000000        
-P   15   1.00
-      1.774569E+04           4.100000E-05     
-      4.200721E+03           3.690000E-04     
-      1.364429E+03           2.129000E-03     
-      5.220806E+02           9.369000E-03     
-      2.214595E+02           3.309700E-02     
-      1.009096E+02           9.443100E-02     
-      4.840115E+01           2.080770E-01     
-      2.398536E+01           3.323330E-01     
-      1.218250E+01           3.329870E-01     
-      6.242298E+00           1.568430E-01     
-      3.110944E+00           2.154900E-02     
-      1.509958E+00          -2.095000E-03     
-      7.108450E-01          -1.739000E-03     
-      2.731900E-01          -3.000000E-04     
-      1.042330E-01           2.900000E-05     
-P   15   1.00
-      1.774569E+04          -1.500000E-05     
-      4.200721E+03          -1.300000E-04     
-      1.364429E+03          -7.510000E-04     
-      5.220806E+02          -3.329000E-03     
-      2.214595E+02          -1.191200E-02     
-      1.009096E+02          -3.493300E-02     
-      4.840115E+01          -7.998900E-02     
-      2.398536E+01          -1.346360E-01     
-      1.218250E+01          -1.385980E-01     
-      6.242298E+00           3.027800E-02     
-      3.110944E+00           3.332160E-01     
-      1.509958E+00           4.561530E-01     
-      7.108450E-01           2.850510E-01     
-      2.731900E-01           4.614400E-02     
-      1.042330E-01          -3.249000E-03     
-P   15   1.00
-      1.774569E+04           3.000000E-06     
-      4.200721E+03           2.900000E-05     
-      1.364429E+03           1.650000E-04     
-      5.220806E+02           7.340000E-04     
-      2.214595E+02           2.626000E-03     
-      1.009096E+02           7.725000E-03     
-      4.840115E+01           1.773300E-02     
-      2.398536E+01           3.005500E-02     
-      1.218250E+01           3.109400E-02     
-      6.242298E+00          -1.004800E-02     
-      3.110944E+00          -8.830600E-02     
-      1.509958E+00          -1.298240E-01     
-      7.108450E-01          -7.693700E-02     
-      2.731900E-01           2.126610E-01     
-      1.042330E-01           5.730610E-01     
-P   15   1.00
-      1.774569E+04           5.000000E-06     
-      4.200721E+03           4.200000E-05     
-      1.364429E+03           2.410000E-04     
-      5.220806E+02           1.085000E-03     
-      2.214595E+02           3.831000E-03     
-      1.009096E+02           1.142300E-02     
-      4.840115E+01           2.579200E-02     
-      2.398536E+01           4.481800E-02     
-      1.218250E+01           4.459800E-02     
-      6.242298E+00          -1.117700E-02     
-      3.110944E+00          -1.381340E-01     
-      1.509958E+00          -1.882850E-01     
-      7.108450E-01          -1.073990E-01     
-      2.731900E-01           4.448630E-01     
-      1.042330E-01           6.402390E-01     
-P   1   1.00
-      3.829100E-02           1.0000000        
-D   7   1.00
-      1.133440E+02           3.530000E-03     
-      3.364140E+01           2.578400E-02     
-      1.233100E+01           9.911900E-02     
-      4.994780E+00           2.390730E-01     
-      2.072800E+00           3.571990E-01     
-      8.307530E-01           3.621880E-01     
-      3.091780E-01           2.364610E-01     
-D   7   1.00
-      1.133440E+02          -3.890000E-03     
-      3.364140E+01          -2.844200E-02     
-      1.233100E+01          -1.124290E-01     
-      4.994780E+00          -2.742570E-01     
-      2.072800E+00          -3.155460E-01     
-      8.307530E-01           5.710900E-02     
-      3.091780E-01           5.636040E-01     
-D   1   1.00
-      1.001300E-01           1.0000000        
-F   2   1.00
-      3.224300E+00           4.222490E-01     
-      7.758000E-01           7.714680E-01     
-****
-Co     0 
-S   19   1.00
-      4.675675E+06           7.979026E-06     
-      7.001615E+05           6.204071E-05     
-      1.593373E+05           3.261735E-04     
-      4.513046E+04           1.375360E-03     
-      1.472238E+04           4.979997E-03     
-      5.314222E+03           1.596434E-02     
-      2.072018E+03           4.552086E-02     
-      8.586188E+02           1.127385E-01     
-      3.735497E+02           2.268262E-01     
-      1.689229E+02           3.203074E-01     
-      7.829639E+01           2.374021E-01     
-      3.552123E+01           7.477686E-02     
-      1.704144E+01           9.581872E-02     
-      8.173000E+00           9.649911E-02     
-      3.610318E+00           1.623362E-02     
-      1.697047E+00          -4.535497E-04     
-      7.435320E-01           5.113519E-05     
-      1.583440E-01          -4.174508E-05     
-      7.503600E-02           4.027577E-05     
-S   19   1.00
-      4.675675E+06          -4.200240E-06     
-      7.001615E+05          -3.265831E-05     
-      1.593373E+05          -1.717644E-04     
-      4.513046E+04          -7.247853E-04     
-      1.472238E+04          -2.631462E-03     
-      5.314222E+03          -8.489272E-03     
-      2.072018E+03          -2.460619E-02     
-      8.586188E+02          -6.322059E-02     
-      3.735497E+02          -1.381957E-01     
-      1.689229E+02          -2.340680E-01     
-      7.829639E+01          -2.415002E-01     
-      3.552123E+01           3.035312E-02     
-      1.704144E+01           5.101341E-01     
-      8.173000E+00           4.974939E-01     
-      3.610318E+00           8.970746E-02     
-      1.697047E+00          -5.941034E-03     
-      7.435320E-01           2.175362E-04     
-      1.583440E-01          -5.480155E-04     
-      7.503600E-02           4.525804E-04     
-S   19   1.00
-      4.675675E+06           9.592692E-07     
-      7.001615E+05           7.461851E-06     
-      1.593373E+05           3.923137E-05     
-      4.513046E+04           1.657706E-04     
-      1.472238E+04           6.024335E-04     
-      5.314222E+03           1.955217E-03     
-      2.072018E+03           5.726326E-03     
-      8.586188E+02           1.512984E-02     
-      3.735497E+02           3.483973E-02     
-      1.689229E+02           6.570351E-02     
-      7.829639E+01           7.831503E-02     
-      3.552123E+01          -1.877037E-02     
-      1.704144E+01          -3.062663E-01     
-      8.173000E+00          -4.566429E-01     
-      3.610318E+00           1.378169E-01     
-      1.697047E+00           7.193676E-01     
-      7.435320E-01           3.992579E-01     
-      1.583440E-01           2.079933E-02     
-      7.503600E-02          -7.820663E-03     
-S   19   1.00
-      4.675675E+06          -2.028840E-07     
-      7.001615E+05          -1.577580E-06     
-      1.593373E+05          -8.298813E-06     
-      4.513046E+04          -3.504154E-05     
-      1.472238E+04          -1.274655E-04     
-      5.314222E+03          -4.132695E-04     
-      2.072018E+03          -1.212261E-03     
-      8.586188E+02          -3.199318E-03     
-      3.735497E+02          -7.390972E-03     
-      1.689229E+02          -1.393649E-02     
-      7.829639E+01          -1.678575E-02     
-      3.552123E+01           4.149856E-03     
-      1.704144E+01           6.797646E-02     
-      8.173000E+00           1.075807E-01     
-      3.610318E+00          -4.166022E-02     
-      1.697047E+00          -2.128044E-01     
-      7.435320E-01          -2.381360E-01     
-      1.583440E-01           2.650788E-01     
-      7.503600E-02           5.722774E-01     
-S   19   1.00
-      4.675675E+06          -3.863053E-07     
-      7.001615E+05          -3.068788E-06     
-      1.593373E+05          -1.564826E-05     
-      4.513046E+04          -6.883588E-05     
-      1.472238E+04          -2.377367E-04     
-      5.314222E+03          -8.213173E-04     
-      2.072018E+03          -2.229630E-03     
-      8.586188E+02          -6.467841E-03     
-      3.735497E+02          -1.325463E-02     
-      1.689229E+02          -2.946686E-02     
-      7.829639E+01          -2.599066E-02     
-      3.552123E+01          -8.499807E-03     
-      1.704144E+01           1.727316E-01     
-      8.173000E+00           1.512189E-01     
-      3.610318E+00           3.554509E-02     
-      1.697047E+00          -8.829353E-01     
-      7.435320E-01           2.143530E-01     
-      1.583440E-01           1.711865E+00     
-      7.503600E-02          -7.140037E-01     
-S   1   1.00
-      3.309100E-02           1.0000000        
-P   15   1.00
-      1.926778E+04           4.100000E-05     
-      4.560986E+03           3.690000E-04     
-      1.481436E+03           2.128000E-03     
-      5.668671E+02           9.372000E-03     
-      2.404910E+02           3.315500E-02     
-      1.096105E+02           9.475200E-02     
-      5.259491E+01           2.090930E-01     
-      2.608361E+01           3.337220E-01     
-      1.326143E+01           3.322080E-01     
-      6.799778E+00           1.546130E-01     
-      3.393414E+00           2.090200E-02     
-      1.648766E+00          -2.024000E-03     
-      7.762820E-01          -1.697000E-03     
-      2.980030E-01          -2.800000E-04     
-      1.136180E-01           2.600000E-05     
-P   15   1.00
-      1.926778E+04          -1.500000E-05     
-      4.560986E+03          -1.310000E-04     
-      1.481436E+03          -7.580000E-04     
-      5.668671E+02          -3.363000E-03     
-      2.404910E+02          -1.205400E-02     
-      1.096105E+02          -3.542400E-02     
-      5.259491E+01          -8.128700E-02     
-      2.608361E+01          -1.369080E-01     
-      1.326143E+01          -1.390190E-01     
-      6.799778E+00           3.546800E-02     
-      3.393414E+00           3.384980E-01     
-      1.648766E+00           4.544330E-01     
-      7.762820E-01           2.797930E-01     
-      2.980030E-01           4.477600E-02     
-      1.136180E-01          -3.151000E-03     
-P   15   1.00
-      1.926778E+04          -3.000000E-06     
-      4.560986E+03          -2.900000E-05     
-      1.481436E+03          -1.670000E-04     
-      5.668671E+02          -7.420000E-04     
-      2.404910E+02          -2.662000E-03     
-      1.096105E+02          -7.841000E-03     
-      5.259491E+01          -1.805100E-02     
-      2.608361E+01          -3.058000E-02     
-      1.326143E+01          -3.131200E-02     
-      6.799778E+00           1.131100E-02     
-      3.393414E+00           8.999000E-02     
-      1.648766E+00           1.307330E-01     
-      7.762820E-01           7.180800E-02     
-      2.980030E-01          -2.216580E-01     
-      1.136180E-01          -5.710250E-01     
-P   15   1.00
-      1.926778E+04           5.000000E-06     
-      4.560986E+03           4.500000E-05     
-      1.481436E+03           2.550000E-04     
-      5.668671E+02           1.144000E-03     
-      2.404910E+02           4.061000E-03     
-      1.096105E+02           1.209500E-02     
-      5.259491E+01           2.747600E-02     
-      2.608361E+01           4.755700E-02     
-      1.326143E+01           4.730200E-02     
-      6.799778E+00          -1.441800E-02     
-      3.393414E+00          -1.500620E-01     
-      1.648766E+00          -1.990920E-01     
-      7.762820E-01          -7.978300E-02     
-      2.980030E-01           4.590350E-01     
-      1.136180E-01           6.174950E-01     
-P   1   1.00
-      4.162400E-02           1.0000000        
-D   7   1.00
-      1.262640E+02           3.510000E-03     
-      3.752260E+01           2.588400E-02     
-      1.380210E+01           1.000580E-01     
-      5.609270E+00           2.405470E-01     
-      2.333690E+00           3.568430E-01     
-      9.364150E-01           3.595790E-01     
-      3.482370E-01           2.366290E-01     
-D   7   1.00
-      1.262640E+02          -4.067000E-03     
-      3.752260E+01          -3.005300E-02     
-      1.380210E+01          -1.196200E-01     
-      5.609270E+00          -2.915130E-01     
-      2.333690E+00          -3.180480E-01     
-      9.364150E-01           9.169800E-02     
-      3.482370E-01           5.608230E-01     
-D   1   1.00
-      1.123530E-01           1.0000000        
-F   2   1.00
-      3.772400E+00           4.239660E-01     
-      9.170000E-01           7.684290E-01     
-****
-Ni     0 
-S   19   1.00
-      5.045991E+06           8.208996E-06     
-      7.556142E+05           6.382884E-05     
-      1.719568E+05           3.355800E-04     
-      4.870479E+04           1.415075E-03     
-      1.588841E+04           5.124444E-03     
-      5.735123E+03           1.643256E-02     
-      2.236137E+03           4.689398E-02     
-      9.266468E+02           1.163534E-01     
-      4.031743E+02           2.350511E-01     
-      1.823476E+02           3.350184E-01     
-      8.454885E+01           2.534779E-01     
-      3.839634E+01           7.300901E-02     
-      1.845859E+01           6.184244E-02     
-      8.863548E+00           6.302956E-02     
-      3.916227E+00           1.008063E-02     
-      1.838870E+00          -2.244528E-04     
-      8.043620E-01          -5.932767E-05     
-      1.697970E-01          -1.158562E-05     
-      7.930600E-02           8.115109E-06     
-S   19   1.00
-      5.045991E+06          -3.657849E-06     
-      7.556142E+05          -2.844094E-05     
-      1.719568E+05          -1.495928E-04     
-      4.870479E+04          -6.313009E-04     
-      1.588841E+04          -2.293052E-03     
-      5.735123E+03          -7.405123E-03     
-      2.236137E+03          -2.152032E-02     
-      9.266468E+02          -5.560974E-02     
-      4.031743E+02          -1.230176E-01     
-      1.823476E+02          -2.130104E-01     
-      8.454885E+01          -2.265837E-01     
-      3.839634E+01           3.546796E-02     
-      1.845859E+01           5.181697E-01     
-      8.863548E+00           5.025630E-01     
-      3.916227E+00           8.955674E-02     
-      1.838870E+00          -7.031311E-03     
-      8.043620E-01          -4.339167E-04     
-      1.697970E-01          -5.831711E-04     
-      7.930600E-02           4.228788E-04     
-S   19   1.00
-      5.045991E+06           9.594149E-07     
-      7.556142E+05           7.462614E-06     
-      1.719568E+05           3.923843E-05     
-      4.870479E+04           1.657868E-04     
-      1.588841E+04           6.025905E-04     
-      5.735123E+03           1.955662E-03     
-      2.236137E+03           5.730391E-03     
-      9.266468E+02           1.514756E-02     
-      4.031743E+02           3.493499E-02     
-      1.823476E+02           6.598072E-02     
-      8.454885E+01           7.893083E-02     
-      3.839634E+01          -1.906249E-02     
-      1.845859E+01          -3.095921E-01     
-      8.863548E+00          -4.558610E-01     
-      3.916227E+00           1.482931E-01     
-      1.838870E+00           7.134039E-01     
-      8.043620E-01           3.976063E-01     
-      1.697970E-01           2.295523E-02     
-      7.930600E-02          -9.151758E-03     
-S   19   1.00
-      5.045991E+06          -2.013753E-07     
-      7.556142E+05          -1.565832E-06     
-      1.719568E+05          -8.237182E-06     
-      4.870479E+04          -3.478105E-05     
-      1.588841E+04          -1.265265E-04     
-      5.735123E+03          -4.102589E-04     
-      2.236137E+03          -1.203834E-03     
-      9.266468E+02          -3.179062E-03     
-      4.031743E+02          -7.353828E-03     
-      1.823476E+02          -1.389022E-02     
-      8.454885E+01          -1.677875E-02     
-      3.839634E+01           4.163378E-03     
-      1.845859E+01           6.814703E-02     
-      8.863548E+00           1.061029E-01     
-      3.916227E+00          -4.339980E-02     
-      1.838870E+00          -2.094950E-01     
-      8.043620E-01          -2.310271E-01     
-      1.697970E-01           2.590532E-01     
-      7.930600E-02           5.691426E-01     
-S   19   1.00
-      5.045991E+06          -3.924245E-07     
-      7.556142E+05          -3.113909E-06     
-      1.719568E+05          -1.590447E-05     
-      4.870479E+04          -6.981394E-05     
-      1.588841E+04          -2.417848E-04     
-      5.735123E+03          -8.326195E-04     
-      2.236137E+03          -2.270294E-03     
-      9.266468E+02          -6.557427E-03     
-      4.031743E+02          -1.354288E-02     
-      1.823476E+02          -2.989768E-02     
-      8.454885E+01          -2.693106E-02     
-      3.839634E+01          -7.827693E-03     
-      1.845859E+01           1.741667E-01     
-      8.863548E+00           1.595468E-01     
-      3.916227E+00           1.995550E-02     
-      1.838870E+00          -8.897000E-01     
-      8.043620E-01           2.486892E-01     
-      1.697970E-01           1.613012E+00     
-      7.930600E-02          -5.990277E-01     
-S   1   1.00
-      3.467700E-02           1.0000000        
-P   15   1.00
-      2.102792E+04           4.100000E-05     
-      4.977560E+03           3.630000E-04     
-      1.616740E+03           2.097000E-03     
-      6.186718E+02           9.250000E-03     
-      2.625183E+02           3.279600E-02     
-      1.196907E+02           9.400400E-02     
-      5.746585E+01           2.082800E-01     
-      2.852829E+01           3.336540E-01     
-      1.452148E+01           3.329040E-01     
-      7.453850E+00           1.553720E-01     
-      3.723553E+00           2.085900E-02     
-      1.809813E+00          -2.440000E-03     
-      8.513360E-01          -1.998000E-03     
-      3.248140E-01          -3.380000E-04     
-      1.195220E-01           3.500000E-05     
-P   15   1.00
-      2.102792E+04          -1.500000E-05     
-      4.977560E+03          -1.290000E-04     
-      1.616740E+03          -7.490000E-04     
-      6.186718E+02          -3.328000E-03     
-      2.625183E+02          -1.194700E-02     
-      1.196907E+02          -3.524200E-02     
-      5.746585E+01          -8.120400E-02     
-      2.852829E+01          -1.374930E-01     
-      1.452148E+01          -1.392260E-01     
-      7.453850E+00           3.601600E-02     
-      3.723553E+00           3.391280E-01     
-      1.809813E+00           4.504720E-01     
-      8.513360E-01           2.817830E-01     
-      3.248140E-01           4.789800E-02     
-      1.195220E-01          -2.987000E-03     
-P   15   1.00
-      2.102792E+04           3.000000E-06     
-      4.977560E+03           2.600000E-05     
-      1.616740E+03           1.520000E-04     
-      6.186718E+02           6.780000E-04     
-      2.625183E+02           2.427000E-03     
-      1.196907E+02           7.201000E-03     
-      5.746585E+01           1.657800E-02     
-      2.852829E+01           2.839200E-02     
-      1.452148E+01           2.859900E-02     
-      7.453850E+00          -1.013200E-02     
-      3.723553E+00          -8.291200E-02     
-      1.809813E+00          -1.159980E-01     
-      8.513360E-01          -7.279500E-02     
-      3.248140E-01           1.956400E-01     
-      1.195220E-01           5.670990E-01     
-P   15   1.00
-      2.102792E+04           6.000000E-06     
-      4.977560E+03           5.300000E-05     
-      1.616740E+03           3.050000E-04     
-      6.186718E+02           1.364000E-03     
-      2.625183E+02           4.876000E-03     
-      1.196907E+02           1.450300E-02     
-      5.746585E+01           3.329600E-02     
-      2.852829E+01           5.748200E-02     
-      1.452148E+01           5.870200E-02     
-      7.453850E+00          -1.990400E-02     
-      3.723553E+00          -1.946950E-01     
-      1.809813E+00          -2.396130E-01     
-      8.513360E-01          -2.232000E-03     
-      3.248140E-01           5.214350E-01     
-      1.195220E-01           5.455400E-01     
-P   1   1.00
-      4.236600E-02           1.0000000        
-D   7   1.00
-      1.402527E+02           3.376000E-03     
-      4.172610E+01           2.514100E-02     
-      1.539810E+01           9.774600E-02     
-      6.277100E+00           2.347090E-01     
-      2.618500E+00           3.469450E-01     
-      1.052600E+00           3.510680E-01     
-      3.916000E-01           2.502550E-01     
-D   7   1.00
-      1.402527E+02          -3.495000E-03     
-      4.172610E+01          -2.601500E-02     
-      1.539810E+01          -1.038760E-01     
-      6.277100E+00          -2.520700E-01     
-      2.618500E+00          -2.945800E-01     
-      1.052600E+00           1.152000E-03     
-      3.916000E-01           4.385890E-01     
-D   1   1.00
-      1.262000E-01           1.0000000        
-F   2   1.00
-      4.345500E+00           4.174290E-01     
-      1.068000E+00           7.714830E-01     
-****
-Cu     0 
-S   19   1.00
-      5.430321E+06           7.801026E-06     
-      8.131665E+05           6.065666E-05     
-      1.850544E+05           3.188964E-04     
-      5.241466E+04           1.344687E-03     
-      1.709868E+04           4.869050E-03     
-      6.171994E+03           1.561013E-02     
-      2.406481E+03           4.452077E-02     
-      9.972584E+02           1.103111E-01     
-      4.339289E+02           2.220342E-01     
-      1.962869E+02           3.133739E-01     
-      9.104280E+01           2.315121E-01     
-      4.138425E+01           7.640920E-02     
-      1.993278E+01           1.103818E-01     
-      9.581891E+00           1.094372E-01     
-      4.234516E+00           1.836311E-02     
-      1.985814E+00          -6.043084E-04     
-      8.670830E-01           5.092245E-05     
-      1.813390E-01          -5.540730E-05     
-      8.365700E-02           3.969482E-05     
-S   19   1.00
-      5.430321E+06          -4.404706E-06     
-      8.131665E+05          -3.424801E-05     
-      1.850544E+05          -1.801238E-04     
-      5.241466E+04          -7.600455E-04     
-      1.709868E+04          -2.759348E-03     
-      6.171994E+03          -8.900970E-03     
-      2.406481E+03          -2.579378E-02     
-      9.972584E+02          -6.623861E-02     
-      4.339289E+02          -1.445927E-01     
-      1.962869E+02          -2.440110E-01     
-      9.104280E+01          -2.504837E-01     
-      4.138425E+01           2.852577E-02     
-      1.993278E+01           5.115874E-01     
-      9.581891E+00           4.928061E-01     
-      4.234516E+00           8.788437E-02     
-      1.985814E+00          -5.820281E-03     
-      8.670830E-01           2.013508E-04     
-      1.813390E-01          -5.182553E-04     
-      8.365700E-02           3.731503E-04     
-S   19   1.00
-      5.430321E+06           9.704682E-07     
-      8.131665E+05           7.549245E-06     
-      1.850544E+05           3.968892E-05     
-      5.241466E+04           1.677200E-04     
-      1.709868E+04           6.095101E-04     
-      6.171994E+03           1.978846E-03     
-      2.406481E+03           5.798049E-03     
-      9.972584E+02           1.534158E-02     
-      4.339289E+02           3.540484E-02     
-      1.962869E+02           6.702098E-02     
-      9.104280E+01           8.026945E-02     
-      4.138425E+01          -1.927231E-02     
-      1.993278E+01          -3.160129E-01     
-      9.581891E+00          -4.573162E-01     
-      4.234516E+00           1.550841E-01     
-      1.985814E+00           7.202872E-01     
-      8.670830E-01           3.885122E-01     
-      1.813390E-01           1.924326E-02     
-      8.365700E-02          -7.103807E-03     
-S   19   1.00
-      5.430321E+06          -1.959354E-07     
-      8.131665E+05          -1.523472E-06     
-      1.850544E+05          -8.014808E-06     
-      5.241466E+04          -3.383992E-05     
-      1.709868E+04          -1.231191E-04     
-      6.171994E+03          -3.992085E-04     
-      2.406481E+03          -1.171900E-03     
-      9.972584E+02          -3.096141E-03     
-      4.339289E+02          -7.171993E-03     
-      1.962869E+02          -1.356621E-02     
-      9.104280E+01          -1.643989E-02     
-      4.138425E+01           4.107628E-03     
-      1.993278E+01           6.693964E-02     
-      9.581891E+00           1.028221E-01     
-      4.234516E+00          -4.422945E-02     
-      1.985814E+00          -2.031191E-01     
-      8.670830E-01          -2.230022E-01     
-      1.813390E-01           2.517975E-01     
-      8.365700E-02           5.650091E-01     
-S   19   1.00
-      5.430321E+06          -3.532229E-07     
-      8.131665E+05          -2.798812E-06     
-      1.850544E+05          -1.432517E-05     
-      5.241466E+04          -6.270946E-05     
-      1.709868E+04          -2.179490E-04     
-      6.171994E+03          -7.474316E-04     
-      2.406481E+03          -2.049271E-03     
-      9.972584E+02          -5.885203E-03     
-      4.339289E+02          -1.226885E-02     
-      1.962869E+02          -2.683147E-02     
-      9.104280E+01          -2.479261E-02     
-      4.138425E+01          -5.984746E-03     
-      1.993278E+01           1.557124E-01     
-      9.581891E+00           1.436683E-01     
-      4.234516E+00           8.374103E-03     
-      1.985814E+00          -7.460711E-01     
-      8.670830E-01           1.244367E-01     
-      1.813390E-01           1.510110E+00     
-      8.365700E-02          -3.477122E-01     
-S   1   1.00
-      3.626700E-02           1.0000000        
-P   15   1.00
-      2.276057E+04           4.000000E-05     
-      5.387679E+03           3.610000E-04     
-      1.749945E+03           2.083000E-03     
-      6.696653E+02           9.197000E-03     
-      2.841948E+02           3.266000E-02     
-      1.296077E+02           9.379500E-02     
-      6.225415E+01           2.082740E-01     
-      3.092964E+01           3.339930E-01     
-      1.575827E+01           3.324930E-01     
-      8.094211E+00           1.547280E-01     
-      4.046921E+00           2.127100E-02     
-      1.967869E+00          -1.690000E-03     
-      9.252950E-01          -1.516000E-03     
-      3.529920E-01          -2.420000E-04     
-      1.273070E-01           2.300000E-05     
-P   15   1.00
-      2.276057E+04          -1.500000E-05     
-      5.387679E+03          -1.310000E-04     
-      1.749945E+03          -7.550000E-04     
-      6.696653E+02          -3.359000E-03     
-      2.841948E+02          -1.208100E-02     
-      1.296077E+02          -3.570300E-02     
-      6.225415E+01          -8.250200E-02     
-      3.092964E+01          -1.398900E-01     
-      1.575827E+01          -1.407290E-01     
-      8.094211E+00           3.876600E-02     
-      4.046921E+00           3.426950E-01     
-      1.967869E+00           4.523100E-01     
-      9.252950E-01           2.770540E-01     
-      3.529920E-01           4.388500E-02     
-      1.273070E-01          -2.802000E-03     
-P   15   1.00
-      2.276057E+04           3.000000E-06     
-      5.387679E+03           2.500000E-05     
-      1.749945E+03           1.470000E-04     
-      6.696653E+02           6.560000E-04     
-      2.841948E+02           2.351000E-03     
-      1.296077E+02           7.004000E-03     
-      6.225415E+01           1.613100E-02     
-      3.092964E+01           2.777000E-02     
-      1.575827E+01           2.756700E-02     
-      8.094211E+00          -1.011500E-02     
-      4.046921E+00          -8.100900E-02     
-      1.967869E+00          -1.104090E-01     
-      9.252950E-01          -7.173200E-02     
-      3.529920E-01           1.879300E-01     
-      1.273070E-01           5.646290E-01     
-P   15   1.00
-      2.276057E+04           5.000000E-06     
-      5.387679E+03           4.900000E-05     
-      1.749945E+03           2.780000E-04     
-      6.696653E+02           1.253000E-03     
-      2.841948E+02           4.447000E-03     
-      1.296077E+02           1.337000E-02     
-      6.225415E+01           3.046900E-02     
-      3.092964E+01           5.344700E-02     
-      1.575827E+01           5.263900E-02     
-      8.094211E+00          -1.688100E-02     
-      4.046921E+00          -1.794480E-01     
-      1.967869E+00          -2.095880E-01     
-      9.252950E-01          -3.963300E-02     
-      3.529920E-01           5.021300E-01     
-      1.273070E-01           5.811110E-01     
-P   1   1.00
-      4.435600E-02           1.0000000        
-D   7   1.00
-      1.738970E+02           2.700000E-03     
-      5.188690E+01           2.090900E-02     
-      1.934190E+01           8.440800E-02     
-      7.975720E+00           2.139990E-01     
-      3.398230E+00           3.359800E-01     
-      1.409320E+00           3.573010E-01     
-      5.488580E-01           2.645780E-01     
-D   7   1.00
-      1.738970E+02          -3.363000E-03     
-      5.188690E+01          -2.607900E-02     
-      1.934190E+01          -1.082310E-01     
-      7.975720E+00          -2.822170E-01     
-      3.398230E+00          -3.471900E-01     
-      1.409320E+00           2.671100E-02     
-      5.488580E-01           4.920470E-01     
-D   1   1.00
-      1.901990E-01           1.0000000        
-F   2   1.00
-      5.028600E+00           4.242800E-01     
-      1.259400E+00           7.630250E-01     
-****
-Zn     0 
-S   19   1.00
-      5.820021E+06           8.549241E-06     
-      8.715234E+05           6.647410E-05     
-      1.983350E+05           3.494962E-04     
-      5.617631E+04           1.473832E-03     
-      1.832582E+04           5.338330E-03     
-      6.614955E+03           1.712708E-02     
-      2.579199E+03           4.894085E-02     
-      1.068849E+03           1.217934E-01     
-      4.651045E+02           2.476589E-01     
-      2.104130E+02           3.582431E-01     
-      9.761629E+01           2.798174E-01     
-      4.438020E+01           6.857491E-02     
-      2.142308E+01          -1.311092E-03     
-      1.030891E+01           1.914001E-03     
-      4.553645E+00          -8.759220E-04     
-      2.132821E+00           3.740096E-04     
-      9.296970E-01          -1.401399E-04     
-      1.921470E-01           4.757132E-05     
-      8.759500E-02          -3.642711E-05     
-S   19   1.00
-      5.820021E+06          -2.640069E-06     
-      8.715234E+05          -2.052720E-05     
-      1.983350E+05          -1.079859E-04     
-      5.617631E+04          -4.558577E-04     
-      1.832582E+04          -1.657758E-03     
-      6.614955E+03          -5.368492E-03     
-      2.579199E+03          -1.571249E-02     
-      1.068849E+03          -4.122558E-02     
-      4.651045E+02          -9.406459E-02     
-      2.104130E+02          -1.719954E-01     
-      9.761629E+01          -1.958523E-01     
-      4.438020E+01           4.532907E-02     
-      2.142308E+01           5.244442E-01     
-      1.030891E+01           5.006142E-01     
-      4.553645E+00           8.945527E-02     
-      2.132821E+00          -2.146262E-03     
-      9.296970E-01           2.112113E-03     
-      1.921470E-01          -4.133980E-04     
-      8.759500E-02           3.209752E-04     
-S   19   1.00
-      5.820021E+06           9.967103E-07     
-      8.715234E+05           7.754163E-06     
-      1.983350E+05           4.076019E-05     
-      5.617631E+04           1.722811E-04     
-      1.832582E+04           6.259370E-04     
-      6.614955E+03           2.032855E-03     
-      2.579199E+03           5.954646E-03     
-      1.068849E+03           1.576640E-02     
-      4.651045E+02           3.637638E-02     
-      2.104130E+02           6.892343E-02     
-      9.761629E+01           8.238093E-02     
-      4.438020E+01          -2.011360E-02     
-      2.142308E+01          -3.252526E-01     
-      1.030891E+01          -4.602899E-01     
-      4.553645E+00           1.635546E-01     
-      2.132821E+00           7.297118E-01     
-      9.296970E-01           3.769751E-01     
-      1.921470E-01           1.433224E-02     
-      8.759500E-02          -6.671210E-03     
-S   19   1.00
-      5.820021E+06           1.995818E-07     
-      8.715234E+05           1.552973E-06     
-      1.983350E+05           8.161259E-06     
-      5.617631E+04           3.450747E-05     
-      1.832582E+04           1.253275E-04     
-      6.614955E+03           4.072990E-04     
-      2.579199E+03           1.192734E-03     
-      1.068849E+03           3.163140E-03     
-      4.651045E+02           7.303942E-03     
-      2.104130E+02           1.391279E-02     
-      9.761629E+01           1.670620E-02     
-      4.438020E+01          -4.035586E-03     
-      2.142308E+01          -6.968861E-02     
-      1.030891E+01          -1.030105E-01     
-      4.553645E+00           4.471442E-02     
-      2.132821E+00           2.150027E-01     
-      9.296970E-01           2.220163E-01     
-      1.921470E-01          -3.114776E-01     
-      8.759500E-02          -5.693429E-01     
-S   19   1.00
-      5.820021E+06          -5.435910E-07     
-      8.715234E+05          -4.336894E-06     
-      1.983350E+05          -2.197572E-05     
-      5.617631E+04          -9.747392E-05     
-      1.832582E+04          -3.331615E-04     
-      6.614955E+03          -1.166192E-03     
-      2.579199E+03          -3.119308E-03     
-      1.068849E+03          -9.239504E-03     
-      4.651045E+02          -1.855471E-02     
-      2.104130E+02          -4.281189E-02     
-      9.761629E+01          -3.571095E-02     
-      4.438020E+01          -1.638350E-02     
-      2.142308E+01           2.644664E-01     
-      1.030891E+01           2.086588E-01     
-      4.553645E+00          -1.774382E-02     
-      2.132821E+00          -1.353873E+00     
-      9.296970E-01           8.182926E-01     
-      1.921470E-01           1.695036E+00     
-      8.759500E-02          -1.388656E+00     
-S   1   1.00
-      3.770200E-02           1.0000000        
-P   15   1.00
-      2.441198E+04           4.100000E-05     
-      5.778518E+03           3.610000E-04     
-      1.876862E+03           2.088000E-03     
-      7.182361E+02           9.221000E-03     
-      3.048327E+02           3.277300E-02     
-      1.390453E+02           9.417900E-02     
-      6.680417E+01           2.091320E-01     
-      3.320699E+01           3.345690E-01     
-      1.692816E+01           3.303590E-01     
-      8.696229E+00           1.523470E-01     
-      4.350510E+00           2.298400E-02     
-      2.116523E+00           1.607000E-03     
-      9.953870E-01           4.680000E-04     
-      3.781120E-01           6.600000E-05     
-      1.345790E-01          -2.000000E-06     
-P   15   1.00
-      2.441198E+04          -1.500000E-05     
-      5.778518E+03          -1.350000E-04     
-      1.876862E+03          -7.820000E-04     
-      7.182361E+02          -3.478000E-03     
-      3.048327E+02          -1.252000E-02     
-      1.390453E+02          -3.701600E-02     
-      6.680417E+01          -8.555900E-02     
-      3.320699E+01          -1.447180E-01     
-      1.692816E+01          -1.434420E-01     
-      8.696229E+00           4.359500E-02     
-      4.350510E+00           3.488880E-01     
-      2.116523E+00           4.538650E-01     
-      9.953870E-01           2.685940E-01     
-      3.781120E-01           3.886800E-02     
-      1.345790E-01          -2.492000E-03     
-P   15   1.00
-      2.441198E+04           3.000000E-06     
-      5.778518E+03           2.500000E-05     
-      1.876862E+03           1.440000E-04     
-      7.182361E+02           6.450000E-04     
-      3.048327E+02           2.311000E-03     
-      1.390453E+02           6.898000E-03     
-      6.680417E+01           1.588200E-02     
-      3.320699E+01           2.735000E-02     
-      1.692816E+01           2.662100E-02     
-      8.696229E+00          -1.085800E-02     
-      4.350510E+00          -7.985300E-02     
-      2.116523E+00          -1.061270E-01     
-      9.953870E-01          -6.888300E-02     
-      3.781120E-01           1.843850E-01     
-      1.345790E-01           5.617880E-01     
-P   15   1.00
-      2.441198E+04           5.000000E-06     
-      5.778518E+03           4.200000E-05     
-      1.876862E+03           2.380000E-04     
-      7.182361E+02           1.088000E-03     
-      3.048327E+02           3.821000E-03     
-      1.390453E+02           1.164400E-02     
-      6.680417E+01           2.616700E-02     
-      3.320699E+01           4.675000E-02     
-      1.692816E+01           4.330900E-02     
-      8.696229E+00          -1.342900E-02     
-      4.350510E+00          -1.538970E-01     
-      2.116523E+00          -1.674130E-01     
-      9.953870E-01          -8.499500E-02     
-      3.781120E-01           4.508130E-01     
-      1.345790E-01           6.408690E-01     
-P   1   1.00
-      4.628200E-02           1.0000000        
-D   7   1.00
-      2.056177E+02           2.342000E-03     
-      6.144981E+01           1.860600E-02     
-      2.305689E+01           7.710200E-02     
-      9.577739E+00           2.020260E-01     
-      4.133734E+00           3.294540E-01     
-      1.747518E+00           3.609760E-01     
-      6.995600E-01           2.716570E-01     
-D   7   1.00
-      2.056177E+02           3.279000E-03     
-      6.144981E+01           2.617600E-02     
-      2.305689E+01           1.113670E-01     
-      9.577739E+00           3.045810E-01     
-      4.133734E+00           3.862990E-01     
-      1.747518E+00          -5.837500E-02     
-      6.995600E-01          -5.388760E-01     
-D   1   1.00
-      2.516080E-01           1.0000000        
-F   2   1.00
-      5.734400E+00           4.311320E-01     
-      1.461500E+00           7.546420E-01     
-****
-Ga     0 
-S   13   1.00
- 485130.0000000              0.0002068        
-  72719.0000000              0.0016047        
-  16552.0000000              0.0083402        
-   4687.8000000              0.0340248        
-   1529.1000000              0.1111699        
-    551.8100000              0.2753930        
-    215.1800000              0.4212628        
-     88.1740000              0.2738906        
-     27.1540000              0.0283720        
-     11.5030000             -0.0062931        
-      3.3018000              0.0020606        
-      1.3314000             -0.0009269        
-      0.1931600              0.0002273        
-S   13   1.00
- 485130.0000000             -0.0000643        
-  72719.0000000             -0.0004954        
-  16552.0000000             -0.0026208        
-   4687.8000000             -0.0106839        
-   1529.1000000             -0.0374123        
-    551.8100000             -0.1009636        
-    215.1800000             -0.2145141        
-     88.1740000             -0.1752297        
-     27.1540000              0.4831599        
-     11.5030000              0.6323677        
-      3.3018000              0.0684942        
-      1.3314000             -0.0118712        
-      0.1931600              0.0026652        
-S   13   1.00
- 485130.0000000              0.0000245        
-  72719.0000000              0.0001895        
-  16552.0000000              0.0009964        
-   4687.8000000              0.0041082        
-   1529.1000000              0.0142938        
-    551.8100000              0.0398034        
-    215.1800000              0.0855940        
-     88.1740000              0.0796305        
-     27.1540000             -0.2939107        
-     11.5030000             -0.5263914        
-      3.3018000              0.5864249        
-      1.3314000              0.6726347        
-      0.1931600              0.0276123        
-S   13   1.00
- 485130.0000000             -0.0000057        
-  72719.0000000             -0.0000440        
-  16552.0000000             -0.0002305        
-   4687.8000000             -0.0009544        
-   1529.1000000             -0.0033055        
-    551.8100000             -0.0092888        
-    215.1800000             -0.0198644        
-     88.1740000             -0.0190888        
-     27.1540000              0.0732356        
-     11.5030000              0.1341526        
-      3.3018000             -0.1831929        
-      1.3314000             -0.3571308        
-      0.1931600              0.6246013        
-S   1   1.00
-      0.0708950              1.0000000        
-P   10   1.00
-   3248.6000000              0.0015260        
-    769.9700000              0.0127486        
-    248.2000000              0.0633742        
-     93.3640000              0.2065775        
-     38.2510000              0.4092963        
-     16.4220000              0.3919183        
-      6.7918000              0.1029441        
-      2.8336000             -0.0007203        
-      1.1062000              0.0020950        
-      0.2225000             -0.0003290        
-P   10   1.00
-   3248.6000000             -0.0005803        
-    769.9700000             -0.0048647        
-    248.2000000             -0.0248394        
-     93.3640000             -0.0841759        
-     38.2510000             -0.1800885        
-     16.4220000             -0.1585555        
-      6.7918000              0.2355376        
-      2.8336000              0.5820587        
-      1.1062000              0.3366619        
-      0.2225000              0.0171912        
-P   10   1.00
-   3248.6000000              0.0000950        
-    769.9700000              0.0007832        
-    248.2000000              0.0040855        
-     93.3640000              0.0135987        
-     38.2510000              0.0302695        
-     16.4220000              0.0241790        
-      6.7918000             -0.0423777        
-      2.8336000             -0.1265661        
-      1.1062000             -0.0499444        
-      0.2225000              0.4494199        
-P   1   1.00
-      0.0617720              1.0000000        
-D   5   1.00
-     65.3370000              0.0273825        
-     18.4970000              0.1510805        
-      6.3150000              0.3749217        
-      2.1635000              0.4750799        
-      0.6667500              0.2982750        
-D   1   1.00
-      0.1884000              1.0000000        
-****
-Ge     0 
-S   13   1.00
- 521800.0000000              0.0002045        
-  78214.0000000              0.0015868        
-  17803.0000000              0.0082480        
-   5041.9000000              0.0336649        
-   1644.5000000              0.1101249        
-    593.4300000              0.2735607        
-    231.3600000              0.4210670        
-     94.7620000              0.2766791        
-     29.2740000              0.0292180        
-     12.4500000             -0.0065903        
-      3.6463000              0.0022430        
-      1.5025000             -0.0010382        
-      0.2450300              0.0002695        
-S   13   1.00
- 521800.0000000             -0.0000638        
-  78214.0000000             -0.0004916        
-  17803.0000000             -0.0026002        
-   5041.9000000             -0.0106080        
-   1644.5000000             -0.0371602        
-    593.4300000             -0.1005790        
-    231.3600000             -0.2143977        
-     94.7620000             -0.1782617        
-     29.2740000              0.4777404        
-     12.4500000              0.6355983        
-      3.6463000              0.0722174        
-      1.5025000             -0.0127265        
-      0.2450300              0.0029608        
-S   13   1.00
- 521800.0000000              0.0000246        
-  78214.0000000              0.0001900        
-  17803.0000000              0.0009993        
-   5041.9000000              0.0041200        
-   1644.5000000              0.0143557        
-    593.4300000              0.0400375        
-    231.3600000              0.0865794        
-     94.7620000              0.0815861        
-     29.2740000             -0.2934770        
-     12.4500000             -0.5367983        
-      3.6463000              0.5637985        
-      1.5025000              0.6947182        
-      0.2450300              0.0315730        
-S   13   1.00
- 521800.0000000             -0.0000063        
-  78214.0000000             -0.0000486        
-  17803.0000000             -0.0002553        
-   5041.9000000             -0.0010560        
-   1644.5000000             -0.0036674        
-    593.4300000             -0.0103053        
-    231.3600000             -0.0222200        
-     94.7620000             -0.0215275        
-     29.2740000              0.0806752        
-     12.4500000              0.1524958        
-      3.6463000             -0.1980528        
-      1.5025000             -0.4073954        
-      0.2450300              0.6477288        
-S   1   1.00
-      0.0915940              1.0000000        
-P   10   1.00
-   3568.1000000              0.0014591        
-    845.7200000              0.0122176        
-    272.7400000              0.0610490        
-    102.6800000              0.2008039        
-     42.1480000              0.4038942        
-     18.1490000              0.3970027        
-      7.5934000              0.1105481        
-      3.1964000              0.0000768        
-      1.2743000              0.0021263        
-      0.2825800             -0.0003744        
-P   10   1.00
-   3568.1000000             -0.0005630        
-    845.7200000             -0.0047354        
-    272.7400000             -0.0242643        
-    102.6800000             -0.0830900        
-     42.1480000             -0.1800247        
-     18.1490000             -0.1663295        
-      7.5934000              0.2193717        
-      3.1964000              0.5820239        
-      1.2743000              0.3477720        
-      0.2825800              0.0192455        
-P   10   1.00
-   3568.1000000              0.0001115        
-    845.7200000              0.0009212        
-    272.7400000              0.0048273        
-    102.6800000              0.0162272        
-     42.1480000              0.0366354        
-     18.1490000              0.0307867        
-      7.5934000             -0.0480643        
-      3.1964000             -0.1559804        
-      1.2743000             -0.0632370        
-      0.2825800              0.5040819        
-P   1   1.00
-      0.0840900              1.0000000        
-D   5   1.00
-     74.7620000              0.0257684        
-     21.3020000              0.1454421        
-      7.3436000              0.3713721        
-      2.5651000              0.4800002        
-      0.8197000              0.2896800        
-D   1   1.00
-      0.2470000              1.0000000        
-****
-As     0 
-S   13   1.00
- 559583.7900000              0.0002024        
-  83879.3300000              0.0015709        
-  19092.6680000              0.0081662        
-   5407.3925000              0.0333399        
-   1763.7559000              0.1091726        
-    636.4567200              0.2718853        
-    248.0884300              0.4208509        
-    101.5785100              0.2792257        
-     31.4755130              0.0300301        
-     13.4372820             -0.0068804        
-      4.0086900              0.0024240        
-      1.6849290             -0.0011491        
-      0.3000190              0.0003095        
-S   13   1.00
- 559583.7900000             -0.0000634        
-  83879.3300000             -0.0004883        
-  19092.6680000             -0.0025821        
-   5407.3925000             -0.0105402        
-   1763.7559000             -0.0369325        
-    636.4567200             -0.1002355        
-    248.0884300             -0.2142948        
-    101.5785100             -0.1810526        
-     31.4755130              0.4725410        
-     13.4372820              0.6386194        
-      4.0086900              0.0758107        
-      1.6849290             -0.0135278        
-      0.3000190              0.0031970        
-S   13   1.00
- 559583.7900000              0.0000246        
-  83879.3300000              0.0001907        
-  19092.6680000              0.0010031        
-   5407.3925000              0.0041353        
-   1763.7559000              0.0144259        
-    636.4567200              0.0402962        
-    248.0884300              0.0875670        
-    101.5785100              0.0835178        
-     31.4755130             -0.2932935        
-     13.4372820             -0.5470520        
-      4.0086900              0.5438738        
-      1.6849290              0.7143591        
-      0.3000190              0.0353443        
-S   13   1.00
- 559583.7900000             -0.0000068        
-  83879.3300000             -0.0000525        
-  19092.6680000             -0.0002756        
-   5407.3925000             -0.0011389        
-   1763.7559000             -0.0039646        
-    636.4567200             -0.0111423        
-    248.0884300             -0.0241991        
-    101.5785100             -0.0236339        
-     31.4755130              0.0866317        
-     13.4372820              0.1685839        
-      4.0086900             -0.2091425        
-      1.6849290             -0.4500918        
-      0.3000190              0.6603978        
-S   1   1.00
-      0.1135870              1.0000000        
-P   10   1.00
-   3886.3564000              0.0014097        
-    921.2020100              0.0118277        
-    297.1931900              0.0593280        
-    111.9750800              0.1965115        
-     46.0346210              0.3997891        
-     19.8741940              0.4004653        
-      8.3860880              0.1164196        
-      3.5587280              0.0006918        
-      1.4472820              0.0021633        
-      0.3477790             -0.0004150        
-P   10   1.00
-   3886.3564000             -0.0005519        
-    921.2020100             -0.0046550        
-    297.1931900             -0.0239176        
-    111.9750800             -0.0825627        
-     46.0346210             -0.1806791        
-     19.8741940             -0.1724848        
-      8.3860880              0.2086700        
-      3.5587280              0.5823622        
-      1.4472820              0.3537465        
-      0.3477790              0.0206439        
-P   10   1.00
-   3886.3564000              0.0001236        
-    921.2020100              0.0010240        
-    297.1931900              0.0053805        
-    111.9750800              0.0182443        
-     46.0346210              0.0415979        
-     19.8741940              0.0362998        
-      8.3860880             -0.0523569        
-      3.5587280             -0.1791667        
-      1.4472820             -0.0740477        
-      0.3477790              0.5358094        
-P   1   1.00
-      0.1076990              1.0000000        
-D   5   1.00
-     84.4242340              0.0245288        
-     24.1815890              0.1411340        
-      8.4017770              0.3687579        
-      2.9805020              0.4840626        
-      0.9790030              0.2824434        
-D   1   1.00
-      0.3098000              1.0000000        
-****
-Se     0 
-S   13   1.00
- 598990.0000000              0.0002004        
-  89783.0000000              0.0015554        
-  20435.0000000              0.0080872        
-   5786.9000000              0.0330344        
-   1887.3000000              0.1082924        
-    680.9700000              0.2703361        
-    265.3900000              0.4206236        
-    108.6300000              0.2815922        
-     33.7600000              0.0308110        
-     14.4650000             -0.0071617        
-      4.3890000              0.0026022        
-      1.8783000             -0.0012583        
-      0.3585900              0.0003465        
-S   13   1.00
- 598990.0000000             -0.0000629        
-  89783.0000000             -0.0004850        
-  20435.0000000             -0.0025644        
-   5786.9000000             -0.0104761        
-   1887.3000000             -0.0367223        
-    680.9700000             -0.0999225        
-    265.3900000             -0.2141973        
-    108.6300000             -0.1836593        
-     33.7600000              0.4675454        
-     14.4650000              0.6414740        
-      4.3890000              0.0792569        
-      1.8783000             -0.0142697        
-      0.3585900              0.0033792        
-S   13   1.00
- 598990.0000000              0.0000247        
-  89783.0000000              0.0001913        
-  20435.0000000              0.0010068        
-   5786.9000000              0.0041514        
-   1887.3000000              0.0144991        
-    680.9700000              0.0405658        
-    265.3900000              0.0885364        
-    108.6300000              0.0854212        
-     33.7600000             -0.2932581        
-     14.4650000             -0.5570727        
-      4.3890000              0.5261436        
-      1.8783000              0.7320371        
-      0.3585900              0.0388246        
-S   13   1.00
- 598990.0000000             -0.0000072        
-  89783.0000000             -0.0000559        
-  20435.0000000             -0.0002938        
-   5786.9000000             -0.0012136        
-   1887.3000000             -0.0042340        
-    680.9700000             -0.0119035        
-    265.3900000             -0.0260206        
-    108.6300000             -0.0256148        
-     33.7600000              0.0919427        
-     14.4650000              0.1838700        
-      4.3890000             -0.2188461        
-      1.8783000             -0.4896524        
-      0.3585900              0.6775818        
-S   1   1.00
-      0.1364900              1.0000000        
-P   10   1.00
-   4135.6000000              0.0014127        
-    980.3400000              0.0118588        
-    316.3500000              0.0595153        
-    119.2500000              0.1972201        
-     49.0680000              0.4007439        
-     21.2120000              0.3994740        
-      8.9462000              0.1153364        
-      3.8236000              0.0002219        
-      1.5883000              0.0022838        
-      0.4096900             -0.0004756        
-P   10   1.00
-   4135.6000000             -0.0005610        
-    980.3400000             -0.0047340        
-    316.3500000             -0.0243504        
-    119.2500000             -0.0841071        
-     49.0680000             -0.1841384        
-     21.2120000             -0.1735004        
-      8.9462000              0.2167263        
-      3.8236000              0.5850099        
-      1.5883000              0.3416816        
-      0.4096900              0.0199125        
-P   10   1.00
-   4135.6000000              0.0001366        
-    980.3400000              0.0011308        
-    316.3500000              0.0059581        
-    119.2500000              0.0201866        
-     49.0680000              0.0461939        
-     21.2120000              0.0394050        
-      8.9462000             -0.0592846        
-      3.8236000             -0.2014663        
-      1.5883000             -0.0687821        
-      0.4096900              0.5595944        
-P   1   1.00
-      0.1245900              1.0000000        
-D   5   1.00
-     94.4720000              0.0234982        
-     27.1800000              0.1375183        
-      9.5068000              0.3664824        
-      3.4168000              0.4874717        
-      1.1479000              0.2765769        
-D   1   1.00
-      0.3682000              1.0000000        
-****
-Br     0 
-S   13   1.00
- 640100.0000000              0.0001984        
-  95938.0000000              0.0015400        
-  21833.0000000              0.0080096        
-   6181.9000000              0.0327341        
-   2015.7000000              0.1074480        
-    727.1000000              0.2688946        
-    283.2800000              0.4204411        
-    115.9100000              0.2838041        
-     36.1240000              0.0315455        
-     15.5320000             -0.0074268        
-      4.7857000              0.0027728        
-      2.0817000             -0.0013635        
-      0.4202800              0.0003812        
-S   13   1.00
- 640100.0000000             -0.0000625        
-  95938.0000000             -0.0004816        
-  21833.0000000             -0.0025466        
-   6181.9000000             -0.0104112        
-   2015.7000000             -0.0365179        
-    727.1000000             -0.0996295        
-    283.2800000             -0.2141310        
-    115.9100000             -0.1860911        
-     36.1240000              0.4628261        
-     15.5320000              0.6441141        
-      4.7857000              0.0825502        
-      2.0817000             -0.0149694        
-      0.4202800              0.0035288        
-S   13   1.00
- 640100.0000000              0.0000248        
-  95938.0000000              0.0001919        
-  21833.0000000              0.0010100        
-   6181.9000000              0.0041659        
-   2015.7000000              0.0145683        
-    727.1000000              0.0408345        
-    283.2800000              0.0894859        
-    115.9100000              0.0872786        
-     36.1240000             -0.2933644        
-     15.5320000             -0.5667109        
-      4.7857000              0.5105658        
-      2.0817000              0.7477214        
-      0.4202800              0.0421512        
-S   13   1.00
- 640100.0000000             -0.0000076        
-  95938.0000000             -0.0000588        
-  21833.0000000             -0.0003092        
-   6181.9000000             -0.0012766        
-   2015.7000000             -0.0044634        
-    727.1000000             -0.0125575        
-    283.2800000             -0.0276145        
-    115.9100000             -0.0273945        
-     36.1240000              0.0964094        
-     15.5320000              0.1976871        
-      4.7857000             -0.2266693        
-      2.0817000             -0.5241165        
-      0.4202800              0.6889865        
-S   1   1.00
-      0.1606900              1.0000000        
-P   10   1.00
-   4340.8000000              0.0014448        
-   1028.9000000              0.0121288        
-    332.0200000              0.0608077        
-    125.1600000              0.2009358        
-     51.5110000              0.4047419        
-     22.2810000              0.3957151        
-      9.3417000              0.1102213        
-      4.0132000             -0.0009090        
-      1.7002000              0.0024832        
-      0.4719400             -0.0005744        
-P   10   1.00
-   4340.8000000             -0.0005819        
-   1028.9000000             -0.0049065        
-    332.0200000             -0.0252514        
-    125.1600000             -0.0869445        
-     51.5110000             -0.1893422        
-     22.2810000             -0.1710882        
-      9.3417000              0.2368755        
-      4.0132000              0.5898400        
-      1.7002000              0.3171944        
-      0.4719400              0.0179833        
-P   10   1.00
-   4340.8000000              0.0001518        
-   1028.9000000              0.0012563        
-    332.0200000              0.0066224        
-    125.1600000              0.0223816        
-     51.5110000              0.0509717        
-     22.2810000              0.0414009        
-      9.3417000             -0.0703970        
-      4.0132000             -0.2232540        
-      1.7002000             -0.0564179        
-      0.4719400              0.5808079        
-P   1   1.00
-      0.1442100              1.0000000        
-D   5   1.00
-    104.8300000              0.0226583        
-     30.2720000              0.1345895        
-     10.6490000              0.3647181        
-      3.8696000              0.4904196        
-      1.3239000              0.2713885        
-D   1   1.00
-      0.4098000              1.0000000        
-****
-Kr     0 
-S   13   1.00
- 681358.8200000              0.0001969        
- 102126.4800000              0.0015286        
-  23243.7100000              0.0079500        
-   6582.0073000              0.0324938        
-   2146.4286000              0.1067240        
-    774.3378200              0.2675701        
-    301.6702000              0.4201851        
-    123.4118400              0.2858015        
-     38.5675510              0.0322461        
-     16.6373790             -0.0076828        
-      5.1987950              0.0029393        
-      2.2948140             -0.0014662        
-      0.4852110              0.0004144        
-S   13   1.00
- 681358.8200000             -0.0000622        
- 102126.4800000             -0.0004794        
-  23243.7100000             -0.0025341        
-   6582.0073000             -0.0103636        
-   2146.4286000             -0.0363516        
-    774.3378200             -0.0993737        
-    301.6702000             -0.2140610        
-    123.4118400             -0.1883192        
-     38.5675510              0.4583816        
-     16.6373790              0.6465664        
-      5.1987950              0.0856579        
-      2.2948140             -0.0156123        
-      0.4852110              0.0036490        
-S   13   1.00
- 681358.8200000              0.0000249        
- 102126.4800000              0.0001928        
-  23243.7100000              0.0010149        
-   6582.0073000              0.0041857        
-   2146.4286000              0.0146459        
-    774.3378200              0.0411070        
-    301.6702000              0.0903955        
-    123.4118400              0.0890623        
-     38.5675510             -0.2935718        
-     16.6373790             -0.5759698        
-      5.1987950              0.4968578        
-      2.2948140              0.7616895        
-      0.4852110              0.0453267        
-S   13   1.00
- 681358.8200000             -0.0000079        
- 102126.4800000             -0.0000614        
-  23243.7100000             -0.0003230        
-   6582.0073000             -0.0013330        
-   2146.4286000             -0.0046672        
-    774.3378200             -0.0131352        
-    301.6702000             -0.0290342        
-    123.4118400             -0.0290173        
-     38.5675510              0.1002664        
-     16.6373790              0.2103818        
-      5.1987950             -0.2332471        
-      2.2948140             -0.5546497        
-      0.4852110              0.6969522        
-S   1   1.00
-      0.1862700              1.0000000        
-P   10   1.00
-   4474.2699000              0.0015195        
-   1060.5790000              0.0127424        
-    342.2081200              0.0636465        
-    128.9984200              0.2085635        
-     53.0872220              0.4122423        
-     22.9594250              0.3878103        
-      9.5073000              0.1003820        
-      4.0830550             -0.0025078        
-      1.7504460              0.0027139        
-      0.5291900             -0.0006977        
-P   10   1.00
-   4474.2699000             -0.0006208        
-   1060.5790000             -0.0052212        
-    342.2081200             -0.0268463        
-    128.9984200             -0.0915823        
-     53.0872220             -0.1968164        
-     22.9594250             -0.1634750        
-      9.5073000              0.2738204        
-      4.0830550              0.5981592        
-      1.7504460              0.2750453        
-      0.5291900              0.0127706        
-P   10   1.00
-   4474.2699000              0.0001701        
-   1060.5790000              0.0014064        
-    342.2081200              0.0073963        
-    128.9984200              0.0248254        
-     53.0872220              0.0557155        
-     22.9594250              0.0412132        
-      9.5073000             -0.0876057        
-      4.0830550             -0.2440586        
-      1.7504460             -0.0295007        
-      0.5291900              0.6012295        
-P   1   1.00
-      0.1643690              1.0000000        
-D   5   1.00
-    115.5253200              0.0219557        
-     33.4652460              0.1321620        
-     11.8304590              0.3633484        
-      4.3397710              0.4929582        
-      1.5075240              0.2667560        
-D   1   1.00
-      0.5030000              1.0000000        
-****
-
diff --git a/third_party/gauxc/tests/basis/parse_basis.cxx b/third_party/gauxc/tests/basis/parse_basis.cxx
deleted file mode 100644
index 0bf4cd8..0000000
--- a/third_party/gauxc/tests/basis/parse_basis.cxx
+++ /dev/null
@@ -1,265 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <fstream>
-#include <iostream>
-#include <sstream>
-#include <map>
-#include <iterator>
-
-namespace GauXC {
-
-std::map<std::string,int>  atomic_number_map = {
-    {"H",  1 }, 
-    {"HE", 2 }, 
-    {"LI", 3 }, 
-    {"BE", 4 }, 
-    {"B",  5 }, 
-    {"C",  6 }, 
-    {"N",  7 }, 
-    {"O",  8 }, 
-    {"F",  9 }, 
-    {"NE", 10}, 
-    {"NA", 11}, 
-    {"MG", 12}, 
-    {"AL", 13}, 
-    {"SI", 14}, 
-    {"P",  15}, 
-    {"S",  16}, 
-    {"CL", 17}, 
-    {"AR", 18}, 
-    {"K",  19}, 
-    {"CA", 20}, 
-    {"SC", 21}, 
-    {"TI", 22}, 
-    {"V",  23}, 
-    {"CR", 24}, 
-    {"MN", 25}, 
-    {"FE", 26}, 
-    {"CO", 27}, 
-    {"NI", 28}, 
-    {"CU", 29}, 
-    {"ZN", 30}, 
-    {"GA", 31}, 
-    {"GE", 32}, 
-    {"AS", 33}, 
-    {"SE", 34}, 
-    {"BR", 35}, 
-    {"KR", 36}, 
-    {"RB", 37}, 
-    {"SR", 38}, 
-    {"Y",  39}, 
-    {"ZR", 40}, 
-    {"NB", 41}, 
-    {"MO", 42}, 
-    {"TC", 43}, 
-    {"RU", 44}, 
-    {"RH", 45}, 
-    {"PD", 46}, 
-    {"AG", 47}, 
-    {"CD", 48}, 
-    {"IN", 49}, 
-    {"SN", 50}, 
-    {"SB", 51}, 
-    {"TE", 52}, 
-    {"I",  53}, 
-    {"XE", 54}, 
-    {"CS", 55}, 
-    {"BA", 56}, 
-    {"LA", 57}, 
-    {"CE", 58}, 
-    {"PR", 59}, 
-    {"ND", 60}, 
-    {"PM", 61}, 
-    {"SM", 62}, 
-    {"EU", 63}, 
-    {"GD", 64}, 
-    {"TB", 65}, 
-    {"DY", 66}, 
-    {"HO", 67}, 
-    {"ER", 68}, 
-    {"TM", 69}, 
-    {"YB", 70}, 
-    {"LU", 71}, 
-    {"HF", 72}, 
-    {"TA", 73}, 
-    {"W",  74}, 
-    {"RE", 75}, 
-    {"OS", 76}, 
-    {"IR", 77}, 
-    {"PT", 78}, 
-    {"AU", 79}, 
-    {"HG", 80}, 
-    {"TL", 81}, 
-    {"PB", 82}, 
-    {"BI", 83}, 
-    {"PO", 84}, 
-    {"AT", 85}, 
-    {"RN", 86}, 
-    {"FR", 87}, 
-    {"RA", 88}, 
-    {"AC", 89}, 
-    {"TH", 90}, 
-    {"PA", 91}, 
-    {"U",  92}, 
-    {"NP", 93}, 
-    {"PU", 94}, 
-    {"AM", 95}, 
-    {"CM", 96}
-};
-
-std::map<std::string,int> am_map = {
-  {"S",0},
-  {"P",1},
-  {"D",2},
-  {"F",3},
-  {"G",4},
-  {"H",5},
-  {"I",6},
-  {"J",7}
-};
-
-namespace detail {
-  inline static auto tokenize( std::string str,
-                               std::string delim = " " ) {
-    std::istringstream iss(str);
-    std::vector<std::string> tokens;
-
-    std::copy( std::istream_iterator<std::string>( iss ),
-               std::istream_iterator<std::string>( ),
-               std::back_inserter( tokens ) );
-
-    
-    return tokens;
-  }
-}
-
-BasisSet<double> parse_basis( const Molecule& mol,
-                              std::string     fname,
-                              SphericalType   sph    ) {
-
-
-  std::ifstream infile( fname );
-  if( ! infile.good() ) throw std::runtime_error(fname + " not found!");
-
-  std::vector<std::vector<std::string>> basis_records;
-  {
-    std::string line;
-
-    while( std::getline( infile, line ) ) {
-
-      if( line.find("!") != std::string::npos ) continue;
-      if( line.size() == 0 ) continue;
-
-      // New record
-      if( line.find("****") != std::string::npos ) {
-        basis_records.emplace_back();
-        continue;
-      }
-
-      basis_records.back().emplace_back( line );
-
-    }
-  }
-
-  std::map<int, BasisSet<double>> basis_shells;
-  for( const auto& record : basis_records ) {
-    if( record.size() == 0 ) continue;
-    std::string atom_line = record.at(0);
-    std::string atom_symb = atom_line.substr(0,2);
-    if( atom_symb[1] == ' ' ) atom_symb = atom_symb[0];
-    std::transform( atom_symb.begin(), atom_symb.end(), atom_symb.begin(),
-                    [](auto a){ return std::toupper(a); } );
-    
-    //std::cout << atom_symb << std::endl;
-    int Z = atomic_number_map.at(atom_symb);
-
-    BasisSet<double> atom_basis;
-    for( auto rec_it = record.begin()+1; rec_it != record.end(); ) {
-      std::string type_line = *rec_it; rec_it++; // Read type line
-
-      auto type_tokens = detail::tokenize( type_line ); 
-      bool gencon = type_tokens.at(0) == "SP";
-      int nprim = std::stoi(type_tokens.at(1));
-      int l = gencon ? 0 : am_map.at(type_tokens.at(0));
-
-      std::vector<double> alpha(nprim);
-      std::vector<double> coeff_primary(nprim), coeff_secondary(nprim);
-      for( int i = 0; i < nprim; ++i ) {
-        std::string prim_line = *rec_it; rec_it++; // Read prim line
-        for( auto& c : prim_line ) if( c == 'D' or c == 'd' ) c = 'e';
-        auto prim_tokens = detail::tokenize( prim_line );
-
-        alpha[i]         = std::stod( prim_tokens.at(0) );
-        coeff_primary[i] = std::stod( prim_tokens.at(1) );
-        if( gencon )
-          coeff_secondary[i] = std::stod( prim_tokens.at(2) );
-
-      }
-      
-      using prim_array = Shell<double>::prim_array;
-      using cart_array = Shell<double>::cart_array;
-
-      prim_array alpha_arr, coeff_primary_arr, coeff_secondary_arr;
-      std::copy( alpha.begin(), alpha.end(), alpha_arr.begin() );
-      std::copy( coeff_primary.begin(), coeff_primary.end(), 
-                 coeff_primary_arr.begin() );
-      if( gencon )
-        std::copy( coeff_secondary.begin(), coeff_secondary.end(), 
-                   coeff_secondary_arr.begin() );
-
-      SphericalType sph_use = l > 1 ? sph : SphericalType(false);
-      atom_basis.emplace_back( Shell<double>(
-        PrimSize(nprim), AngularMomentum(l), sph_use,
-        alpha_arr, coeff_primary_arr, {0., 0., 0.}
-      ));
-
-      if( gencon )
-        atom_basis.emplace_back( Shell<double>(
-          PrimSize(nprim), AngularMomentum(1), SphericalType(false),
-          alpha_arr, coeff_secondary_arr, {0., 0., 0.}
-        ));
-    }
-
-    basis_shells[Z] = atom_basis;
-
-  }
-
-#if 0
-  std::cout << std::scientific << std::setprecision(16);
-  for( const auto& [key, value] : basis_shells ) {
-    std::cout << "Basis shells for Z = " << key << std::endl;
-    for( const auto& sh : value ) {
-      std::cout << "CEN = " << sh.O()[0] << ", " << sh.O()[1] << ", " << sh.O()[2] << std::endl;
-      std::cout << "L = " << sh.l() << std::endl;
-      std::cout << "CR = " << sh.cutoff_radius() << std::endl;
-      std::cout << "PRIMS" << std::endl;
-      for( auto p = 0; p < sh.nprim(); ++p )
-        std::cout << "  " << sh.alpha()[p] << ", " << sh.coeff()[p] << std::endl;
-      std::cout << std::endl;
-    }
-  }
-#endif
-
-  BasisSet<double> basis;
-  for( auto iAt = 0; iAt < mol.size(); ++iAt ) {
-    const auto& atom = mol.at(iAt);
-    BasisSet<double> atom_basis = basis_shells.at(atom.Z.get());
-    for( auto& sh : atom_basis ) sh.O() = {atom.x, atom.y, atom.z};
-    
-    basis.insert(basis.end(), atom_basis.begin(), atom_basis.end() );
-  }
-  return basis;
-}
-
-}
diff --git a/third_party/gauxc/tests/basis/parse_basis.hpp b/third_party/gauxc/tests/basis/parse_basis.hpp
deleted file mode 100644
index 1530aeb..0000000
--- a/third_party/gauxc/tests/basis/parse_basis.hpp
+++ /dev/null
@@ -1,22 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-#include <string>
-
-namespace GauXC {
-
-BasisSet<double> parse_basis( const Molecule& mol,
-                              std::string     fname,
-                              SphericalType   sph    );
-
-}
diff --git a/third_party/gauxc/tests/basisset_test.cxx b/third_party/gauxc/tests/basisset_test.cxx
deleted file mode 100644
index 2956533..0000000
--- a/third_party/gauxc/tests/basisset_test.cxx
+++ /dev/null
@@ -1,267 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include "catch2/catch.hpp"
-#include <gauxc/basisset.hpp>
-#include <gauxc/basisset_map.hpp>
-#include <gauxc/molecule.hpp>
-#include <gauxc/external/hdf5.hpp>
-
-#include "standards.hpp"
-
-#include <random>
-#include <algorithm>
-
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_MPI
-#include <mpi.h>
-#endif
-
-using namespace GauXC;
-
-auto rad_eval( const Shell<double>& sh, double r ) {
-  return util::gau_rad_eval( sh.l(), sh.nprim(), sh.alpha_data(), 
-    sh.coeff_data(), r );
-}
-
-auto check_cutoff_radius( const Shell<double>& sh, double tol ) {
-  double r = sh.cutoff_radius();
-  auto calc_rad = util::gau_rad_cutoff( sh.l(), sh.nprim(), sh.alpha_data(), 
-    sh.coeff_data(), tol );
-  CHECK( r == Approx(calc_rad) );
-  CHECK( std::abs(rad_eval(sh, r)) < tol ); 
-}
-
-
-TEST_CASE("Shell", "[basisset]") {
-
-  using prim_array = Shell<double>::prim_array;
-  using cart_array = Shell<double>::cart_array;
-
-  const cart_array center = {0., 1., 0.};
-
-  const double sqrt_pi = std::sqrt(M_PI);
-  auto s_int = [=](double a) { return sqrt_pi / std::sqrt(a); };
-  auto p_int = [=](double a) { return sqrt_pi / (2.*std::pow(a,1.5)); };
-  auto d_int = [=](double a) { return 3.*sqrt_pi / (4.*std::pow(a,2.5)); };
-
-  SECTION("Single Gaussian") {
-
-    const auto nprim = PrimSize(1);
-    const prim_array alpha = {0.8};
-    const prim_array coeff = {0.5};
-
-    SECTION("S Function") {
-
-      Shell<double> sh( nprim, AngularMomentum(0), SphericalType(false),
-        alpha, coeff, center );
-
-      const double ncoeff = 1./std::sqrt(std::pow(s_int(2*alpha[0]),3.));
-
-      CHECK( sh.nprim() == nprim );
-      CHECK( sh.l()     == 0     );
-      CHECK( !sh.pure()  );
-      CHECK( sh.alpha()[0] == alpha[0] );
-      CHECK( sh.coeff()[0] == Approx(ncoeff) );
-      CHECK( sh.size() == 1 );
-
-      check_cutoff_radius( sh, 1e-10 ); 
-
-      double exact_int = 0.;
-      for( int32_t i = 0; i < 1; ++i )
-      for( int32_t j = 0; j < 1; ++j )
-        exact_int += sh.coeff()[i] * sh.coeff()[j] * 
-          std::pow( s_int(sh.alpha()[i] + sh.alpha()[j]), 3. );
-
-      CHECK( exact_int == Approx(1.) );
-    }
-
-    SECTION("P Function") {
-
-      Shell<double> sh( nprim, AngularMomentum(1), SphericalType(false),
-        alpha, coeff, center );
-
-      const double exact_int = std::pow(s_int(2*alpha[0]),2.) *  p_int(2*alpha[0]);
-      const double ncoeff = 1./std::sqrt(exact_int);
-
-      CHECK( sh.nprim() == nprim );
-      CHECK( sh.l()     == 1     );
-      CHECK( !sh.pure() );
-      CHECK( sh.alpha()[0] == alpha[0] );
-      CHECK( sh.coeff()[0] == Approx(ncoeff) );
-      CHECK( sh.size() == 3 );
-
-
-      check_cutoff_radius( sh, 1e-10 ); 
-
-    }
-
-    SECTION("D Function") {
-
-      Shell<double> sh( nprim, AngularMomentum(2), SphericalType(false),
-        alpha, coeff, center );
-
-      const double exact_int = std::pow(s_int(2*alpha[0]),2.) *  d_int(2*alpha[0]);
-      const double ncoeff = 1./std::sqrt(exact_int);
-
-      CHECK( sh.nprim() == nprim );
-      CHECK( sh.l()     == 2     );
-      CHECK( !sh.pure() );
-      CHECK( sh.alpha()[0] == alpha[0] );
-      CHECK( sh.coeff()[0] == Approx(ncoeff) );
-      CHECK( sh.size() == 6 );
-
-
-      check_cutoff_radius( sh, 1e-10 ); 
-
-    }
-
-  }
-
-  SECTION("Multiple Gaussians") {
-
-    const auto nprim = PrimSize(3);
-    const prim_array coeff = {0.3349460434e-01, 0.2347269535e+00, 0.8137573261e+00};
-    const prim_array alpha = {0.1873113696e+02, 0.2825394365e+01, 0.6401216923e+00};
-
-    Shell<double> sh( nprim, AngularMomentum(0), SphericalType(false),
-      alpha, coeff, center );
-
-    double exact_int = 0.;
-    for( int32_t i = 0; i < 3; ++i )
-    for( int32_t j = 0; j < 3; ++j )
-      exact_int += sh.coeff()[i] * sh.coeff()[j] * 
-        std::pow( s_int(sh.alpha()[i] + sh.alpha()[j]), 3. );
-
-
-    CHECK( exact_int == Approx(1.) );
-
-
-    check_cutoff_radius( sh, 1e-10 ); 
-
-  }
-
-  SECTION( "Cutoff Nondefault Tolerance" ) {
-
-    const auto nprim = PrimSize(1);
-    const prim_array alpha = {0.8};
-    const prim_array coeff = {0.5};
-
-    Shell<double> sh( nprim, AngularMomentum(2), SphericalType(false),
-      alpha, coeff, center );
-
-    check_cutoff_radius( sh, 1e-10 ); 
-
-    sh.set_shell_tolerance( 1e-10 );
-    check_cutoff_radius( sh, 1e-10 ); 
-
-    sh.set_shell_tolerance( 1e-7 );
-    check_cutoff_radius( sh, 1e-7 ); 
-
-  }
-
-
-  SECTION("Spherical") {
-
-    const auto nprim = PrimSize(1);
-    const prim_array alpha = {0.8};
-    const prim_array coeff = {0.5};
-
-    Shell<double> sh( nprim, AngularMomentum(2), SphericalType(true),
-      alpha, coeff, center );
-
-    CHECK( sh.size() == 5 );
-
-  }
-
-}
-
-
-TEST_CASE("BasisSet", "[basisset]") {
-
-
-  bool test_spherical = false;
-  SECTION( "Cartesian" ) { test_spherical = false; }
-  SECTION( "Spherical" ) { test_spherical = true;  }
-
-
-  Molecule mol = make_water();
-  BasisSet<double> basis = make_631Gd(mol, SphericalType(test_spherical));
-
-  SECTION("Copy Ctor"){
-
-    BasisSet<double> basis_copy(basis);
-    CHECK( basis_copy.nshells() == 10 );
-    CHECK( basis_copy.nbf() == (test_spherical ? 18 : 19) );
-  
-  }
-
-  SECTION("Move Ctor"){
-
-    BasisSet<double> basis_copy(basis);
-    BasisSet<double> basis_move(std::move(basis_copy));
-    CHECK( basis_move.nshells() == 10 );
-    CHECK( basis_move.nbf() == (test_spherical ? 18 : 19) );
-  
-  }
-
-  CHECK( basis.nshells() == 10 );
-  CHECK( basis.nbf()     == (test_spherical ? 18 : 19) );
-  BasisSetMap basis_map( basis, mol );
-
-  std::vector<int32_t> ref_shell_to_ao = {
-  0, 1, // H1
-  2, 3, 4, 7, 8, 11, // O
-  (test_spherical ? 16 : 17), (test_spherical ? 17 : 18)  // H2
-  };
-
-  CHECK( basis_map.shell_to_first_ao() == ref_shell_to_ao );
-  auto centers_correct = std::none_of( basis_map.shell_to_center().begin(), basis_map.shell_to_center().end(), [](auto i){ return i == -1;} );
-  CHECK( centers_correct );
-
-  for(auto i = 0; i < basis.nshells(); ++i) {
-    auto [sh_st,sh_en] = basis_map.shell_to_ao_range(i);
-    CHECK(sh_st == ref_shell_to_ao[i]);
-    CHECK(sh_en == ref_shell_to_ao[i] + basis[i].size());
-  }
-
-}
-
-
-
-TEST_CASE("HDF5-BASISSET", "[basisset]") {
-
-#ifdef GAUXC_HAS_MPI
-  int world_rank;
-  MPI_Comm_rank( MPI_COMM_WORLD, &world_rank );
-  if( world_rank ) return; // Only run on root rank
-#endif
-
-
-  Molecule mol = make_water();
-  BasisSet<double> basis = make_631Gd(mol, SphericalType(false));
-  
-  // Write file
-  const std::string fname = GAUXC_REF_DATA_PATH "/test_basis.hdf5";
-  write_hdf5_record( basis, fname , "/BASIS" );
-
-  // Read File
-  BasisSet<double> basis_read;
-  read_hdf5_record( basis_read, fname, "/BASIS" );
-
-  // Check that IO was correct
-  CHECK( basis == basis_read );
-
-  std::remove( fname.c_str() ); // Delete the test file
-
-}
diff --git a/third_party/gauxc/tests/cmake/discovery/CMakeLists.txt b/third_party/gauxc/tests/cmake/discovery/CMakeLists.txt
deleted file mode 100644
index e97fd4d..0000000
--- a/third_party/gauxc/tests/cmake/discovery/CMakeLists.txt
+++ /dev/null
@@ -1,17 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-cmake_minimum_required( VERSION 3.18 FATAL_ERROR )
-project( gauxc_cmake_discovery LANGUAGES CXX )
-
-find_package( gauxc REQUIRED )
-add_executable( gauxc_link_tester gauxc_link_tester.cxx )
-target_link_libraries( gauxc_link_tester PUBLIC gauxc::gauxc )
diff --git a/third_party/gauxc/tests/cmake/discovery/gauxc_link_tester.cxx b/third_party/gauxc/tests/cmake/discovery/gauxc_link_tester.cxx
deleted file mode 100644
index 70313c7..0000000
--- a/third_party/gauxc/tests/cmake/discovery/gauxc_link_tester.cxx
+++ /dev/null
@@ -1,15 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator.hpp>
-int main() {
-  return 0;
-}
diff --git a/third_party/gauxc/tests/cmake/subproject/CMakeLists.txt b/third_party/gauxc/tests/cmake/subproject/CMakeLists.txt
deleted file mode 100644
index 7bf0870..0000000
--- a/third_party/gauxc/tests/cmake/subproject/CMakeLists.txt
+++ /dev/null
@@ -1,51 +0,0 @@
-#
-# GauXC Copyright (c) 2020-2024, The Regents of the University of California,
-# through Lawrence Berkeley National Laboratory (subject to receipt of
-# any required approvals from the U.S. Dept. of Energy).
-#
-# (c) 2024-2025, Microsoft Corporation
-#
-# All rights reserved.
-#
-# See LICENSE.txt for details
-#
-cmake_minimum_required( VERSION 3.18 FATAL_ERROR )
-project( gauxc_cmake_subproject LANGUAGES C CXX )
-
-
-if( NOT GIT_REVISION )
-  # Get current Git Revision
-  find_package( Git REQUIRED )
-  execute_process( 
-    COMMAND ${GIT_EXECUTABLE} rev-parse HEAD
-    OUTPUT_VARIABLE GIT_REVISION
-    ERROR_QUIET
-  )
-  string( STRIP "${GIT_REVISION}" GIT_REVISION )
-endif()
-
-
-if( NOT GITHUB_URL )
-  set( GITHUB_URL "https://github.com" )
-endif()
-
-if( NOT GITHUB_REPOSITORY )
-  set( GITHUB_REPOSITORY "wavefunction91/gauxc.git" )
-endif()
-
-message( STATUS "Pulling GIT_URL        = ${GITHUB_URL}" )
-message( STATUS "Pulling GIT_REPOSITORY = ${GITHUB_REPOSITORY}" )
-message( STATUS "Pulling GIT_REVISION   = ${GIT_REVISION}" )
-
-
-
-include( FetchContent )
-set( FETCHCONTENT_SOURCE_DIR_GAUXC ${CMAKE_CURRENT_LIST_DIR}/../../.. )
-FetchContent_Declare( gauxc
-  GIT_REPOSITORY "${GITHUB_URL}/${GITHUB_REPOSITORY}"
-  GIT_TAG        ${GIT_REVISION}
-)
-FetchContent_MakeAvailable( gauxc )
-
-add_executable( gauxc_link_tester gauxc_link_tester.cxx )
-target_link_libraries( gauxc_link_tester PUBLIC gauxc::gauxc )
diff --git a/third_party/gauxc/tests/cmake/subproject/gauxc_link_tester.cxx b/third_party/gauxc/tests/cmake/subproject/gauxc_link_tester.cxx
deleted file mode 100644
index 70313c7..0000000
--- a/third_party/gauxc/tests/cmake/subproject/gauxc_link_tester.cxx
+++ /dev/null
@@ -1,15 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator.hpp>
-int main() {
-  return 0;
-}
diff --git a/third_party/gauxc/tests/collocation.cxx b/third_party/gauxc/tests/collocation.cxx
deleted file mode 100644
index af85da7..0000000
--- a/third_party/gauxc/tests/collocation.cxx
+++ /dev/null
@@ -1,106 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "collocation_common.hpp"
-#include "collocation_host.hpp"
-#include "collocation_cuda.hpp"
-#include "collocation_hip.hpp"
-
-//#define GENERATE_TESTS
-
-#if defined(GENERATE_TESTS) && !defined(GAUXC_HAS_HOST)
-  #error "Host Integrator Must Be Enabled to Generate Tests"
-#endif
-
-TEST_CASE( "Water / cc-pVDZ", "[collocation]" ) {
-
-#ifdef GENERATE_TESTS
-#ifdef GAUXC_HAS_MPI
-  int world_size;
-  MPI_Comm_size( MPI_COMM_WORLD, &world_size );
-  if( world_size > 1 ) return;
-#endif
-#endif
-
-  Molecule mol           = make_water();
-  BasisSet<double> basis = make_ccpvdz( mol, SphericalType(true) );
-
-  for( auto& sh : basis ) sh.set_shell_tolerance( 1e-6 );
-
-#ifdef GENERATE_TESTS
-
-  std::ofstream ref_data( "water_cc-pVDZ_collocation.bin", std::ios::binary );
-  generate_collocation_data( mol, basis, ref_data );
-
-#else
-
-  std::ifstream ref_data( GAUXC_REF_DATA_PATH "/water_cc-pVDZ_collocation.bin",
-                          std::ios::binary );
-
-#ifdef GAUXC_HAS_HOST
-  SECTION( "Host Eval" ) {
-    test_host_collocation( basis, ref_data );
-  }
-
-  SECTION( "Host Eval Grad" ) {
-    test_host_collocation_deriv1( basis, ref_data );
-  }
-
-  SECTION( "Host Eval Hessian" ) {
-    test_host_collocation_deriv2( basis, ref_data );
-  }
-#endif
-
-#ifdef GAUXC_HAS_CUDA
-  BasisSetMap basis_map( basis, mol );
-  SECTION( "CUDA Eval" ) {
-    test_cuda_collocation( basis, ref_data );
-  }
-  SECTION( "CUDA Shell to Task Eval" ) {
-    test_cuda_collocation_shell_to_task( basis, basis_map, ref_data );
-  }
-
-  SECTION( "CUDA Eval Grad" ) {
-    test_cuda_collocation_deriv1( basis, ref_data );
-  }
-  SECTION( "CUDA Shell to Task Eval Grad" ) {
-    test_cuda_collocation_shell_to_task_gradient( basis, basis_map, ref_data );
-  }
-
-  SECTION( "CUDA Shell to Task Eval Hessian" ) {
-    test_cuda_collocation_shell_to_task_hessian( basis, basis_map, ref_data );
-  }
-
-  SECTION( "CUDA Shell to Task Eval Laplacian" ) {
-    test_cuda_collocation_shell_to_task_laplacian( basis, basis_map, ref_data );
-  }
-
-  SECTION( "CUDA Shell to Task Eval Laplacian Gradient" ) {
-    test_cuda_collocation_shell_to_task_lapgrad( basis, basis_map, ref_data );
-  }
-#endif // GAUXC_HAS_CUDA
-
-#ifdef GAUXC_HAS_HIP
-  SECTION( "HIP Eval" ) {
-    test_hip_collocation( basis, ref_data );
-  }
-
-  SECTION( "HIP Eval Grad" ) {
-    test_hip_collocation_deriv1( basis, ref_data );
-  }
-#endif // GAUXC_HAS_HIP
-
-
-
-
-#endif
-
-}
diff --git a/third_party/gauxc/tests/collocation_common.hpp b/third_party/gauxc/tests/collocation_common.hpp
deleted file mode 100644
index 567f8f4..0000000
--- a/third_party/gauxc/tests/collocation_common.hpp
+++ /dev/null
@@ -1,71 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include "ut_common.hpp"
-#include <gauxc/molgrid.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/load_balancer.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-#include <fstream>
-#include <string>
-
-using namespace GauXC;
-
-#define MAX_NPTS_CHECK 67
-
-struct ref_collocation_data {
-  std::vector<int32_t>              mask;
-  std::vector<std::array<double,3>> pts;
-  std::vector<double>               eval;
-  std::vector<double>               deval_x;
-  std::vector<double>               deval_y;
-  std::vector<double>               deval_z;
-  std::vector<double>               d2eval_xx;
-  std::vector<double>               d2eval_xy;
-  std::vector<double>               d2eval_xz;
-  std::vector<double>               d2eval_yy;
-  std::vector<double>               d2eval_yz;
-  std::vector<double>               d2eval_zz;
-  std::vector<double>               d2eval_lapl;
-  std::vector<double>               d3eval_lapl_x;
-  std::vector<double>               d3eval_lapl_y;
-  std::vector<double>               d3eval_lapl_z;
-
-  template <typename Archive>
-  void serialize( Archive& ar ) {
-    ar( mask, pts, eval, deval_x, deval_y, deval_z, d2eval_xx, d2eval_xy, d2eval_xz, 
-        d2eval_yy, d2eval_yz, d2eval_zz, d2eval_lapl, d3eval_lapl_x, d3eval_lapl_y, d3eval_lapl_z);
-  }
-
-};
-
-void check_collocation_transpose( int npts, int nbf, const double* ref_val, const double* comp_val, std::string msg = "" ) {
-
-  // Check transpose
-  for( int i = 0; i < nbf;  ++i )
-  for( int j = 0; j < npts; ++j ) {
-    INFO(msg << " IBF = " << i << " IPT = " << j);
-    CHECK( ref_val[ i + j*nbf ] == Approx( comp_val[ i*npts + j ] ) );
-  }
-
-}
-
-void check_collocation( int npts, int nbf, const double* ref_val, const double* comp_val ) {
-
-  for( int i = 0; i < nbf;  ++i )
-  for( int j = 0; j < npts; ++j ) {
-    INFO("IBF = " << i << " IPT = " << j);
-    CHECK( ref_val[ i + j*nbf ] == Approx( comp_val[ i + j*nbf ] ) );
-  }
-
-}
diff --git a/third_party/gauxc/tests/collocation_cuda.hpp b/third_party/gauxc/tests/collocation_cuda.hpp
deleted file mode 100644
index b74d847..0000000
--- a/third_party/gauxc/tests/collocation_cuda.hpp
+++ /dev/null
@@ -1,491 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifdef GAUXC_HAS_CUDA
-#include "collocation_common.hpp"
-#include "device/common/collocation_device.hpp"
-#include "device_specific/cuda_util.hpp"
-#include <gauxc/basisset_map.hpp>
-
-
-auto populate_device_cuda( const BasisSet<double>& basis,
-                           const std::vector<ref_collocation_data>& ref_data,
-                           bool pop_grad, bool pop_hess, bool pop_lapl, bool pop_lapl_grad ) {
-
-  std::vector< XCDeviceTask > tasks;
-
-  auto shells_device  = util::cuda_malloc<Shell<double>>( basis.size() );
-  std::vector<Shell<double>> shells( basis );
-  util::cuda_copy( basis.size(), shells_device, shells.data() );
-
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    /// XXX: THIS DOES NOT POPULATE A VALID TASK, ONLY WHAT's REQUIRED FOR THIS
-    //  TEST
-    auto& task = tasks.emplace_back();
-    task.npts    = npts;
-    task.bfn_screening.nbe     = nbf;
-    task.bfn_screening.nshells = mask.size();
-    task.bfn_screening.shell_offs = util::cuda_malloc<size_t>( mask.size() );
-    task.bfn_screening.shell_list = util::cuda_malloc<size_t>( mask.size() );
-
-    //task.points     = util::cuda_malloc<double>( 3 * npts );
-    task.points_x     = util::cuda_malloc<double>( npts );
-    task.points_y     = util::cuda_malloc<double>( npts );
-    task.points_z     = util::cuda_malloc<double>( npts );
-    task.bf         = util::cuda_malloc<double>( nbf * npts );
-    if(pop_grad) {
-      task.dbfx = util::cuda_malloc<double>( nbf * npts );
-      task.dbfy = util::cuda_malloc<double>( nbf * npts );
-      task.dbfz = util::cuda_malloc<double>( nbf * npts );
-    }
-
-    if(pop_hess) {
-      task.d2bfxx = util::cuda_malloc<double>( nbf * npts );
-      task.d2bfxy = util::cuda_malloc<double>( nbf * npts );
-      task.d2bfxz = util::cuda_malloc<double>( nbf * npts );
-      task.d2bfyy = util::cuda_malloc<double>( nbf * npts );
-      task.d2bfyz = util::cuda_malloc<double>( nbf * npts );
-      task.d2bfzz = util::cuda_malloc<double>( nbf * npts );
-    }
-
-    if(pop_lapl) {
-      task.d2bflapl = util::cuda_malloc<double>( nbf * npts );
-    }
-
-    if(pop_lapl_grad) {
-      task.d3bflapl_x = util::cuda_malloc<double>( nbf * npts );
-      task.d3bflapl_y = util::cuda_malloc<double>( nbf * npts );
-      task.d3bflapl_z = util::cuda_malloc<double>( nbf * npts );
-    }
-
-    //auto* pts_device = task.points;
-    auto* pts_x_device = task.points_x;
-    auto* pts_y_device = task.points_y;
-    auto* pts_z_device = task.points_z;
-    auto* offs_device = task.bfn_screening.shell_offs;
-    auto* mask_device = task.bfn_screening.shell_list;
-
-
-    //util::cuda_copy( 3*npts, pts_device, pts.data()->data() );
-    std::vector<double> pts_x, pts_y, pts_z;
-    for( auto pt : pts ) {
-      pts_x.emplace_back(pt[0]);
-      pts_y.emplace_back(pt[1]);
-      pts_z.emplace_back(pt[2]);
-    }
-    util::cuda_copy( npts, pts_x_device, pts_x.data() );
-    util::cuda_copy( npts, pts_y_device, pts_y.data() );
-    util::cuda_copy( npts, pts_z_device, pts_z.data() );
-
-    std::vector<size_t> mask_ul( mask.size() );
-    std::copy( mask.begin(), mask.end(), mask_ul.begin() );
-    util::cuda_copy( mask.size(), mask_device, mask_ul.data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::cuda_copy( offs.size(), offs_device, offs.data()  );
-
-  }
-
-  return std::pair(shells_device,tasks);
-}
-
-
-void cuda_check_collocation( const std::vector<XCDeviceTask>& tasks,
-                             const std::vector<ref_collocation_data>& ref_data,
-                             bool check_grad, bool check_hess, bool check_lapl, bool check_lapl_grad) {
-
-  for( int i = 0; i < tasks.size(); i++ ) {
-
-    auto* ref_eval = ref_data[i].eval.data();
-    std::vector<double> eval (tasks[i].bfn_screening.nbe * tasks[i].npts);
-    util::cuda_copy( eval.size(), eval.data(), tasks[i].bf );
-
-    check_collocation_transpose( tasks[i].npts, tasks[i].bfn_screening.nbe, ref_eval, 
-      eval.data(), "IT = " + std::to_string(i) + " BF EVAL" );
-
-    if( check_grad ) {
-      auto* ref_deval_x = ref_data[i].deval_x.data();
-      auto* ref_deval_y = ref_data[i].deval_y.data();
-      auto* ref_deval_z = ref_data[i].deval_z.data();
-
-      std::vector<double> deval_x (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> deval_y (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> deval_z (tasks[i].bfn_screening.nbe * tasks[i].npts);
-
-      util::cuda_copy( eval.size(), deval_x.data(), tasks[i].dbfx );
-      util::cuda_copy( eval.size(), deval_y.data(), tasks[i].dbfy );
-      util::cuda_copy( eval.size(), deval_z.data(), tasks[i].dbfz );
-
-      auto npts = tasks[i].npts;
-      auto nbe  = tasks[i].bfn_screening.nbe;
-      check_collocation_transpose( npts, nbe, ref_deval_x, deval_x.data(), "IT = " + std::to_string(i) + " BFX EVAL" );
-      check_collocation_transpose( npts, nbe, ref_deval_y, deval_y.data(), "IT = " + std::to_string(i) + " BFY EVAL" );
-      check_collocation_transpose( npts, nbe, ref_deval_z, deval_z.data(), "IT = " + std::to_string(i) + " BFZ EVAL" );
-    }
-
-    if( check_hess ) {
-      auto* ref_d2eval_xx = ref_data[i].d2eval_xx.data();
-      auto* ref_d2eval_xy = ref_data[i].d2eval_xy.data();
-      auto* ref_d2eval_xz = ref_data[i].d2eval_xz.data();
-      auto* ref_d2eval_yy = ref_data[i].d2eval_yy.data();
-      auto* ref_d2eval_yz = ref_data[i].d2eval_yz.data();
-      auto* ref_d2eval_zz = ref_data[i].d2eval_zz.data();
-
-      std::vector<double> d2eval_xx (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_xy (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_xz (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_yy (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_yz (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_zz (tasks[i].bfn_screening.nbe * tasks[i].npts);
-
-      util::cuda_copy( eval.size(), d2eval_xx.data(), tasks[i].d2bfxx );
-      util::cuda_copy( eval.size(), d2eval_xy.data(), tasks[i].d2bfxy );
-      util::cuda_copy( eval.size(), d2eval_xz.data(), tasks[i].d2bfxz );
-      util::cuda_copy( eval.size(), d2eval_yy.data(), tasks[i].d2bfyy );
-      util::cuda_copy( eval.size(), d2eval_yz.data(), tasks[i].d2bfyz );
-      util::cuda_copy( eval.size(), d2eval_zz.data(), tasks[i].d2bfzz );
-
-      auto npts = tasks[i].npts;
-      auto nbe  = tasks[i].bfn_screening.nbe;
-      check_collocation_transpose( npts, nbe, ref_d2eval_xx, d2eval_xx.data(), "IT = " + std::to_string(i) + " BFXX EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_xy, d2eval_xy.data(), "IT = " + std::to_string(i) + " BFXY EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_xz, d2eval_xz.data(), "IT = " + std::to_string(i) + " BFXZ EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_yy, d2eval_yy.data(), "IT = " + std::to_string(i) + " BFYY EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_yz, d2eval_yz.data(), "IT = " + std::to_string(i) + " BFYZ EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_zz, d2eval_zz.data(), "IT = " + std::to_string(i) + " BFZZ EVAL" );
-    }
-
-    if( check_lapl ) {
-      auto npts = tasks[i].npts;
-      auto nbe  = tasks[i].bfn_screening.nbe;
-      auto* ref_d2eval_lapl = ref_data[i].d2eval_lapl.data();
-      std::vector<double> d2eval_lapl(npts * nbe);
-      util::cuda_copy(eval.size(), d2eval_lapl.data(), tasks[i].d2bflapl);
-      check_collocation_transpose(npts, nbe, ref_d2eval_lapl, d2eval_lapl.data(), "IT = " + std::to_string(i) + "BFLAPL EVAL" );
-    }
-
-#if 1
-    if( check_lapl_grad ) {
-      auto npts = tasks[i].npts;
-      auto nbe  = tasks[i].bfn_screening.nbe;
-      auto* ref_d3eval_lapl_x = ref_data[i].d3eval_lapl_x.data();
-      auto* ref_d3eval_lapl_y = ref_data[i].d3eval_lapl_y.data();
-      auto* ref_d3eval_lapl_z = ref_data[i].d3eval_lapl_z.data();
-      std::vector<double> d3eval_lapl_x(npts * nbe);
-      std::vector<double> d3eval_lapl_y(npts * nbe);
-      std::vector<double> d3eval_lapl_z(npts * nbe);
-      util::cuda_copy(eval.size(), d3eval_lapl_x.data(), tasks[i].d3bflapl_x);
-      util::cuda_copy(eval.size(), d3eval_lapl_y.data(), tasks[i].d3bflapl_y);
-      util::cuda_copy(eval.size(), d3eval_lapl_z.data(), tasks[i].d3bflapl_z);
-      check_collocation_transpose(npts, nbe, ref_d3eval_lapl_x, d3eval_lapl_x.data(), "IT = " + std::to_string(i) + "BFLAPL_X EVAL" );
-      check_collocation_transpose(npts, nbe, ref_d3eval_lapl_y, d3eval_lapl_y.data(), "IT = " + std::to_string(i) + "BFLAPL_Y EVAL" );
-      check_collocation_transpose(npts, nbe, ref_d3eval_lapl_z, d3eval_lapl_z.data(), "IT = " + std::to_string(i) + "BFLAPL_Z EVAL" );
-    }
-#endif
-
-  }
-
-}
-
-
-    
-
-
-
-
-
-
-
-
-
-void test_cuda_collocation_masked_combined( const BasisSet<double>& basis, std::ifstream& in_file, bool grad ) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-
-  device_queue stream( std::make_shared<util::cuda_stream>() );
-  auto [shells_device,tasks] = populate_device_cuda( basis, ref_data, grad, false, false, false );
-
-
-  const auto nshells_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.bfn_screening.nshells < b.bfn_screening.nshells;
-    })->bfn_screening.nshells;
-
-  const auto npts_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.npts < b.npts;
-    })->npts;
-
-  auto* tasks_device = util::cuda_malloc<XCDeviceTask>( tasks.size() );
-  util::cuda_copy( tasks.size(), tasks_device, tasks.data() );
-
-  if(grad)
-    eval_collocation_masked_combined_deriv1( tasks.size(), npts_max,
-      nshells_max, shells_device, tasks_device, stream );
-  else
-    eval_collocation_masked_combined( tasks.size(), npts_max,
-      nshells_max, shells_device, tasks_device, stream );
-
-  util::cuda_device_sync();
-
-  cuda_check_collocation( tasks, ref_data, grad, false, false, false );
-
-
-  for( auto& t : tasks ) {
-    util::cuda_free( t.points_x, t.points_y, t.points_z, t.bfn_screening.shell_offs, t.bfn_screening.shell_list, t.bf );
-    if(grad) util::cuda_free( t.dbfx, t.dbfy, t.dbfz );
-  }
-  util::cuda_free( tasks_device, shells_device );
-}
-
-void test_cuda_collocation( const BasisSet<double>& basis, 
-  std::ifstream& in_file ) {
-
-  test_cuda_collocation_masked_combined( basis, in_file, false );
-
-}
-void test_cuda_collocation_deriv1( const BasisSet<double>& basis,
-  std::ifstream& in_file ) {
-
-  test_cuda_collocation_masked_combined( basis, in_file, true );
-
-}
-  
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-void test_cuda_collocation_shell_to_task( const BasisSet<double>& basis,  const BasisSetMap& basis_map,
-  std::ifstream& in_file, bool grad, bool hess, bool lapl, bool lapl_grad) {
-
-  // Load reference data
-  std::vector<ref_collocation_data> ref_data;
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  // Populate base task information
-  device_queue stream( std::make_shared<util::cuda_stream>() );
-  auto [shells_device,tasks] = populate_device_cuda( basis, ref_data, grad, hess, lapl, lapl_grad );
-
-  // Send tasks to device
-  auto* tasks_device = util::cuda_malloc<XCDeviceTask>( tasks.size() );
-  util::cuda_copy( tasks.size(), tasks_device, tasks.data() );
-
-
-  // Form Shell -> Task data structures 
-  std::vector< std::vector<int32_t> >
-    shell_to_task_idx( basis.size() ),
-    shell_to_task_off( basis.size() );
-
-  int itask = 0;
-  for( auto& d : ref_data ) {
-    const auto& mask = d.mask;
-
-    // Reform offsets 
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-
-    // Form shell -> task
-    for( auto i = 0; i < mask.size(); ++i ) {
-      auto ish = mask[i];
-      shell_to_task_idx[ish].emplace_back(itask);
-      shell_to_task_off[ish].emplace_back( offs[i] );
-    }
-    itask++;
-
-  }
-
-  std::vector<ShellToTaskDevice> shell_to_task;
-  for( auto ish = 0; ish < basis.size(); ++ish ) {
-    shell_to_task.emplace_back();
-
-    const auto ntask = shell_to_task_idx[ish].size();
-    shell_to_task.back().ntask = ntask;
-    shell_to_task.back().shell_device = shells_device + ish;
-    shell_to_task.back().task_idx_device = util::cuda_malloc<int32_t>( ntask );
-    shell_to_task.back().task_shell_offs_device =
-      util::cuda_malloc<int32_t>( ntask );
-
-    util::cuda_copy( ntask, shell_to_task.back().task_idx_device, 
-      shell_to_task_idx[ish].data() );
-    util::cuda_copy( ntask, shell_to_task.back().task_shell_offs_device, 
-      shell_to_task_off[ish].data() );
-
-  }
-
-
-  // Sort shells by L
-  std::vector<uint32_t> shell_idx( basis.size() );
-  std::iota( shell_idx.begin(), shell_idx.end(), 0 );
-
-  std::sort( shell_idx.begin(), shell_idx.end(),
-    [&]( auto i, auto j ){ return basis.at(i).l() < basis.at(j).l(); } );
-
-  {
-  std::vector<ShellToTaskDevice> shell_to_task_sorted( basis.size() );
-  for( auto i = 0; i < basis.size(); ++i ) 
-    shell_to_task_sorted[i] = shell_to_task[shell_idx[i]];
-  shell_to_task = std::move(shell_to_task_sorted);
-  }
-
-
-  // Send Shell -> Task to device
-  auto* shell_to_task_device = util::cuda_malloc<ShellToTaskDevice>(basis.size());
-  util::cuda_copy( basis.size(), shell_to_task_device, shell_to_task.data() );
-  util::cuda_device_sync();
-
-  // Form angular momentum batches for collocation eval
-  auto max_l = std::max_element(basis.begin(),basis.end(),
-    [](const auto&a, const auto& b){ return a.l() < b.l(); } )->l();
-  std::vector<AngularMomentumShellToTaskBatch> l_batched_shell_to_task(max_l+1);
-  {
-  auto* p = shell_to_task_device;
-  auto* h = shell_to_task.data();
-  for( auto l = 0; l <= max_l; ++l ) {
-    auto nsh = basis_map.nshells_with_l(l);
-    auto pure = basis_map.l_purity(l);
-    l_batched_shell_to_task[l].nshells_in_batch     = nsh;
-    l_batched_shell_to_task[l].pure                 = pure;
-    l_batched_shell_to_task[l].shell_to_task_device = p;
-    
-    size_t total_ntask = std::accumulate( h, h + nsh, 0ul,
-      [](auto& a, auto& b){ return a + b.ntask; } );
-    l_batched_shell_to_task[l].ntask_average = total_ntask / nsh;
-
-    p += nsh;
-    h += nsh;
-  }
-  }
-
-
-  if( lapl_grad )
-    eval_collocation_shell_to_task_lapgrad( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-  else if( hess )
-    eval_collocation_shell_to_task_hessian( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-  else if( lapl )
-    eval_collocation_shell_to_task_laplacian( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-  else if( grad ) 
-    eval_collocation_shell_to_task_gradient( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-  else       
-    eval_collocation_shell_to_task( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-
-
-
-  util::cuda_device_sync();
-  cuda_check_collocation( tasks, ref_data, grad, hess, lapl, lapl_grad );
-
-      
-  for( auto& t : tasks ) {
-    util::cuda_free( t.points_x, t.points_y, t.points_z, t.bfn_screening.shell_offs, t.bfn_screening.shell_list, t.bf );
-    if(grad) util::cuda_free( t.dbfx, t.dbfy, t.dbfz );
-    if(hess) util::cuda_free( t.d2bfxx, t.d2bfxy, t.d2bfxz, t.d2bfyy, t.d2bfyz, t.d2bfzz );
-    if(lapl) util::cuda_free( t.d2bflapl );
-    if(lapl_grad) util::cuda_free( t.d3bflapl_x, t.d3bflapl_y, t.d3bflapl_z );
-  }
-  util::cuda_free( tasks_device, shells_device, shell_to_task_device );
-  for( auto& s : shell_to_task ) {
-    util::cuda_free( s.task_idx_device, s.task_shell_offs_device );
-  }
-}
-
-
-
-void test_cuda_collocation_shell_to_task( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_cuda_collocation_shell_to_task(basis,basis_map,in_file,false, false, false, false);
-
-}
-void test_cuda_collocation_shell_to_task_gradient( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_cuda_collocation_shell_to_task(basis,basis_map,in_file,true, false, false, false);
-
-}
-void test_cuda_collocation_shell_to_task_hessian( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_cuda_collocation_shell_to_task(basis,basis_map,in_file,true, true, false, false);
-
-}
-
-void test_cuda_collocation_shell_to_task_laplacian( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_cuda_collocation_shell_to_task(basis,basis_map,in_file,true, false, true, false);
-
-}
-
-void test_cuda_collocation_shell_to_task_lapgrad( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_cuda_collocation_shell_to_task(basis,basis_map,in_file,true, true, true, true);
-
-}
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-#endif // GAUXC_HAS_CUDA
-
diff --git a/third_party/gauxc/tests/collocation_hip.hpp b/third_party/gauxc/tests/collocation_hip.hpp
deleted file mode 100644
index b6be897..0000000
--- a/third_party/gauxc/tests/collocation_hip.hpp
+++ /dev/null
@@ -1,432 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifdef GAUXC_HAS_HIP
-#include "collocation_common.hpp"
-#include "device/common/collocation_device.hpp"
-#include "device_specific/hip_util.hpp"
-#include <gauxc/basisset_map.hpp>
-
-
-auto populate_device_hip( const BasisSet<double>& basis,
-                           const std::vector<ref_collocation_data>& ref_data,
-                           bool pop_grad, bool pop_hess ) {
-
-  std::vector< XCDeviceTask > tasks;
-
-  auto shells_device  = util::hip_malloc<Shell<double>>( basis.size() );
-  std::vector<Shell<double>> shells( basis );
-  util::hip_copy( basis.size(), shells_device, shells.data() );
-
-  for( auto& d : ref_data ) {
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    /// XXX: THIS DOES NOT POPULATE A VALID TASK, ONLY WHAT's REQUIRED FOR THIS
-    //  TEST
-    auto& task = tasks.emplace_back();
-    task.bfn_screening.nbe     = nbf;
-    task.npts    = npts;
-    task.bfn_screening.nshells = mask.size();
-
-    //task.points     = util::hip_malloc<double>( 3 * npts );
-    task.points_x     = util::hip_malloc<double>( npts );
-    task.points_y     = util::hip_malloc<double>( npts );
-    task.points_z     = util::hip_malloc<double>( npts );
-    task.bfn_screening.shell_offs = util::hip_malloc<size_t>( mask.size() );
-    task.bfn_screening.shell_list = util::hip_malloc<size_t>( mask.size() );
-    task.bf         = util::hip_malloc<double>( nbf * npts );
-    if(pop_grad) {
-      task.dbfx = util::hip_malloc<double>( nbf * npts );
-      task.dbfy = util::hip_malloc<double>( nbf * npts );
-      task.dbfz = util::hip_malloc<double>( nbf * npts );
-    }
-
-    if(pop_hess) {
-      task.d2bfxx = util::hip_malloc<double>( nbf * npts );
-      task.d2bfxy = util::hip_malloc<double>( nbf * npts );
-      task.d2bfxz = util::hip_malloc<double>( nbf * npts );
-      task.d2bfyy = util::hip_malloc<double>( nbf * npts );
-      task.d2bfyz = util::hip_malloc<double>( nbf * npts );
-      task.d2bfzz = util::hip_malloc<double>( nbf * npts );
-    }
-
-    //auto* pts_device = task.points;
-    auto* pts_x_device = task.points_x;
-    auto* pts_y_device = task.points_y;
-    auto* pts_z_device = task.points_z;
-    auto* offs_device = task.bfn_screening.shell_offs;
-    auto* mask_device = task.bfn_screening.shell_list;
-
-
-    //util::hip_copy( 3*npts, pts_device, pts.data()->data() );
-    std::vector<double> pts_x, pts_y, pts_z;
-    for( auto pt : pts ) {
-      pts_x.emplace_back(pt[0]);
-      pts_y.emplace_back(pt[1]);
-      pts_z.emplace_back(pt[2]);
-    }
-    util::hip_copy( npts, pts_x_device, pts_x.data() );
-    util::hip_copy( npts, pts_y_device, pts_y.data() );
-    util::hip_copy( npts, pts_z_device, pts_z.data() );
-
-    std::vector<size_t> mask_ul( mask.size() );
-    std::copy( mask.begin(), mask.end(), mask_ul.begin() );
-    util::hip_copy( mask.size(), mask_device, mask_ul.data() );
-
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-    util::hip_copy( offs.size(), offs_device, offs.data()  );
-
-  }
-
-  return std::pair(shells_device,tasks);
-}
-
-
-void hip_check_collocation( const std::vector<XCDeviceTask>& tasks,
-                             const std::vector<ref_collocation_data>& ref_data,
-                             bool check_grad, bool check_hess) {
-
-  for( int i = 0; i < tasks.size(); i++ ) {
-
-    auto* ref_eval = ref_data[i].eval.data();
-    std::vector<double> eval (tasks[i].bfn_screening.nbe * tasks[i].npts);
-    util::hip_copy( eval.size(), eval.data(), tasks[i].bf );
-
-    check_collocation_transpose( tasks[i].npts, tasks[i].bfn_screening.nbe, ref_eval, 
-      eval.data(), "IT = " + std::to_string(i) + " BF EVAL" );
-
-    if( check_grad ) {
-      auto* ref_deval_x = ref_data[i].deval_x.data();
-      auto* ref_deval_y = ref_data[i].deval_y.data();
-      auto* ref_deval_z = ref_data[i].deval_z.data();
-
-      std::vector<double> deval_x (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> deval_y (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> deval_z (tasks[i].bfn_screening.nbe * tasks[i].npts);
-
-      util::hip_copy( eval.size(), deval_x.data(), tasks[i].dbfx );
-      util::hip_copy( eval.size(), deval_y.data(), tasks[i].dbfy );
-      util::hip_copy( eval.size(), deval_z.data(), tasks[i].dbfz );
-
-      auto npts = tasks[i].npts;
-      auto nbe  = tasks[i].bfn_screening.nbe;
-      check_collocation_transpose( npts, nbe, ref_deval_x, deval_x.data(), "IT = " + std::to_string(i) + " BFX EVAL" );
-      check_collocation_transpose( npts, nbe, ref_deval_y, deval_y.data(), "IT = " + std::to_string(i) + " BFY EVAL" );
-      check_collocation_transpose( npts, nbe, ref_deval_z, deval_z.data(), "IT = " + std::to_string(i) + " BFZ EVAL" );
-    }
-
-    if( check_hess ) {
-      auto* ref_d2eval_xx = ref_data[i].d2eval_xx.data();
-      auto* ref_d2eval_xy = ref_data[i].d2eval_xy.data();
-      auto* ref_d2eval_xz = ref_data[i].d2eval_xz.data();
-      auto* ref_d2eval_yy = ref_data[i].d2eval_yy.data();
-      auto* ref_d2eval_yz = ref_data[i].d2eval_yz.data();
-      auto* ref_d2eval_zz = ref_data[i].d2eval_zz.data();
-
-      std::vector<double> d2eval_xx (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_xy (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_xz (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_yy (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_yz (tasks[i].bfn_screening.nbe * tasks[i].npts);
-      std::vector<double> d2eval_zz (tasks[i].bfn_screening.nbe * tasks[i].npts);
-
-      util::hip_copy( eval.size(), d2eval_xx.data(), tasks[i].d2bfxx );
-      util::hip_copy( eval.size(), d2eval_xy.data(), tasks[i].d2bfxy );
-      util::hip_copy( eval.size(), d2eval_xz.data(), tasks[i].d2bfxz );
-      util::hip_copy( eval.size(), d2eval_yy.data(), tasks[i].d2bfyy );
-      util::hip_copy( eval.size(), d2eval_yz.data(), tasks[i].d2bfyz );
-      util::hip_copy( eval.size(), d2eval_zz.data(), tasks[i].d2bfzz );
-
-      auto npts = tasks[i].npts;
-      auto nbe  = tasks[i].bfn_screening.nbe;
-      check_collocation_transpose( npts, nbe, ref_d2eval_xx, d2eval_xx.data(), "IT = " + std::to_string(i) + " BFXX EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_xy, d2eval_xy.data(), "IT = " + std::to_string(i) + " BFXY EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_xz, d2eval_xz.data(), "IT = " + std::to_string(i) + " BFXZ EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_yy, d2eval_yy.data(), "IT = " + std::to_string(i) + " BFYY EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_yz, d2eval_yz.data(), "IT = " + std::to_string(i) + " BFYZ EVAL" );
-      check_collocation_transpose( npts, nbe, ref_d2eval_zz, d2eval_zz.data(), "IT = " + std::to_string(i) + " BFZZ EVAL" );
-    }
-
-  }
-
-}
-
-
-    
-
-
-
-
-
-
-
-
-
-void test_hip_collocation_masked_combined( const BasisSet<double>& basis, std::ifstream& in_file, bool grad ) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-
-  device_queue stream( std::make_shared<util::hip_stream>() );
-  auto [shells_device,tasks] = populate_device_hip( basis, ref_data, grad, false );
-
-
-  const auto nshells_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.bfn_screening.nshells < b.bfn_screening.nshells;
-    })->bfn_screening.nshells;
-
-  const auto npts_max = std::max_element( tasks.begin(), tasks.end(),
-    []( const auto& a, const auto& b ) {
-      return a.npts < b.npts;
-    })->npts;
-
-  auto* tasks_device = util::hip_malloc<XCDeviceTask>( tasks.size() );
-  util::hip_copy( tasks.size(), tasks_device, tasks.data() );
-
-  if(grad)
-    eval_collocation_masked_combined_deriv1( tasks.size(), npts_max,
-      nshells_max, shells_device, tasks_device, stream );
-  else
-    eval_collocation_masked_combined( tasks.size(), npts_max,
-      nshells_max, shells_device, tasks_device, stream );
-
-  util::hip_device_sync();
-
-  hip_check_collocation( tasks, ref_data, grad, false );
-
-
-  for( auto& t : tasks ) {
-    util::hip_free( t.points_x, t.points_y, t.points_z, t.bfn_screening.shell_offs, t.bfn_screening.shell_list, t.bf );
-    if(grad) util::hip_free( t.dbfx, t.dbfy, t.dbfz );
-  }
-  util::hip_free( tasks_device, shells_device );
-}
-
-void test_hip_collocation( const BasisSet<double>& basis, 
-  std::ifstream& in_file ) {
-
-  test_hip_collocation_masked_combined( basis, in_file, false );
-
-}
-void test_hip_collocation_deriv1( const BasisSet<double>& basis,
-  std::ifstream& in_file ) {
-
-  test_hip_collocation_masked_combined( basis, in_file, true );
-
-}
-  
-
-
-
-
-
-
-
-
-
-
-
-
-
-#if 0
-void test_hip_collocation_shell_to_task( const BasisSet<double>& basis,  const BasisSetMap& basis_map,
-  std::ifstream& in_file, bool grad, bool hess) {
-
-  // Load reference data
-  std::vector<ref_collocation_data> ref_data;
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  // Populate base task information
-  device_queue stream( std::make_shared<util::hip_stream>() );
-  auto [shells_device,tasks] = populate_device_hip( basis, ref_data, grad, hess );
-
-  // Send tasks to device
-  auto* tasks_device = util::hip_malloc<XCDeviceTask>( tasks.size() );
-  util::hip_copy( tasks.size(), tasks_device, tasks.data() );
-
-
-  // Form Shell -> Task data structures 
-  std::vector< std::vector<int32_t> >
-    shell_to_task_idx( basis.size() ),
-    shell_to_task_off( basis.size() );
-
-  int itask = 0;
-  for( auto& d : ref_data ) {
-    const auto& mask = d.mask;
-
-    // Reform offsets 
-    std::vector<size_t> offs( mask.size() );
-    offs[0] = 0;
-    for( int i = 1; i < mask.size(); ++i )
-      offs[i] = offs[i-1] + basis[mask[i-1]].size();
-
-    // Form shell -> task
-    for( auto i = 0; i < mask.size(); ++i ) {
-      auto ish = mask[i];
-      shell_to_task_idx[ish].emplace_back(itask);
-      shell_to_task_off[ish].emplace_back( offs[i] );
-    }
-    itask++;
-
-  }
-
-  std::vector<ShellToTaskDevice> shell_to_task;
-  for( auto ish = 0; ish < basis.size(); ++ish ) {
-    shell_to_task.emplace_back();
-
-    const auto ntask = shell_to_task_idx[ish].size();
-    shell_to_task.back().ntask = ntask;
-    shell_to_task.back().shell_device = shells_device + ish;
-    shell_to_task.back().task_idx_device = util::hip_malloc<int32_t>( ntask );
-    shell_to_task.back().task_shell_offs_device =
-      util::hip_malloc<int32_t>( ntask );
-
-    util::hip_copy( ntask, shell_to_task.back().task_idx_device, 
-      shell_to_task_idx[ish].data() );
-    util::hip_copy( ntask, shell_to_task.back().task_shell_offs_device, 
-      shell_to_task_off[ish].data() );
-
-  }
-
-
-  // Sort shells by L
-  std::vector<uint32_t> shell_idx( basis.size() );
-  std::iota( shell_idx.begin(), shell_idx.end(), 0 );
-
-  std::sort( shell_idx.begin(), shell_idx.end(),
-    [&]( auto i, auto j ){ return basis.at(i).l() < basis.at(j).l(); } );
-
-  {
-  std::vector<ShellToTaskDevice> shell_to_task_sorted( basis.size() );
-  for( auto i = 0; i < basis.size(); ++i ) 
-    shell_to_task_sorted[i] = shell_to_task[shell_idx[i]];
-  shell_to_task = std::move(shell_to_task_sorted);
-  }
-
-
-  // Send Shell -> Task to device
-  auto* shell_to_task_device = util::hip_malloc<ShellToTaskDevice>(basis.size());
-  util::hip_copy( basis.size(), shell_to_task_device, shell_to_task.data() );
-  util::hip_device_sync();
-
-  // Form angular momentum batches for collocation eval
-  auto max_l = std::max_element(basis.begin(),basis.end(),
-    [](const auto&a, const auto& b){ return a.l() < b.l(); } )->l();
-  std::vector<AngularMomentumShellToTaskBatch> l_batched_shell_to_task(max_l+1);
-  {
-  auto* p = shell_to_task_device;
-  auto* h = shell_to_task.data();
-  for( auto l = 0; l <= max_l; ++l ) {
-    auto nsh = basis_map.nshells_with_l(l);
-    auto pure = basis_map.l_purity(l);
-    l_batched_shell_to_task[l].nshells_in_batch     = nsh;
-    l_batched_shell_to_task[l].pure                 = pure;
-    l_batched_shell_to_task[l].shell_to_task_device = p;
-    
-    size_t total_ntask = std::accumulate( h, h + nsh, 0ul,
-      [](auto& a, auto& b){ return a + b.ntask; } );
-    l_batched_shell_to_task[l].ntask_average = total_ntask / nsh;
-
-    p += nsh;
-    h += nsh;
-  }
-  }
-
-
-  if( hess )
-    eval_collocation_shell_to_task_hessian( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-  else if( grad ) 
-    eval_collocation_shell_to_task_gradient( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-  else       
-    eval_collocation_shell_to_task( max_l, l_batched_shell_to_task.data(), 
-      tasks_device, stream );
-
-
-
-  util::hip_device_sync();
-  hip_check_collocation( tasks, ref_data, grad, hess );
-
-      
-  for( auto& t : tasks ) {
-    util::hip_free( t.points_x, t.points_y, t.points_z, t.bfn_screening.shell_offs, t.bfn_screening.shell_list, t.bf );
-    if(grad) util::hip_free( t.dbfx, t.dbfy, t.dbfz );
-    if(hess) util::hip_free( t.d2bfxx, t.d2bfxy, t.d2bfxz, t.d2bfyy, t.d2bfyz, t.d2bfzz );
-  }
-  util::hip_free( tasks_device, shells_device, shell_to_task_device );
-  for( auto& s : shell_to_task ) {
-    util::hip_free( s.task_idx_device, s.task_shell_offs_device );
-  }
-}
-
-
-
-void test_hip_collocation_shell_to_task( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_hip_collocation_shell_to_task(basis,basis_map,in_file,false, false);
-
-}
-void test_hip_collocation_shell_to_task_gradient( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_hip_collocation_shell_to_task(basis,basis_map,in_file,true, false);
-
-}
-void test_hip_collocation_shell_to_task_hessian( const BasisSet<double>& basis,  
-  const BasisSetMap& basis_map, std::ifstream& in_file) {
-
-  test_hip_collocation_shell_to_task(basis,basis_map,in_file,true, true);
-
-}
-#endif
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-#endif // GAUXC_HAS_HIP
-
diff --git a/third_party/gauxc/tests/collocation_host.hpp b/third_party/gauxc/tests/collocation_host.hpp
deleted file mode 100644
index 52dcaec..0000000
--- a/third_party/gauxc/tests/collocation_host.hpp
+++ /dev/null
@@ -1,250 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#ifdef GAUXC_HAS_HOST
-#include "collocation_common.hpp"
-#include "host/reference/collocation.hpp"
-
-void generate_collocation_data( const Molecule& mol, const BasisSet<double>& basis,
-                                std::ofstream& out_file, size_t ntask_save = 10 ) {
-
-
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  auto mg = MolGridFactory::create_default_molgrid(mol, PruningScheme::Unpruned,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::FineGrid);
-
-  LoadBalancerFactory lb_factory(ExecutionSpace::Host, "Default");
-  auto lb = lb_factory.get_instance( rt, mol, mg, basis);
-  auto& tasks = lb.get_tasks();
-
-
-  std::vector< ref_collocation_data > ref_data;
-
-  for( size_t i = 0; i < ntask_save; ++i ) {
-    auto& task = tasks[i];
-
-    auto& pts  = task.points;
-    auto& mask = task.bfn_screening.shell_list;
-
-    // Only keep first MAX_NPTS_CHECK points to save on space
-    if( task.points.size() > MAX_NPTS_CHECK )
-      task.points.erase( task.points.begin() + MAX_NPTS_CHECK, task.points.end() );
-
-    const auto npts = task.points.size();
-    const auto nbf  = task.bfn_screening.nbe;
-
-    std::vector<double> eval   ( nbf * npts ),
-                        deval_x( nbf * npts ),
-                        deval_y( nbf * npts ),
-                        deval_z( nbf * npts ),
-                        d2eval_xx( nbf * npts ),
-                        d2eval_xy( nbf * npts ),
-                        d2eval_xz( nbf * npts ),
-                        d2eval_yy( nbf * npts ),
-                        d2eval_yz( nbf * npts ),
-                        d2eval_zz( nbf * npts ),
-                        d3eval_xxx( nbf * npts ),
-                        d3eval_xxy( nbf * npts ),
-                        d3eval_xxz( nbf * npts ),
-                        d3eval_xyy( nbf * npts ),
-                        d3eval_xyz( nbf * npts ),
-                        d3eval_xzz( nbf * npts ),
-                        d3eval_yyy( nbf * npts ),
-                        d3eval_yyz( nbf * npts ),
-                        d3eval_yzz( nbf * npts ),
-                        d3eval_zzz( nbf * npts );
-
-    gau2grid_collocation_der3( npts, mask.size(), nbf,
-      pts.data()->data(), basis, mask.data(), eval.data(), 
-      deval_x.data(), deval_y.data(), deval_z.data(),
-      d2eval_xx.data(), d2eval_xy.data(), d2eval_xz.data(),
-      d2eval_yy.data(), d2eval_yz.data(), d2eval_zz.data(),
-      d3eval_xxx.data(), d3eval_xxy.data(), d3eval_xxz.data(),
-      d3eval_xyy.data(), d3eval_xyz.data(), d3eval_xzz.data(),
-      d3eval_yyy.data(), d3eval_yyz.data(), d3eval_yzz.data(),
-      d3eval_zzz.data());
-
-    std::vector<double> d2eval_lapl(nbf * npts);
-    std::vector<double> d3eval_lapl_x(nbf * npts);
-    std::vector<double> d3eval_lapl_y(nbf * npts);
-    std::vector<double> d3eval_lapl_z(nbf * npts);
-    for(auto i = 0; i < nbf*npts; ++i) {
-      d2eval_lapl[i] = d2eval_xx[i] + d2eval_yy[i] + d2eval_zz[i];
-      d3eval_lapl_x[i] = d3eval_xxx[i] + d3eval_xyy[i] + d3eval_xzz[i];
-      d3eval_lapl_y[i] = d3eval_xxy[i] + d3eval_yyy[i] + d3eval_yzz[i];
-      d3eval_lapl_z[i] = d3eval_xxz[i] + d3eval_yyz[i] + d3eval_zzz[i];
-    }
-
-    
-
-    auto max_abs = *std::max_element( eval.begin(), eval.end(),
-                   [](auto a, auto b){ return std::abs(a) < std::abs(b); } );
-    if( std::abs(max_abs) < 1e-9 ) continue;
-
-    ref_collocation_data d{ std::move(mask), std::move(pts), std::move(eval),
-                            std::move(deval_x), std::move(deval_y), std::move(deval_z),
-                            std::move(d2eval_xx), std::move(d2eval_xy), std::move(d2eval_xz),
-                            std::move(d2eval_yy), std::move(d2eval_yz), std::move(d2eval_zz),
-                            std::move(d2eval_lapl), std::move(d3eval_lapl_x), std::move(d3eval_lapl_y),
-                            std::move(d3eval_lapl_z)
-                            };
-
-    ref_data.emplace_back( std::move(d) );
-
-  }
-
-  {
-    cereal::BinaryOutputArchive ar( out_file );
-    ar( ref_data );
-  }
-
-}
-
-
-void test_host_collocation( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  for( auto& d : ref_data ) {
-
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    std::vector<double> eval( nbf * npts );
-
-
-    gau2grid_collocation( npts, mask.size(), nbf,
-                          pts.data()->data(), basis,
-                          mask.data(),
-                          eval.data() );
-
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( eval[i] == Approx( d.eval[i] ) );
-
-  }
-
-}
-
-void test_host_collocation_deriv1( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  for( auto& d : ref_data ) {
-
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    std::vector<double> eval   ( nbf * npts ),
-                        deval_x( nbf * npts ),
-                        deval_y( nbf * npts ),
-                        deval_z( nbf * npts );
-
-
-    gau2grid_collocation_gradient( npts, mask.size(), nbf,
-                                   pts.data()->data(), basis,
-                                   mask.data(),
-                                   eval.data(), deval_x.data(),
-                                   deval_y.data(), deval_z.data() );
-
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( eval[i] == Approx( d.eval[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( deval_x[i] == Approx( d.deval_x[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( deval_y[i] == Approx( d.deval_y[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( deval_z[i] == Approx( d.deval_z[i] ) );
-  }
-
-}
-
-void test_host_collocation_deriv2( const BasisSet<double>& basis, std::ifstream& in_file) {
-
-
-
-  std::vector<ref_collocation_data> ref_data;
-
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  for( auto& d : ref_data ) {
-
-    const auto npts = d.pts.size();
-    const auto nbf  = d.eval.size() / npts;
-
-    const auto& mask = d.mask;
-    const auto& pts  = d.pts;
-
-    std::vector<double> eval   ( nbf * npts ),
-                        deval_x( nbf * npts ),
-                        deval_y( nbf * npts ),
-                        deval_z( nbf * npts ),
-                        d2eval_xx( nbf * npts ),
-                        d2eval_xy( nbf * npts ),
-                        d2eval_xz( nbf * npts ),
-                        d2eval_yy( nbf * npts ),
-                        d2eval_yz( nbf * npts ),
-                        d2eval_zz( nbf * npts );
-
-
-    gau2grid_collocation_hessian( npts, mask.size(), nbf,
-      pts.data()->data(), basis, mask.data(), eval.data(), 
-      deval_x.data(), deval_y.data(), deval_z.data(),
-      d2eval_xx.data(), d2eval_xy.data(), d2eval_xz.data(),
-      d2eval_yy.data(), d2eval_yz.data(), d2eval_zz.data() );
-
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( eval[i] == Approx( d.eval[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( deval_x[i] == Approx( d.deval_x[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( deval_y[i] == Approx( d.deval_y[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( deval_z[i] == Approx( d.deval_z[i] ) );
-
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( d2eval_xx[i] == Approx( d.d2eval_xx[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( d2eval_xy[i] == Approx( d.d2eval_xy[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( d2eval_xz[i] == Approx( d.d2eval_xz[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( d2eval_yy[i] == Approx( d.d2eval_yy[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( d2eval_yz[i] == Approx( d.d2eval_yz[i] ) );
-    for( auto i = 0; i < npts * nbf; ++i )
-      CHECK( d2eval_zz[i] == Approx( d.d2eval_zz[i] ) );
-  }
-
-}
-#endif
diff --git a/third_party/gauxc/tests/conv_cereal_to_hdf5.cxx b/third_party/gauxc/tests/conv_cereal_to_hdf5.cxx
deleted file mode 100644
index 682a696..0000000
--- a/third_party/gauxc/tests/conv_cereal_to_hdf5.cxx
+++ /dev/null
@@ -1,82 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/external/cereal.hpp>
-#include <gauxc/external/hdf5.hpp>
-#include <cereal/archives/binary.hpp>
-#include "eigen3_matrix_serialization.hpp"
-#include <highfive/H5File.hpp>
-#include "standards.hpp"
-#include "basis/parse_basis.hpp"
-#include <fstream>
-
-using namespace GauXC;
-int main( int argc, char** argv ) {
-
-  std::vector< std::string > opts( argc );
-  for( int i = 0; i < argc; ++i ) opts[i] = argv[i];
-
-  std::string test_case   = opts.at(1);
-  std::string basis_set   = opts.at(2);
-  std::string cereal_file = opts.at(3);
-  std::string hdf5_file   = opts.at(4);
-
-  // Construct Molecule
-  Molecule mol;
-  if( test_case.find("benzene") != std::string::npos )
-    mol = make_benzene();
-  else if( test_case.find("water") != std::string::npos )
-    mol = make_water();
-  else if( test_case.find("taxol") != std::string::npos )
-    mol = make_taxol();
-  else if( test_case.find("ubiquitin") != std::string::npos )
-    mol = make_ubiquitin();
-  else
-    throw std::runtime_error("Unknown Test Case");
-
-  // Construct BasisSet
-  BasisSet<double> basis; 
-  if( basis_set.find("6-31gd") != std::string::npos ) 
-    basis = std::move(make_631Gd( mol, SphericalType(false) ));
-  else if( basis_set.find("cc-pvdz") != std::string::npos ) 
-    basis = std::move(make_ccpvdz( mol, SphericalType(true) ));
-  else
-    throw std::runtime_error("Unknown Basis Set");
-
-  // Read in cereal file
-    using matrix_type = Eigen::MatrixXd;
-  matrix_type P,VXC_ref;
-  double EXC_ref;
-  {
-    std::ifstream infile( cereal_file, std::ios::binary );
-
-    if( !infile.good() ) throw std::runtime_error(cereal_file + " not found");
-    cereal::BinaryInputArchive ar(infile);
-    ar( EXC_ref, P, VXC_ref );
-  }
-
-  // Write HDF5 file
-  write_hdf5_record( mol,   hdf5_file, "/MOLECULE" );
-  write_hdf5_record( basis, hdf5_file, "/BASIS"    );
-  {
-    using namespace HighFive;
-    File file( hdf5_file, File::ReadWrite );
-    DataSpace space( P.rows(), P.cols() );
-    DataSet den = file.createDataSet<double>( "/DENSITY", space );
-    den.write_raw( P.data() );
-    DataSet vxc = file.createDataSet<double>( "/VXC", space );
-    vxc.write_raw( VXC_ref.data() );
-
-    DataSpace singleton(1);
-    DataSet exc = file.createDataSet<double>("/EXC", singleton );
-    exc.write_raw( &EXC_ref );
-  }
-}
diff --git a/third_party/gauxc/tests/dd_psi_potential_test.cxx b/third_party/gauxc/tests/dd_psi_potential_test.cxx
deleted file mode 100644
index 9af2844..0000000
--- a/third_party/gauxc/tests/dd_psi_potential_test.cxx
+++ /dev/null
@@ -1,102 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/xc_integrator.hpp>
-#include <gauxc/xc_integrator/impl.hpp>
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-#include <gauxc/molecular_weights.hpp>
-
-#include <gauxc/molgrid/defaults.hpp>
-
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include <Eigen/Core>
-
-using namespace GauXC;
-
-void test_dd_psi (
-  std::string reference_file, 
-  int lmax = 8
-) {
-    using matrix_type = Eigen::MatrixXd;
-    Molecule mol;
-    BasisSet<double> basis;
-    matrix_type P, ddX, ddPsi_ref, ddPsi_potential_ref;
-
-    read_hdf5_record( mol,   reference_file, "/MOLECULE" );
-    read_hdf5_record( basis, reference_file, "/BASIS"    );
-
-    HighFive::File file( reference_file, HighFive::File::ReadOnly );
-    std::string den_str = "/DENSITY";
-    auto dset = file.getDataSet(den_str);
-    auto dims = dset.getDimensions();
-    P = matrix_type( dims[0], dims[1] );
-    dset.read( P.data() );
-
-    int nharmonics = (lmax + 1) * (lmax + 1);
-
-    ddX = matrix_type( nharmonics, mol.size() );
-    dset = file.getDataSet("/DD_X");
-    dset.read(ddX.data());
-
-    ddPsi_ref = matrix_type( mol.size(), nharmonics );
-    dset = file.getDataSet("/DD_PSI");
-    dset.read( ddPsi_ref.data());
-
-    ddPsi_potential_ref = matrix_type( basis.nbf(), basis.nbf() );
-    dset = file.getDataSet("/DD_PSI_POTENTIAL");
-    dset.read( ddPsi_potential_ref.data() );
-
-
-    #ifdef GAUXC_HAS_DEVICE
-    auto rt = DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.9);
-    #else
-    auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-    #endif
-
-    auto mg = MolGridFactory::create_default_molgrid(mol, PruningScheme::Unpruned,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-    auto ex = ExecutionSpace::Host;
-    LoadBalancerFactory lb_factory(ex, "Default");
-    auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-
-        // Construct Weights Module
-    MolecularWeightsFactory mw_factory( ex, "Default", MolecularWeightsSettings{} );
-    auto mw = mw_factory.get_instance();
-
-    // Apply partition weights
-    mw.modify_weights(lb);
-
-    functional_type func = functional_type( ExchCXX::Backend::builtin, ExchCXX::Functional::PBE0, ExchCXX::Spin::Unpolarized );
-        // Construct XCIntegrator
-    XCIntegratorFactory<matrix_type> integrator_factory( ex, "Replicated", 
-            "Default",  "Default",  "Default" );
-    auto integrator = integrator_factory.get_instance( func, lb );
-
-    auto dd_psi = integrator.eval_dd_psi(P, lmax);
-    auto ddPsi = Eigen::Map<matrix_type>(dd_psi.data(), mol.size(), nharmonics);
-    auto ddPsi_nrm = (ddPsi - ddPsi_ref).norm();
-    CHECK( ddPsi_nrm / mol.size() < 1e-10 );
-
-    auto ddPsiPotential = integrator.eval_dd_psi_potential(ddX, lmax);
-    auto ddPsiPotential_nrm = (ddPsiPotential - ddPsi_potential_ref).norm();
-    CHECK( ddPsiPotential_nrm / basis.nbf() < 1e-10 );
-
-}
-
-TEST_CASE( "DD PSI & PSI POTENTIAL", "[dd]" ) {
-    SECTION( " C2H4 / def2-svp / LMAX = 8" ) {
-        test_dd_psi( GAUXC_REF_DATA_PATH "/c2h4_l8_dd_psi_potential.hdf5" );
-    }
-}
- 
\ No newline at end of file
diff --git a/third_party/gauxc/tests/eigen3_matrix_serialization.hpp b/third_party/gauxc/tests/eigen3_matrix_serialization.hpp
deleted file mode 100644
index a810e8d..0000000
--- a/third_party/gauxc/tests/eigen3_matrix_serialization.hpp
+++ /dev/null
@@ -1,71 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <cereal/cereal.hpp>
-
-//#ifdef __PGI
-//  #define _GAUXC_COMP_IS_PGI
-//  #undef __PGI
-//#endif
-#define EIGEN_DONT_VECTORIZE
-#define EIGEN_NO_CUDA
-#include <Eigen/Core>
-//#ifdef _GAUXC_COMP_IS_PGI
-//  #define __PGI
-//#endif
-
-namespace cereal {
-
-template <typename Archive, typename T, int _Rows, int _Cols, int _Opts,
-          int _MaxRows, int _MaxCols>
-inline std::enable_if_t<
-  traits::is_output_serializable< BinaryData<T>, Archive>::value and
-  std::is_arithmetic<T>::value and not std::is_same<T, bool>::value
-> CEREAL_SAVE_FUNCTION_NAME( 
-    Archive &ar, 
-    const Eigen::Matrix<T,_Rows,_Cols,_Opts,_MaxRows,_MaxCols>& mat
-) {
-
-  //ar( _Rows, _Cols, _Opts, _MaxRows, _MaxCols );
-  int32_t rows = mat.rows();
-  int32_t cols = mat.cols();
-  ar( rows, cols );
-  ar( binary_data( mat.data(), static_cast<std::size_t>(rows * cols * sizeof(T)) ));
-
-}
-
-
-
-template <typename Archive, typename T, int _Rows, int _Cols, int _Opts,
-          int _MaxRows, int _MaxCols>
-inline std::enable_if_t<
-  traits::is_input_serializable< BinaryData<T>, Archive>::value and
-  std::is_arithmetic<T>::value and not std::is_same<T, bool>::value
-> CEREAL_LOAD_FUNCTION_NAME( 
-    Archive &ar, 
-    Eigen::Matrix<T,_Rows,_Cols,_Opts,_MaxRows,_MaxCols>& mat
-) {
-
-  //ar( Rows, Cols, Opts, MaxRows, MaxCols );
-
-  int32_t rows;
-  int32_t cols;
-  ar( rows, cols );
-
-  mat.resize( rows, cols );
-
-  ar( binary_data( mat.data(), static_cast<std::size_t>(rows * cols * sizeof(T)) ));
-
-}
-
-}
diff --git a/third_party/gauxc/tests/environment.cxx b/third_party/gauxc/tests/environment.cxx
deleted file mode 100644
index 2dea813..0000000
--- a/third_party/gauxc/tests/environment.cxx
+++ /dev/null
@@ -1,50 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/util/environment.hpp>
-
-using namespace GauXC;
-TEST_CASE("Environment", "[env]") {
-
-  SECTION("Host") {
-    auto xc  = gauxc_max_am(ExecutionSpace::Host, SupportedAlg::XC    );
-    auto den = gauxc_max_am(ExecutionSpace::Host, SupportedAlg::DEN   );
-    auto snk = gauxc_max_am(ExecutionSpace::Host, SupportedAlg::SNLINK);
-
-#ifdef GAUXC_HAS_HOST
-    REQUIRE(xc  == GAUXC_CPU_XC_MAX_AM);
-    REQUIRE(den == GAUXC_CPU_XC_MAX_AM);
-    REQUIRE(snk == GAUXC_CPU_SNLINK_MAX_AM);
-#else
-    REQUIRE(xc  == -1);
-    REQUIRE(den == -1);
-    REQUIRE(snk == -1);
-#endif
-  }
-
-  SECTION("Device") {
-    auto xc  = gauxc_max_am(ExecutionSpace::Device, SupportedAlg::XC    );
-    auto den = gauxc_max_am(ExecutionSpace::Device, SupportedAlg::DEN   );
-    auto snk = gauxc_max_am(ExecutionSpace::Device, SupportedAlg::SNLINK);
-
-#ifdef GAUXC_HAS_DEVICE
-    REQUIRE(xc  == GAUXC_GPU_XC_MAX_AM);
-    REQUIRE(den == GAUXC_GPU_XC_MAX_AM);
-    REQUIRE(snk == GAUXC_GPU_SNLINK_MAX_AM);
-#else
-    REQUIRE(xc  == -1);
-    REQUIRE(den == -1);
-    REQUIRE(snk == -1);
-#endif
-  }
-
-}
diff --git a/third_party/gauxc/tests/grid_opt.cxx b/third_party/gauxc/tests/grid_opt.cxx
deleted file mode 100644
index 1fa2237..0000000
--- a/third_party/gauxc/tests/grid_opt.cxx
+++ /dev/null
@@ -1,143 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator.hpp>
-#include <gauxc/xc_integrator/impl.hpp>
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/basisset_map.hpp>
-
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include "ini_input.hpp"
-#include <gauxc/exceptions.hpp>
-#define EIGEN_DONT_VECTORIZE
-#include <Eigen/Core>
-
-#include <integratorxx/quadratures/muraknowles.hpp>
-#include <integratorxx/quadratures/treutleraldrichs.hpp>
-#include <integratorxx/quadratures/lebedev_laikov.hpp>
-#include <integratorxx/composite_quadratures/pruned_spherical_quadrature.hpp>
-#include <gauxc/grid_factory.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-
-#include <chrono>
-
-using namespace GauXC;
-using namespace ExchCXX;
-
-int main(int argc, char** argv) {
-
-#ifdef GAUXC_HAS_MPI
-  MPI_Init( NULL, NULL );
-#endif
-  {
-    // Set up runtimes
-    #ifdef GAUXC_HAS_DEVICE
-    auto rt = DeviceRuntimeEnvironment( GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.9 );
-    #else
-    auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-    #endif
-    auto world_rank = rt.comm_rank();
-    auto world_size = rt.comm_size();
-
-    std::vector< std::string > opts( argc );
-    for( int i = 0; i < argc; ++i ) opts[i] = argv[i];
-
-    // Get input file
-    auto input_file = opts.at(1);
-    INIFile input(input_file);
-
-    // Require Ref file
-    auto ref_file = input.getData<std::string>("GAUXC.REF_FILE");
-
-    // Read Molecule
-    Molecule mol;
-    read_hdf5_record( mol, ref_file, "/MOLECULE" );
-    double ref_ne = MolMeta(mol).sum_atomic_charges();
-
-    // Read BasisSet
-    BasisSet<double> basis; 
-    read_hdf5_record( basis, ref_file, "/BASIS" );
-
-    for( auto& sh : basis ){ sh.set_shell_tolerance( 1e-10 ); }
-
-
-    // Setup load balancer factory
-    LoadBalancerFactory lb_factory( ExecutionSpace::Host, "Replicated");
-
-    // Setup Integrator factory
-    using matrix_type = Eigen::MatrixXd;
-    XCIntegratorFactory<matrix_type> integrator_factory( ExecutionSpace::Host, 
-      "Replicated", "Default", "Default", "Default" );
-
-    // Setup Dummy XC functional
-    functional_type func;
-
-    // Read in reference density
-    matrix_type P;
-    {
-      HighFive::File file( ref_file, HighFive::File::ReadOnly );
-      auto dset = file.getDataSet("/DENSITY");
-      auto dims = dset.getDimensions();
-      P       = matrix_type( dims[0], dims[1] );
-
-      if( P.rows() != P.cols() ) 
-        throw std::runtime_error("Density Must Be Square");
-      if( P.rows() != basis.nbf() ) 
-        throw std::runtime_error("Density Not Compatible With Basis");
-
-      dset.read( P.data() );
-    }
-
-    auto run_integration = [&](auto scheme){
-
-      auto rq = RadialQuad::MuraKnowles;
-      auto rs = RadialSize(100);
-      auto as = AngularSize(974);
-      auto bs = BatchSize(512);
-
-      #if 0
-      auto molmap = MolGridFactory::create_default_gridmap(
-        mol, scheme, rq, rs, as );
-      MolGrid mg(molmap);
-      #else
-      auto mg = MolGridFactory::create_default_molgrid(mol, scheme, bs, rq, rs, as);
-      #endif
-
-      auto st = std::chrono::high_resolution_clock::now();
-
-      auto lb = lb_factory.get_shared_instance(rt, mol, mg, basis);
-      auto integrator = integrator_factory.get_instance( func, lb );
-
-      double N_EL = integrator.integrate_den( P );
-      auto en = std::chrono::high_resolution_clock::now();
-      std::cout << std::scientific << std::setprecision(16);
-      const auto err = std::abs(N_EL-ref_ne);
-      std::cout << "NE = " << N_EL << ", " << err << ", " << err/ref_ne << std::endl;
-      std::cout << std::chrono::duration<double>(en-st).count() << std::endl;
-    };
-
-    // Unpruned Integration
-    std::cout << "Unpruned" << std::endl;
-    run_integration(PruningScheme::Unpruned);
-
-    // Pruned Integration
-    std::cout << "Pruned" << std::endl;
-    run_integration(PruningScheme::Robust);
-
-
-  }
-#ifdef GAUXC_HAS_MPI
-  MPI_Finalize();
-#endif
-
-}
diff --git a/third_party/gauxc/tests/grid_test.cxx b/third_party/gauxc/tests/grid_test.cxx
deleted file mode 100644
index c308adf..0000000
--- a/third_party/gauxc/tests/grid_test.cxx
+++ /dev/null
@@ -1,75 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "catch2/catch.hpp"
-#include <gauxc/grid.hpp>
-
-#include <integratorxx/quadratures/radial/muraknowles.hpp>
-#include <integratorxx/quadratures/radial/mhl.hpp>
-#include <integratorxx/quadratures/s2/lebedev_laikov.hpp>
-#include <integratorxx/composite_quadratures/spherical_quadrature.hpp>
-
-#include <random>
-
-using namespace GauXC;
-
-TEST_CASE("Grid", "[grid]") {
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<> pos_real_dist( 0., 10. );
-
-  int64_t n_rad    = 99;
-  int64_t n_ang    = 770;
-  int64_t batch_sz = 128;
-
-  double r_scal = pos_real_dist(gen);
-
-  IntegratorXX::LebedevLaikov<double>            ang_quad( n_ang         );
-  IntegratorXX::MuraKnowles<double,double>       mk_quad ( n_rad, r_scal );
-
-  using sphere_type = IntegratorXX::SphericalQuadrature<
-    IntegratorXX::MuraKnowles<double,double>, IntegratorXX::LebedevLaikov<double>
-  >;
-
-  RadialQuad rquad = RadialQuad::MuraKnowles;
-  auto mk_sphere = std::make_shared<sphere_type>( mk_quad, ang_quad  );
-  auto mk_batch  = IntegratorXX::make_batcher( batch_sz, *mk_sphere  );
-
-  SECTION("Full Construction") {
-
-    Grid grid( mk_sphere, BatchSize(batch_sz) );
-    CHECK( grid.batcher().max_batch_size() == batch_sz );
-
-    for( auto i = 0; i < mk_batch.nbatches(); ++i ) {
-
-      auto&& [box_lo_ref, box_up_ref, points_ref, weights_ref] = mk_batch.at(i);
-      auto&& [box_lo, box_up, points, weights] = grid.batcher().at(i);
-
-      CHECK( box_lo_ref == box_lo );
-      CHECK( box_up_ref == box_up );
-
-      CHECK( points_ref  == points  );
-      CHECK( weights_ref == weights );
-
-    }
-
-  }
-
-#if 0
-    SECTION("Default Batch Size") {
-      Grid grid( rquad, RadialSize(n_rad), AngularSize(n_ang), 
-                 RadialScale(r_scal) );
-
-      CHECK( grid.max_batch_sz() == 512ll );
-    }
-#endif
-
-}
diff --git a/third_party/gauxc/tests/ini_input.cxx b/third_party/gauxc/tests/ini_input.cxx
deleted file mode 100644
index a5f6ed5..0000000
--- a/third_party/gauxc/tests/ini_input.cxx
+++ /dev/null
@@ -1,377 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ini_input.hpp"
-
-
-
-class input_not_found : public std::exception {
-
-public:
-
-  input_not_found() = default;
-
-};
-
-/**
- *  \brief Parses a SISLICE input file
- *
- *  Parses the file and populates the dict_ map which holds the
- *  input data fields to control the SISLICE calculation
- */
-void INIFile::parse() {
-
-  // Check if file actually exists
-  if(not inFile_->good()) {
-    input_not_found exp;
-    throw exp;
-  }
-
-
-  bool parseSection(false);
-  bool prevLineData(false);
-
-  std::string sectionHeader;
-  std::string dataHeader;
-
-  // Loop over all lines of the file
-  while( not inFile_->eof() ) {
-
-    std::string line;
-    std::getline(*inFile_,line);
-
-    // Skip blank lines
-    if(line.length() < 1) {
-      prevLineData = false;
-      continue;
-    }
-      
-
-    // Determine position of first and last non-space character
-    size_t firstNonSpace = line.find_first_not_of(" ");
-    size_t lastNonSpace  = line.find_last_not_of(" ");
-
-    size_t comPos = line.find("#");
-
-    // Skip lines in which the first non-space character is #
-    // (Comment line)
-    if(comPos == firstNonSpace) continue;
-
-    // Remove comment portion of the line if it exists
-    //  - This is general to when # does not appear in the line
-    line = line.substr(0,comPos); 
-
-    // Strip trailing spaces
-    trim_right(line);
-
-
-    // Convert to UPPER
-    //std::transform(line.begin(),line.end(),line.begin(),
-    //  [](unsigned char c){ return std::toupper(c);} );
-
-
-
-    size_t lBrckPos = line.find('[');
-    size_t rBrckPos = line.find(']');
-
-    size_t eqPos  = line.find('=');
-    size_t colPos = line.find(':');
-
-    // Determine if this is a line with a section header
-    bool sectionLine = 
-      lBrckPos == firstNonSpace and rBrckPos == lastNonSpace;
-
-    // Determine if this is a line that contains a data field
-    bool dataLine    = 
-      eqPos != std::string::npos or 
-      colPos != std::string::npos;
-
-    // Determine if this is a line continuation of a previous data field
-    bool multiLine   = prevLineData and line[0] == ' ';
-
-    // Section line
-    if(sectionLine) {
-
-      // Strip first spaces
-      line = line.substr(firstNonSpace,line.length());
-
-      // Obtain the section header name
-      sectionHeader = line.substr(1,line.length()-2);
-      std::transform(sectionHeader.begin(),sectionHeader.end(),sectionHeader.begin(),
-        [](unsigned char c){ return std::toupper(c);} );
-
-      // Create a dictionary entry for the section header
-      dict_[sectionHeader] = 
-        std::unordered_map<std::string,std::string>();
-
-      // XXX: Possibly check if the section is already defined?
-
-      parseSection = true;
-      prevLineData = false;
-      continue;
-
-    }
-
-
-    // Data line
-    if(parseSection and dataLine) {
-
-      line = 
-        line.substr(firstNonSpace,line.length()-firstNonSpace);
-
-      // Split the line into tokens, trim spaces
-      std::vector<std::string> tokens;
-      split(tokens,line,"=:");
-      for(auto &X : tokens) { trim(X); }
-
-      dataHeader = tokens[0];
-      std::transform(dataHeader.begin(),dataHeader.end(),dataHeader.begin(),
-        [](unsigned char c){ return std::toupper(c);} );
-
-      // Create a dictionary entry for the data field in the current
-      // section header
-      if(tokens.size() > 1) 
-        dict_[sectionHeader][dataHeader] = tokens[1];
-      else 
-        dict_[sectionHeader][dataHeader] = " ";
-
-      prevLineData = true;
-    }
-
-    // Multiline data
-    if(parseSection and multiLine) {
-      line = 
-        line.substr(firstNonSpace,line.length()-firstNonSpace);
-      dict_[sectionHeader][dataHeader] += "\n" + line;
-    }
-    
-  };
-
-/* Debug code which prints out the contents of the dict_ map
-  for(auto &sec : dict_) {
-    std::cout << "Section: " << sec.first << std::endl;
-    for(auto &data : sec.second) {
-      std::cout << "  DATA: " << data.first << " ; " << data.second << std::endl;
-    }
-  }
-*/
-
-}; // INIFile::parse
-
-
-
-/** 
- *  \brief Splits a query string on a period "."
- * 
- *  This is a helpder function for the getData function which takes a 
- *  formatted string and splits it into a section and data field.
- *
- *  i.e.  "QM.REFERENCE" -> { "QM", "REFERENCE" }
- *
- *  \param [in] query Query string to be split
- *  \return     std::pair containing the two fields separated by a "."
- */
-std::pair<std::string,std::string> INIFile::splitQuery(
-  const std::string &query) {
-
-  std::vector<std::string> tokens;
-
-  // Make sure that the query contains a period
-//assert( query.find(".") != query.end() );
-
-  split(tokens,query,".");
-  for(auto &X : tokens) {
-    trim(X);
-    std::transform(X.begin(),X.end(),X.begin(),
-      [](unsigned char c){ return std::toupper(c);} );
-  }
-
-  return 
-    std::pair<std::string,std::string>(tokens[0],tokens[1]);
-
-}; // INIFile::splitQuery
-
-
-/**
- *  \brief Custom exception type for handeling the case when
- *  a data field is not found for a query
- */
-class data_not_found : public std::exception {
-
-  std::string msg; ///< Error message
-
-public:
-
-  // Disable default constructor
-  data_not_found() = delete;
-
-  /**
-   *  Exception constructor. Creates a useful error message
-   *  which specifies the failed query
-   */ 
-  data_not_found(std::string x) { 
-    msg = "Data ";
-    msg += x; 
-    msg += " Not Found\n";
-  };
-
-  /**
-   *  Specialization of std::exception::what. Outputs the error message
-   */ 
-  virtual const char* what() const throw() {
-    return msg.c_str();
-  }
-
-}; // data_not_found class
-
-/**
- *  \brief Custom exception type for handeling the case when
- *  a section header is not found for a query
- */
-class section_not_found : public std::exception {
-
-  std::string msg; ///< Error message
-
-public:
-
-  // Disable default constructor
-  section_not_found() = delete;
-
-  /**
-   *  Exception constructor. Creates a useful error message
-   *  which specifies the failed query
-   */ 
-  section_not_found(std::string x) { 
-    msg = "Section ";
-    msg += x; 
-    msg += " Not Found\n";
-  };
-
-  /**
-   *  Specialization of std::exception::what. Outputs the error message
-   */ 
-  virtual const char* what() const throw() {
-    return msg.c_str();
-  }
-
-}; // section_not_found class
-
-
-/**
- *  \brief Specialization of getData to return std::string of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a std::string
- */
-template<>
-std::string INIFile::getData(std::string query) {
-
-  auto tokenPair = splitQuery(query);
-  auto hasSection = dict_.find(tokenPair.first);
-
-  if(hasSection != dict_.end()) {
-    auto hasData = 
-      dict_[tokenPair.first].find(tokenPair.second);
-
-    if(hasData != dict_[tokenPair.first].end())
-      return 
-        dict_[tokenPair.first][tokenPair.second];
-    else throw data_not_found(query);
-  } else throw section_not_found(tokenPair.first);
-
-}; // INIFile::getData<std::string>
-
-/**
- *  \brief Specialization of getData to return int of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a int
- */
-template<>
-int INIFile::getData(std::string query) {
-
-  return std::stoi(getData<std::string>(query));
-
-}; // INIFile::getData<int>
-
-/**
- *  \brief Specialization of getData to return bool of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a bool
- */
-template<>
-bool INIFile::getData(std::string query) {
-
-  query = getData<std::string>(query);
-  bool b = (not query.compare("TRUE") or not query.compare("ON")); 
-  return b;
-
-}; // INIFile::getData<bool>
-
-/**
- *  \brief Specialization of getData to return size_t of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a size_t
- */
-template<>
-size_t INIFile::getData(std::string query) {
-
-  return std::stoul(getData<std::string>(query));
-
-}; // INIFile::getData<size_t>
-
-/**
- *  \brief Specialization of getData to return size_t of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a size_t
- */
-template<>
-int64_t INIFile::getData(std::string query) {
-
-  return std::stol(getData<std::string>(query));
-
-}; // INIFile::getData<int64_t>
-
-/**
- *  \brief Specialization of getData to return double of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a double
- */
-template<>
-double INIFile::getData(std::string query) {
-
-  return std::stod(getData<std::string>(query));
-
-}; // INIFile::getData<double>
-
-/**
- *  \brief Specialization of getData to return float of query 
- *  data field
- *
- *  \param [in] query Formatted query string to be parsed
- *  \return     Value of query data field as a float
- */
-template<>
-float INIFile::getData(std::string query) {
-
-  return std::stof(getData<std::string>(query));
-
-}; // INIFile::getData<float>
diff --git a/third_party/gauxc/tests/ini_input.hpp b/third_party/gauxc/tests/ini_input.hpp
deleted file mode 100644
index 6be8408..0000000
--- a/third_party/gauxc/tests/ini_input.hpp
+++ /dev/null
@@ -1,208 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-
-#include <memory>
-#include <fstream>
-#include <unordered_map>
-#include <string>
-#include <utility>
-#include <vector>
-#include <algorithm>
-
-// Misc string functions
-
-/**
- *  Trim a string of left trailing whitespace
- *
- *  \param [in/out] s std::string to be trimmed
- */
-static inline std::string& trim_left(std::string &s) {
-    s.erase(s.begin(), std::find_if(s.begin(), s.end(),
-            [](int ch) { return !std::isspace(ch); }));
-    return s;
-}; // trim_left
-
-
-/**
- *  Trim a string of right trailing whitespace
- *
- *  \param [in/out] s std::string to be trimmed
- */
-static inline std::string& trim_right(std::string &s) {
-    s.erase(std::find_if(s.rbegin(), s.rend(),
-            [](int ch) { return !std::isspace(ch); }).base(), s.end());
-    return s;
-}; // trim_right
-
-
-/**
- *  Trim a string of trailing whitespace from both ends
- *
- *  \param [in/out] s std::string to be trimmed
- */
-static inline std::string &trim(std::string &s) {
-    return trim_left(trim_right(s));
-}; // trim
-
-/**
- *  Splits a string into tokens  based on a demiliter
- *
- *  \param [out] tokens     std::vector of std::string objects which hold
- *                          the split tokens
- *  \param [in]  str        std::string to split
- *  \param [in]  delimiters Delimiters on which to split str
- */
-static inline void split(std::vector<std::string>& tokens, 
-  const std::string& str, const std::string& delimiters = " ") {
-
-    tokens.clear();
-    // Skip delimiters at beginning.
-    std::string::size_type lastPos = str.find_first_not_of(delimiters, 0);
-    // Find first "non-delimiter".
-    std::string::size_type pos     = str.find_first_of(delimiters, lastPos);
-
-    while (std::string::npos != pos || std::string::npos != lastPos) {
-        // Found a token, add it to the vector.
-        tokens.push_back(str.substr(lastPos, pos - lastPos));
-        // Skip delimiters.  Note the "not_of"
-        lastPos = str.find_first_not_of(delimiters, pos);
-        // Find next "non-delimiter"
-        pos = str.find_first_of(delimiters, lastPos);
-    }
-}; // split
-
-/// INI File Handler 
-class INIFile {
-
-  std::shared_ptr<std::ifstream> inFile_ = nullptr;  ///< INI file
-
-  std::unordered_map<std::string,
-    std::unordered_map<std::string,std::string>> dict_; 
-  ///< INI data fields partitioned by section headings 
-
-
-
-
-
-  /// Parses the input file
-  void parse();
-
-  /// Splits query string on "."
-  static std::pair<std::string,std::string> splitQuery(const std::string&);
-
-  /**
-   *  std::ofstream constructor.
-   *
-   *  Sets and parses input file from std::ofstream object
-   *  \param [in] inFile  File object to parse
-   */  
-  INIFile(std::shared_ptr<std::ifstream> inFile) :
-    inFile_(inFile){ parse(); }
-
-
-
-public:
-
-  // Disable default, copy and move constructors and assignment operators
-  INIFile()                           = delete;
-  INIFile(const INIFile &)            = delete;
-  INIFile(INIFile &&)                 = delete;
-  INIFile& operator=(const INIFile &) = delete; 
-  INIFile& operator=(INIFile &&)      = delete; 
-
-  /**
-   *  Filename constructor.
-   *
-   *  Sets and parses  input file given a file name
-   *  \param [in] inFileName  Name of  input file
-   */ 
-  INIFile(std::string inFileName) :
-    INIFile(std::make_shared<std::ifstream>(inFileName)){ }
-
-
-
-
-
-  /**
-   *  \brief Template function which returns the value of a data field
-   *  from the input file in a specified datatype given a formatted 
-   *  query string.
-   *
-   *  i.e.
-   *
-   *  INI entry:
-   *    [SCF]
-   *    DENTOL = 1E-6
-   *    
-   *  Query
-   *    double tol = input.getData<double>("SCF.DENTOL");
-   *
-   *  This example returns the value of the string data field "SCF.DENTOL"
-   *  as a double precision number. Various specializations of this function
-   *  exist for various datatypes
-   *
-   *  \param [in] s Formatted query string to be parsed
-   *  \return       Value of query data field as specified datatype
-   */ 
-  template <typename T> T getData(std::string s) ; 
-
-
-
-
-  /**
-   *  Checks whether or not the parsed  input file contains
-   *  a query section.
-   *
-   *  \paral  [in] str Query string of a section heading
-   *  \return      True if input file contains that heading
-   */ 
-  inline bool containsSection(std::string str) const {
-    return dict_.find(str) != dict_.end();
-  }
-
-  /**
-   *  Checks whether or not the parsed  input file contains
-   *  a query data field.
-   *
-   *  \paral  [in] str Query string of a data field (includes section heading)
-   *  \return      True if input file contains that data field
-   */ 
-  inline bool containsData(std::string str) const {
-    auto pr = splitQuery(str);
-    if( not containsSection(pr.first) ) return false;
-    return dict_.at(pr.first).find(pr.second) != dict_.at(pr.first).end();
-  }
-
-
-
-
-
-  inline std::vector<std::string> getDataInSection( std::string section )  {
-
-    std::vector<std::string> datasets;
-
-    if( containsSection(section) ) {
-
-      for(auto & data : dict_[section])
-        datasets.emplace_back(data.first);
-
-    }
-
-    return datasets;
-
-  }
-
-}; // INIFile class
-
-
-
diff --git a/third_party/gauxc/tests/load_balancer_test.cxx b/third_party/gauxc/tests/load_balancer_test.cxx
deleted file mode 100644
index 889bcb3..0000000
--- a/third_party/gauxc/tests/load_balancer_test.cxx
+++ /dev/null
@@ -1,162 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/load_balancer.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-
-using namespace GauXC;
-
-
-void gen_ref_lb_data( std::vector<XCTask>& tasks ) {
-
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  int world_rank = rt.comm_rank();
-  int world_size = rt.comm_size();
-
-  std::string ref_file = GAUXC_REF_DATA_PATH "/benzene_cc-pvdz_ufg_tasks_" + std::to_string(world_size) + "mpi_rank" + std::to_string(world_rank) + 
-    "_pv" + std::to_string(1) + ".bin";
-
-  // Points / Weights not stored in reference data to 
-  // save space
-  for( auto& t : tasks ) {
-    t.points.clear();
-    t.weights.clear();
-  }
-
-  std::ofstream of( ref_file, std::ios::binary );
-  cereal::BinaryOutputArchive ar(of);
-  ar( tasks );
-
-}
-
-void check_lb_data( const std::vector<XCTask>& tasks ) {
-
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  int world_rank = rt.comm_rank();
-  int world_size = rt.comm_size();
-
-  std::string ref_file = GAUXC_REF_DATA_PATH "/benzene_cc-pvdz_ufg_tasks_" + std::to_string(world_size) + "mpi_rank" + std::to_string(world_rank) + 
-    "_pv" + std::to_string(1) + ".bin";
-
-  std::vector<XCTask> ref_tasks;
-  {
-    std::ifstream ifile( ref_file, std::ios::binary );
-    cereal::BinaryInputArchive ar(ifile);
-    ar( ref_tasks );
-  }
-
-  REQUIRE( tasks.size() == ref_tasks.size() );
-
-  size_t ntasks = tasks.size();
-  for( size_t i = 0; i < ntasks; ++i ) {
-
-    const auto& t  = tasks[i]; 
-    const auto& rt = ref_tasks[i];
-    CHECK( t.iParent == rt.iParent );
-    CHECK( t.dist_nearest == Approx(rt.dist_nearest) );
-    CHECK( t.npts == rt.npts );
-    CHECK( t.points.size() == rt.npts );
-    CHECK( t.weights.size() == rt.npts );
-    CHECK( t.bfn_screening.shell_list == rt.bfn_screening.shell_list );
-    CHECK( t.bfn_screening.nbe == rt.bfn_screening.nbe );
-
-    /* 
-    // Points / Weights not stored in reference data to 
-    // save space
-    REQUIRE( t.points.size() == rt.points.size() );
-    size_t npts = t.points.size();
-    for( size_t j = 0; j < npts; ++j ) {
-      CHECK( t.points[j][0] == Approx(rt.points[j][0]) );
-      CHECK( t.points[j][1] == Approx(rt.points[j][1]) );
-      CHECK( t.points[j][2] == Approx(rt.points[j][2]) );
-      CHECK( t.weights[j] == Approx(rt.weights[j]) );
-    }
-    */
-
-  }
-
-}
-
-
-//#define GAUXC_GEN_TESTS
-TEST_CASE( "DefaultLoadBalancer", "[load_balancer]" ) {
-
-  auto world = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-
-  Molecule mol           = make_benzene();
-  BasisSet<double> basis = make_ccpvdz( mol, SphericalType(true) );
-
-  for( auto& sh : basis ) 
-    sh.set_shell_tolerance( std::numeric_limits<double>::epsilon() );
-
-  auto mg = MolGridFactory::create_default_molgrid(mol, PruningScheme::Unpruned,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-  auto meta = std::make_shared<MolMeta>( mol );
-
-#ifdef GAUXC_GEN_TESTS
-
-  LoadBalancerFactory lb_factory( ExecutionSpace::Host, "Default" );
-  auto lb = lb_factory.get_instance( world, mol, mg, basis);
-  auto& tasks = lb.get_tasks();
-  gen_ref_lb_data(tasks);
-
-#else
-
-  SECTION("Default Host") {
-
-    LoadBalancerFactory lb_factory( ExecutionSpace::Host, "Default" );
-    auto lb = lb_factory.get_instance( world, mol, mg, basis);
-    auto& tasks = lb.get_tasks();
-    check_lb_data( tasks );
-
-  }
-
-#ifdef GAUXC_HAS_DEVICE
-  SECTION("Default Device") {
-
-    LoadBalancerFactory lb_factory( ExecutionSpace::Device, "Default" );
-    auto lb = lb_factory.get_instance( world, mol, mg, basis);
-    auto& tasks = lb.get_tasks();
-    check_lb_data( tasks );
-
-
-    // Make sure Host/Device tasks are identical
-    LoadBalancerFactory host_lb_factory( ExecutionSpace::Host, "Default" );
-    auto host_lb = host_lb_factory.get_instance( world, mol, mg, basis);
-    auto& host_tasks = host_lb.get_tasks();
-
-    for( auto i = 0; i < host_tasks.size(); ++i ) {
-      const auto& points   = tasks[i].points;
-      const auto& h_points = host_tasks[i].points;
-      const auto& weights   = tasks[i].weights;
-      const auto& h_weights = host_tasks[i].weights;
-
-      REQUIRE( points.size() == h_points.size() );
-      REQUIRE( weights.size() == h_weights.size() );
-      for( auto j = 0; j < points.size(); ++j ) {
-        CHECK( points[j][0] == Approx( h_points[j][0] ) );
-        CHECK( points[j][1] == Approx( h_points[j][1] ) );
-        CHECK( points[j][2] == Approx( h_points[j][2] ) );
-
-        CHECK( weights[j] == Approx( h_weights[j] ) );
-      }
-
-      CHECK( tasks[i].bfn_screening.shell_list == host_tasks[i].bfn_screening.shell_list );
-    }
-  }
-#endif
-
-#endif
-
-
-}
diff --git a/third_party/gauxc/tests/molgrid_test.cxx b/third_party/gauxc/tests/molgrid_test.cxx
deleted file mode 100644
index 1de1be9..0000000
--- a/third_party/gauxc/tests/molgrid_test.cxx
+++ /dev/null
@@ -1,465 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "catch2/catch.hpp"
-#include <gauxc/molgrid.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-
-
-#include <random>
-
-using namespace GauXC;
-
-TEST_CASE("MolGrid Defaults", "[molgrid]") {
-
-  SECTION("MK Defaults") {
-
-#if 0
-    auto default_scaling = 
-      get_default_scaling_factors( RadialQuad::MuraKnowles, AtomicNumber(100) );
-     
-    for( auto [Z, alpha] : default_scaling ) {
-
-      switch( Z.get() ) {
-        case 3:
-        case 4:
-        case 11:
-        case 12:
-        case 19:
-        case 20:
-        case 37:
-        case 38:
-        case 55:
-        case 56:
-        case 87:
-        case 88:
-          CHECK( alpha == 7.0 );
-          break;
-        default:
-          CHECK( alpha == 5.0 );
-          break;
-
-      }
-
-    }
-#else
-    for( auto i = 0; i < 100; ++i ) {
-      AtomicNumber Z(i);
-      auto alpha = 
-        default_radial_scaling_factor(RadialQuad::MuraKnowles,Z).get();
-      switch(i) {
-        case 3:
-        case 4:
-        case 11:
-        case 12:
-        case 19:
-        case 20:
-        case 37:
-        case 38:
-        case 55:
-        case 56:
-        case 87:
-        case 88:
-          CHECK( alpha == 7.0 );
-          break;
-        default:
-          CHECK( alpha == 5.0 );
-          break;
-      }
-    }
-#endif
-
-  }
-
-
-  SECTION("MHL Defaults") {
-
-
-    for( auto i = 0; i < 100; ++i ) {
-      AtomicNumber Z(i);
-      auto alpha = 
-        default_radial_scaling_factor(RadialQuad::MurrayHandyLaming,Z).get();
-      switch(i) {
-        case    1: CHECK( alpha == Approx(4.7243153124839748e-01)); break;
-        case    2: CHECK( alpha == Approx(2.9290754937400643e-01)); break;
-        case    3: CHECK( alpha == Approx(1.3700514406203526e+00)); break;
-        case    4: CHECK( alpha == Approx(9.9210621562163470e-01)); break;
-        case    5: CHECK( alpha == Approx(8.0313360312227566e-01)); break;
-        case    6: CHECK( alpha == Approx(6.6140414374775647e-01)); break;
-        case    7: CHECK( alpha == Approx(6.1416099062291674e-01)); break;
-        case    8: CHECK( alpha == Approx(5.6691783749807700e-01)); break;
-        case    9: CHECK( alpha == Approx(4.7243153124839748e-01)); break;
-        case   10: CHECK( alpha == Approx(3.5904796374878206e-01)); break;
-        case   11: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   12: CHECK( alpha == Approx(1.4172945937451924e+00)); break;
-        case   13: CHECK( alpha == Approx(1.1810788281209936e+00)); break;
-        case   14: CHECK( alpha == Approx(1.0393493687464743e+00)); break;
-        case   15: CHECK( alpha == Approx(9.4486306249679497e-01)); break;
-        case   16: CHECK( alpha == Approx(9.4486306249679497e-01)); break;
-        case   17: CHECK( alpha == Approx(9.4486306249679497e-01)); break;
-        case   18: CHECK( alpha == Approx(6.7085277437272439e-01)); break;
-        case   19: CHECK( alpha == Approx(2.0786987374929486e+00)); break;
-        case   20: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   21: CHECK( alpha == Approx(1.5117808999948719e+00)); break;
-        case   22: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   23: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   24: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   25: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   26: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   27: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   28: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   29: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   30: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   31: CHECK( alpha == Approx(1.2283219812458335e+00)); break;
-        case   32: CHECK( alpha == Approx(1.1810788281209936e+00)); break;
-        case   33: CHECK( alpha == Approx(1.0865925218713142e+00)); break;
-        case   34: CHECK( alpha == Approx(1.0865925218713142e+00)); break;
-        case   35: CHECK( alpha == Approx(1.0865925218713142e+00)); break;
-        case   36: CHECK( alpha == Approx(8.3147949499717955e-01)); break;
-        case   37: CHECK( alpha == Approx(2.2204281968674682e+00)); break;
-        case   38: CHECK( alpha == Approx(1.8897261249935899e+00)); break;
-        case   39: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   40: CHECK( alpha == Approx(1.4645377468700322e+00)); break;
-        case   41: CHECK( alpha == Approx(1.3700514406203526e+00)); break;
-        case   42: CHECK( alpha == Approx(1.3700514406203526e+00)); break;
-        case   43: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   44: CHECK( alpha == Approx(1.2283219812458335e+00)); break;
-        case   45: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   46: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   47: CHECK( alpha == Approx(1.5117808999948719e+00)); break;
-        case   48: CHECK( alpha == Approx(1.4645377468700322e+00)); break;
-        case   49: CHECK( alpha == Approx(1.4645377468700322e+00)); break;
-        case   50: CHECK( alpha == Approx(1.3700514406203526e+00)); break;
-        case   51: CHECK( alpha == Approx(1.3700514406203526e+00)); break;
-        case   52: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   53: CHECK( alpha == Approx(1.3228082874955129e+00)); break;
-        case   54: CHECK( alpha == Approx(1.0204521074965385e+00)); break;
-        case   55: CHECK( alpha == Approx(2.5038871156165063e+00)); break;
-        case   56: CHECK( alpha == Approx(2.0314555843681092e+00)); break;
-        case   57: CHECK( alpha == Approx(1.8424829718687501e+00)); break;
-        case   58: CHECK( alpha == Approx(1.7479966656190706e+00)); break;
-        case   59: CHECK( alpha == Approx(1.7479966656190706e+00)); break;
-        case   60: CHECK( alpha == Approx(1.7479966656190706e+00)); break;
-        case   61: CHECK( alpha == Approx(1.7479966656190706e+00)); break;
-        case   62: CHECK( alpha == Approx(1.7479966656190706e+00)); break;
-        case   63: CHECK( alpha == Approx(1.7479966656190706e+00)); break;
-        case   64: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   65: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   66: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   67: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   68: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   69: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   70: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   71: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   72: CHECK( alpha == Approx(1.4645377468700322e+00)); break;
-        case   73: CHECK( alpha == Approx(1.3700514406203526e+00)); break;
-        case   74: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   75: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   76: CHECK( alpha == Approx(1.2283219812458335e+00)); break;
-        case   77: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   78: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   79: CHECK( alpha == Approx(1.2755651343706731e+00)); break;
-        case   80: CHECK( alpha == Approx(1.4172945937451924e+00)); break;
-        case   81: CHECK( alpha == Approx(1.7952398187439103e+00)); break;
-        case   82: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   83: CHECK( alpha == Approx(1.5117808999948719e+00)); break;
-        case   84: CHECK( alpha == Approx(1.7952398187439103e+00)); break;
-        case   85: CHECK( alpha == Approx(1.1999760893709295e+00)); break;
-        case   86: CHECK( alpha == Approx(1.1338356749961540e+00)); break;
-        case   88: CHECK( alpha == Approx(2.0314555843681092e+00)); break;
-        case   89: CHECK( alpha == Approx(1.8424829718687501e+00)); break;
-        case   90: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   91: CHECK( alpha == Approx(1.7007535124942308e+00)); break;
-        case   92: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   93: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   94: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   95: CHECK( alpha == Approx(1.6535103593693912e+00)); break;
-        case   96: CHECK( alpha == Approx(1.8991750000000001e+00)); break;
-        case   97: CHECK( alpha == Approx(1.8991750000000001e+00)); break;
-        case   98: CHECK( alpha == Approx(1.8991750000000001e+00)); break;
-        case   99: CHECK( alpha == Approx(1.8991750000000001e+00)); break;
-        case  100: CHECK( alpha == Approx(1.8991750000000001e+00)); break;
-      }
-    }
-
-  }
-
-
-  SECTION("Grid Size") {
-    for(auto i = 0; i < 100; ++i) {
-      auto [fgr, fga] = 
-        default_grid_size( AtomicNumber(i), RadialQuad::MuraKnowles,
-          AtomicGridSizeDefault::FineGrid );
-      REQUIRE( fgr.get() == 75 );
-      REQUIRE( fga.get() == 302 );
-
-
-      auto [ufgr, ufga] = 
-        default_grid_size( AtomicNumber(i), RadialQuad::MuraKnowles,
-          AtomicGridSizeDefault::UltraFineGrid );
-      REQUIRE( ufgr.get() == 99 );
-      REQUIRE( ufga.get() == 590 );
-      
-
-      auto [sfgr, sfga] = 
-        default_grid_size( AtomicNumber(i), RadialQuad::MuraKnowles,
-          AtomicGridSizeDefault::SuperFineGrid );
-      REQUIRE( sfga.get() == 974 );
-      if( i <= 2 ) REQUIRE( sfgr.get() == 175 );
-      else         REQUIRE( sfgr.get() == 250 );
-
-    }
-  }
-
-}
-
-
-TEST_CASE("Grid Specification", "[molgrid]") {
-
-  AtomicNumber Z(6);
-  auto rq  = RadialQuad::MuraKnowles;
-  auto gsz = AtomicGridSizeDefault::UltraFineGrid;
-  RadialSize rsz; AngularSize asz; // Clang doesn't like lambda capture of structured bindings...
-  std::tie(rsz, asz) = default_grid_size(Z,rq,gsz);
-  auto rscal = default_radial_scaling_factor(rq, Z);
-
-  SECTION("Unpruned") {
-    UnprunedAtomicGridSpecification gs;
-    SECTION("From Sizes") {
-      gs = MolGridFactory::create_default_unpruned_grid_spec(Z,rq,rsz,asz);
-    }
-    SECTION("From Standard") {
-      gs = MolGridFactory::create_default_unpruned_grid_spec(Z,rq,gsz);
-    }
-    REQUIRE( gs.radial_quad  == rq    );
-    REQUIRE( gs.radial_size  == rsz   );
-    REQUIRE( gs.radial_scale == rscal );
-    REQUIRE( gs.angular_size == asz   );
-  }
-
-  SECTION("Pruned") {
-
-    atomic_grid_variant gs;
-    std::vector<PruningRegion> ref_pruning_regions;
-    UnprunedAtomicGridSpecification unp_gs = 
-      MolGridFactory::create_default_unpruned_grid_spec(Z,rq,gsz);
-    SECTION("Unpruned") {
-      gs = MolGridFactory::create_default_pruned_grid_spec(
-        PruningScheme::Unpruned,Z,rq,gsz);
-      ref_pruning_regions = {
-        {0ul, (size_t)rsz.get(), asz}
-      };
-    }
-
-    SECTION("Robust") {
-      gs = MolGridFactory::create_default_pruned_grid_spec(
-        PruningScheme::Robust,Z,rq,gsz);
-      size_t rs = rsz.get();
-      size_t r4 = rsz.get() / 4ul + 1;
-      size_t r2 = rsz.get() / 2ul + 1;
-      ref_pruning_regions = {
-        {0ul, r4, AngularSize(26)},
-        {r4,  r2, AngularSize(434)},
-        {r2,  rs, AngularSize(590)}
-      };
-    }
-
-    SECTION("Treutler") {
-      gs = MolGridFactory::create_default_pruned_grid_spec(
-        PruningScheme::Treutler,Z,rq,gsz);
-      size_t rs = rsz.get();
-      size_t r3 = rsz.get() / 3ul + 1;
-      size_t r2 = rsz.get() / 2ul + 1;
-      ref_pruning_regions = {
-        {0ul, r3, AngularSize(26)},
-        {r3,  r2, AngularSize(50)},
-        {r2,  rs, AngularSize(590)}
-      };
-    }
-
-    std::visit([=](auto& g) {
-      REQUIRE( g.radial_quad  == rq    );
-      REQUIRE( g.radial_size  == rsz   );
-      REQUIRE( g.radial_scale == rscal );
-    }, gs);
-
-    // Pruned Check
-    if( const auto* pru = std::get_if<PrunedAtomicGridSpecification>(&gs) ) {
-      REQUIRE( pru->pruning_regions == ref_pruning_regions );
-    } 
-
-  }
-
-}
-
-
-
-#if 0
-
-TEST_CASE("MolGrid", "[molgrid]") {
-
-  // Water
-  Molecule mol;
-  mol.emplace_back(AtomicNumber(1), 0., 1.579252144093028,  2.174611055780858);
-  mol.emplace_back(AtomicNumber(8), 0., 0.000000000000000,  0.000000000000000);
-  mol.emplace_back(AtomicNumber(1), 0., 1.579252144093028, -2.174611055780858);
-
-  auto mk_scaling = 
-    default_radial_scaling_factors( RadialQuad::MuraKnowles, AtomicNumber(8) );
-  auto mhl_scaling = 
-    default_radial_scaling_factors( RadialQuad::MurrayHandyLaming, AtomicNumber(8) );
-
-  auto [fg_radial_size, fg_angular_size] =
-    default_grid_size( AtomicGridSizeDefault::FineGrid, AtomicNumber(8) );
-  auto [ufg_radial_size, ufg_angular_size] =
-    default_grid_size( AtomicGridSizeDefault::UltraFineGrid, AtomicNumber(8) );
-  auto [sfg_radial_size, sfg_angular_size] =
-    default_grid_size( AtomicGridSizeDefault::SuperFineGrid, AtomicNumber(8) );
-
-  SECTION("MK") {
-
-    SECTION("Explicit Construction") {
-
-      MolGrid mg( RadialQuad::MuraKnowles, fg_size, mk_scaling, mol );
-      
-      CHECK( mg.natoms_uniq() == 2 );
-
-      for( const auto& atom : mol ) {
-        auto alpha = mk_scaling[atom.Z];
-        auto gsz   = fg_size[atom.Z];
-
-        Grid atom_grid( RadialQuad::MuraKnowles, gsz, alpha );
-
-        //CHECK( mg.get_rscal_factor(atom.Z) == alpha );
-        CHECK( mg.get_grid_size( atom. Z ) == gsz   );
-
-        CHECK( atom_grid.batcher().quadrature().points() ==
-               mg.get_grid(atom.Z).batcher().quadrature().points() );
-        CHECK( atom_grid.batcher().quadrature().weights() ==
-               mg.get_grid(atom.Z).batcher().quadrature().weights() );
-
-      }
-
-    }
-
-    SECTION("Default Scaling Factors") {
-
-      MolGrid mg( RadialQuad::MuraKnowles, fg_size, mol );
-      
-      CHECK( mg.natoms_uniq() == 2 );
-
-      for( const auto& atom : mol ) {
-        auto alpha = mk_scaling[atom.Z];
-        auto gsz   = fg_size[atom.Z];
-
-        Grid atom_grid( RadialQuad::MuraKnowles, gsz, alpha );
-
-        //CHECK( mg.get_rscal_factor(atom.Z) == alpha );
-        CHECK( mg.get_grid_size( atom. Z ) == gsz   );
-
-        CHECK( atom_grid.batcher().quadrature().points() ==
-               mg.get_grid(atom.Z).batcher().quadrature().points() );
-        CHECK( atom_grid.batcher().quadrature().weights() ==
-               mg.get_grid(atom.Z).batcher().quadrature().weights() );
-
-      }
-
-    }
-
-    SECTION("Named Default Grid Size") {
-
-      MolGrid mg( RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid, 
-        mk_scaling, mol );
-      
-      CHECK( mg.natoms_uniq() == 2 );
-
-      for( const auto& atom : mol ) {
-        auto alpha = mk_scaling[atom.Z];
-        auto gsz   = ufg_size[atom.Z];
-
-        Grid atom_grid( RadialQuad::MuraKnowles, gsz, alpha );
-
-        //CHECK( mg.get_rscal_factor(atom.Z) == alpha );
-        CHECK( mg.get_grid_size( atom. Z ) == gsz   );
-
-        CHECK( atom_grid.batcher().quadrature().points() ==
-               mg.get_grid(atom.Z).batcher().quadrature().points() );
-        CHECK( atom_grid.batcher().quadrature().weights() ==
-               mg.get_grid(atom.Z).batcher().quadrature().weights() );
-
-      }
-
-    }
-
-    SECTION("Named Default Grid Size + Default Scaling") {
-
-      MolGrid mg( RadialQuad::MuraKnowles, AtomicGridSizeDefault::SuperFineGrid, 
-        mol );
-      
-      CHECK( mg.natoms_uniq() == 2 );
-
-      for( const auto& atom : mol ) {
-        auto alpha = mk_scaling[atom.Z];
-        auto gsz   = sfg_size[atom.Z];
-
-        Grid atom_grid( RadialQuad::MuraKnowles, gsz, alpha );
-
-        //CHECK( mg.get_rscal_factor(atom.Z) == alpha );
-        CHECK( mg.get_grid_size( atom. Z ) == gsz   );
-
-        CHECK( atom_grid.batcher().quadrature().points() ==
-               mg.get_grid(atom.Z).batcher().quadrature().points() );
-        CHECK( atom_grid.batcher().quadrature().weights() ==
-               mg.get_grid(atom.Z).batcher().quadrature().weights() );
-
-      }
-
-    }
-
-  }
-
-  SECTION("MHL") {
-
-    MolGrid mg( RadialQuad::MurrayHandyLaming, fg_size, mhl_scaling, mol );
-    
-    CHECK( mg.natoms_uniq() == 2 );
-
-    for( const auto& atom : mol ) {
-      auto alpha = mhl_scaling[atom.Z];
-      auto gsz   = fg_size[atom.Z];
-
-      Grid atom_grid( RadialQuad::MurrayHandyLaming, gsz, alpha );
-
-      //CHECK( mg.get_rscal_factor(atom.Z) == alpha );
-      CHECK( mg.get_grid_size( atom. Z ) == gsz   );
-
-      CHECK( atom_grid.batcher().quadrature().points() ==
-             mg.get_grid(atom.Z).batcher().quadrature().points() );
-      CHECK( atom_grid.batcher().quadrature().weights() ==
-             mg.get_grid(atom.Z).batcher().quadrature().weights() );
-
-    }
-
-  }
-
-#if 0
-  SECTION("Default") {
-    MolGrid mg( AtomicGridSizeDefault::FineGrid, mol );
-    for( const auto& atom: mol )
-      CHECK( mg.get_radial_quad(atom.Z) == RadialQuad::MuraKnowles );
-  }
-#endif
-
-}
-#endif
-
-
-
diff --git a/third_party/gauxc/tests/moltypes_test.cxx b/third_party/gauxc/tests/moltypes_test.cxx
deleted file mode 100644
index d87685f..0000000
--- a/third_party/gauxc/tests/moltypes_test.cxx
+++ /dev/null
@@ -1,205 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include "catch2/catch.hpp"
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/external/hdf5.hpp>
-//#include <filesystem>
-#include <fstream>
-
-#include "standards.hpp"
-
-#include <random>
-
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_MPI
-#include <mpi.h>
-#endif
-
-using namespace GauXC;
-
-TEST_CASE("Atom", "[moltypes]") {
-
-  double x = 0.2, y = 0.4, z = 6.5;
-  int64_t Z = 10;
-
-  Atom atom{ AtomicNumber(Z), x, y, z };
-
-  CHECK( atom.Z.get() == Z );
-  CHECK( atom.x       == x );
-  CHECK( atom.y       == y );
-  CHECK( atom.z       == z );
-
-}
-
-TEST_CASE("Molecule", "[moltypes]") {
-
-  std::default_random_engine gen;
-  std::uniform_real_distribution<> real_dist( -10., 10 );
-  std::uniform_int_distribution<>  int_dist(1,10);
-
-  size_t natoms_gen = 40;
-
-  SECTION("Default") {
-
-    Molecule mol;
-
-    CHECK(mol.natoms() == 0);
-  }
-
-  SECTION("From std::vector<Atom>") {
-
-    std::vector<Atom> atoms;
-    
-    for( auto i = 0; i < natoms_gen; ++i )
-      atoms.push_back( {
-        AtomicNumber(int_dist(gen)),
-        real_dist(gen),
-        real_dist(gen),
-        real_dist(gen)
-      });
-
-    SECTION("Copy") {
-
-      Molecule mol( atoms );
-
-      CHECK( mol.natoms() == natoms_gen );
-      CHECK( atoms.size() == natoms_gen );
-
-      for( auto i = 0; i < natoms_gen; ++i ) 
-        CHECK( atoms[i] == mol[i] );
-      
-    }
-
-    SECTION("Move") {
-
-      std::vector<Atom> atoms_copy(atoms);
-
-      Molecule mol( std::move(atoms) );
-
-      CHECK( mol.natoms() == natoms_gen );
-      CHECK( atoms.size() == 0 );
-
-      for( auto i = 0; i < natoms_gen; ++i ) 
-        CHECK( atoms_copy[i] == mol[i] );
-      
-    }
-
-  }
-
-  
-
-  SECTION("Inplace Construction") {
-
-    Molecule mol;
-    std::vector<Atom> atoms;
-
-    for(auto i = 0ul; i < natoms_gen; ++i ) {
-
-      AtomicNumber Z( int_dist(gen) );
-      double x(real_dist(gen));
-      double y(real_dist(gen));
-      double z(real_dist(gen));
-
-      atoms.push_back({Z,x,y,z});
-      mol.push_back({Z,x,y,z});
-
-    }
-
-    CHECK( mol.natoms() == natoms_gen );
-    
-    for( auto i = 0; i < natoms_gen; ++i ) 
-      CHECK( atoms[i] == mol[i] );
-
-  }
-
-  SECTION("Copy ctor") {
-
-    std::vector<Atom> atoms{Atom(AtomicNumber(1), 0.0, 0.0, 0.0)};
-    Molecule mol(atoms);
-
-    Molecule mol_copy(mol);
-    CHECK(mol == mol_copy);
-  }
-
-
-  SECTION("Move ctor") {
-
-    std::vector<Atom> atoms{Atom(AtomicNumber(1), 0.0, 0.0, 0.0)};
-    Molecule mol(atoms);
-
-    Molecule mol_copy(mol);
-    Molecule mol_move(std::move(mol));
-    CHECK(mol_move == mol_copy);
-  }
-
-}
-
-
-TEST_CASE( "MolMeta", "[moltypes]" ) {
-
-  // Water
-  Molecule mol = make_water();
-  MolMeta meta( mol );
-
-  std::vector<double> rab          = meta.rab();
-  std::vector<double> dist_nearest = meta.dist_nearest();
-
-  std::vector<double> rab_ref = {
-    0.00000000000, 2.68755847909, 4.34922211156,
-    2.68755847909, 0.00000000000, 2.68755847909,
-    4.34922211156, 2.68755847909, 0.00000000000 
-  };
-
-  for( auto i = 0; i < mol.natoms() * mol.natoms(); ++i )
-    CHECK( rab[i] == Approx(rab_ref[i]) );
-
-  for( auto i = 0; i < mol.natoms(); ++i )
-    CHECK( dist_nearest[i] == Approx(2.68755847909) );
-  
-
-}
-
-TEST_CASE("HDF5-MOLECULE", "[moltypes]") {
-
-#ifdef GAUXC_HAS_MPI
-  int world_rank;
-  MPI_Comm_rank( MPI_COMM_WORLD, &world_rank );
-  if( world_rank ) return; // Only run on root rank
-#endif
-
-
-  Molecule mol = make_water();
-  
-  // Write file
-  const std::string fname = GAUXC_REF_DATA_PATH "/test_mol.hdf5";
-  //if( std::filesystem::exists(fname) ) std::filesystem::remove(fname);
-  auto file_exists = [](const auto& f ) {
-    std::ifstream file(f); return file.good();
-  };
-  if(file_exists(fname)) std::remove(fname.c_str());
-
-  write_hdf5_record( mol, fname , "/MOL" );
-
-  // Read File
-  Molecule mol_read;
-  read_hdf5_record( mol_read, fname, "/MOL" );
-
-  // Check that IO was correct
-  CHECK( mol == mol_read );
-
-  //std::filesystem::remove(fname); // Delete the test file
-  std::remove(fname.c_str());
-
-}
diff --git a/third_party/gauxc/tests/onedft_test.cxx b/third_party/gauxc/tests/onedft_test.cxx
deleted file mode 100644
index ee31304..0000000
--- a/third_party/gauxc/tests/onedft_test.cxx
+++ /dev/null
@@ -1,152 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy). All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/xc_integrator.hpp>
-#include <gauxc/xc_integrator/impl.hpp>
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-#include <gauxc/molecular_weights.hpp>
-
-#include <gauxc/molgrid/defaults.hpp>
-
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include <Eigen/Core>
-
-using namespace GauXC;
-
-
-void test_onedft_integrator( ExecutionSpace ex, const RuntimeEnvironment& rt,
-    std::string reference_file, 
-    std::string onedft_model_path,
-    std::string integrator_kernel = "Default",  
-    std::string reduction_kernel  = "Default",
-    std::string lwd_kernel        = "Default") {
-
-    using matrix_type = Eigen::MatrixXd;
-    Molecule mol;
-    BasisSet<double> basis;
-    matrix_type P, Pz, VXC_ref, VXCz_ref;
-    double EXC_ref;
-
-    read_hdf5_record( mol,   reference_file, "/MOLECULE" );
-    read_hdf5_record( basis, reference_file, "/BASIS"    );
-
-    HighFive::File file( reference_file, HighFive::File::ReadOnly );
-
-    std::string den="/DENSITY_SCALAR";
-    std::string den2="/DENSITY_Z";
-    std::string vxc="/VXC_SCALAR";
-    std::string vxc2="/VXC_Z";
-
-    auto dset = file.getDataSet(den);
-    auto dims = dset.getDimensions();
-    P        = matrix_type( dims[0], dims[1] );
-    VXC_ref  = matrix_type( dims[0], dims[1] );
-    Pz       = matrix_type( dims[0], dims[1] );
-    VXCz_ref = matrix_type( dims[0], dims[1] );
-
-    dset.read( P.data() );
-    dset = file.getDataSet(vxc);
-    dset.read( VXC_ref.data() );
-    dset = file.getDataSet(den2);
-    dset.read( Pz.data() );
-    dset = file.getDataSet(vxc2);
-    dset.read( VXCz_ref.data() );
-
-    dset = file.getDataSet("/EXC");
-    dset.read( &EXC_ref );
-
-    auto mg = MolGridFactory::create_default_molgrid(mol, PruningScheme::Unpruned,
-        BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-    LoadBalancerFactory lb_factory(ex, "Default");
-    auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-    
-    MolecularWeightsFactory mw_factory( ex, "Default", MolecularWeightsSettings{} );
-    auto mw = mw_factory.get_instance();
-
-    mw.modify_weights(lb);
-    functional_type func = functional_type( ExchCXX::Backend::builtin, ExchCXX::Functional::PBE0, ExchCXX::Spin::Unpolarized );
-    XCIntegratorFactory<matrix_type> integrator_factory( ex, "Replicated", 
-        integrator_kernel, lwd_kernel, reduction_kernel );
-    auto integrator = integrator_factory.get_instance( func, lb );
-
-    OneDFTSettings onedft_settings;
-    onedft_settings.model = onedft_model_path;
-
-    auto [ EXC, VXC, VXCz ] = integrator.eval_exc_vxc_onedft( P, Pz, onedft_settings );
-    auto VXC_diff_nrm = ( VXC - VXC_ref ).norm();
-    auto VXCz_diff_nrm = ( VXCz - VXCz_ref ).norm();
-    CHECK( EXC == Approx( EXC_ref ) );
-    CHECK( VXC_diff_nrm / basis.nbf() < 1e-7 );
-    CHECK( VXCz_diff_nrm / basis.nbf() < 1e-10 );
-    // Check if the integrator propagates state correctly
-    {
-    auto [ EXC1, VXC1, VXCz1 ] = integrator.eval_exc_vxc_onedft( P, Pz, onedft_settings );
-    CHECK( EXC1 == Approx( EXC_ref ) );
-    auto VXC1_diff_nrm = ( VXC1 - VXC_ref ).norm();
-    auto VXCz1_diff_nrm = ( VXCz1 - VXCz_ref ).norm();
-    CHECK( VXC1_diff_nrm / basis.nbf() < 1e-7 ); // TODO: Check this
-    CHECK( VXCz1_diff_nrm / basis.nbf() < 1e-10 );
-    }
-}
-
-void test_integrator(std::string reference_file, std::string onedft_model_path, bool use_cpu = true, bool use_gpu = true) {
-
-#ifdef GAUXC_HAS_DEVICE
-    auto rt = DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.9);
-#else
-    auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-#endif
-
-#ifdef GAUXC_HAS_HOST
-    if (use_cpu) {
-        SECTION( "Host" ) {
-        test_onedft_integrator( ExecutionSpace::Host, rt,
-            reference_file, onedft_model_path );
-        }
-    }
-#endif
-
-#ifdef GAUXC_HAS_DEVICE
-    if (use_gpu) {
-        SECTION( "Device" ) {
-        SECTION( "Incore - MPI Reduction" ) {
-            test_onedft_integrator( ExecutionSpace::Device, rt,
-                reference_file, onedft_model_path );
-        }
-        #ifdef GAUXC_HAS_CUTLASS
-        SECTION( "Incore - MPI Reduction - CUTLASS" ) {
-            test_onedft_integrator( ExecutionSpace::Device, rt,
-            reference_file, onedft_model_path,
-            "Default", "Default", "Scheme1-CUTLASS" );
-        }
-        #endif
-        #ifdef GAUXC_HAS_NCCL
-        SECTION( "Incore - NCCL Reduction" ) {
-            test_onedft_integrator( ExecutionSpace::Device, rt,
-            reference_file, onedft_model_path,
-            "Default", "NCCL" );
-        }
-        #endif
-        }
-    }
-#endif
-}
-    
-TEST_CASE( "OneDFT", "[onedft]" ) {
-    SECTION( " HE / def2-qzvp / tpss.fun" ) {
-        test_integrator( GAUXC_REF_DATA_PATH "/onedft_he_def2qzvp_tpss_uks.hdf5", GAUXC_ONEDFT_MODEL_PATH "/tpss.fun" );
-        }
-    SECTION( " HE / def2-qzvp / pbe.fun" ) {
-        test_integrator( GAUXC_REF_DATA_PATH "/onedft_he_def2qzvp_pbe_uks.hdf5", GAUXC_ONEDFT_MODEL_PATH "/pbe.fun" );
-        }
-    SECTION( " HE / def2-qzvp / lda.fun" ) {
-        test_integrator( GAUXC_REF_DATA_PATH "/onedft_he_def2qzvp_lda_uks.hdf5", GAUXC_ONEDFT_MODEL_PATH "/lda.fun" );
-        }
-}
\ No newline at end of file
diff --git a/third_party/gauxc/tests/ref_data/benzene_631gd_pbe0_ufg.hdf5 b/third_party/gauxc/tests/ref_data/benzene_631gd_pbe0_ufg.hdf5
deleted file mode 100644
index 2aa54e3..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_631gd_pbe0_ufg.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_1mpi_rank0_pv1.bin b/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_1mpi_rank0_pv1.bin
deleted file mode 100644
index 49825fb..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_1mpi_rank0_pv1.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_1mpi_rank0_pv32.bin b/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_1mpi_rank0_pv32.bin
deleted file mode 100644
index dae417c..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_1mpi_rank0_pv32.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank0_pv1.bin b/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank0_pv1.bin
deleted file mode 100644
index 067b2df..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank0_pv1.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank0_pv32.bin b/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank0_pv32.bin
deleted file mode 100644
index c18a337..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank0_pv32.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank1_pv1.bin b/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank1_pv1.bin
deleted file mode 100644
index a342cf5..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank1_pv1.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank1_pv32.bin b/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank1_pv32.bin
deleted file mode 100644
index dadf7a8..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_cc-pvdz_ufg_tasks_2mpi_rank1_pv32.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_m062x_def2-svp_ufg_ssf.hdf5 b/third_party/gauxc/tests/ref_data/benzene_m062x_def2-svp_ufg_ssf.hdf5
deleted file mode 100644
index e4eebc2..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_m062x_def2-svp_ufg_ssf.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_pbe0_cc-pvdz_ufg_ssf.hdf5 b/third_party/gauxc/tests/ref_data/benzene_pbe0_cc-pvdz_ufg_ssf.hdf5
deleted file mode 100644
index 51bfa6a..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_pbe0_cc-pvdz_ufg_ssf.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5 b/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5
deleted file mode 100644
index 3bf4d5f..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf_robust_prune.hdf5 b/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf_robust_prune.hdf5
deleted file mode 100644
index 61a765b..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf_robust_prune.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf_treutler_prune.hdf5 b/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf_treutler_prune.hdf5
deleted file mode 100644
index c021e3c..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_svwn5_cc-pvdz_ufg_ssf_treutler_prune.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_weights_becke.bin b/third_party/gauxc/tests/ref_data/benzene_weights_becke.bin
deleted file mode 100644
index d625ec9..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_weights_becke.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_weights_lko.bin b/third_party/gauxc/tests/ref_data/benzene_weights_lko.bin
deleted file mode 100644
index 014c0f7..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_weights_lko.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/benzene_weights_ssf.bin b/third_party/gauxc/tests/ref_data/benzene_weights_ssf.bin
deleted file mode 100644
index 85a6589..0000000
Binary files a/third_party/gauxc/tests/ref_data/benzene_weights_ssf.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/c2h4_l8_dd_psi_potential.hdf5 b/third_party/gauxc/tests/ref_data/c2h4_l8_dd_psi_potential.hdf5
deleted file mode 100644
index 2187f79..0000000
Binary files a/third_party/gauxc/tests/ref_data/c2h4_l8_dd_psi_potential.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/cytosine_blyp_cc-pvdz_ufg_ssf_robust_uks.hdf5 b/third_party/gauxc/tests/ref_data/cytosine_blyp_cc-pvdz_ufg_ssf_robust_uks.hdf5
deleted file mode 100644
index 3fc56cd..0000000
Binary files a/third_party/gauxc/tests/ref_data/cytosine_blyp_cc-pvdz_ufg_ssf_robust_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust.hdf5 b/third_party/gauxc/tests/ref_data/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust.hdf5
deleted file mode 100644
index b2a21e2..0000000
Binary files a/third_party/gauxc/tests/ref_data/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust_uks.hdf5 b/third_party/gauxc/tests/ref_data/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust_uks.hdf5
deleted file mode 100644
index 2e4e62a..0000000
Binary files a/third_party/gauxc/tests/ref_data/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5 b/third_party/gauxc/tests/ref_data/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5
deleted file mode 100644
index 06cf00f..0000000
Binary files a/third_party/gauxc/tests/ref_data/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/cytosine_scan_cc-pvdz_ufg_ssf_robust_uks.hdf5 b/third_party/gauxc/tests/ref_data/cytosine_scan_cc-pvdz_ufg_ssf_robust_uks.hdf5
deleted file mode 100644
index 53ca387..0000000
Binary files a/third_party/gauxc/tests/ref_data/cytosine_scan_cc-pvdz_ufg_ssf_robust_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/cytosine_svwn5_cc-pvdz_ufg_ssf_robust_uks.hdf5 b/third_party/gauxc/tests/ref_data/cytosine_svwn5_cc-pvdz_ufg_ssf_robust_uks.hdf5
deleted file mode 100644
index 3496bd8..0000000
Binary files a/third_party/gauxc/tests/ref_data/cytosine_svwn5_cc-pvdz_ufg_ssf_robust_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/h2o2_def2-qzvp.hdf5 b/third_party/gauxc/tests/ref_data/h2o2_def2-qzvp.hdf5
deleted file mode 100644
index df73663..0000000
Binary files a/third_party/gauxc/tests/ref_data/h2o2_def2-qzvp.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/h2o2_def2-tzvp.hdf5 b/third_party/gauxc/tests/ref_data/h2o2_def2-tzvp.hdf5
deleted file mode 100644
index b859aa2..0000000
Binary files a/third_party/gauxc/tests/ref_data/h2o2_def2-tzvp.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/h3_blyp_cc-pvdz_ssf_gks.bin b/third_party/gauxc/tests/ref_data/h3_blyp_cc-pvdz_ssf_gks.bin
deleted file mode 100644
index 93eac2a..0000000
Binary files a/third_party/gauxc/tests/ref_data/h3_blyp_cc-pvdz_ssf_gks.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/li_blyp_sto3g_uks.bin b/third_party/gauxc/tests/ref_data/li_blyp_sto3g_uks.bin
deleted file mode 100644
index ba31911..0000000
Binary files a/third_party/gauxc/tests/ref_data/li_blyp_sto3g_uks.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/li_svwn5_sto3g_uks.bin b/third_party/gauxc/tests/ref_data/li_svwn5_sto3g_uks.bin
deleted file mode 100644
index d96aeba..0000000
Binary files a/third_party/gauxc/tests/ref_data/li_svwn5_sto3g_uks.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_lda_uks.hdf5 b/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_lda_uks.hdf5
deleted file mode 100644
index c9fe2c6..0000000
Binary files a/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_lda_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_pbe_uks.hdf5 b/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_pbe_uks.hdf5
deleted file mode 100644
index 9f9bac0..0000000
Binary files a/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_pbe_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_tpss_uks.hdf5 b/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_tpss_uks.hdf5
deleted file mode 100644
index b1bc344..0000000
Binary files a/third_party/gauxc/tests/ref_data/onedft_he_def2qzvp_tpss_uks.hdf5 and /dev/null differ
diff --git a/third_party/gauxc/tests/ref_data/onedft_input.inp b/third_party/gauxc/tests/ref_data/onedft_input.inp
deleted file mode 100644
index 5d0287a..0000000
--- a/third_party/gauxc/tests/ref_data/onedft_input.inp
+++ /dev/null
@@ -1,15 +0,0 @@
-[GAUXC]
-ref_file = onedft_he_def2qzvp_tpss_uks.hdf5
-grid = Fine
-pruning_scheme = Robust
-RAD_QUAD = MuraKnowles
-batch_size = 512
-basis_tol = 2.22e-16
-ONEDFT_MODEL = TPSS
-# func = lda
-LB_EXEC_SPACE =  Device
-INT_EXEC_SPACE = Device
-REDUCTION_KERNEL = Default
-# LWD_KERNEL = Scheme1-CUTLASS
-# OUTFILE = onedft_he_def2qzvp_tpss_uks.hdf5
-MEMORY_SIZE = 0.1
\ No newline at end of file
diff --git a/third_party/gauxc/tests/ref_data/ut_input.inp b/third_party/gauxc/tests/ref_data/ut_input.inp
deleted file mode 100644
index 4f0455f..0000000
--- a/third_party/gauxc/tests/ref_data/ut_input.inp
+++ /dev/null
@@ -1,12 +0,0 @@
-[GAUXC]
-ref_file = benzene_svwn5_cc-pvdz_ufg_ssf.hdf5
-grid = UltraFine
-pruning_scheme = Robust
-batch_size = 512
-basis_tol = 2.22e-16
-func = svwn5
-integrate_vxc = TRUE
-integrate_exc_grad = TRUE
-integrate_exx = FALSE
-integrate_fxc_contraction = FALSE
-OUTFILE = benzene_svwn5_cc-pvdz_ufg_ssf_robust_prune.hdf5
diff --git a/third_party/gauxc/tests/ref_data/water_cc-pVDZ_collocation.bin b/third_party/gauxc/tests/ref_data/water_cc-pVDZ_collocation.bin
deleted file mode 100644
index e2d7ea6..0000000
Binary files a/third_party/gauxc/tests/ref_data/water_cc-pVDZ_collocation.bin and /dev/null differ
diff --git a/third_party/gauxc/tests/runtime.cxx b/third_party/gauxc/tests/runtime.cxx
deleted file mode 100644
index 5b45994..0000000
--- a/third_party/gauxc/tests/runtime.cxx
+++ /dev/null
@@ -1,149 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/runtime_environment.hpp>
-#include <gauxc/exceptions.hpp>
-
-using namespace GauXC;
-
-template <typename RuntimeType, typename... Args>
-void test_basic_check(Args&&... args) {
-      RuntimeType rt(std::forward<Args>(args)...);
-      REQUIRE( rt.shared_usage_count() == 1 );
-
-      SECTION("MPI Data") {
-        #ifdef GAUXC_HAS_MPI
-        REQUIRE( rt.comm() == MPI_COMM_WORLD );
-        int world_rank, world_size;
-        MPI_Comm_rank( MPI_COMM_WORLD, &world_rank );
-        MPI_Comm_size( MPI_COMM_WORLD, &world_size );
-        REQUIRE( rt.comm_rank() == world_rank );
-        REQUIRE( rt.comm_size() == world_size );
-        #else
-        REQUIRE( rt.comm_rank() == 0 );
-        REQUIRE( rt.comm_size() == 1 );
-        #endif
-      }
-
-      SECTION("Copy") {
-          RuntimeType cpy(rt);
-          GAUXC_MPI_CODE( REQUIRE( cpy.comm() == rt.comm() ); )
-          REQUIRE( cpy.comm_rank() == rt.comm_rank() );
-          REQUIRE( cpy.comm_size() == rt.comm_size() );
-          REQUIRE( cpy.shared_usage_count() == 2 );
-      }
-
-      SECTION("Move") {
-          GAUXC_MPI_CODE(auto c = rt.comm();)
-          auto r = rt.comm_rank();
-          auto s = rt.comm_size();
-          RuntimeType cpy(std::move(rt));
-          GAUXC_MPI_CODE( REQUIRE( cpy.comm() == c ); )
-          REQUIRE( cpy.comm_rank() == r );
-          REQUIRE( cpy.comm_size() == s );
-          REQUIRE( cpy.shared_usage_count() == 1 );
-      }
-
-}
-
-TEST_CASE("Runtime", "[runtime]") {
-    SECTION("Host") {
-       test_basic_check<RuntimeEnvironment>(GAUXC_MPI_CODE(MPI_COMM_WORLD)); 
-    }
-
-    #ifdef GAUXC_HAS_DEVICE
-    SECTION("Device") {
-
-      SECTION("Memory Wrapper") {
-        void* p   = (void*)0x6666DEADBEEF6666;
-        size_t sz = 40;
-        auto rt = DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD,) p, sz);
-        REQUIRE_FALSE( rt.owns_memory() );
-        REQUIRE( rt.device_memory() == p );
-        REQUIRE( rt.device_memory_size() == sz );
-      }
-
-      SECTION("Owns Memory") {
-        auto rt = DeviceRuntimeEnvironment( GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.2 );
-
-        auto p = rt.device_memory();
-        auto sz = rt.device_memory_size();
-
-        REQUIRE( p != nullptr );
-        REQUIRE( sz > 0 );
-        REQUIRE( rt.owns_memory() );
-        REQUIRE( rt.shared_usage_count() == 1 );
-
-        SECTION("Copy") {
-          DeviceRuntimeEnvironment cpy(rt);
-          REQUIRE( cpy.device_memory() == p );
-          REQUIRE( cpy.device_memory_size() == sz );
-          REQUIRE( cpy.owns_memory() );
-          REQUIRE( cpy.shared_usage_count() == 2 );
-          // Sanity check
-          REQUIRE( rt.device_memory() == p );
-          REQUIRE( rt.device_memory_size() == sz );
-          REQUIRE( rt.owns_memory() );
-          REQUIRE( rt.shared_usage_count() == 2 );
-        }
-
-        SECTION("Move") {
-          DeviceRuntimeEnvironment cpy(std::move(rt));
-          REQUIRE( cpy.device_memory() == p );
-          REQUIRE( cpy.device_memory_size() == sz );
-          REQUIRE( cpy.owns_memory() );
-          REQUIRE( cpy.shared_usage_count() == 1 );
-          // Sanity check
-          REQUIRE_THROWS_AS( rt.device_memory(), generic_gauxc_exception );
-          REQUIRE_THROWS_AS( rt.device_memory_size(), generic_gauxc_exception );
-          REQUIRE_THROWS_AS( rt.owns_memory(), generic_gauxc_exception );
-        }
-      }
-
-      SECTION("Host != Device") {
-        auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-        REQUIRE_THROWS_AS(detail::as_device_runtime(rt), generic_gauxc_exception);
-      }
-
-      SECTION("as_device_runtime") {
-        auto d_rt = DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.2);
-        auto p  = d_rt.device_memory();
-        auto sz = d_rt.device_memory_size();
-        REQUIRE(d_rt.owns_memory());
-
-
-        SECTION("Dynamic Cast") {
-          auto d_rt_new = detail::as_device_runtime(d_rt);
-          REQUIRE(d_rt_new.device_memory() == p);
-          REQUIRE(d_rt_new.device_memory_size() == sz);
-          REQUIRE(d_rt_new.owns_memory());
-          REQUIRE(d_rt_new.shared_usage_count() == 2);
-        }
-
-        SECTION("Host Copy") {
-          RuntimeEnvironment h_rt(d_rt);
-          REQUIRE(h_rt.shared_usage_count() == 2);
-          auto d_rt_new = detail::as_device_runtime(h_rt);
-          REQUIRE(d_rt_new.device_memory() == p);
-          REQUIRE(d_rt_new.device_memory_size() == sz);
-          REQUIRE(d_rt_new.owns_memory());
-          REQUIRE(d_rt_new.shared_usage_count() == 3);
-        }
-      }
-
-
-      SECTION("Basic Checks") {
-        test_basic_check<DeviceRuntimeEnvironment>(GAUXC_MPI_CODE(MPI_COMM_WORLD,)0.2);
-      }
-    }
-    #endif
-}
diff --git a/third_party/gauxc/tests/standalone_driver.cxx b/third_party/gauxc/tests/standalone_driver.cxx
deleted file mode 100644
index 08e48fd..0000000
--- a/third_party/gauxc/tests/standalone_driver.cxx
+++ /dev/null
@@ -1,881 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/xc_integrator.hpp>
-#include <gauxc/xc_integrator/impl.hpp>
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include <gauxc/runtime_environment.hpp>
-#include <gauxc/molecular_weights.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include "ini_input.hpp"
-#include <gauxc/exceptions.hpp>
-#define EIGEN_DONT_VECTORIZE
-#define EIGEN_NO_CUDA
-#include <Eigen/Core>
-
-using namespace GauXC;
-using namespace ExchCXX;
-
-int main(int argc, char** argv) {
-
-#ifdef GAUXC_HAS_MPI
-  MPI_Init( NULL, NULL );
-#endif
-  {
-
-    std::vector< std::string > opts( argc );
-    for( int i = 0; i < argc; ++i ) opts[i] = argv[i];
-
-    auto input_file = opts.at(1);
-    INIFile input(input_file);
-
-    // Require Ref file
-    auto ref_file = input.getData<std::string>("GAUXC.REF_FILE");
-
-    // Optional Args
-    std::string grid_spec          = "ULTRAFINE";
-    std::string rad_quad_spec      = "MURAKNOWLES";
-    std::string prune_spec         = "UNPRUNED";
-    std::string lb_exec_space_str  = "Host";
-    std::string int_exec_space_str = "Host";
-    std::string integrator_kernel  = "Default";
-    std::string lwd_kernel         = "Default";
-    std::string reduction_kernel   = "Default";
-
-    size_t      batch_size = 512;
-    double      basis_tol  = 1e-10;
-    std::string func_spec  = "PBE0";
-    double      mem_sz   = 0.5;
-
-    bool integrate_den      = false;
-    bool integrate_vxc      = true;
-    bool integrate_exx      = false;
-    bool integrate_exc_grad = false;
-    bool integrate_dd_psi   = false;
-    bool integrate_dd_psi_potential  = false;
-    
-    std::string onedft_model  = "NONE";
-    bool integrate_fxc_contraction   = false;
-    int lmax = 2;
-
-    auto string_to_upper = []( auto& str ) {
-      std::transform( str.begin(), str.end(), str.begin(), ::toupper );
-    };
-
-    #define OPTIONAL_KEYWORD(NAME,VAR,TYPE) \
-    if( input.containsData(NAME) ) {        \
-        VAR = input.getData<TYPE>(NAME);    \
-    }
-
-    OPTIONAL_KEYWORD( "GAUXC.GRID",              grid_spec,          std::string );
-    OPTIONAL_KEYWORD( "GAUXC.FUNC",              func_spec,          std::string );
-    OPTIONAL_KEYWORD( "GAUXC.PRUNING_SCHEME",    prune_spec,         std::string );
-    OPTIONAL_KEYWORD( "GAUXC.RAD_QUAD",          rad_quad_spec,      std::string );
-    OPTIONAL_KEYWORD( "GAUXC.LB_EXEC_SPACE",     lb_exec_space_str,  std::string );
-    OPTIONAL_KEYWORD( "GAUXC.INT_EXEC_SPACE",    int_exec_space_str, std::string );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATOR_KERNEL", integrator_kernel,  std::string );
-    OPTIONAL_KEYWORD( "GAUXC.LWD_KERNEL",        lwd_kernel,         std::string );
-    OPTIONAL_KEYWORD( "GAUXC.REDUCTION_KERNEL",  reduction_kernel,   std::string );
-    string_to_upper( grid_spec          );
-    string_to_upper( func_spec          );
-    string_to_upper( rad_quad_spec      );
-    string_to_upper( prune_spec         );
-    string_to_upper( lb_exec_space_str  );
-    string_to_upper( int_exec_space_str );
-    string_to_upper( integrator_kernel  );
-    string_to_upper( lwd_kernel         );
-    string_to_upper( reduction_kernel   );
-
-    OPTIONAL_KEYWORD( "GAUXC.BATCH_SIZE",     batch_size, size_t );
-    OPTIONAL_KEYWORD( "GAUXC.BASIS_TOL",      basis_tol,  double );
-
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_DEN",      integrate_den,      bool );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_VXC",      integrate_vxc,      bool );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_EXX",      integrate_exx,      bool );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_EXC_GRAD", integrate_exc_grad, bool );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_DD_PSI",   integrate_dd_psi,   bool );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_DD_PSI_POTENTIAL",   integrate_dd_psi_potential,   bool );
-    OPTIONAL_KEYWORD( "GAUXC.ONEDFT_MODEL",       onedft_model,std::string );
-    OPTIONAL_KEYWORD( "GAUXC.MAX_YLM",            lmax,                int );
-    OPTIONAL_KEYWORD( "GAUXC.MEMORY_SIZE",        mem_sz,              double );
-    OPTIONAL_KEYWORD( "GAUXC.INTEGRATE_FXC_CONTRACTION",   integrate_fxc_contraction,   bool );
-
-    IntegratorSettingsSNLinK sn_link_settings;
-    OPTIONAL_KEYWORD( "EXX.TOL_E", sn_link_settings.energy_tol, double );
-    OPTIONAL_KEYWORD( "EXX.TOL_K", sn_link_settings.k_tol,      double );
-
-    // Set up runtimes
-  #ifdef GAUXC_HAS_DEVICE
-    auto rt = DeviceRuntimeEnvironment( GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.9 );
-    // Caluclate GauXC Device buffer size
-    size_t available_mem, total_mem;
-    cudaMemGetInfo(&available_mem, &total_mem);
-    int device_id;
-    cudaGetDevice(&device_id);
-    size_t sz    = mem_sz * available_mem;  
-    void* p;
-    cudaMallocAsync(&p, sz, 0);
-    cudaStreamSynchronize(0);
-    rt.set_buffer(p, sz);
-  #else
-    auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  #endif
-    auto world_rank = rt.comm_rank();
-    auto world_size = rt.comm_size();
-
-    #ifdef GAUXC_HAS_DEVICE
-    std::map< std::string, ExecutionSpace > exec_space_map = {
-      { "HOST",   ExecutionSpace::Host },
-      { "DEVICE", ExecutionSpace::Device }
-    };
-
-    auto lb_exec_space = exec_space_map.at(lb_exec_space_str);
-    auto int_exec_space = exec_space_map.at(int_exec_space_str);
-    #else
-    auto lb_exec_space  = ExecutionSpace::Host;
-    auto int_exec_space = ExecutionSpace::Host;
-    #endif
-
-    if( !world_rank ) {
-      std::cout << std::boolalpha;
-      std::cout << "DRIVER SETTINGS: " << std::endl
-                << "  REF_FILE          = " << ref_file << std::endl
-                << "  GRID              = " << grid_spec << std::endl
-                << "  RAD_QUAD          = " << rad_quad_spec << std::endl
-                << "  PRUNING_SCHEME    = " << prune_spec << std::endl
-                << "  BATCH_SIZE        = " << batch_size << std::endl
-                << "  BASIS_TOL         = " << basis_tol << std::endl
-                << "  FUNCTIONAL        = " << func_spec << std::endl
-                << "  LB_EXEC_SPACE     = " << lb_exec_space_str << std::endl
-                << "  INT_EXEC_SPACE    = " << int_exec_space_str << std::endl
-                << "  INTEGRATOR_KERNEL = " << integrator_kernel << std::endl
-                << "  LWD_KERNEL        = " << lwd_kernel << std::endl
-                << "  REDUCTION_KERNEL  = " << reduction_kernel << std::endl
-                << "  DEN (?)           = " << integrate_den << std::endl
-                << "  VXC (?)           = " << integrate_vxc << std::endl
-                << "  EXX (?)           = " << integrate_exx << std::endl
-                << "  EXC_GRAD (?)      = " << integrate_exc_grad << std::endl
-                << "  DD_PSI (?)        = " << integrate_dd_psi << std::endl
-                << "  DD_PSI_POTENTIAL (?)       = " << integrate_dd_psi_potential << std::endl
-                << "  ONEDFT_MODEL    = " << onedft_model << std::endl
-                << "  FXC_CONTRACTION (?)       = " << integrate_fxc_contraction << std::endl
-                << "  MEMORY_SIZE       = " << mem_sz << std::endl;
-                if(integrate_exx) {
-                  std::cout << "  EXX.TOL_E         = " 
-                            << sn_link_settings.energy_tol << std::endl
-                            << "  EXX.TOL_K         = " 
-                            << sn_link_settings.k_tol << std::endl;
-                }
-                if (integrate_dd_psi || integrate_dd_psi_potential) {
-                  std::cout << " DD_MAX_YLM        = " << lmax << std::endl;
-                }
-                std::cout << std::endl;
-    }
-
-
-
-
-
-
-    // Read Molecule
-    Molecule mol;
-    read_hdf5_record( mol, ref_file, "/MOLECULE" );
-
-    // Construct MolGrid / MolMeta
-    std::map< std::string, AtomicGridSizeDefault > mg_map = {
-      {"FINE",      AtomicGridSizeDefault::FineGrid},
-      {"ULTRAFINE", AtomicGridSizeDefault::UltraFineGrid},
-      {"SUPERFINE", AtomicGridSizeDefault::SuperFineGrid},
-      {"GM3",       AtomicGridSizeDefault::GM3},
-      {"GM5",       AtomicGridSizeDefault::GM5}
-    };
-
-    std::map< std::string, PruningScheme > prune_map = {
-      {"UNPRUNED", PruningScheme::Unpruned},
-      {"ROBUST",   PruningScheme::Robust},
-      {"TREUTLER", PruningScheme::Treutler}
-    };
-
-    std::map< std::string, RadialQuad > rad_quad_map = {
-      {"BECKE",             RadialQuad::Becke},
-      {"MURAKNOWLES",       RadialQuad::MuraKnowles},
-      {"TREUTLERAHLRICHS",  RadialQuad::TreutlerAhlrichs},
-      {"MURRAYHANDYLAMING", RadialQuad::MurrayHandyLaming},
-      {"MK",                RadialQuad::MuraKnowles},
-      {"TA",                RadialQuad::TreutlerAhlrichs},
-      {"MHL",               RadialQuad::MurrayHandyLaming}
-    };
-
-    auto mg = MolGridFactory::create_default_molgrid(mol, 
-     prune_map.at(prune_spec), BatchSize(batch_size), 
-     rad_quad_map.at(rad_quad_spec), mg_map.at(grid_spec));
-
-    // Read BasisSet
-    BasisSet<double> basis; 
-    read_hdf5_record( basis, ref_file, "/BASIS" );
-
-    for( auto& sh : basis ){ 
-      sh.set_shell_tolerance( basis_tol );
-    }
-
-    // Setup load balancer
-    LoadBalancerFactory lb_factory( lb_exec_space, "Replicated");
-    auto lb = lb_factory.get_shared_instance( rt, mol, mg, basis);
-
-    // Apply molecular partition weights
-    MolecularWeightsFactory mw_factory( int_exec_space, "Default", 
-      MolecularWeightsSettings{} );
-    auto mw = mw_factory.get_instance();
-    mw.modify_weights(*lb);
-
-    using matrix_type = Eigen::MatrixXd;
-    // Read in reference data
-    matrix_type P, Pz, Py, Px, VXC_ref, VXCz_ref, VXCy_ref, VXCx_ref, K_ref;
-    matrix_type ddX, ddPsi_ref, ddPsi_potential_ref;
-    matrix_type FXC_ref, FXCz_ref;
-    double EXC_ref;
-    std::vector<double> EXC_GRAD_ref(3*mol.size());
-    bool rks = true, uks = false, gks = false;
-    size_t N_EL_ref = MolMeta(mol).sum_atomic_charges();
-    {
-      HighFive::File file( ref_file, HighFive::File::ReadOnly );
-      std::string den_str = "/DENSITY";
-      std::string vxc_str = "/VXC";
-
-      if (file.exist("/DENSITY_Z") ) {
-        rks = false;
-        den_str = "/DENSITY_SCALAR";
-        vxc_str = "/VXC_SCALAR";
-        if (file.exist("/DENSITY_Y") and file.exist("/DENSITY_X")) {
-          gks = true;
-        } else {
-          uks = true;
-        }
-      }
-
-
-      auto dset = file.getDataSet(den_str);
-      auto dims = dset.getDimensions();
-      P       = matrix_type( dims[0], dims[1] );
-      VXC_ref = matrix_type( dims[0], dims[1] );
-      K_ref   = matrix_type( dims[0], dims[1] );
-      if (not rks) {
-        Pz        = matrix_type( dims[0], dims[1] );
-        VXCz_ref  = matrix_type( dims[0], dims[1] );
-      }
-      if (gks) {
-        Py        = matrix_type( dims[0], dims[1] );
-        VXCy_ref  = matrix_type( dims[0], dims[1] );
-        Px        = matrix_type( dims[0], dims[1] );
-        VXCx_ref  = matrix_type( dims[0], dims[1] );
-      }
-
-      if( P.rows() != P.cols() ) GAUXC_GENERIC_EXCEPTION("Density Must Be Square");
-      if( P.rows() != basis.nbf() ) 
-        GAUXC_GENERIC_EXCEPTION("Density Not Compatible With Basis");
-
-      dset.read( P.data() );
-
-      if( not rks) {
-        dset = file.getDataSet("/DENSITY_Z");
-        dset.read( Pz.data() );
-      }
-      if(gks) {
-        dset = file.getDataSet("/DENSITY_Y");
-        dset.read( Py.data() );
-        dset = file.getDataSet("/DENSITY_X");
-        dset.read( Px.data() );
-      }
-        
-
-      if( integrate_vxc ) {
-        try {
-          dset = file.getDataSet(vxc_str);
-          dset.read( VXC_ref.data() );
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference VXC" << std::endl;
-          }
-          VXC_ref.fill(0);
-        }
-        if( not rks ) {
-          try {
-            dset = file.getDataSet("/VXC_Z");
-            dset.read( VXCz_ref.data() );
-          } catch(...) {
-            if(world_rank == 0) {
-              std::cout << "** Warning: Could Not Find Reference VXCz" << std::endl;
-            }
-            VXCz_ref.fill(0);
-          }
-        }
-        if( gks ) {
-          try {
-            dset = file.getDataSet("/VXC_Y");
-            dset.read( VXCy_ref.data() );
-            dset = file.getDataSet("/VXC_X");
-            dset.read( VXCx_ref.data() );
-          } catch(...) {
-            if(world_rank == 0) {
-              std::cout << "** Warning: Could Not Find Reference VXCy/x" << std::endl;
-            }
-            VXCy_ref.fill(0);
-            VXCx_ref.fill(0);
-          }
-        }
-
-        try {
-          dset = file.getDataSet("/EXC");
-          dset.read( &EXC_ref );
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference EXC" << std::endl;
-          }
-          EXC_ref = 0.;
-        }
-
-      }
-
-      if( integrate_exc_grad ) {
-        try {
-          dset = file.getDataSet("EXC_GRAD");
-          auto xc_grad_dims = dset.getDimensions();
-          if( xc_grad_dims[0] != mol.size() or xc_grad_dims[1] != 3 )
-            GAUXC_GENERIC_EXCEPTION("Incorrect dims for EXC_GRAD");
-          dset.read( EXC_GRAD_ref.data() );
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference EXC_GRAD" 
-                      << std::endl;
-          }
-          std::fill( EXC_GRAD_ref.begin(), EXC_GRAD_ref.end(), 0. );
-        }
-      }
-
-      if( integrate_exx ) {
-        try {
-          dset = file.getDataSet("/K");
-          dset.read( K_ref.data() );
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference K" << std::endl;
-          }
-          K_ref.fill(0);
-        }
-      }
-      if ( integrate_dd_psi ) {
-        int nharmonics = (lmax + 1) * (lmax + 1);
-        ddPsi_ref = matrix_type( mol.size(), nharmonics );
-        try {
-          dset = file.getDataSet("/DD_PSI");
-          dset.read( ddPsi_ref.data());
-          auto dd_psi_dims = dset.getDimensions();
-          if (dd_psi_dims[0] != mol.size() or dd_psi_dims[1] != nharmonics)
-            GAUXC_GENERIC_EXCEPTION("Incorrect dims for DD_PSI");
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference DD_PSI" << std::endl;
-          }
-          ddPsi_ref.fill(0);
-        }
-      }
-
-      if ( integrate_dd_psi_potential ) {
-        int nharmonics = (lmax + 1) * (lmax + 1);
-        ddX = matrix_type( nharmonics, mol.size() );
-        ddPsi_potential_ref = matrix_type( basis.nbf(), basis.nbf() );
-        try {
-          dset = file.getDataSet("/DD_X");
-          auto dd_x_dims = dset.getDimensions();
-          if (dd_x_dims[0] != nharmonics or dd_x_dims[1] != mol.size())
-            GAUXC_GENERIC_EXCEPTION("Incorrect dims for DD_X");
-          dset.read(ddX.data());
-        } catch(...) {
-          throw std::runtime_error("Could Not Find Input DD_X for DD_PSI_POTENTIAL");
-        }
-        try {
-          dset = file.getDataSet("/DD_PSI_POTENTIAL");
-          auto dd_psi_potential_dims = dset.getDimensions();
-          if (dd_psi_potential_dims[0] != basis.nbf() or dd_psi_potential_dims[1] != basis.nbf())
-            GAUXC_GENERIC_EXCEPTION("Incorrect dims for DD_PSI_POTENTIAL");
-          dset.read(ddPsi_potential_ref.data());
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference DD_PSI_POTENTIAL" << std::endl;
-          }
-          ddPsi_potential_ref.fill(0);
-        }
-      }
-
-      if ( integrate_fxc_contraction ) {
-        try {
-          dset = file.getDataSet("/FXC");
-          auto fxc_dims = dset.getDimensions();
-          FXC_ref = matrix_type( fxc_dims[0], fxc_dims[1] );
-          dset.read( FXC_ref.data() );
-          if( not rks ) {
-            dset = file.getDataSet("/FXC_Z");
-            FXCz_ref = matrix_type( fxc_dims[0], fxc_dims[1] );
-            dset.read( FXCz_ref.data() );
-          }
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference FXC" << std::endl;
-          }
-          FXC_ref.fill(0);
-          if( not rks ) FXCz_ref.fill(0);
-        }
-      }
-    }
-    // Setup XC functional
-    auto polar = (uks or gks) ? Spin::Polarized : Spin::Unpolarized;
-    functional_type func;
-    if(functional_map.key_exists(func_spec)) {
-      func = functional_type( Backend::builtin, functional_map.value(func_spec), 
-        polar );
-    }
-#ifdef EXCHCXX_ENABLE_LIBXC
-    else { 
-      std::vector<std::pair<double, ExchCXX::XCKernel>> funcs;
-      std::vector<std::string> libxc_names;
-      split(libxc_names, func_spec, ",");
-      for( auto n : libxc_names ) {
-        funcs.push_back( {1.0, ExchCXX::XCKernel(ExchCXX::libxc_name_string(n), polar)} );
-      }
-      func = functional_type(funcs);
-    }
-#endif
-
-    // Setup Integrator
-    XCIntegratorFactory<matrix_type> integrator_factory( int_exec_space , 
-      "Replicated", integrator_kernel, lwd_kernel, reduction_kernel );
-    auto integrator = integrator_factory.get_instance( func, lb );
-    
-#ifdef GAUXC_HAS_MPI
-    MPI_Barrier( MPI_COMM_WORLD );
-#endif
-    auto xc_int_start = std::chrono::high_resolution_clock::now();
-
-    matrix_type VXC, VXCz, VXCy, VXCx, K, FXC, FXCz;
-    matrix_type ddPsi, ddPsiPotential;
-    double EXC, N_EL;
-
-    std::cout << std::scientific << std::setprecision(12);
-    if( integrate_den ) {
-      if( (uks or gks) and !world_rank ) {
-        std::cout << "Warning: integrate_den will only integrate the scalar density!" << std::endl;
-      }
-      N_EL = integrator.integrate_den( P );
-      if(!world_rank) std::cout << "N_EL = " << N_EL << std::endl;
-    } else {
-      N_EL = N_EL_ref;
-    }
-
-    if( integrate_vxc ) {
-      if (onedft_model != "NONE") {
-        OneDFTSettings onedft_settings;
-        onedft_settings.model = onedft_model;
-        if (not uks)
-          GAUXC_GENERIC_EXCEPTION("OneDFT only supports UKS for now");
-        std::tie(EXC, VXC, VXCz) = integrator.eval_exc_vxc_onedft( P, Pz, onedft_settings );
-      } else {
-        if( rks ) {
-          std::tie(EXC, VXC) = integrator.eval_exc_vxc( P );
-        }
-        else if ( uks ) {
-          std::tie(EXC, VXC, VXCz) = integrator.eval_exc_vxc( P, Pz );
-        }
-        else if ( gks ) {
-          std::tie(EXC, VXC, VXCz, VXCy, VXCx) = integrator.eval_exc_vxc( P, Pz, Py, Px );
-        }
-      }
-      std::cout << std::scientific << std::setprecision(12);
-      if(!world_rank) std::cout << "EXC = " << EXC << std::endl;
-    } else {
-      EXC = EXC_ref;
-      VXC = VXC_ref;
-      if( not rks ) {
-        VXCz = VXCz_ref;
-        if( gks ) {
-          VXCy = VXCy_ref;
-          VXCx = VXCx_ref;
-        }
-      }
-    }
-
-    std::vector<double> EXC_GRAD;
-    if( integrate_exc_grad ) {
-      if( rks ) {
-        EXC_GRAD = integrator.eval_exc_grad( P );
-      }
-      else if( uks ) {
-        EXC_GRAD = integrator.eval_exc_grad( P, Pz );
-      }
-      else if( gks ) {
-        std::cout << "Warning: eval_exc_grad + GKS NYI!" << std::endl;
-        //EXC_GRAD = integrator.eval_exc_grad( P, Pz, Py, Px );
-      }
-      if(!world_rank) {
-        std::cout << "EXC Gradient:" << std::endl;
-        std::cout << std::scientific << std::setprecision(6);
-        for( auto iAt = 0; iAt < mol.size(); ++iAt ) {
-          std::cout << "  " 
-                    << std::setw(16) << EXC_GRAD[3*iAt + 0] 
-                    << std::setw(16) << EXC_GRAD[3*iAt + 1] 
-                    << std::setw(16) << EXC_GRAD[3*iAt + 2] 
-                    << std::endl;
-        }
-      }
-    }
-
-    // Load trial density matrices for FXC contraction
-    matrix_type tP, tPz;
-    if( integrate_fxc_contraction ) {
-      bool create_trial_densities = false;
-      {
-      // Try to load trial density matrices from reference file
-      HighFive::File file( ref_file, HighFive::File::ReadOnly );
-      std::string tden_str = "/TRIAL_DENSITY";
-      std::string fxc_str = "/FXC";
-
-      if (!rks) {
-        tden_str = "/TRIAL_DENSITY_SCALAR";
-        fxc_str = "/FXC_SCALAR";
-      }
-
-      try {
-        auto dset = file.getDataSet(tden_str);
-        auto dims = dset.getDimensions();
-        tP = matrix_type(dims[0], dims[1]);
-        dset.read(tP.data());
-
-        if (!rks) {
-          dset = file.getDataSet("/TRIAL_DENSITY_Z");
-          tPz = matrix_type(dims[0], dims[1]);
-          dset.read(tPz.data());
-        }
-
-        // Also try to read reference FXC matrices if available
-        try {
-          dset = file.getDataSet(fxc_str);
-          FXC_ref = matrix_type(dims[0], dims[1]);
-          dset.read(FXC_ref.data());
-
-          if (!rks) {
-            dset = file.getDataSet("/FXC_Z");
-            FXCz_ref = matrix_type(dims[0], dims[1]);
-            dset.read(FXCz_ref.data());
-          }
-        } catch(...) {
-          if(world_rank == 0) {
-            std::cout << "** Warning: Could Not Find Reference FXC" << std::endl;
-          }
-          FXC_ref.fill(0);
-          if(!rks) FXCz_ref.fill(0);
-        }
-
-      } catch(...) {
-        if(world_rank == 0) {
-          std::cout << "** Trial density matrices not found, generating random symmetric matrices..." << std::endl;
-          create_trial_densities = true;
-        }
-      }
-        
-      }
-
-      if(!world_rank) {
-        std::cout << "Computing FXC contraction..." << std::endl;
-      }
-      
-      // Compute FXC contraction
-      if( rks ) {
-        FXC = integrator.eval_fxc_contraction( P, tP, IntegratorSettingsXC{} );
-      } else if( uks ) {
-        std::tie(FXC, FXCz) = integrator.eval_fxc_contraction( P, Pz, tP, tPz, IntegratorSettingsXC{} );
-      } else if( gks ) {
-        std::cout << "Warning: FXC contraction with GKS NYI!" << std::endl;
-      }
-
-    }
-
-    if( integrate_exx ) {
-      K = integrator.eval_exx(P, sn_link_settings);
-      //matrix_type K_tmp = 0.5 * (K + K.transpose());
-      //K = -K_tmp;
-    } else { K = K_ref; }
-
-
-    if( integrate_dd_psi ) {
-      size_t Ylm_sz = (lmax + 1) * ( lmax + 1);
-      auto dd_psi = integrator.eval_dd_psi(P, lmax);
-      ddPsi = Eigen::Map<matrix_type>(dd_psi.data(), mol.size(), Ylm_sz);
-    } else { ddPsi = ddPsi_ref; }
-
-    if (integrate_dd_psi_potential) {
-      ddPsiPotential = integrator.eval_dd_psi_potential(ddX, lmax);
-    } else { ddPsiPotential = ddPsi_potential_ref; }
-    
-
-#ifdef GAUXC_HAS_MPI
-    MPI_Barrier( MPI_COMM_WORLD );
-#endif
-
-    auto xc_int_end   = std::chrono::high_resolution_clock::now();
-    double xc_int_dur = std::chrono::duration<double>( xc_int_end - xc_int_start ).count();
-
-#ifdef GAUXC_HAS_MPI
-    util::MPITimer mpi_lb_timings( MPI_COMM_WORLD, lb->get_timings() );
-    util::MPITimer mpi_xc_timings( MPI_COMM_WORLD, integrator.get_timings() );
-    util::MPITimer mpi_weight_timings( MPI_COMM_WORLD, mw.get_timings() );
-#endif
-    if( !world_rank ) {
-
-      std::cout << std::scientific << std::setprecision(5) << std::endl;
-      std::cout << "Load Balancer Timings" << std::endl;
-      for( const auto& [name, dur] : lb->get_timings().all_timings() ) {
-        #ifdef GAUXC_HAS_MPI
-        const auto avg     = mpi_lb_timings.get_avg_duration(name).count();
-        const auto min     = mpi_lb_timings.get_min_duration(name).count();
-        const auto max     = mpi_lb_timings.get_max_duration(name).count();
-        const auto std_dev = mpi_lb_timings.get_std_dev(name).count();
-        #endif
-        std::cout << "  " << std::setw(30) << name << ": " 
-        #ifdef GAUXC_HAS_MPI
-                  << "AVG = " << std::setw(12) << avg << " ms, " 
-                  << "MIN = " << std::setw(12) << min << " ms, " 
-                  << "MAX = " << std::setw(12) << max << " ms, " 
-                  << "STDDEV = " << std::setw(12) << std_dev << " ms" << std::endl;
-        #else
-                  << std::setw(12) << dur.count() << " ms" << std::endl;
-        #endif
-      }
-
-      std::cout << "MolecularWeights Timings" << std::endl;
-      for( const auto& [name, dur] : mw.get_timings().all_timings() ) {
-        #ifdef GAUXC_HAS_MPI
-        const auto avg     = mpi_weight_timings.get_avg_duration(name).count();
-        const auto min     = mpi_weight_timings.get_min_duration(name).count();
-        const auto max     = mpi_weight_timings.get_max_duration(name).count();
-        const auto std_dev = mpi_weight_timings.get_std_dev(name).count();
-        #endif
-        std::cout << "  " << std::setw(30) << name << ": " 
-        #ifdef GAUXC_HAS_MPI
-                  << "AVG = " << std::setw(12) << avg << " ms, " 
-                  << "MIN = " << std::setw(12) << min << " ms, " 
-                  << "MAX = " << std::setw(12) << max << " ms, " 
-                  << "STDDEV = " << std::setw(12) << std_dev << " ms" << std::endl;
-        #else
-                  << std::setw(12) << dur.count() << " ms" << std::endl;
-        #endif
-
-      }
-
-      std::cout << "Integrator Timings" << std::endl;
-      for( const auto& [name, dur] : integrator.get_timings().all_timings() ) {
-        #ifdef GAUXC_HAS_MPI
-        const auto avg     = mpi_xc_timings.get_avg_duration(name).count();
-        const auto min     = mpi_xc_timings.get_min_duration(name).count();
-        const auto max     = mpi_xc_timings.get_max_duration(name).count();
-        const auto std_dev = mpi_xc_timings.get_std_dev(name).count();
-        #endif
-        std::cout << "  " << std::setw(40) << name << ": " 
-        #ifdef GAUXC_HAS_MPI
-                  << "AVG = " << std::setw(12) << avg << " ms, " 
-                  << "MIN = " << std::setw(12) << min << " ms, " 
-                  << "MAX = " << std::setw(12) << max << " ms, " 
-                  << "STDDEV = " << std::setw(12) << std_dev << " ms" << std::endl;
-        #else
-                  << std::setw(12) << dur.count() << " ms" << std::endl;
-        #endif
-      }
-
-      std::cout << std::scientific << std::setprecision(14);
-
-      std::cout << "XC Int Duration  = " << xc_int_dur << " s" << std::endl;
-
-      if( integrate_den ) {
-      std::cout << "N_EL (ref)        = " << (double)N_EL_ref << std::endl;
-      std::cout << "N_EL (calc)       = " << N_EL     << std::endl;
-      std::cout << "N_EL Diff         = " << std::abs(N_EL_ref - N_EL) / N_EL_ref 
-                                         << std::endl;
-      }
-
-      if( integrate_vxc ) {
-      std::cout << "EXC (ref)        = " << EXC_ref << std::endl;
-      std::cout << "EXC (calc)       = " << EXC     << std::endl;
-      std::cout << "EXC Diff         = " << std::abs(EXC_ref - EXC) / EXC_ref 
-                                         << std::endl;
-
-      std::cout << "| VXC (ref)  |_F = " << VXC_ref.norm() << std::endl;
-      std::cout << "| VXC (calc) |_F = " << VXC.norm() << std::endl;
-      std::cout << "RMS VXC Diff     = " << (VXC_ref - VXC).norm() / basis.nbf()
-                                         << std::endl;
-      if( not rks ) {
-        std::cout << "| VXCz (ref)  |_F = " << VXCz_ref.norm() << std::endl;
-        std::cout << "| VXCz (calc) |_F = " << VXCz.norm() << std::endl;
-        std::cout << "RMS VXCz Diff     = " << (VXCz_ref - VXCz).norm() / basis.nbf()
-                                           << std::endl;
-      }
-      if( gks ) {
-        std::cout << "| VXCy (ref)  |_F = " << VXCy_ref.norm() << std::endl;
-        std::cout << "| VXCy (calc) |_F = " << VXCy.norm() << std::endl;
-        std::cout << "RMS VXCy Diff     = " << (VXCy_ref - VXCy).norm() / basis.nbf()
-                                           << std::endl;
-        std::cout << "| VXCx (ref)  |_F = " << VXCx_ref.norm() << std::endl;
-        std::cout << "| VXCx (calc) |_F = " << VXCx.norm() << std::endl;
-        std::cout << "RMS VXCx Diff     = " << (VXCx_ref - VXCx).norm() / basis.nbf()
-                                           << std::endl;
-      }
-      }
-
-      if(integrate_exc_grad) {
-      double exc_grad_ref_nrm(0.), exc_grad_calc_nrm(0.), exc_grad_diff_nrm(0.);
-      for( auto i = 0; i < 3*mol.size(); ++i ) {
-        const auto ref_val = EXC_GRAD_ref[i];
-        const auto clc_val = EXC_GRAD[i];
-        const auto dif_val = std::abs(ref_val - clc_val);
-        exc_grad_ref_nrm  += ref_val*ref_val;
-        exc_grad_calc_nrm += clc_val*clc_val;
-        exc_grad_diff_nrm += dif_val*dif_val;
-      }
-
-      exc_grad_ref_nrm  = std::sqrt(exc_grad_ref_nrm);
-      exc_grad_calc_nrm = std::sqrt(exc_grad_calc_nrm);
-      exc_grad_diff_nrm = std::sqrt(exc_grad_diff_nrm);
-      std::cout << "| EXC_GRAD (ref)  | = " << exc_grad_ref_nrm << std::endl;
-      std::cout << "| EXC_GRAD (calc) | = " << exc_grad_calc_nrm << std::endl;
-      std::cout << "| EXC_GRAD (diff) | = " << exc_grad_diff_nrm << std::endl;
-      }
-
-      if( integrate_exx ) {
-      std::cout << "| K (ref)  |_F = " << K_ref.norm() << std::endl;
-      std::cout << "| K (calc) |_F = " << K.norm() << std::endl;
-      std::cout << "RMS K Diff     = " << (K_ref - K).norm() / basis.nbf()
-                                         << std::endl;
-      }
-      if (integrate_dd_psi) {
-        std::cout << "| DD_PSI (ref)  |_F = " << ddPsi_ref.norm() << std::endl;
-        std::cout << "| DD_PSI (calc) |_F = " << ddPsi.norm() << std::endl;
-        std::cout << "RMS DD_PSI Diff     = " << (ddPsi_ref - ddPsi).norm() / mol.size() << std::endl;
-      }
-      if (integrate_dd_psi_potential) {
-        std::cout << "| DD_PSI_POTENTIAL (ref)  |_F = " << ddPsi_potential_ref.norm() << std::endl;
-        std::cout << "| DD_PSI_POTENTIAL (calc) |_F = " << ddPsiPotential.norm() << std::endl;
-        std::cout << "RMS DD_PSI_POTENTIAL Diff     = " << (ddPsi_potential_ref - ddPsiPotential).norm() / basis.nbf() << std::endl;
-      }
-      if (integrate_fxc_contraction) {
-        std::cout << "| FXC (ref)  |_F = " << FXC_ref.norm() << std::endl;
-        std::cout << "| FXC (calc) |_F = " << FXC.norm() << std::endl;
-        std::cout << "RMS FXC Diff     = " << (FXC_ref - FXC).norm() / basis.nbf() << std::endl;
-        if (not rks) {
-          std::cout << "| FXCz (ref)  |_F = " << FXCz_ref.norm() << std::endl;
-          std::cout << "| FXCz (calc) |_F = " << FXCz.norm() << std::endl;
-          std::cout << "RMS FXCz Diff     = " << (FXCz_ref - FXCz).norm() / basis.nbf() << std::endl;
-        }
-      }
-    }
-
-    // Dump out new file
-    if( input.containsData("GAUXC.OUTFILE") ) {
-      // Create File
-      auto outfname = input.getData<std::string>("GAUXC.OUTFILE");
-      { HighFive::File( outfname, HighFive::File::Truncate ); }
-
-      // Write molecule
-      write_hdf5_record( mol, outfname, "/MOLECULE" );
-
-      // Write Basis
-      write_hdf5_record( basis, outfname, "/BASIS" );
-
-      // Write out matrices
-      HighFive::File file( outfname, HighFive::File::ReadWrite );
-      HighFive::DataSpace mat_space( basis.nbf(), basis.nbf() );
-      HighFive::DataSpace sca_space( 1 );
-
-      std::string ugks_scalar;
-      if(Pz.size()) ugks_scalar = "_SCALAR";
-
-      auto dset = file.createDataSet<double>( "/DENSITY" + ugks_scalar, mat_space );
-      dset.write_raw( P.data() );
-
-      if( not rks ) {
-        dset = file.createDataSet<double>( "/DENSITY_Z", mat_space );
-        dset.write_raw( Pz.data() );
-      }
-      if( gks ) {
-        dset = file.createDataSet<double>( "/DENSITY_Y", mat_space );
-        dset.write_raw( Py.data() );
-        dset = file.createDataSet<double>( "/DENSITY_X", mat_space );
-        dset.write_raw( Px.data() );
-      }
-
-
-      if( integrate_vxc ) {
-        dset = file.createDataSet<double>( "/VXC" + ugks_scalar, mat_space );
-        dset.write_raw( VXC.data() );
-        if( not rks ) {
-          dset = file.createDataSet<double>( "/VXC_Z", mat_space );
-          dset.write_raw( VXCz.data() );
-        }
-        if( gks ) {
-          dset = file.createDataSet<double>( "/VXC_Y", mat_space );
-          dset.write_raw( VXCy.data() );
-          dset = file.createDataSet<double>( "/VXC_X", mat_space );
-          dset.write_raw( VXCx.data() );
-        }
-
-        dset = file.createDataSet<double>( "/EXC", sca_space );
-        dset.write_raw( &EXC );
-      }
-
-      if( integrate_exx ) {
-        dset = file.createDataSet<double>( "/K", mat_space );
-        dset.write_raw( K.data() );
-      }
-
-      if( integrate_exc_grad ) {
-        HighFive::DataSpace grad_space( mol.size(), 3 );
-        dset = file.createDataSet<double>( "/EXC_GRAD", grad_space );
-        dset.write_raw( EXC_GRAD.data() );
-      }
-
-      if (integrate_dd_psi) {
-        HighFive::DataSpace dd_psi_space( mol.size(), (lmax + 1) * (lmax + 1) );
-        dset = file.createDataSet<double>("/DD_PSI", dd_psi_space);
-        dset.write_raw(ddPsi.data());
-      }
-
-      if (integrate_dd_psi_potential) {
-        HighFive::DataSpace dd_psi_potential_space(basis.nbf(), basis.nbf());
-        dset = file.createDataSet<double>("/DD_PSI_POTENTIAL", dd_psi_potential_space);
-        dset.write_raw(ddPsiPotential.data());
-      }
-
-      if (integrate_fxc_contraction) {
-        dset = file.createDataSet<double>("/FXC" + ugks_scalar, mat_space);
-        dset.write_raw(FXC.data());
-        if (not rks) {
-          dset = file.createDataSet<double>("/FXC_Z", mat_space);
-          dset.write_raw(FXCz.data());
-        }
-      }
-    }
-
-  }
-#ifdef GAUXC_HAS_MPI
-  MPI_Finalize();
-#endif
-
-}
diff --git a/third_party/gauxc/tests/standards.cxx b/third_party/gauxc/tests/standards.cxx
deleted file mode 100644
index 170e73e..0000000
--- a/third_party/gauxc/tests/standards.cxx
+++ /dev/null
@@ -1,1430 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "standards.hpp"
-#include "ut_common.hpp"
-#include "basis/parse_basis.hpp"
-
-namespace GauXC {
-
-Molecule make_water() {
-
-  Molecule mol;
-  mol.emplace_back(AtomicNumber(1), 0., 1.579252144093028,  2.174611055780858);
-  mol.emplace_back(AtomicNumber(8), 0., 0.000000000000000,  0.000000000000000);
-  mol.emplace_back(AtomicNumber(1), 0., 1.579252144093028, -2.174611055780858);
-
-//mol.emplace_back(AtomicNumber(8), 0.000000000000000, -0.143222342980786, 0.000000000000000);
-//mol.emplace_back(AtomicNumber(1), 1.638033502034240,  1.136556880358410, 0.000000000000000);
-//mol.emplace_back(AtomicNumber(1),-1.638033502034240,  1.136556880358410, 0.000000000000000);
-
-  return mol;
-
-}
-
-Molecule make_benzene() {
-
-  Molecule mol;
-  mol.emplace_back(AtomicNumber(6),  6.92768e-01,  -1.77656e+00,   1.40218e-03);
-  mol.emplace_back(AtomicNumber(6),  3.35108e+00,  -1.77668e+00,   2.21098e-03);
-  mol.emplace_back(AtomicNumber(6),  4.68035e+00,   5.25219e-01,   1.22454e-03);
-  mol.emplace_back(AtomicNumber(6),  3.35121e+00,   2.82744e+00,  -7.02978e-04);
-  mol.emplace_back(AtomicNumber(6),  6.93087e-01,   2.82756e+00,  -1.55902e-03);
-  mol.emplace_back(AtomicNumber(6), -6.36278e-01,   5.25491e-01,  -4.68652e-04);
-  mol.emplace_back(AtomicNumber(1), -3.41271e-01,  -3.56759e+00,   2.21287e-03);
-  mol.emplace_back(AtomicNumber(1),  4.38492e+00,  -3.56783e+00,   3.73599e-03);
-  mol.emplace_back(AtomicNumber(1),  6.74844e+00,   5.25274e-01,   1.88028e-03);
-  mol.emplace_back(AtomicNumber(1),  4.38551e+00,   4.61832e+00,  -1.48721e-03);
-  mol.emplace_back(AtomicNumber(1), -3.41001e-01,   4.61857e+00,  -3.05569e-03);
-  mol.emplace_back(AtomicNumber(1), -2.70437e+00,   5.25727e-01,  -1.09793e-03);
-
-  return mol;
-}
-
-Molecule make_taxol() {
-
-  Molecule mol;
-
-  mol.emplace_back(AtomicNumber(6), -1.2086803766057596e+01,  3.0945209181978379e+00, -1.9213582223119234e+00);
-  mol.emplace_back(AtomicNumber(6), -1.0577932448957723e+01,  3.6811212336040056e+00,  5.9654184843902913e-01);
-  mol.emplace_back(AtomicNumber(6), -7.8156088394525174e+00,  2.6246188628367846e+00,  5.7855079493075290e-01);
-  mol.emplace_back(AtomicNumber(6), -7.7290012917984576e+00, -3.9104851472197344e-01,  1.4360181746387324e-01);
-  mol.emplace_back(AtomicNumber(6), -1.0016538723457261e+01, -1.0506301884189346e+00, -1.4798802215219533e+00);
-  mol.emplace_back(AtomicNumber(6), -1.0659633036976830e+01,  1.0507163228854037e+00, -3.2983607127617107e+00);
-  mol.emplace_back(AtomicNumber(6), -5.3296167124683658e+00, -1.4595161557523739e+00, -1.1246063755711582e+00);
-  mol.emplace_back(AtomicNumber(6), -6.5016339180648162e+00,  3.7435095926457911e+00,  3.0150450380672256e+00);
-  mol.emplace_back(AtomicNumber(6), -2.9712075986289155e+00, -1.4544066636007139e-01, -3.2489172590696380e-01);
-  mol.emplace_back(AtomicNumber(8), -5.0934304773948895e+00, -4.0799701492478251e+00, -3.2082037551434694e-01);
-  mol.emplace_back(AtomicNumber(8), -3.5325580104758747e+00,  2.3259931830029714e+00, -1.4647688511505077e+00);
-  mol.emplace_back(AtomicNumber(6), -2.5197727859935175e+00, -2.2228996342624507e-01,  2.6648115148166873e+00);
-  mol.emplace_back(AtomicNumber(6), -1.6782741111341526e+00,  2.4329437378871082e+00,  2.8053580113962715e+00);
-  mol.emplace_back(AtomicNumber(6),  6.0396339010261468e-01,  2.9802050925878079e+00,  1.8218102413447033e+00);
-  mol.emplace_back(AtomicNumber(8), -7.6270526734215913e+00,  4.6294325409403099e+00,  4.7333836424213507e+00);
-  mol.emplace_back(AtomicNumber(8), -3.6859068601693008e+00,  4.1329818606531488e+00,  3.3055762659777010e+00);
-  mol.emplace_back(AtomicNumber(6), -4.1548210975523431e-01, -7.0752038696097874e-01, -1.5254378173009282e+00);
-  mol.emplace_back(AtomicNumber(6),  1.5800607404539240e+00,  1.0191217134510033e+00, -1.6673157413020209e-01);
-  mol.emplace_back(AtomicNumber(8), -1.2038622302183510e+01, -1.4100071160962910e+00,  3.4297823949049211e-01);
-  mol.emplace_back(AtomicNumber(6), -1.4188041041940112e+01, -2.8936513070712166e+00,  3.3343125081954544e-01);
-  mol.emplace_back(AtomicNumber(8), -1.4615739513441163e+01, -4.1332898391241510e+00,  2.1793188768721445e+00);
-  mol.emplace_back(AtomicNumber(6), -1.5972578209014014e+01, -2.6753796293979817e+00, -1.8782477205883634e+00);
-  mol.emplace_back(AtomicNumber(6), -1.0234955657186312e+01, -2.8517899654379599e+00, -3.7926805907470298e+00);
-  mol.emplace_back(AtomicNumber(8), -1.1752691879022565e+01, -8.4177226145120299e-01, -5.0839203844900425e+00);
-  mol.emplace_back(AtomicNumber(8), -1.0255094356124170e+01,  6.3824431564943875e+00,  7.1360654789628697e-01);
-  mol.emplace_back(AtomicNumber(8), -3.0466995986806813e+00,  7.8992758213447534e+00,  6.4964892713405817e-02);
-  mol.emplace_back(AtomicNumber(6), -1.5006169888776586e+00,  9.8752808642845284e+00,  5.6513524198512377e-01);
-  mol.emplace_back(AtomicNumber(8), -5.7616749084376817e-01,  1.1082442804729819e+01, -1.1140563142981272e+00);
-  mol.emplace_back(AtomicNumber(6), -1.0265259435237764e+00,  1.0343790196882921e+01,  3.3568854208163854e+00);
-  mol.emplace_back(AtomicNumber(6),  2.3240946382296985e+00,  5.2634365065468458e+00,  1.9492589210498048e+00);
-  mol.emplace_back(AtomicNumber(8),  3.6587420426523574e+00, -6.3007474793062079e-01,  6.8020810883388105e-01);
-  mol.emplace_back(AtomicNumber(6),  6.0327558506041203e+00,  7.4241261284371751e-02,  1.3832944491593385e-01);
-  mol.emplace_back(AtomicNumber(8),  6.5317646635450561e+00,  1.9793159250755847e+00, -9.8828694034904063e-01);
-  mol.emplace_back(AtomicNumber(6),  7.8880280573628845e+00, -1.9038485007213328e+00,  1.0222209409848111e+00);
-  mol.emplace_back(AtomicNumber(6),  1.0567934103013757e+01, -1.0408217792120671e+00,  4.3566210733177319e-01);
-  mol.emplace_back(AtomicNumber(6),  1.2573298062333292e+01, -3.0758416580427919e+00,  8.0650669941235142e-01);
-  mol.emplace_back(AtomicNumber(6),  1.2005645618403424e+01, -5.5917799176951135e+00,  1.2431521621342125e+00);
-  mol.emplace_back(AtomicNumber(6),  1.3886533696646906e+01, -7.4121618807047280e+00,  1.1237128524633548e+00);
-  mol.emplace_back(AtomicNumber(6),  1.6356195349639108e+01, -6.7231956973130487e+00,  6.1657475673657036e-01);
-  mol.emplace_back(AtomicNumber(6),  1.6954855311814825e+01, -4.1902886580713368e+00,  3.3090377896994216e-01);
-  mol.emplace_back(AtomicNumber(6),  1.5076400284128072e+01, -2.3839665355324109e+00,  4.3907254552391500e-01);
-  mol.emplace_back(AtomicNumber(8),  7.5811185631563625e+00, -2.4152877556623662e+00,  3.6520337410246904e+00);
-  mol.emplace_back(AtomicNumber(7),  1.1283226343750929e+01,  1.2869040361025486e+00,  1.6768324346418022e+00);
-  mol.emplace_back(AtomicNumber(6),  1.1543015272867631e+01,  3.6984638873544977e+00,  7.4760243516847125e-01);
-  mol.emplace_back(AtomicNumber(8),  1.1941775287297162e+01,  5.4430950468579473e+00,  2.2077463597841165e+00);
-  mol.emplace_back(AtomicNumber(6),  1.1122215943020368e+01,  4.2131009190396647e+00, -2.0190528830502950e+00);
-  mol.emplace_back(AtomicNumber(6),  1.1561864432050251e+01,  2.5569780204241210e+00, -3.9975758556682925e+00);
-  mol.emplace_back(AtomicNumber(6),  1.0519366199245606e+01,  3.0209021545750638e+00, -6.3546801864667897e+00);
-  mol.emplace_back(AtomicNumber(6),  9.1661145683169938e+00,  5.2271693719704002e+00, -6.7804587674167145e+00);
-  mol.emplace_back(AtomicNumber(6),  8.9951946754246315e+00,  7.0113580822646702e+00, -4.8867820118174006e+00);
-  mol.emplace_back(AtomicNumber(6),  9.9698746390655639e+00,  6.5044356660672706e+00, -2.5183707285513894e+00);
-  mol.emplace_back(AtomicNumber(6), -4.0377679995008773e+00, -5.7591867255031710e+00, -1.9465133778446326e+00);
-  mol.emplace_back(AtomicNumber(8), -4.0537750251579601e+00, -5.3921058916041984e+00, -4.2195446949336652e+00);
-  mol.emplace_back(AtomicNumber(6), -2.8409601103901343e+00, -7.9425348683811841e+00, -6.9751206080714567e-01);
-  mol.emplace_back(AtomicNumber(6), -2.7203979327175718e+00, -8.1762738665359613e+00,  1.8999655813321477e+00);
-  mol.emplace_back(AtomicNumber(6), -1.4435295219394657e+00, -1.0202583655676063e+01,  2.9531205338123163e+00);
-  mol.emplace_back(AtomicNumber(6), -3.2663992767103123e-01, -1.1993827519622323e+01,  1.4036348480006320e+00);
-  mol.emplace_back(AtomicNumber(6), -4.8298176752672539e-01, -1.1768341721712316e+01, -1.2005813130518102e+00);
-  mol.emplace_back(AtomicNumber(6), -1.7301563856612605e+00, -9.7339112272526283e+00, -2.2508722102401046e+00);
-  mol.emplace_back(AtomicNumber(6), -3.9634976757425749e-01, -2.1821562579257932e+00,  3.4703571264251427e+00);
-  mol.emplace_back(AtomicNumber(6), -4.5921290309317024e+00, -8.6215210076361271e-01,  4.6690671708196323e+00);
-  mol.emplace_back(AtomicNumber(1), -6.8959394070872548e+00,  3.5306038782787996e+00, -9.7431063616055869e-01);
-  mol.emplace_back(AtomicNumber(1), -8.0203825398126884e+00, -1.3791275009304449e+00,  1.8795348721078948e+00);
-  mol.emplace_back(AtomicNumber(1), -1.1587634659944230e+01,  2.9785201760463589e+00,  2.2184280639048839e+00);
-  mol.emplace_back(AtomicNumber(1), -1.2146798718726231e+01,  4.8428881580111955e+00, -2.9634850472368570e+00);
-  mol.emplace_back(AtomicNumber(1), -1.3964391697131694e+01,  2.4667313920951672e+00, -1.4635845836837487e+00);
-  mol.emplace_back(AtomicNumber(1), -8.9697177964989407e+00,  1.7865728987730178e+00, -4.1801647485281395e+00);
-  mol.emplace_back(AtomicNumber(1), -5.4529090515434682e+00, -1.3587720069579514e+00, -3.1525507578496224e+00);
-  mol.emplace_back(AtomicNumber(1), -2.2216510029174796e+00,  3.5826269092351706e+00, -1.2946163576519383e+00);
-  mol.emplace_back(AtomicNumber(1), -3.4925221112667595e+00,  6.8865461264605816e+00,  1.5290747478455913e+00);
-  mol.emplace_back(AtomicNumber(1), -5.7451880016055556e-01, -7.8759832528791970e-02, -3.4655694476174230e+00);
-  mol.emplace_back(AtomicNumber(1),  1.7294607429427239e-01, -2.6367198571889188e+00, -1.5172072571073427e+00);
-  mol.emplace_back(AtomicNumber(1),  2.3933772634322219e+00,  2.2222730183210051e+00, -1.5812494652173732e+00);
-  mol.emplace_back(AtomicNumber(1), -1.5013448103227674e+01, -2.6622149789623912e+00, -3.6654649892784938e+00);
-  mol.emplace_back(AtomicNumber(1), -1.6981214708273136e+01, -8.9515910784280783e-01, -1.7487759807417653e+00);
-  mol.emplace_back(AtomicNumber(1), -1.7331584792005351e+01, -4.1962733749250765e+00, -1.7480280020619636e+00);
-  mol.emplace_back(AtomicNumber(1), -1.1281032799333719e+01, -4.5743856887531873e+00, -3.5366731669845874e+00);
-  mol.emplace_back(AtomicNumber(1), -8.4956388349978944e+00, -3.1966920786440185e+00, -4.7888533929860433e+00);
-  mol.emplace_back(AtomicNumber(1), -1.1689713967991045e+01,  7.1791242333748100e+00,  1.5227384198815992e+00);
-  mol.emplace_back(AtomicNumber(1), -7.6483798359627653e-01,  8.5609915055313675e+00,  4.3310024704230692e+00);
-  mol.emplace_back(AtomicNumber(1), -2.6630498022676887e+00,  1.1260927268299502e+01,  4.1955673744294213e+00);
-  mol.emplace_back(AtomicNumber(1),  5.9923983423304450e-01,  1.1514414788753900e+01,  3.5662169754779183e+00);
-  mol.emplace_back(AtomicNumber(1),  2.8029973286521832e+00,  5.7340513433073204e+00,  3.8869832689241863e+00);
-  mol.emplace_back(AtomicNumber(1),  1.6420485227504928e+00,  6.9329806754739982e+00,  1.0139980457088096e+00);
-  mol.emplace_back(AtomicNumber(1),  4.0978497495518589e+00,  4.7888612003889675e+00,  1.0143566748834405e+00);
-  mol.emplace_back(AtomicNumber(1),  7.4964699351311967e+00, -3.5763005450404277e+00, -1.0820212475302107e-01);
-  mol.emplace_back(AtomicNumber(1),  1.0495873027673579e+01, -6.6456970144300698e-01, -1.5529763071562379e+00);
-  mol.emplace_back(AtomicNumber(1),  1.0118532998369913e+01, -6.1523997404987671e+00,  1.7080945864726838e+00);
-  mol.emplace_back(AtomicNumber(1),  1.3415002189713961e+01, -9.3567813551320889e+00,  1.4114907497968301e+00);
-  mol.emplace_back(AtomicNumber(1),  1.7795916085761995e+01, -8.1328013178793466e+00,  4.5501883614360161e-01);
-  mol.emplace_back(AtomicNumber(1),  1.8870320711246347e+01, -3.6240509701642987e+00,  4.4347462120823654e-03);
-  mol.emplace_back(AtomicNumber(1),  1.5543890765479290e+01, -4.2576750545487596e-01,  2.3686072684490841e-01);
-  mol.emplace_back(AtomicNumber(1),  5.9147468854947478e+00, -3.0874094108381582e+00,  3.9842564750356408e+00);
-  mol.emplace_back(AtomicNumber(1),  1.1515260426394116e+01,  1.1812192835585826e+00,  3.5639377833876540e+00);
-  mol.emplace_back(AtomicNumber(1),  1.2677109613786142e+01,  8.8915017963072496e-01, -3.7479601190147447e+00);
-  mol.emplace_back(AtomicNumber(1),  1.0723051836388365e+01,  1.6493262912262463e+00, -7.8258749739310440e+00);
-  mol.emplace_back(AtomicNumber(1),  8.2767081031027754e+00,  5.5320141766946964e+00, -8.5672534000232403e+00);
-  mol.emplace_back(AtomicNumber(1),  8.0434001493673932e+00,  8.7762916391646382e+00, -5.2271119507564983e+00);
-  mol.emplace_back(AtomicNumber(1),  9.7788228640439065e+00,  7.8414796587836983e+00, -1.0067158722817757e+00);
-  mol.emplace_back(AtomicNumber(1), -3.5934962737291110e+00, -6.7958102805763634e+00,  3.0833241414797969e+00);
-  mol.emplace_back(AtomicNumber(1), -1.3152418585083292e+00, -1.0385045324623427e+01,  4.9670070898790231e+00);
-  mol.emplace_back(AtomicNumber(1),  6.5806313071028222e-01, -1.3560955585033136e+01,  2.2234644572978923e+00);
-  mol.emplace_back(AtomicNumber(1),  3.6563478099020330e-01, -1.3161554123525679e+01, -2.3979510386750413e+00);
-  mol.emplace_back(AtomicNumber(1), -1.8568580030146926e+00, -9.4975271399468024e+00, -4.2553245090507668e+00);
-  mol.emplace_back(AtomicNumber(1),  1.3030237241995339e+00, -1.2289503206607242e+00,  4.0285251450313533e+00);
-  mol.emplace_back(AtomicNumber(1),  7.7206483623984537e-02, -3.4973543020032318e+00,  1.9976168632214686e+00);
-  mol.emplace_back(AtomicNumber(1), -1.0388111358931265e+00, -3.2858491667457268e+00,  5.0513438887385380e+00);
-  mol.emplace_back(AtomicNumber(1), -5.0766910083063879e+00, -2.8480447052171418e+00,  4.5170436069382500e+00);
-  mol.emplace_back(AtomicNumber(1), -6.3098220769200406e+00,  1.8906908793105312e-01,  4.6654819741695350e+00);
-  mol.emplace_back(AtomicNumber(1), -3.7359919697540209e+00, -5.5917472382856404e-01,  6.5025662128697084e+00);
-
-  return mol;
-}
-
-Molecule make_ubiquitin() {
-
-  Molecule mol;
-
-  mol.emplace_back(AtomicNumber(7), 5.1665108539259997e+01, 4.6166005911269998e+01, 4.9397437352460001e+00);
-  mol.emplace_back(AtomicNumber(6), 4.9635542827073998e+01, 4.8023606558456997e+01, 5.3706012607379998e+00);
-  mol.emplace_back(AtomicNumber(6), 5.0858195541957002e+01, 5.0340410620970999e+01, 6.6726224671590000e+00);
-  mol.emplace_back(AtomicNumber(8), 5.2696898929253997e+01, 5.0007818846907000e+01, 8.0559018911070002e+00);
-  mol.emplace_back(AtomicNumber(6), 4.7454799035767998e+01, 4.7016382606320001e+01, 6.8956101338610001e+00);
-  mol.emplace_back(AtomicNumber(6), 4.7910222999117003e+01, 4.6978588086540000e+01, 9.7018532275260014e+00);
-  mol.emplace_back(AtomicNumber(16), 4.5221142916769999e+01, 4.5275944970451000e+01, 1.1156942239056001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.6198131253082998e+01, 4.5323188120176006e+01, 1.4399712036180000e+01);
-  mol.emplace_back(AtomicNumber(7), 4.9765933920315000e+01, 5.2477690714529999e+01, 6.1567272721619997e+00);
-  mol.emplace_back(AtomicNumber(6), 5.0739142804650001e+01, 5.4841737926769000e+01, 7.3661519051219999e+00);
-  mol.emplace_back(AtomicNumber(6), 4.9321848312900002e+01, 5.5280154356216997e+01, 9.8303545947779991e+00);
-  mol.emplace_back(AtomicNumber(8), 4.6988036716484999e+01, 5.4847407104736000e+01, 1.0072239521369999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0518044863937000e+01, 5.6971459116371996e+01, 5.4896539980449992e+00);
-  mol.emplace_back(AtomicNumber(6), 5.0799614036298003e+01, 5.9613296048994002e+01, 6.4420758965009997e+00);
-  mol.emplace_back(AtomicNumber(6), 5.0618200341354004e+01, 6.1533257653817998e+01, 4.2896779950299999e+00);
-  mol.emplace_back(AtomicNumber(8), 5.2502257152387003e+01, 6.2663313795239993e+01, 3.5337875994300001e+00);
-  mol.emplace_back(AtomicNumber(7), 4.8305175730818000e+01, 6.1856400797936992e+01, 3.4128451361340000e+00);
-  mol.emplace_back(AtomicNumber(7), 5.0737253078660999e+01, 5.6041713929783995e+01, 1.1748426473613000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9576961321414998e+01, 5.6801383777361998e+01, 1.4167275739533000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0799614036298003e+01, 5.9390308382291998e+01, 1.4857025725518000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.2734693449033998e+01, 5.9925100837178995e+01, 1.3726969584096000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9782941454216001e+01, 5.4896539980450001e+01, 1.6336681174904999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2553279754089999e+01, 5.4325842731771999e+01, 1.7005644175011000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8171005185599000e+01, 5.2479580440519001e+01, 1.5660159270843002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2849966734363001e+01, 5.3076733853043002e+01, 1.9685275627412999e+01);
-  mol.emplace_back(AtomicNumber(7), 4.9537277075645996e+01, 6.0654535068933001e+01, 1.6574786649519002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0591744177507998e+01, 6.3184878168204001e+01, 1.7379809920832997e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1307950327339000e+01, 6.3045038445018001e+01, 2.0125581782850002e+01);
-  mol.emplace_back(AtomicNumber(8), 4.9794279810150002e+01, 6.1941438467441998e+01, 2.1533427644654999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8556509287354999e+01, 6.5191767168521991e+01, 1.6905488697593999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7787390809831997e+01, 6.5401526753300999e+01, 1.4171055191511000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5631213456382994e+01, 6.4186432942373997e+01, 1.3299891510582000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9389878448504000e+01, 6.6794254807193994e+01, 1.2547780566960000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.4998155250068002e+01, 6.4309265131659004e+01, 1.0727974439553000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8773827776089995e+01, 6.6881182202688009e+01, 9.9531867840629999e+00);
-  mol.emplace_back(AtomicNumber(6), 4.6525053849180004e+01, 6.5720890445441995e+01, 9.1708402246169989e+00);
-  mol.emplace_back(AtomicNumber(7), 5.3403656449140001e+01, 6.4142969244626997e+01, 2.0968399573944001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4055611915345004e+01, 6.4184543216385009e+01, 2.3627244040467001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4117972872982001e+01, 6.7011573295928997e+01, 2.4377465258099999e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5788490647257994e+01, 6.8224777380866996e+01, 2.3281424184479999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6621859808407002e+01, 6.2960000775513002e+01, 2.4214948823046001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7090511853678997e+01, 6.3105509676665996e+01, 2.7030640546655999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6610521452473002e+01, 6.0165096037782000e+01, 2.3341895416128001e+01);
-  mol.emplace_back(AtomicNumber(7), 5.2441785920739001e+01, 6.7778802047462989e+01, 2.5964835088859999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2328402361399000e+01, 7.0515125279534999e+01, 2.6726394662427001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3798609180841005e+01, 7.0817481437775001e+01, 2.9139574750380000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.3314839327657005e+01, 6.9453099273717001e+01, 3.1012293205479004e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9546725705591001e+01, 7.1212434169475998e+01, 2.7036309724622999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8913667499276002e+01, 7.3961985483471011e+01, 2.7618345329235002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.6011048380171999e+01, 7.4258672463744006e+01, 2.7669367930937998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5098310727485000e+01, 7.6955311450046992e+01, 2.7871568611761003e+01);
-  mol.emplace_back(AtomicNumber(7), 4.2282619003874998e+01, 7.6949642272079998e+01, 2.8170145318023000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.5607076952313996e+01, 7.2622169757270001e+01, 2.9188707626094001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7116968017525004e+01, 7.3024681392927008e+01, 3.1486614428717999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6056831737696001e+01, 7.5284793675770999e+01, 3.2945482892226003e+01);
-  mol.emplace_back(AtomicNumber(8), 5.4518594782650005e+01, 7.6656734743784995e+01, 3.1858890448551005e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9987461794815999e+01, 7.3470656726331001e+01, 3.0800643894710998e+01);
-  mol.emplace_back(AtomicNumber(8), 5.9974233712892996e+01, 7.6074699139172992e+01, 2.9903024049936000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0962560405139996e+01, 7.1751006076341000e+01, 2.8669032979118999e+01);
-  mol.emplace_back(AtomicNumber(7), 5.6941223500548006e+01, 7.5719430653241005e+01, 3.5228271886937996e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5949117356323001e+01, 7.7818916227019997e+01, 3.6787295827862998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6833509119174998e+01, 8.0385164120081996e+01, 3.5874558175176006e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5909433110553998e+01, 8.2335361340730003e+01, 3.6817531443687002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6538711864890999e+01, 7.7270895690209997e+01, 3.9567082757681995e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5147873536986999e+01, 7.5063695735058005e+01, 4.0782176568608996e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5384089285611999e+01, 7.5116608062750004e+01, 4.3643221715955001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2345409895300001e+01, 7.5061806009068988e+01, 4.0115103294492002e+01);
-  mol.emplace_back(AtomicNumber(7), 5.8564498125099000e+01, 8.0447525077718993e+01, 3.4011288350021999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9378970026358004e+01, 8.3034559956659990e+01, 3.3170360284917003e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8118522791695000e+01, 8.3811237338138994e+01, 3.0759069922953003e+01);
-  mol.emplace_back(AtomicNumber(8), 5.8972678938723000e+01, 8.5544116070051999e+01, 2.9415474744774002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2321273391230996e+01, 8.2992985984901992e+01, 3.2966269878105003e+01);
-  mol.emplace_back(AtomicNumber(8), 6.2689769959086000e+01, 8.1384829168262996e+01, 3.0736393211085002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.3602507611772992e+01, 8.1861040117491001e+01, 3.5284963666608000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.6164546119069001e+01, 8.2530003117597005e+01, 3.0018297335265000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4760479709242006e+01, 8.3072354476439997e+01, 2.7737398066542003e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5943448178356000e+01, 8.2216308603423002e+01, 2.5309100170677002e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5215903672591004e+01, 8.3112038722209007e+01, 2.3245519390689001e+01);
-  mol.emplace_back(AtomicNumber(7), 5.7755695401806996e+01, 8.0545790829146995e+01, 2.5501852221554998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8942443322898995e+01, 7.9391168249868002e+01, 2.3302211170358998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7559163898950999e+01, 7.6847597068673991e+01, 2.2922376246570000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.7169880345217003e+01, 7.5572032026098995e+01, 2.4817771413536999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1741127512607996e+01, 7.8833699083113004e+01, 2.3631023492445003e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2890080913920002e+01, 7.7641281984054004e+01, 2.1215953678503002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5690654829617998e+01, 7.7098930625210997e+01, 2.1675157093830002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7300701372245996e+01, 7.7189637472683003e+01, 1.9350794127360000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.6329382213900004e+01, 7.5726989557197001e+01, 1.7198396225889002e+01);
-  mol.emplace_back(AtomicNumber(7), 5.6999805006206998e+01, 7.6227766944281996e+01, 2.0571557116253999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5826285167038002e+01, 7.3737108090780012e+01, 2.0131250960817002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7625304308566001e+01, 7.2302806065129005e+01, 1.8385144146980998e+01);
-  mol.emplace_back(AtomicNumber(8), 5.8296157034661000e+01, 7.3415854672649999e+01, 1.6451954460233999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3125866728756996e+01, 7.3791910144460999e+01, 1.8925605779834999e+01);
-  mol.emplace_back(AtomicNumber(8), 5.1551724979920003e+01, 7.5063695735058005e+01, 2.0779426975044000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2133760584531998e+01, 7.1119837596015003e+01, 1.8358687983134999e+01);
-  mol.emplace_back(AtomicNumber(7), 5.8194111831255000e+01, 6.9948207482835002e+01, 1.9076783858955000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9942108371079996e+01, 6.8576266414821006e+01, 1.7340125675064002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8496467989494995e+01, 6.6539141798678997e+01, 1.5985192140951000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.6739022819724994e+01, 6.5418534287202007e+01, 1.7083122940559999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2351509007054993e+01, 6.7809037663287000e+01, 1.8772537974725999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2939213789633996e+01, 6.4970669227808997e+01, 1.8594903731759999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2566937769801001e+01, 6.8750121205808995e+01, 2.1609016684215000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5261687030114999e+01, 6.4303595953691996e+01, 2.0257862602079999e+01);
-  mol.emplace_back(AtomicNumber(7), 5.9042598800316000e+01, 6.6113953451153989e+01, 1.3600357942833000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7646091294445000e+01, 6.4031475411276006e+01, 1.2305895640368000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9354403588501000e+01, 6.1756245320520001e+01, 1.2181173725094000e+01);
-  mol.emplace_back(AtomicNumber(8), 6.1640972035190998e+01, 6.2005689151067997e+01, 1.1574571682625001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6863744734999003e+01, 6.4993345939676999e+01, 9.5960285721420000e+00);
-  mol.emplace_back(AtomicNumber(8), 5.9412985094160000e+01, 6.5220113058357001e+01, 8.4792005126430006e+00);
-  mol.emplace_back(AtomicNumber(6), 5.5595738596380002e+01, 6.7569042462683996e+01, 9.6735073376909995e+00);
-  mol.emplace_back(AtomicNumber(7), 5.8362297444276003e+01, 5.9498022763664999e+01, 1.2596913442674001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9860850153553002e+01, 5.7211454316974994e+01, 1.2545890840971001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8623079630757999e+01, 5.5346294765831999e+01, 1.0705297727685000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.6330842006101001e+01, 5.5548495446654996e+01, 1.0478530609005000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9643531664817999e+01, 5.6098405709453999e+01, 1.5202845581505001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1663648747059000e+01, 5.5641092020115998e+01, 1.7120917460339999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.3899194592046001e+01, 5.7428772805710004e+01, 1.7064225680669999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0367296718604997e+01, 5.5650540650061004e+01, 1.9721180421204000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.0157537133825997e+01, 5.3690894799467998e+01, 9.6848456936250003e+00);
-  mol.emplace_back(AtomicNumber(6), 5.8997245376579997e+01, 5.1666998265248999e+01, 8.0785786029750000e+00);
-  mol.emplace_back(AtomicNumber(6), 5.9412985094160000e+01, 4.9282164067130999e+01, 9.5998080241199997e+00);
-  mol.emplace_back(AtomicNumber(8), 6.1559713817663997e+01, 4.8758709968177996e+01, 1.0319793625929000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0144309051903001e+01, 5.1517709912118001e+01, 5.4688670121660001e+00);
-  mol.emplace_back(AtomicNumber(6), 5.9267476193006999e+01, 5.3687115347490000e+01, 3.7076423904180000e+00);
-  mol.emplace_back(AtomicNumber(6), 5.9849511797619002e+01, 5.3462237954799001e+01, 9.4108354252199999e-01);
-  mol.emplace_back(AtomicNumber(8), 5.8333951554441001e+01, 5.4085847531168994e+01, -6.9163971197399998e-01);
-  mol.emplace_back(AtomicNumber(8), 6.2049152848814998e+01, 5.2649655779528999e+01, 5.2534382494200005e-01);
-  mol.emplace_back(AtomicNumber(7), 5.7277594726589996e+01, 4.8108644227961996e+01, 1.0174284724776001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7236020754831998e+01, 4.5816406603305005e+01, 1.1703073049876998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5329287231930998e+01, 4.3892665546503004e+01, 1.0659944303949000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.3815616714741999e+01, 4.4450134713257995e+01, 8.9289552980249987e+00);
-  mol.emplace_back(AtomicNumber(6), 5.6508476249066995e+01, 4.6468362069510000e+01, 1.4484749705684999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8320723472517997e+01, 4.8180453815543999e+01, 1.5852911321720999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3811837262764001e+01, 4.7498262733515006e+01, 1.4560338745245000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.5520149556819995e+01, 4.1681686139372999e+01, 1.1776772363448000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3796719454852003e+01, 3.9570862209660000e+01, 1.1300561414220001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2570287287991000e+01, 3.8945362907301003e+01, 1.3825235335523999e+01);
-  mol.emplace_back(AtomicNumber(8), 5.3760814661061005e+01, 3.9068195096585995e+01, 1.5798109268039999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5204565316657003e+01, 3.7221932805332997e+01, 1.0404831295434001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6177774200992005e+01, 3.7331536912695000e+01, 7.6722875153399990e+00);
-  mol.emplace_back(AtomicNumber(6), 5.4337181087706000e+01, 3.7909793065328998e+01, 5.6276039952420005e+00);
-  mol.emplace_back(AtomicNumber(8), 5.2054392092994000e+01, 3.7779401972088003e+01, 5.6408320771649993e+00);
-  mol.emplace_back(AtomicNumber(8), 5.5437001613303998e+01, 3.8593873873346993e+01, 3.5980382830559998e+00);
-  mol.emplace_back(AtomicNumber(7), 5.0189232541850998e+01, 3.8210259497579997e+01, 1.3772323007832000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8809732569881000e+01, 3.7463817731924998e+01, 1.6051332550565999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0155217474049003e+01, 3.5398347225948001e+01, 1.7481855124238997e+01);
-  mol.emplace_back(AtomicNumber(8), 4.9762154468336995e+01, 3.5027960932104001e+01, 1.9760864666973003e+01);
-  mol.emplace_back(AtomicNumber(6), 4.6239705224841003e+01, 3.6532182819348002e+01, 1.5027101064528001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5918451806710998e+01, 3.8047743062526003e+01, 1.2668723030256000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8592414081145996e+01, 3.7998610186812002e+01, 1.1476305931197000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.1704792785028999e+01, 3.3937589036451001e+01, 1.6174164739850998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3014372895405998e+01, 3.1813537024815002e+01, 1.7404376358690001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5289602986161995e+01, 3.2726274677502005e+01, 1.8867024274176000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.6559498850769998e+01, 3.1137015120753002e+01, 2.0042433839333999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3900654384246998e+01, 2.9895465145980001e+01, 1.5461738041998000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.4700008477594004e+01, 3.1076543889105000e+01, 1.3165720965362999e+01);
-  mol.emplace_back(AtomicNumber(7), 5.5933999548411002e+01, 3.5147013669411002e+01, 1.8572227019891997e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8196001557243996e+01, 3.6061641048086997e+01, 1.9966844799774002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7619635130599001e+01, 3.6210929401217996e+01, 2.2752300907559999e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5495583118963005e+01, 3.6893120483246996e+01, 2.3510081029149003e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8874413187295005e+01, 3.8767728664335003e+01, 1.8987966737472000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0325722746846999e+01, 3.8618440311203997e+01, 1.6544551033695001e+01);
-  mol.emplace_back(AtomicNumber(8), 6.1402866560577003e+01, 3.6611551310886000e+01, 1.5979522962983999e+01);
-  mol.emplace_back(AtomicNumber(8), 6.0165096037782000e+01, 4.0443915616578003e+01, 1.5057336680352000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.9545265913390004e+01, 3.5783851327703999e+01, 2.4286758410628000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9333616602622001e+01, 3.6025736254296000e+01, 2.6996625478854000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9702113170476999e+01, 3.8839538251916998e+01, 2.7693934368794999e+01);
-  mol.emplace_back(AtomicNumber(8), 6.0771698080250999e+01, 4.0271950551579003e+01, 2.6193491933529000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1400976834587993e+01, 3.4379784917877004e+01, 2.8336441205054999e+01);
-  mol.emplace_back(AtomicNumber(8), 6.3831164456441996e+01, 3.5411575307871004e+01, 2.7431262456323999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1136415196127992e+01, 3.1558424016299998e+01, 2.7646691219070000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.8795044695756999e+01, 3.9425353308506999e+01, 2.9971054185539998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9125746743832003e+01, 4.1953806681789004e+01, 3.1023631561413001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1937659015464007e+01, 4.2554739546290996e+01, 3.1325987719653003e+01);
-  mol.emplace_back(AtomicNumber(8), 6.2801263792436991e+01, 4.4709027173750997e+01, 3.0961270603776001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7674437184280002e+01, 4.2140889554700003e+01, 3.3569092468595997e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4813392036933998e+01, 4.1655229975527000e+01, 3.2960600700138002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8264031692848000e+01, 4.4784616213311004e+01, 3.4691589706062004e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3681446169522999e+01, 4.3365431995572003e+01, 3.0927255535973998e+01);
-  mol.emplace_back(AtomicNumber(7), 6.3396527478972004e+01, 4.0678241639214001e+01, 3.2030855513550001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.6198991120659002e+01, 4.1048627933058000e+01, 3.2255732906241001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7302591098234998e+01, 4.1933019695910005e+01, 2.9780191860651001e+01);
-  mol.emplace_back(AtomicNumber(8), 6.9035469830147989e+01, 4.3550625142493999e+01, 2.9714051451035999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7400856849663001e+01, 3.8518284833787000e+01, 3.2970049330083000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0161746519592000e+01, 3.8348209494776995e+01, 3.3773182875407997e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0979997872829003e+01, 3.5623224618639000e+01, 3.4170025333098003e+01);
-  mol.emplace_back(AtomicNumber(8), 7.1352273892661998e+01, 3.4060421225736000e+01, 3.2493838380855003e+01);
-  mol.emplace_back(AtomicNumber(8), 7.1106609514092000e+01, 3.5147013669411002e+01, 3.6496278025556997e+01);
-  mol.emplace_back(AtomicNumber(7), 6.6403081527471002e+01, 4.0863434786135997e+01, 2.7707162450718002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7255347948510007e+01, 4.1470036828605004e+01, 2.5137135105677999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.6590164400381994e+01, 4.4185573074798000e+01, 2.4415259777879999e+01);
-  mol.emplace_back(AtomicNumber(8), 6.8154857519274003e+01, 4.5559403868801006e+01, 2.3305990622336999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.6261352078295999e+01, 3.9602987551472999e+01, 2.3158591995195000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7162751375048998e+01, 4.0474151232402001e+01, 2.0543211226419000e+01);
-  mol.emplace_back(AtomicNumber(8), 6.9489004067507992e+01, 4.0861545060147002e+01, 2.0174714658564000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.5437431547092004e+01, 4.0808632732454996e+01, 1.8746081810880000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.4263911707923000e+01, 4.4871543608804998e+01, 2.5038869354250000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.3368181589137002e+01, 4.7426453145933003e+01, 2.4524863885241999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5084052787149005e+01, 4.9319958586911000e+01, 2.5859010433475998e+01);
-  mol.emplace_back(AtomicNumber(8), 6.5919311674287002e+01, 5.1192677042009997e+01, 2.4742182373976998e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0584615207340001e+01, 4.7728809304173005e+01, 2.5254298116996001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9874078235475999e+01, 5.0548280479760997e+01, 2.5212724145238003e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8868744009328005e+01, 4.6148998377368997e+01, 2.3578111164753000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.5637742501925999e+01, 4.8796504487957996e+01, 2.8249513809560998e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7266686304443994e+01, 5.0484029796134998e+01, 2.9736728162904001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.9872618443275002e+01, 5.0693789380913998e+01, 2.8548090515822999e+01);
-  mol.emplace_back(AtomicNumber(8), 7.1014012940631005e+01, 5.2772487968813998e+01, 2.8646356267251001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7491563697135007e+01, 4.9516490089766997e+01, 3.2450374683108002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.4898859640227002e+01, 4.9973803779104998e+01, 3.3822315751121998e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5212554154401005e+01, 4.9278384615153001e+01, 3.6585095147040001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2750241190734009e+01, 4.9720580496578997e+01, 3.8025066350658001e+01);
-  mol.emplace_back(AtomicNumber(7), 6.3220782961994999e+01, 4.8962800374990003e+01, 4.0716036158994001e+01);
-  mol.emplace_back(AtomicNumber(7), 7.0862834861511004e+01, 4.8647216134826998e+01, 2.7535197385718998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3310030017265987e+01, 4.8681231202629000e+01, 2.6229396727320001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3185308101992007e+01, 5.0249703773499000e+01, 2.3831334447279001e+01);
-  mol.emplace_back(AtomicNumber(8), 7.5029680667256002e+01, 5.1676446895193997e+01, 2.3200165966952998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.4237885477864992e+01, 4.5988371668303998e+01, 2.5636022766774001e+01);
-  mol.emplace_back(AtomicNumber(7), 7.1116058144036998e+01, 5.0158996926027001e+01, 2.2425378311463003e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0809922533818991e+01, 5.1761484564698996e+01, 2.0159596850651997e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0753230754149001e+01, 5.4579066014298000e+01, 2.0885251630427998e+01);
-  mol.emplace_back(AtomicNumber(8), 7.1847382101779999e+01, 5.6260922144507994e+01, 1.9619135217798000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8394852719876994e+01, 5.1132205810362002e+01, 1.8729074276978999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8319263680316993e+01, 4.8414779838180003e+01, 1.7780431830501001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5683095925662002e+01, 4.7772273001919999e+01, 1.6818561302100001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5749236335277004e+01, 4.5852311397095995e+01, 1.4677501756563000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.5977893179946008e+01, 4.7137325069615997e+01, 1.2171725095149000e+01);
-  mol.emplace_back(AtomicNumber(7), 6.9562703381079004e+01, 5.5123307099130002e+01, 2.3039539257887999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.9411525301959003e+01, 5.7768923483729999e+01, 2.3895585130904998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2089267028372007e+01, 5.8545600865209003e+01, 2.4696828950241002e+01);
-  mol.emplace_back(AtomicNumber(8), 7.2837598520015987e+01, 6.0754690546349998e+01, 2.4294317314583999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7478335615212004e+01, 5.8158207037464003e+01, 2.6089557004133997e+01);
-  mol.emplace_back(AtomicNumber(6), 6.4681541151491999e+01, 5.7882307043070000e+01, 2.5169260447491002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7792030129386006e+01, 6.0732013834481997e+01, 2.7423703552368000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.2897639817875998e+01, 5.7644201568456005e+01, 2.7499292591928000e+01);
-  mol.emplace_back(AtomicNumber(7), 7.3478215630287011e+01, 5.6899649528790000e+01, 2.5913812487156999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6097375851040994e+01, 5.7651760472412001e+01, 2.6673482334734999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.7652620339987990e+01, 5.8218678269111997e+01, 2.4284868684639001e+01);
-  mol.emplace_back(AtomicNumber(8), 7.9043458667892011e+01, 6.0108404258112003e+01, 2.3963615266508999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.7471206645044006e+01, 5.5556054350610999e+01, 2.8090776826485001e+01);
-  mol.emplace_back(AtomicNumber(6), 8.0209419603105005e+01, 5.6404541319671999e+01, 2.8689819964998001e+01);
-  mol.emplace_back(AtomicNumber(6), 8.1428292866010011e+01, 5.4477020810892000e+01, 3.0415139792954999e+01);
-  mol.emplace_back(AtomicNumber(8), 8.0823580549530007e+01, 5.2260372225795003e+01, 3.0057981581033999e+01);
-  mol.emplace_back(AtomicNumber(7), 8.2955191465121999e+01, 5.5278264630227994e+01, 3.2219828112450003e+01);
-  mol.emplace_back(AtomicNumber(7), 7.7480655274988990e+01, 5.6461233099342003e+01, 2.2546320774759000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8835588809102006e+01, 5.6733353641757994e+01, 2.0112353700927002e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8232766218611005e+01, 5.9220233043282001e+01, 1.8834898932363000e+01);
-  mol.emplace_back(AtomicNumber(8), 7.9859820295139997e+01, 6.0539261783604005e+01, 1.7727519502808999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8230876492622002e+01, 5.4386313963420001e+01, 1.8538211952090002e+01);
-  mol.emplace_back(AtomicNumber(6), 8.0551460007114002e+01, 5.3964905067872998e+01, 1.6871473629792000e+01);
-  mol.emplace_back(AtomicNumber(8), 8.2516775035673987e+01, 5.3407435901117999e+01, 1.8026096209071000e+01);
-  mol.emplace_back(AtomicNumber(8), 8.0181073713269996e+01, 5.4446785195068003e+01, 1.4603802442992000e+01);
-  mol.emplace_back(AtomicNumber(7), 7.5810137500712997e+01, 5.9998800150750000e+01, 1.8874583178131999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.5226212170112007e+01, 6.2349619281065998e+01, 1.7447840056437002e+01);
-  mol.emplace_back(AtomicNumber(6), 7.5281014223793008e+01, 6.4762799369019007e+01, 1.8887811260054999e+01);
-  mol.emplace_back(AtomicNumber(8), 7.5898954622196001e+01, 6.6750791109447007e+01, 1.7659489367205001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2971769065235009e+01, 6.1984902165189006e+01, 1.5722520228480001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0335601310580003e+01, 6.2024586410958008e+01, 1.6680611304903000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8693429426139005e+01, 6.3519359668256996e+01, 1.4811672301782000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8638627372458004e+01, 6.2255132981616008e+01, 1.2239755230753001e+01);
-  mol.emplace_back(AtomicNumber(7), 6.7591719174551997e+01, 6.4146748696605002e+01, 1.0372705953620999e+01);
-  mol.emplace_back(AtomicNumber(7), 7.4937084093795008e+01, 6.4883741832314996e+01, 2.1325557785865001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.4976768339564003e+01, 6.7174089730982999e+01, 2.2812772139207997e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6864604602575000e+01, 6.7136295211203006e+01, 2.4944383054799999e+01);
-  mol.emplace_back(AtomicNumber(8), 7.7127276515046006e+01, 6.9027910926191993e+01, 2.6287978232979000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2357608118809992e+01, 6.7678646570045998e+01, 2.3995740608322002e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0214658847283999e+01, 6.8001789714165000e+01, 2.2087117359432000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.0282688982888004e+01, 7.0602052675029000e+01, 2.0849346836637000e+01);
-  mol.emplace_back(AtomicNumber(8), 7.0900629381290997e+01, 7.2489888938039996e+01, 2.2005859141904999e+01);
-  mol.emplace_back(AtomicNumber(8), 6.9657189680529001e+01, 7.0524573909479997e+01, 1.8560888663958000e+01);
-  mol.emplace_back(AtomicNumber(7), 7.8077808687512999e+01, 6.4993345939676999e+01, 2.5382799484248000e+01);
-  mol.emplace_back(AtomicNumber(6), 8.0020447004204996e+01, 6.4759019917041002e+01, 2.7270635747259000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.9272115512561001e+01, 6.4394302801164002e+01, 2.9937039117737999e+01);
-  mol.emplace_back(AtomicNumber(8), 8.0935074382880998e+01, 6.4250683625999997e+01, 3.1632123329871000e+01);
-  mol.emplace_back(AtomicNumber(7), 7.6802243644938002e+01, 6.4091946642924000e+01, 3.0447265134767996e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6016117633514000e+01, 6.3714001445124005e+01, 3.3087212341400999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6437526529061003e+01, 6.0996575472941998e+01, 3.3911132872605002e+01);
-  mol.emplace_back(AtomicNumber(8), 7.5468097096704000e+01, 5.9216453591303996e+01, 3.2720605499535004e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3119167692376990e+01, 6.4450994580834006e+01, 3.3249728776455001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2699648522818990e+01, 6.7172200004993996e+01, 3.2210379482505004e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2085487576394002e+01, 6.4122182258747998e+01, 3.5955816392702999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.9840493101462002e+01, 6.7550145202793999e+01, 3.1520629496519998e+01);
-  mol.emplace_back(AtomicNumber(7), 7.7835923760921006e+01, 6.0631858357064999e+01, 3.5963375296658995e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8349929229929003e+01, 5.8110963887739004e+01, 3.7027291028466003e+01);
-  mol.emplace_back(AtomicNumber(6), 7.5906513526151997e+01, 5.6740912545713996e+01, 3.7639562248901996e+01);
-  mol.emplace_back(AtomicNumber(8), 7.4198201232096011e+01, 5.7942778274717995e+01, 3.8779067020269004e+01);
-  mol.emplace_back(AtomicNumber(6), 7.9736988105855005e+01, 5.8849846749438001e+01, 3.9519839607957003e+01);
-  mol.emplace_back(AtomicNumber(6), 8.1076803832056001e+01, 6.1253578207446004e+01, 3.8839538251916998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.9032120311958010e+01, 6.2716226122932007e+01, 3.7441141020056996e+01);
-  mol.emplace_back(AtomicNumber(7), 7.5700533393350995e+01, 5.4344739991661996e+01, 3.7051857466323000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3353493715013002e+01, 5.2950122211779998e+01, 3.7584760195221001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2605162223368993e+01, 5.3003034539471997e+01, 4.0328642331249000e+01);
-  mol.emplace_back(AtomicNumber(8), 7.0322373228657000e+01, 5.2980357827604003e+01, 4.1014612865255998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3869388910010002e+01, 5.0321513361081003e+01, 3.6518954737424998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.5743997091097995e+01, 5.0841188008056001e+01, 3.4389233547822002e+01);
-  mol.emplace_back(AtomicNumber(6), 7.7544905958614990e+01, 5.2740362627000998e+01, 3.5676136946330999e+01);
-  mol.emplace_back(AtomicNumber(7), 7.4406071090886002e+01, 5.3082403031010003e+01, 4.2027505995359995e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3818366308307006e+01, 5.3031380429306999e+01, 4.4777057309355001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2499337567985009e+01, 5.5435111887315003e+01, 4.5653890168250996e+01);
-  mol.emplace_back(AtomicNumber(8), 7.1212434169475998e+01, 5.5539046816709998e+01, 4.7660779168569000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6231546396260001e+01, 5.2330292087388003e+01, 4.6237815498852001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6645396387850994e+01, 5.4017817395565004e+01, 4.8518714767574998e+01);
-  mol.emplace_back(AtomicNumber(8), 7.6942083368124003e+01, 5.6330842006101001e+01, 4.8104864775983998e+01);
-  mol.emplace_back(AtomicNumber(8), 7.6626499127960997e+01, 5.3082403031010003e+01, 5.0720245544759997e+01);
-  mol.emplace_back(AtomicNumber(7), 7.2601382771390988e+01, 5.7396647463897004e+01, 4.4108094309249005e+01);
-  mol.emplace_back(AtomicNumber(6), 7.1314479372882005e+01, 5.9785261113993002e+01, 4.4809182651168001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8661304084326005e+01, 5.9983682342838001e+01, 4.3628103908043002e+01);
-  mol.emplace_back(AtomicNumber(8), 6.7225112332685995e+01, 6.1639082309202003e+01, 4.4376435399687004e+01);
-  mol.emplace_back(AtomicNumber(6), 7.2807362904192004e+01, 6.2085057642605996e+01, 4.3807627876997998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.5435971754891000e+01, 6.2085057642605996e+01, 4.5051067577760001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.7025231311639999e+01, 6.4318713761604002e+01, 4.4208249786665995e+01);
-  mol.emplace_back(AtomicNumber(8), 7.9321248388275009e+01, 6.4265801433912003e+01, 4.4642886764135994e+01);
-  mol.emplace_back(AtomicNumber(7), 7.5853601198459998e+01, 6.6153637696922999e+01, 4.3038509399474997e+01);
-  mol.emplace_back(AtomicNumber(7), 6.8030135603999994e+01, 5.8316944020539999e+01, 4.1899004628108003e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5645301405881995e+01, 5.8345289910375001e+01, 4.0578086161796996e+01);
-  mol.emplace_back(AtomicNumber(6), 6.3474006244521000e+01, 5.7048937881920999e+01, 4.1916012162009004e+01);
-  mol.emplace_back(AtomicNumber(8), 6.3456998710619999e+01, 5.4819061214900998e+01, 4.2516945026510996e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5906083592363998e+01, 5.7139644729392998e+01, 3.7919241695273996e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8052812315867996e+01, 5.8316944020539999e+01, 3.6322423234569001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.8186982861087003e+01, 5.7058386511865997e+01, 3.3778852053374997e+01);
-  mol.emplace_back(AtomicNumber(8), 6.6231116462472002e+01, 5.6128641325278004e+01, 3.2868004126677000e+01);
-  mol.emplace_back(AtomicNumber(7), 7.0350719118492009e+01, 5.6929885144614005e+01, 3.2565647968436998e+01);
-  mol.emplace_back(AtomicNumber(7), 6.1374520670742001e+01, 5.8424658401913000e+01, 4.2082308049040996e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8959450856799997e+01, 5.7313499520381001e+01, 4.3047958029420002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7088622127690002e+01, 5.7653650198401003e+01, 4.0912567661849998e+01);
-  mol.emplace_back(AtomicNumber(8), 5.6650205698242004e+01, 5.9953446727013997e+01, 4.0192582060040998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8292377582683002e+01, 5.8451114565758999e+01, 4.5576411402702000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5580620788467996e+01, 5.8196001557243996e+01, 4.6483479877421999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5314169424018999e+01, 5.9174879619545997e+01, 4.9163111329823998e+01);
-  mol.emplace_back(AtomicNumber(7), 5.2676111943374998e+01, 5.9180548797512998e+01, 4.9970024327127000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1272045533548003e+01, 6.1270585741347006e+01, 5.0217578431686000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.2213129076069997e+01, 6.3600617885783997e+01, 5.0004039394928995e+01);
-  mol.emplace_back(AtomicNumber(7), 4.8773827776089995e+01, 6.1036259718711001e+01, 5.0516155137947997e+01);
-  mol.emplace_back(AtomicNumber(7), 5.6113523517365998e+01, 5.5625974212204000e+01, 3.9786290972406000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4352298895617999e+01, 5.5884866672697001e+01, 3.7616885537034001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1648101005358996e+01, 5.5401096819513000e+01, 3.8482380039996002e+01);
-  mol.emplace_back(AtomicNumber(8), 5.1213464027888996e+01, 5.3566172884194003e+01, 3.9867549189933001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5087402305338998e+01, 5.4150098214795001e+01, 3.5441810923694995e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7477905681423998e+01, 5.4635757793967997e+01, 3.3977273282220004e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8086397449882000e+01, 5.2332181813377005e+01, 3.2355888383657998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7079173497744996e+01, 5.7009253636151996e+01, 3.2369116465581001e+01);
-  mol.emplace_back(AtomicNumber(7), 4.9956796245203996e+01, 5.7130196099448000e+01, 3.7802078683956005e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7307400408625995e+01, 5.7013033088130001e+01, 3.8552299901589002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5544286060889000e+01, 5.6973348842360998e+01, 3.6275180084844003e+01);
-  mol.emplace_back(AtomicNumber(8), 4.5723810029844003e+01, 5.8483239907571999e+01, 3.4557419160842997e+01);
-  mol.emplace_back(AtomicNumber(6), 4.6560958642971002e+01, 5.9386528930314000e+01, 4.0224707401854005e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8463912713894004e+01, 5.9847622071630006e+01, 4.2369546399369000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3805738151009002e+01, 5.9165430989600999e+01, 4.1241379983936000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8713356544442000e+01, 5.7515700201203998e+01, 4.4136440199084007e+01);
-  mol.emplace_back(AtomicNumber(7), 4.3730149111448995e+01, 5.5155432440943002e+01, 3.6360217754349001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.1812077232614001e+01, 5.4919216692318003e+01, 3.4360887657987000e+01);
-  mol.emplace_back(AtomicNumber(6), 3.9372440980815000e+01, 5.4100965339081000e+01, 3.5723380096055998e+01);
-  mol.emplace_back(AtomicNumber(8), 3.9345984816969001e+01, 5.2409660578926001e+01, 3.7320198556761000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2507496396565998e+01, 5.3020042073372998e+01, 3.2331321945801001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0528953286082995e+01, 5.2664773587440997e+01, 3.0284748699714001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0298406715424996e+01, 5.4448674921056998e+01, 2.8355338464945003e+01);
-  mol.emplace_back(AtomicNumber(6), 3.9000164960982005e+01, 5.0521824315914998e+01, 3.0335771301417001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.8491828669941000e+01, 5.4136870132871998e+01, 2.6458053571988998e+01);
-  mol.emplace_back(AtomicNumber(6), 3.7184138285552997e+01, 5.0151438022071005e+01, 2.8442265860439001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.7025401302477000e+01, 5.1901324287884997e+01, 2.6495848091769002e+01);
-  mol.emplace_back(AtomicNumber(7), 3.7435471842089996e+01, 5.5516370104841997e+01, 3.5107329423642000e+01);
-  mol.emplace_back(AtomicNumber(6), 3.4852216415127003e+01, 5.5072284497426999e+01, 3.6061641048086997e+01);
-  mol.emplace_back(AtomicNumber(6), 3.4871113675017000e+01, 5.4690559847648998e+01, 3.8911347839499001e+01);
-  mol.emplace_back(AtomicNumber(8), 3.3750506163539995e+01, 5.2900989336065997e+01, 3.9926130695592001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.3758065067495998e+01, 5.2868863994252997e+01, 3.4668912994194002e+01);
-  mol.emplace_back(AtomicNumber(7), 3.6229826661108000e+01, 5.6328952280111999e+01, 4.0143449184326997e+01);
-  mol.emplace_back(AtomicNumber(6), 3.6658794460610999e+01, 5.6491468715165993e+01, 4.2811742280795002e+01);
-  mol.emplace_back(AtomicNumber(6), 3.7951367037086996e+01, 5.4289937937981001e+01, 4.4070299789469004e+01);
-  mol.emplace_back(AtomicNumber(8), 3.7777512246099000e+01, 5.4015927669576001e+01, 4.6413560015828999e+01);
-  mol.emplace_back(AtomicNumber(7), 3.9308190297189000e+01, 5.2781936598759003e+01, 4.2666233379642001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0723595062950004e+01, 5.0637097601244001e+01, 4.3715031303536996e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3550625142493999e+01, 5.1187007864042997e+01, 4.3299291585957000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.4187462800786996e+01, 5.2207459898102996e+01, 4.1328307379430001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0141559458338001e+01, 4.8223917513290999e+01, 4.2312854619698996e+01);
-  mol.emplace_back(AtomicNumber(6), 3.7344764994618004e+01, 4.7388658626153003e+01, 4.2433797082995000e+01);
-  mol.emplace_back(AtomicNumber(6), 3.7102880068026003e+01, 4.5136105247265000e+01, 4.0687690269158999e+01);
-  mol.emplace_back(AtomicNumber(6), 3.5509841059298999e+01, 4.5771053179569002e+01, 3.8386004014556995e+01);
-  mol.emplace_back(AtomicNumber(7), 3.2956821248160004e+01, 4.6591194258794999e+01, 3.9357323172903001e+01);
-  mol.emplace_back(AtomicNumber(7), 4.5126656617319995e+01, 5.0506706508002999e+01, 4.5071854563639000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7902664095161001e+01, 5.0780716776407999e+01, 4.4678791557926999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8647216134826998e+01, 4.8350529154553996e+01, 4.3316299119858002e+01);
-  mol.emplace_back(AtomicNumber(8), 4.7857310671424997e+01, 4.6277499744621004e+01, 4.4178014170841998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9265156533229998e+01, 5.1069844852724998e+01, 4.7167560685440002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2067620174917003e+01, 5.1695344155084001e+01, 4.6666783298355000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3407435901117999e+01, 5.2111083872664004e+01, 4.9170670233780001e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5159211892921000e+01, 5.0720245544759997e+01, 4.9765933920315000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.2490918796453002e+01, 5.4017817395565004e+01, 5.0529383219871001e+01);
-  mol.emplace_back(AtomicNumber(7), 5.0011598298884998e+01, 4.8545170931420998e+01, 4.1258387517836994e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0693789380913998e+01, 4.6337970976268998e+01, 3.9706922480868002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2900989336065997e+01, 4.4939573744408996e+01, 4.0899339579927002e+01);
-  mol.emplace_back(AtomicNumber(8), 5.4620639986055998e+01, 4.6192462075115998e+01, 4.1759164904921995e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1103859920527000e+01, 4.7228031917088003e+01, 3.6983827330719002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9002484620758999e+01, 4.8838078459716002e+01, 3.5827315025451000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9516490089766997e+01, 4.9289722971086995e+01, 3.3015402753819004e+01);
-  mol.emplace_back(AtomicNumber(6), 4.6443795631653003e+01, 4.7602197662910001e+01, 3.6054082144131002e+01);
-  mol.emplace_back(AtomicNumber(7), 5.2802723584638002e+01, 4.2420569001072003e+01, 4.0908788209872000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4830399570834999e+01, 4.0925795743773001e+01, 4.2118212842832001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6582175562638000e+01, 3.9884556723834002e+01, 4.0137780006359996e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5690224895829999e+01, 3.9073864274552996e+01, 3.8153567717910001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3569952336172001e+01, 3.8814971814060002e+01, 4.3588419662273999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5268816000283003e+01, 3.6766508841983999e+01, 4.4795954569244998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.4276709856058005e+01, 3.5993610912483000e+01, 4.7367871640273997e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5064725593470996e+01, 3.4264511632548000e+01, 4.8652885312793998e+01);
-  mol.emplace_back(AtomicNumber(8), 5.2490918796453002e+01, 3.7495943073737998e+01, 4.7936679162963003e+01);
-  mol.emplace_back(AtomicNumber(7), 5.9021811814437001e+01, 3.9854321108009998e+01, 4.0551629997950997e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0966339857118001e+01, 3.9060636192630000e+01, 3.8765838938346000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0713116574592000e+01, 3.6592654050996003e+01, 3.7322088282750002e+01);
-  mol.emplace_back(AtomicNumber(8), 6.1503022037994000e+01, 3.6503836929513000e+01, 3.5069534903861999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.3566602817981995e+01, 3.9147563588124001e+01, 4.0141559458338001e+01);
-  mol.emplace_back(AtomicNumber(6), 6.4579495948086006e+01, 4.1817746410581002e+01, 4.0353208769105997e+01);
-  mol.emplace_back(AtomicNumber(8), 6.6616620564228000e+01, 4.2182463526458001e+01, 4.1494603266461993e+01);
-  mol.emplace_back(AtomicNumber(8), 6.3388968575015994e+01, 4.3626214182053999e+01, 3.9463147828286999e+01);
-  mol.emplace_back(AtomicNumber(7), 5.9898644673332996e+01, 3.4602772584579000e+01, 3.8561748531534001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.9654870020752000e+01, 3.2053532225417996e+01, 3.7463817731924998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7296491986480000e+01, 3.1554644564322000e+01, 3.6001169816438995e+01);
-  mol.emplace_back(AtomicNumber(8), 5.7065945415822000e+01, 2.9587439809772999e+01, 3.4706707513974003e+01);
-  mol.emplace_back(AtomicNumber(7), 5.5444560517260001e+01, 3.3247839050466006e+01, 3.6048412966164001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3116418098811998e+01, 3.2954931522171002e+01, 3.4536632174963998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3620974937874998e+01, 3.4013178076010995e+01, 3.1911802776243000e+01);
-  mol.emplace_back(AtomicNumber(8), 5.5418104353414002e+01, 3.5500392429354001e+01, 3.1539526756410002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0882761979813999e+01, 3.4376005465898999e+01, 3.5700703384187996e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0306395553168997e+01, 3.3635232878210999e+01, 3.8459703328128001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9151772973890004e+01, 3.0934814439930001e+01, 3.8323643056920005e+01);
-  mol.emplace_back(AtomicNumber(7), 5.0975358553275001e+01, 2.9330437075269000e+01, 3.9574641661637997e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2162106474367000e+01, 2.7255517939347001e+01, 3.9032290302795005e+01);
-  mol.emplace_back(AtomicNumber(7), 5.1927780451730996e+01, 2.5951607006937000e+01, 3.6919576647092995e+01);
-  mol.emplace_back(AtomicNumber(7), 5.3893095480290995e+01, 2.6393802888363002e+01, 4.0723595062950004e+01);
-  mol.emplace_back(AtomicNumber(7), 5.1986361957390002e+01, 3.3427363019421001e+01, 3.0148688428506002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2107304420686006e+01, 3.4377895191888001e+01, 2.7520079577807000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.0043723640697998e+01, 3.6433917067920000e+01, 2.7272525473247999e+01);
-  mol.emplace_back(AtomicNumber(8), 4.8393992852301004e+01, 3.6638007474732007e+01, 2.8888241193843001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1587629773711001e+01, 3.2229276742395001e+01, 2.5573661809137000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.8991146264824998e+01, 3.1390238403279000e+01, 2.6291757684957002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3358303025403998e+01, 2.9978613089496001e+01, 2.5620904958861999e+01);
-  mol.emplace_back(AtomicNumber(7), 5.0238365417564999e+01, 3.7913572517306996e+01, 2.5280754280842000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8365646962466002e+01, 3.9890225901801003e+01, 2.4702498128207999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5808847699349002e+01, 3.8618440311203997e+01, 2.4296207040572998e+01);
-  mol.emplace_back(AtomicNumber(8), 4.3962585408095997e+01, 3.9591649195538999e+01, 2.5188157707381002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9291612697075998e+01, 4.1362322447232003e+01, 2.2361127627837000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1827624974313999e+01, 4.2738042967223997e+01, 2.2491518721077998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.2379424963101997e+01, 4.4108094309249005e+01, 1.9989521511642000e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1740697578819997e+01, 4.4826190185069002e+01, 2.4481400187495002e+01);
-  mol.emplace_back(AtomicNumber(7), 4.5806957973359999e+01, 3.6345099946437003e+01, 2.3141584461294002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3320078571836000e+01, 3.5116778053586998e+01, 2.2723955017725000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2006719009480996e+01, 3.4476160943315996e+01, 2.5180598803424999e+01);
-  mol.emplace_back(AtomicNumber(8), 3.9614325907407000e+01, 3.4493168477216997e+01, 2.5312879622655000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3575191580351003e+01, 3.2741392485414003e+01, 2.1078003681306001e+01);
-  mol.emplace_back(AtomicNumber(8), 4.5190907300946002e+01, 3.0982057589655000e+01, 2.2213729000695000e+01);
-  mol.emplace_back(AtomicNumber(7), 4.3458028569032997e+01, 3.3973493830242006e+01, 2.7147803557974001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2363877221401999e+01, 3.3330986993982002e+01, 2.9655469945377000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0553519723939999e+01, 3.5407795855892999e+01, 3.0543641160206999e+01);
-  mol.emplace_back(AtomicNumber(8), 3.8733713596533001e+01, 3.4971269152433997e+01, 3.1936369214099997e+01);
-  mol.emplace_back(AtomicNumber(6), 4.4334861427928999e+01, 3.2750841115359002e+01, 3.1635902781848998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5701133317976002e+01, 3.0265851439823997e+01, 3.1405356211190998e+01);
-  mol.emplace_back(AtomicNumber(8), 4.7815736699666999e+01, 3.0035304869166001e+01, 3.2412580163328002e+01);
-  mol.emplace_back(AtomicNumber(8), 4.4544621012707999e+01, 2.8548090515822999e+01, 3.0188372674274998e+01);
-  mol.emplace_back(AtomicNumber(7), 4.1282953955693998e+01, 3.7707592384506000e+01, 3.0056091855045000e+01);
-  mol.emplace_back(AtomicNumber(6), 3.9833534122130999e+01, 3.9965814941361003e+01, 3.0709937047239002e+01);
-  mol.emplace_back(AtomicNumber(6), 3.8062860870438001e+01, 4.0799184102509997e+01, 2.8627459007360997e+01);
-  mol.emplace_back(AtomicNumber(8), 3.6847767059511000e+01, 4.2792845020904998e+01, 2.8952491877469001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.1734598467064998e+01, 4.2053962159206002e+01, 3.1333546623608999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3359762817605002e+01, 4.1481375184538997e+01, 3.3608776714365000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5867429205007994e+01, 4.0712256707016003e+01, 3.3342325349915996e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2399782015193004e+01, 4.1870658738273001e+01, 3.6027625980285002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7341415476427997e+01, 4.0222817675865002e+01, 3.5481495169463997e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3849201848756003e+01, 4.1398227241023001e+01, 3.8157347169887998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.6330412072312996e+01, 4.0572416983829996e+01, 3.7851211559669999e+01);
-  mol.emplace_back(AtomicNumber(8), 4.7711801770272004e+01, 4.0254943017678002e+01, 4.0045183432898995e+01);
-  mol.emplace_back(AtomicNumber(7), 3.7781291698076998e+01, 3.9465037554276002e+01, 2.6548760419461001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.6027625980285002e+01, 4.0349429317127999e+01, 2.4564548131011001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.6740052678137999e+01, 4.2981817619805000e+01, 2.3640472122390001e+01);
-  mol.emplace_back(AtomicNumber(8), 3.5094101341719004e+01, 4.4616430600290002e+01, 2.3222842678820999e+01);
-  mol.emplace_back(AtomicNumber(6), 3.3232721242554000e+01, 4.0217148497898002e+01, 2.5437601537929002e+01);
-  mol.emplace_back(AtomicNumber(6), 3.1324097993664001e+01, 4.0171795074161999e+01, 2.3271975554535000e+01);
-  mol.emplace_back(AtomicNumber(8), 2.9177369270160000e+01, 4.1231931353991001e+01, 2.3391028291842002e+01);
-  mol.emplace_back(AtomicNumber(7), 3.1981722637836000e+01, 3.8901899209553996e+01, 2.1195166692623999e+01);
-  mol.emplace_back(AtomicNumber(7), 3.9149453314112996e+01, 4.3395667611396000e+01, 2.3168040625139998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0031955350975998e+01, 4.5850421671107000e+01, 2.2090896811409998e+01);
-  mol.emplace_back(AtomicNumber(6), 3.9892115627789998e+01, 4.5563183320779004e+01, 1.9224182486097000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.1273505325748999e+01, 4.3837863492822002e+01, 1.8303885929454001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2802293650849997e+01, 4.6328522346323993e+01, 2.3001744738108002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2824970362717998e+01, 4.6901109320990997e+01, 2.5887356323311000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.4174234718864000e+01, 4.8462022987905002e+01, 2.1559883808501002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5585860032647005e+01, 4.7207244931209004e+01, 2.6824660413855000e+01);
-  mol.emplace_back(AtomicNumber(7), 3.8344430042798997e+01, 4.7006933976375002e+01, 1.7965624977422998e+01);
-  mol.emplace_back(AtomicNumber(6), 3.7947587585108998e+01, 4.6814181925496996e+01, 1.5180168869636999e+01);
-  mol.emplace_back(AtomicNumber(6), 3.9347874542957996e+01, 4.8970359278946006e+01, 1.3855470951348000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.0294627263446998e+01, 5.0701348284869994e+01, 1.5132925719911999e+01);
-  mol.emplace_back(AtomicNumber(6), 3.5147013669411002e+01, 4.6744262063904003e+01, 1.4601912717003001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.3673027397991000e+01, 4.4283838826226003e+01, 1.4928835313100000e+01);
-  mol.emplace_back(AtomicNumber(6), 3.1197486352401000e+01, 4.4463362795180998e+01, 1.3447290137724000e+01);
-  mol.emplace_back(AtomicNumber(8), 2.9188707626094001e+01, 4.3425903227219997e+01, 1.4046333276237000e+01);
-  mol.emplace_back(AtomicNumber(7), 3.1254178132071004e+01, 4.5907113450776997e+01, 1.1355363467901000e+01);
-  mol.emplace_back(AtomicNumber(7), 3.9540626593836002e+01, 4.8872093527517997e+01, 1.1349694289934000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0923906017783999e+01, 5.0733473626683001e+01, 9.9021641823600000e+00);
-  mol.emplace_back(AtomicNumber(6), 3.9924240969602998e+01, 5.3365861929359994e+01, 1.0533332662686000e+01);
-  mol.emplace_back(AtomicNumber(8), 3.7715151288461996e+01, 5.3791050276885002e+01, 1.1039779227737998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0876662868059000e+01, 5.0346079798938000e+01, 7.0505676649589999e+00);
-  mol.emplace_back(AtomicNumber(6), 3.8191362237690001e+01, 4.9932229807346999e+01, 5.9998800150750000e+00);
-  mol.emplace_back(AtomicNumber(6), 3.8300966345052004e+01, 5.0245924321520995e+01, 3.1293862377839998e+00);
-  mol.emplace_back(AtomicNumber(6), 3.6286518440778003e+01, 4.8862644897572999e+01, 1.6837458561990000e+00);
-  mol.emplace_back(AtomicNumber(7), 3.3795859587275999e+01, 5.0160886652016003e+01, 2.0314554381750001e+00);
-  mol.emplace_back(AtomicNumber(7), 4.1761054630910998e+01, 5.5110079017206999e+01, 1.0591914168345001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.1398227241023001e+01, 5.7755695401806996e+01, 1.1113478541309000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0564858079874000e+01, 5.8492688537516997e+01, 1.3721300406129000e+01);
-  mol.emplace_back(AtomicNumber(8), 3.9808967684273995e+01, 6.0682880958768003e+01, 1.4235305875137001e+01);
-  mol.emplace_back(AtomicNumber(6), 3.9727709466747001e+01, 5.9002914554546997e+01, 9.0404491313760005e+00);
-  mol.emplace_back(AtomicNumber(6), 4.1311299845529000e+01, 5.9227791947237996e+01, 6.5649080857860005e+00);
-  mol.emplace_back(AtomicNumber(6), 3.9979043023284000e+01, 5.8063720738013998e+01, 4.3671567605790003e+00);
-  mol.emplace_back(AtomicNumber(8), 3.7684915672637999e+01, 5.8190332379276995e+01, 4.1007053961299995e+00);
-  mol.emplace_back(AtomicNumber(8), 4.1487044362505998e+01, 5.6979018020327999e+01, 2.9007293931149998e+00);
-  mol.emplace_back(AtomicNumber(7), 4.0957921085586001e+01, 5.6756030353625995e+01, 1.5478745575899001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0476040958391003e+01, 5.7169880345217003e+01, 1.8179164014179999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2526393656456001e+01, 5.9012363184492003e+01, 1.9154262624504000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.4557849094631003e+01, 5.9188107701469001e+01, 1.8054442098906001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.0888001223993001e+01, 5.4656544779846996e+01, 1.9564333164116999e+01);
-  mol.emplace_back(AtomicNumber(8), 3.8822530718015997e+01, 5.3001144813483002e+01, 1.9008753723350999e+01);
-  mol.emplace_back(AtomicNumber(7), 4.2029395721348997e+01, 6.0231236447397002e+01, 2.1242409842348998e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3864319656668002e+01, 6.1911202851618000e+01, 2.2470731735198999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.4425568275400998e+01, 6.0894530269535991e+01, 2.5114458393809997e+01);
-  mol.emplace_back(AtomicNumber(8), 4.2601982696016002e+01, 6.0361627540637997e+01, 2.6520414529626002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2894890224311006e+01, 6.4755240465063011e+01, 2.2648365978165000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.2509386122555000e+01, 6.5554594558410002e+01, 2.0010308497521002e+01);
-  mol.emplace_back(AtomicNumber(6), 4.4837528541003003e+01, 6.6387963719558996e+01, 2.4041094032057998e+01);
-  mol.emplace_back(AtomicNumber(7), 4.6846307267309996e+01, 6.0510915893769003e+01, 2.5734288518202000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7524718897361005e+01, 5.9732348786301003e+01, 2.8308095315220001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.8562178465321999e+01, 6.2126631614363994e+01, 2.9610116521641000e+01);
-  mol.emplace_back(AtomicNumber(8), 4.9431452420262005e+01, 6.3740457608969997e+01, 2.8145578880165999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9718690770589994e+01, 5.7814276907466002e+01, 2.8283528877363000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9680896250810001e+01, 5.5709122155720003e+01, 2.6380574806440002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1765264016677001e+01, 5.3747586579138002e+01, 2.6888911097481000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7133545617637999e+01, 5.4437336565122997e+01, 2.6365456998528000e+01);
-  mol.emplace_back(AtomicNumber(7), 4.8416669564168998e+01, 6.2257022707605003e+01, 3.2030855513550001e+01);
-  mol.emplace_back(AtomicNumber(6), 4.9471136666030993e+01, 6.4490678826603002e+01, 3.3353663705849996e+01);
-  mol.emplace_back(AtomicNumber(6), 5.1920221547775000e+01, 6.3591169255839006e+01, 3.4589544502655997e+01);
-  mol.emplace_back(AtomicNumber(8), 5.1980692779423002e+01, 6.1580500803543003e+01, 3.5825425299461997e+01);
-  mol.emplace_back(AtomicNumber(6), 4.7647551086645997e+01, 6.5318378809784988e+01, 3.5489054073420000e+01);
-  mol.emplace_back(AtomicNumber(6), 4.5311849764242005e+01, 6.6369066459669000e+01, 3.4253173276614000e+01);
-  mol.emplace_back(AtomicNumber(7), 4.5075634015617005e+01, 6.8846497231248009e+01, 3.3601217810408997e+01);
-  mol.emplace_back(AtomicNumber(6), 4.3131105972936005e+01, 6.5222002784346003e+01, 3.3603107536397999e+01);
-  mol.emplace_back(AtomicNumber(6), 4.2847647074586000e+01, 6.9214993799102999e+01, 3.2503287010800001e+01);
-  mol.emplace_back(AtomicNumber(7), 4.1659009427505005e+01, 6.7000234939994996e+01, 3.2452264409096998e+01);
-  mol.emplace_back(AtomicNumber(7), 5.3904433836224996e+01, 6.5095391143083006e+01, 3.4372226013921001e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6315724198188995e+01, 6.4524693894405004e+01, 3.5581650646881002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6790045421427997e+01, 6.6219778106538001e+01, 3.7802078683956005e+01);
-  mol.emplace_back(AtomicNumber(8), 5.6890200898845002e+01, 6.8606502030645004e+01, 3.7393897870331998e+01);
-  mol.emplace_back(AtomicNumber(6), 5.8439776209824998e+01, 6.4825160326656004e+01, 3.3548305482716998e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1123187114204995e+01, 6.4596503481987000e+01, 3.4691589706062004e+01);
-  mol.emplace_back(AtomicNumber(6), 6.1520029571895002e+01, 6.1950887097387003e+01, 3.5659129412430005e+01);
-  mol.emplace_back(AtomicNumber(6), 6.3043148719028991e+01, 6.5178539086599002e+01, 3.2588324680305000e+01);
-  mol.emplace_back(AtomicNumber(7), 5.6926105692636000e+01, 6.5257907578137008e+01, 4.0045183432898995e+01);
-  mol.emplace_back(AtomicNumber(6), 5.7596958418730999e+01, 6.6837718504940995e+01, 4.2280729277885996e+01);
-  mol.emplace_back(AtomicNumber(6), 6.0284148775089001e+01, 6.5970334275989998e+01, 4.2949692277992000e+01);
-  mol.emplace_back(AtomicNumber(8), 6.0830279585909999e+01, 6.3676206925343998e+01, 4.2773947761015002e+01);
-  mol.emplace_back(AtomicNumber(6), 5.5694004347808004e+01, 6.6482450019008994e+01, 4.4404781289521999e+01);
-  mol.emplace_back(AtomicNumber(6), 5.6353518717969003e+01, 6.7948877386473001e+01, 4.6799064117585004e+01);
-  mol.emplace_back(AtomicNumber(6), 5.3004924265461000e+01, 6.6998345214006008e+01, 4.3597868292219005e+01);
-  mol.emplace_back(AtomicNumber(7), 6.1913092577606996e+01, 6.7710771911859013e+01, 4.3633773086010002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.4524693894405004e+01, 6.7032360281807996e+01, 4.4372655947709006e+01);
-  mol.emplace_back(AtomicNumber(6), 6.4702328137370998e+01, 6.6807482889116997e+01, 4.7203465479230999e+01);
-  mol.emplace_back(AtomicNumber(8), 6.3696993911223004e+01, 6.8402411623833004e+01, 4.8618870244992003e+01);
-  mol.emplace_back(AtomicNumber(6), 6.6355838377745997e+01, 6.9095941061795997e+01, 4.3287953230023000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7890295880814008e+01, 6.7990451358230999e+01, 4.1076973822892995e+01);
-  mol.emplace_back(AtomicNumber(6), 6.6146078792967003e+01, 6.6299146598076007e+01, 3.9533067689880006e+01);
-  mol.emplace_back(AtomicNumber(6), 6.9037359556137005e+01, 7.0084267754043012e+01, 3.9527398511913006e+01);
-  mol.emplace_back(AtomicNumber(7), 6.6008128795770006e+01, 6.4976338405776005e+01, 4.8095416146039000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.6444655499229000e+01, 6.4579495948086006e+01, 5.0826070200144002e+01);
-  mol.emplace_back(AtomicNumber(6), 6.9298141742618995e+01, 6.4810042518743998e+01, 5.1190787316020995e+01);
-  mol.emplace_back(AtomicNumber(8), 7.0496228019645002e+01, 6.2801263792436991e+01, 5.0635207875255006e+01);
-  mol.emplace_back(AtomicNumber(6), 6.5605617160112999e+01, 6.1907423399639995e+01, 5.1563063335854004e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7561483558728000e+01, 6.0573276851406007e+01, 5.3214683850240000e+01);
-  mol.emplace_back(AtomicNumber(6), 6.7296921920268005e+01, 5.7782151565653002e+01, 5.2995475635516001e+01);
-  mol.emplace_back(AtomicNumber(7), 6.6215998654559996e+01, 5.7167990619228000e+01, 5.0512375685969999e+01);
-  mol.emplace_back(AtomicNumber(6), 6.4889411010282004e+01, 5.4996695457867006e+01, 5.0361197606849998e+01);
-  mol.emplace_back(AtomicNumber(7), 6.4458553484790002e+01, 5.3738137949193003e+01, 5.2473911262552001e+01);
-  mol.emplace_back(AtomicNumber(7), 6.4277139789846004e+01, 5.4153877666772999e+01, 4.8106754501973001e+01);
-  mol.emplace_back(AtomicNumber(7), 7.0292137612833002e+01, 6.6890630832632993e+01, 5.1992031135357003e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3071924542651999e+01, 6.7089052061478000e+01, 5.2307615375520001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3842932746163996e+01, 6.6010018521758994e+01, 5.4860635186658996e+01);
-  mol.emplace_back(AtomicNumber(8), 7.2370836200732995e+01, 6.6038364411594003e+01, 5.6684220766044000e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3850491650119992e+01, 6.9808367759649002e+01, 5.1789830454533998e+01);
-  mol.emplace_back(AtomicNumber(6), 7.4647956017478009e+01, 7.0562368429260005e+01, 4.9136655165977999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.3102160158475996e+01, 6.9252788318882992e+01, 4.7097640823846994e+01);
-  mol.emplace_back(AtomicNumber(6), 7.4336151229293009e+01, 7.3423413576605995e+01, 4.8872093527517997e+01);
-  mol.emplace_back(AtomicNumber(7), 7.6144619000765999e+01, 6.5029250733468004e+01, 5.4887091350505003e+01);
-  mol.emplace_back(AtomicNumber(6), 7.7238770348396997e+01, 6.3876517880178000e+01, 5.7169880345217003e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8924405930584996e+01, 6.5817266470880995e+01, 5.8475681003615996e+01);
-  mol.emplace_back(AtomicNumber(8), 8.1154282597605004e+01, 6.6129071259065995e+01, 5.7793489921586996e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8708977167839009e+01, 6.1470896696181008e+01, 5.6546270768846995e+01);
-  mol.emplace_back(AtomicNumber(6), 7.8627718950311987e+01, 5.9420543998115996e+01, 5.8560718673121002e+01);
-  mol.emplace_back(AtomicNumber(6), 7.9171960035143996e+01, 5.6842957749119996e+01, 5.7553494720983998e+01);
-  mol.emplace_back(AtomicNumber(7), 8.1845922309578995e+01, 5.6191002282915001e+01, 5.7755695401806996e+01);
-  mol.emplace_back(AtomicNumber(6), 8.3476755838085992e+01, 5.6512255701045000e+01, 5.5848961878905996e+01);
-  mol.emplace_back(AtomicNumber(7), 8.2683070922705994e+01, 5.7281374178568001e+01, 5.3585070144084000e+01);
-  mol.emplace_back(AtomicNumber(7), 8.5939068801752995e+01, 5.6173994749014000e+01, 5.6243914610607000e+01);
-  mol.emplace_back(AtomicNumber(7), 7.7790570337185002e+01, 6.7143854115159002e+01, 6.0278479597122001e+01);
-  mol.emplace_back(AtomicNumber(6), 7.9075584009704997e+01, 6.9069484897949991e+01, 6.1767583676454002e+01);
-  mol.emplace_back(AtomicNumber(6), 7.7953086772238990e+01, 7.1698093748649001e+01, 6.1582390529531999e+01);
-  mol.emplace_back(AtomicNumber(8), 7.7671517599877987e+01, 7.2797914274247006e+01, 5.9526368653500001e+01);
-  mol.emplace_back(AtomicNumber(7), 7.7376720345593995e+01, 7.2701538248808006e+01, 6.3791480210672994e+01);
-  mol.emplace_back(AtomicNumber(6), 7.6293907353896998e+01, 7.5235660800057005e+01, 6.4144858970615999e+01);
-  mol.emplace_back(AtomicNumber(6), 7.5647621065658996e+01, 7.5573921752087998e+01, 6.6956771242248010e+01);
-  mol.emplace_back(AtomicNumber(8), 7.3572701929736994e+01, 7.6581145704224994e+01, 6.7438651369442994e+01);
-  mol.emplace_back(AtomicNumber(8), 7.7217983362517998e+01, 7.4785906014675007e+01, 6.8504456827238997e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0878207740180514e+01, 4.4208344272965448e+01, 5.1067955126735995e+00);
-  mol.emplace_back(AtomicNumber(1), 5.2471341235206957e+01, 4.6439052419420612e+01, 3.0019620143457302e+00);
-  mol.emplace_back(AtomicNumber(1), 4.8762149269477980e+01, 4.8549649582014929e+01, 3.4728628335446401e+00);
-  mol.emplace_back(AtomicNumber(1), 4.5732616152952737e+01, 4.8251148464792493e+01, 6.5078383609181998e+00);
-  mol.emplace_back(AtomicNumber(1), 4.7169866151146579e+01, 4.4969147956136851e+01, 6.2884600708551899e+00);
-  mol.emplace_back(AtomicNumber(1), 4.9755464838335939e+01, 4.5955698305954186e+01, 1.0137453965250391e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8062364838491384e+01, 4.8981149614343188e+01, 1.0481327403468720e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6413730091168013e+01, 4.3302693092737201e+01, 1.5115313473694520e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8085287214737960e+01, 4.6348818003445864e+01, 1.4565989025952110e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4716416002367993e+01, 4.6348345571948606e+01, 1.5580620703965991e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8175956267690182e+01, 5.2547572781603222e+01, 4.8715435243029903e+00);
-  mol.emplace_back(AtomicNumber(1), 5.2823491673257109e+01, 5.4694566066745679e+01, 7.8903807917304905e+00);
-  mol.emplace_back(AtomicNumber(1), 5.2036212928979822e+01, 5.6665531376012787e+01, 3.9921406380619504e+00);
-  mol.emplace_back(AtomicNumber(1), 4.8481959597088952e+01, 5.6865313207569876e+01, 4.7939324779347601e+00);
-  mol.emplace_back(AtomicNumber(1), 4.9238738163903783e+01, 6.0013313246345518e+01, 7.8719748605976312e+00);
-  mol.emplace_back(AtomicNumber(1), 5.2740532702340005e+01, 5.9801474962978617e+01, 7.3577237272110594e+00);
-  mol.emplace_back(AtomicNumber(1), 4.6748702919978150e+01, 6.0802973045368951e+01, 4.2204762293128200e+00);
-  mol.emplace_back(AtomicNumber(1), 4.7964949463758437e+01, 6.3174805928682630e+01, 1.8862110986604601e+00);
-  mol.emplace_back(AtomicNumber(1), 5.2771070674322246e+01, 5.6107722058579775e+01, 1.1539082628551581e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7443725241472457e+01, 5.6923119925573381e+01, 1.3892547375252180e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8957584731260361e+01, 5.5738582983888513e+01, 1.8139649843750011e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3357339265149605e+01, 5.2982512115231458e+01, 1.5525818650284988e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3614814431150862e+01, 5.6200129659441870e+01, 1.7039356886654762e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6073730591227132e+01, 5.2953674896639320e+01, 1.5792855829790581e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8637729710362223e+01, 5.1843479775361708e+01, 1.3655537941711801e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8637502943243540e+01, 5.0895649911058982e+01, 1.7043816639988798e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0901205705466637e+01, 5.2688754210241406e+01, 2.0517586542008161e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3932288397302855e+01, 5.1223555164670259e+01, 1.9497569144925631e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3931778171285835e+01, 5.4412581154667102e+01, 2.0983800840754352e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7809670679242316e+01, 5.9915916768872464e+01, 1.7383740550890121e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2355671107420271e+01, 6.3706272465828995e+01, 1.6258352032660952e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6814616562474470e+01, 6.4685188322650774e+01, 1.8067443413710318e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9393601208702329e+01, 6.7092623643597207e+01, 1.7477319781865400e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4421524261784540e+01, 6.3129433607686742e+01, 1.4623587874096831e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1067633873317874e+01, 6.7781201999469033e+01, 1.3285265031427141e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3333042092120536e+01, 6.3307880432828007e+01, 9.9814003930787703e+00);
-  mol.emplace_back(AtomicNumber(1), 5.0022369737022302e+01, 6.7831827758714340e+01, 8.5856298803434790e+00);
-  mol.emplace_back(AtomicNumber(1), 4.5945304813014694e+01, 6.5954573961241735e+01, 7.1853807170142598e+00);
-  mol.emplace_back(AtomicNumber(1), 5.4663461176966734e+01, 6.5034447479937739e+01, 1.9625730361499610e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2609650280341867e+01, 6.3036931520525187e+01, 2.4737722620642963e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8188215886169317e+01, 6.4002864959802537e+01, 2.3166188693670779e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7225400494773822e+01, 6.1114040840418234e+01, 2.7841068434298542e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8934827727163331e+01, 6.4156461888188460e+01, 2.7398022176177488e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5464156975765931e+01, 6.4155970559431324e+01, 2.7975371260336768e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4577025110229876e+01, 5.9486193078973855e+01, 2.3129830365642420e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7623452377096783e+01, 6.0000614287699442e+01, 2.1447728571053851e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7622979945599532e+01, 5.8951891952844001e+01, 2.4806149598704650e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1105995310894571e+01, 6.6446923170415801e+01, 2.6756271230313093e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3197884186197790e+01, 7.1827369903556502e+01, 2.5255696514227857e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8545265417720451e+01, 7.0696104337501524e+01, 2.5200157467411149e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8902858266618921e+01, 7.0123838616252655e+01, 2.8780262250831541e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9732466873049809e+01, 7.4505036040929923e+01, 2.9535529036855170e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9758261632799659e+01, 7.5246847977911884e+01, 2.6109455818798171e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5216758752475521e+01, 7.3414267302819241e+01, 2.5853586919887569e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5323641654413358e+01, 7.3245628155560880e+01, 2.9441987600399671e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6005209126865985e+01, 7.7899550834970626e+01, 2.9582394241382371e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5642098278079644e+01, 7.8045513270360985e+01, 2.6094867134163088e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1584025100261485e+01, 7.4953146764701501e+01, 2.8244222576791799e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1761545959668140e+01, 7.7946132580599482e+01, 2.9963192925425762e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5944241863271380e+01, 7.3773712083186922e+01, 2.7531947057017920e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7001203403438858e+01, 7.1264288250614172e+01, 3.2722967657021250e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1267675563323948e+01, 7.3055880769005384e+01, 3.2482896867378692e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8011450917158264e+01, 7.6721798009586266e+01, 2.9679960794194439e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9290663130892028e+01, 7.0897964867646508e+01, 2.7611636801974051e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2160212045188537e+01, 7.2909313621298551e+01, 2.7303422493168149e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2159645127391833e+01, 7.0171062868717769e+01, 2.9512663352388270e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8419518347222926e+01, 7.4521155403616092e+01, 3.5978852152508914e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3807679865588199e+01, 7.7927273115229269e+01, 3.6578896845796081e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8650367274039155e+01, 7.6872106814751334e+01, 3.9718185247762435e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5867972522355345e+01, 7.9015604106814138e+01, 4.0638103859207639e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6073215662020630e+01, 7.3280833750735951e+01, 4.0003628358400888e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5446336859689659e+01, 7.3099476747571629e+01, 4.4397071207486881e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7194616858413006e+01, 7.6145393788421487e+01, 4.4195116191042445e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3688154696783954e+01, 7.6144902459664351e+01, 4.4484282061879227e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1647137245104609e+01, 7.3030615132532461e+01, 3.9948882996499556e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1239126506819623e+01, 7.6077061296659238e+01, 4.1659878701459938e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2054165325875317e+01, 7.6076569967902103e+01, 3.8237244784702916e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9321503459032513e+01, 7.8742406420584402e+01, 3.3172193319126329e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8771498709934058e+01, 8.4524892357884852e+01, 3.4602432433900979e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3183744332610601e+01, 8.4961834801061428e+01, 3.2822140476923970e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0839841599414335e+01, 8.0830289076790947e+01, 2.9967463706160899e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3536423893937673e+01, 7.9711098859805702e+01, 3.5165362908764187e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5654353193369303e+01, 8.2513014480955889e+01, 3.5361346391083380e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2574610057316335e+01, 8.2512712124797645e+01, 3.7062534418160844e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5547966323378077e+01, 8.0960850245370963e+01, 3.1176812750081339e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2837740207214168e+01, 8.2115378338350510e+01, 2.7905489193263548e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4672323991855144e+01, 8.5221105206752227e+01, 2.7610748630759218e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8397692012049966e+01, 8.0000850545699066e+01, 2.7366104704223279e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8795214771096006e+01, 8.0758233824830370e+01, 2.1643768745152713e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2775109984749243e+01, 8.0673592997783061e+01, 2.4062977059010620e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1964474227247912e+01, 7.7429519289726656e+01, 2.5249460418464160e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1863789626553995e+01, 7.5802937644694921e+01, 2.0759698235718840e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2674368692275650e+01, 7.9001525648196093e+01, 1.9559400979285712e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6439118602081237e+01, 7.8560784855781620e+01, 2.3069340236734529e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5809008368309065e+01, 7.5082290638789758e+01, 2.2423564174513558e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7475406539929040e+01, 7.9247360102105091e+01, 1.8737445763110273e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9186685703787788e+01, 7.6296874223699731e+01, 1.9886550342501391e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4213191462378234e+01, 7.5747096241719959e+01, 1.7227970437616850e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7017677110873464e+01, 7.6588817991740342e+01, 1.5392007153003899e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7388748409262980e+01, 7.7503067425218546e+01, 1.9020129873804780e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5532470570268281e+01, 7.2804131472750811e+01, 2.2050683442364083e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3130118612232252e+01, 7.4807316610130357e+01, 1.7025637475974619e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0566006109537817e+01, 7.3648857887093698e+01, 2.1940285650086700e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9979548546111559e+01, 7.1136807335396213e+01, 1.8362278462514102e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2843409385181168e+01, 7.0485683348626381e+01, 1.6426027419664919e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2843069234503147e+01, 6.9755927863454247e+01, 1.9867860952470178e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7442133168452230e+01, 6.9092766322134480e+01, 2.0776006571003908e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0695390944815180e+01, 6.9819951779961571e+01, 1.5750563762156760e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3867711757069259e+01, 6.8900297730154833e+01, 1.7699589352691579e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1231676283233497e+01, 6.3847794045145200e+01, 1.9276395615173069e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3380238040946821e+01, 6.4474276005018481e+01, 1.6545495896689498e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0593175666070167e+01, 6.9021958289326648e+01, 2.2428364078525618e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3631647186523388e+01, 6.7283108023288406e+01, 2.2773163482478562e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3631136960506353e+01, 7.0622367229410742e+01, 2.1664933676229509e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5455572916586405e+01, 6.2162555305414891e+01, 2.0396681873231937e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7041884500792563e+01, 6.5129462902664670e+01, 1.9369143366713189e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4993213658857769e+01, 6.5129066060206981e+01, 2.2229527109963040e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0447175436160030e+01, 6.7227606770991471e+01, 1.2614676866970600e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5858240433511995e+01, 6.3468941778870480e+01, 1.3368016132485449e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5452780825312146e+01, 6.3733597903629935e+01, 8.5649184835040391e+00);
-  mol.emplace_back(AtomicNumber(1), 6.0192213605724149e+01, 6.3323470672237264e+01, 8.1378215127301505e+00);
-  mol.emplace_back(AtomicNumber(1), 5.3456171934374311e+01, 6.7317784495186572e+01, 9.6659484337350001e+00);
-  mol.emplace_back(AtomicNumber(1), 5.6190151906219945e+01, 6.8608202784035100e+01, 1.1464532938285529e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6189887344581493e+01, 6.8713479418882287e+01, 7.9477528727565305e+00);
-  mol.emplace_back(AtomicNumber(1), 5.6359528046614017e+01, 5.9356898026806476e+01, 1.2988842612792601e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1899203091587857e+01, 5.7585298809378870e+01, 1.1957373476216729e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8238236933098150e+01, 5.7386424046296511e+01, 1.6206384567963450e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9297692911571112e+01, 5.4048015216869217e+01, 1.4639631647743439e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2577180084661386e+01, 5.3747359812019319e+01, 1.6651641805491629e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5728317068578775e+01, 5.6291611294569357e+01, 1.7017832907640049e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3781105614993393e+01, 5.8670379472262667e+01, 1.5307687579374718e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3870338476193965e+01, 5.8669793657206078e+01, 1.8824902281881190e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0043511067649739e+01, 5.3622165465248074e+01, 2.0370660346363412e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1622679487617475e+01, 5.6668592732114966e+01, 2.1145448001853410e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8474093633785238e+01, 5.6668101403357824e+01, 1.9575350266632867e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2178315620163154e+01, 5.3781771722279011e+01, 9.9895073175715794e+00);
-  mol.emplace_back(AtomicNumber(1), 5.6914238213425079e+01, 5.2041126216551220e+01, 7.6759724810185510e+00);
-  mol.emplace_back(AtomicNumber(1), 6.2288581131621299e+01, 5.1608945882866919e+01, 5.6552317892011805e+00);
-  mol.emplace_back(AtomicNumber(1), 5.9492126818579322e+01, 4.9665287114140860e+01, 4.5833414137205999e+00);
-  mol.emplace_back(AtomicNumber(1), 5.7128136298119990e+01, 5.3848271179831919e+01, 3.9030022631608206e+00);
-  mol.emplace_back(AtomicNumber(1), 6.0392826916716388e+01, 5.5404120381095403e+01, 4.3606750004367303e+00);
-  mol.emplace_back(AtomicNumber(1), 6.3264416735081014e+01, 5.2207289822763990e+01, 2.0636563690275600e+00);
-  mol.emplace_back(AtomicNumber(1), 5.5509453707722258e+01, 4.8874814732942163e+01, 9.4878039647519703e+00);
-  mol.emplace_back(AtomicNumber(1), 5.9207628570935370e+01, 4.4950666435964429e+01, 1.1638009784075731e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6633557212278909e+01, 4.4617243182465273e+01, 1.5579581354672040e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9754723142010761e+01, 4.6991929552022334e+01, 1.6935516443559212e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9349962732426846e+01, 4.9423647851927434e+01, 1.4425979227427099e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7230068117966646e+01, 4.9423062036870839e+01, 1.7233998663521760e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2416274619887503e+01, 4.5857583732605313e+01, 1.4599456073217299e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3552888110491331e+01, 4.8703208715881068e+01, 1.6327251442219890e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3454452283724322e+01, 4.8702641798084372e+01, 1.2810282404091989e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7035615313698550e+01, 4.1406863288792735e+01, 1.3123032055271491e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2382089476746486e+01, 4.0127745561358410e+01, 9.7742486301645908e+00);
-  mol.emplace_back(AtomicNumber(1), 5.6897155090484517e+01, 3.6923526174410014e+01, 1.1703696659453369e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3777406455244417e+01, 3.5609391824399516e+01, 1.0467041074991879e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7708830197279802e+01, 3.8845339710703229e+01, 7.6000243935206395e+00);
-  mol.emplace_back(AtomicNumber(1), 5.6823380187873958e+01, 3.5319054323449556e+01, 7.2550738114885798e+00);
-  mol.emplace_back(AtomicNumber(1), 5.7443040236926947e+01, 3.8692101830255218e+01, 3.5261720036943296e+00);
-  mol.emplace_back(AtomicNumber(1), 4.8620684381941444e+01, 3.9083596363396353e+01, 1.7459008337031992e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6296529285330230e+01, 3.4423040745765213e+01, 1.4592086141860200e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4622477723454800e+01, 3.6782665999189945e+01, 1.6428087220992929e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4470449267639751e+01, 3.7139597443992272e+01, 1.1357423269229010e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5192759232415220e+01, 4.0042405535695174e+01, 1.3037030625512100e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8897019013312907e+01, 3.9661814721510574e+01, 1.0141422389827289e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8998138250984297e+01, 3.6266468448034708e+01, 1.0261382195609009e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2012402381518420e+01, 3.4306142296085667e+01, 1.4185662773405971e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1605865629504848e+01, 3.0893259365431888e+01, 1.8749785673818440e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5552879610949482e+01, 2.8784533031566681e+01, 1.6284486943088822e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2242797774097305e+01, 2.8599037528486441e+01, 1.5001551969156720e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3033402436115232e+01, 3.1644822288517076e+01, 1.2060968254933710e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4852584953945858e+01, 3.6395498938563627e+01, 1.7365391311536932e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9838948229340495e+01, 3.4704987863324007e+01, 1.9648747224045628e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7057422751611611e+01, 3.9879019826686225e+01, 1.8664615723494208e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0099257984325234e+01, 3.9750990890931476e+01, 2.0462387645869470e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1292563254599067e+01, 3.5029699480013875e+01, 1.7214251026936708e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1344001596019645e+01, 3.5233411941628077e+01, 2.3482925666687070e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7396987614575025e+01, 3.5341012939441740e+01, 2.7645897534154621e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1226819687441754e+01, 3.4469093368117136e+01, 3.0481828223106806e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5114156122153773e+01, 3.3847430209515814e+01, 2.6953388548225682e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9048834896079697e+01, 3.1041697341867838e+01, 2.7520363036705351e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2082827765938980e+01, 3.1192214016891690e+01, 2.5746382764531599e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2082374231701628e+01, 3.0357049616053143e+01, 2.9164178982756781e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7798837846135875e+01, 3.8004978563394928e+01, 3.1054906526530949e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8308515842629063e+01, 4.3424561521767806e+01, 2.9678278938064228e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8254412987563995e+01, 4.0690241399244151e+01, 3.5052413986401660e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4608848095884646e+01, 3.9613664503310851e+01, 3.2303996508000054e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3734509675294120e+01, 4.2087901637968443e+01, 3.4774378601640095e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6419394565945538e+01, 4.5808885493868779e+01, 3.5126491245170456e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9403347491616096e+01, 4.4556431800139251e+01, 3.6505651066462441e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9402818368339176e+01, 4.5931245251656527e+01, 3.3267038666514239e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1531353733758579e+01, 4.3278958134315360e+01, 3.1030075527035489e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4334535471321402e+01, 4.5392900111910215e+01, 3.1249378228058944e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4334233115163158e+01, 4.2700002783065436e+01, 2.8985089650779251e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2574364392937767e+01, 3.8853163176297691e+01, 3.2452434484436004e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6596665057784151e+01, 4.2540585498633391e+01, 3.3758027272976221e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6240281633518649e+01, 3.7731988747023991e+01, 3.4605815043421288e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7391275938898772e+01, 3.7450873108900346e+01, 3.1098823758515312e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1391599090493088e+01, 3.9231713086414167e+01, 3.2240917454487239e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0387058549260473e+01, 3.9398897144660999e+01, 3.5640326638839454e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0666435639474230e+01, 3.6575363058196650e+01, 3.7839797614696437e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4942153262634989e+01, 3.9447425308058520e+01, 2.7919718829960722e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9401339678878301e+01, 4.1281933503659936e+01, 2.5153991461499878e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7024045487456391e+01, 3.7630963995652053e+01, 2.3571345945712380e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4108765204226103e+01, 3.9539757319881055e+01, 2.3216323124158951e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3461175005055694e+01, 4.0467367116101492e+01, 1.9149254850633149e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6009583884781534e+01, 4.1422113377523964e+01, 1.6880374239200190e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3016673657923107e+01, 4.3522524917037572e+01, 2.5938397822273892e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3466220573446314e+01, 4.7815642213367546e+01, 2.2408295188522441e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0301231898029556e+01, 4.6986600524733355e+01, 2.7256746261239851e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7729201443441220e+01, 5.0749385119510379e+01, 2.5209757275435269e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0683617951903706e+01, 5.1518371316214150e+01, 2.6957583739921262e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0683221109446023e+01, 5.1466063700838632e+01, 2.3439613147019191e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9238147645657719e+01, 4.4057525241783360e+01, 2.3938954342352549e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6811115866205348e+01, 4.6602438128429547e+01, 2.4027034470699842e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9270084014871820e+01, 4.6602230258570764e+01, 2.1510637549227660e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4879508846099640e+01, 4.7104802885345308e+01, 2.9114309113907069e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6368783000770648e+01, 5.2442126071417022e+01, 2.9759990689828591e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7947119941303228e+01, 4.7410957392823200e+01, 3.2437373368303682e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9070108507526371e+01, 5.0558995226118633e+01, 3.3481069032028380e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4339009418725865e+01, 5.2047022161636903e+01, 3.3651219960077938e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3357618020858496e+01, 4.8767723961145528e+01, 3.2921804625583832e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5758136944685191e+01, 4.7199742719032670e+01, 3.6735347260425385e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6753512314871159e+01, 5.0514794535235922e+01, 3.7444013403560284e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2198403407426227e+01, 5.1800677481710864e+01, 3.7927140749908020e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1141063922060944e+01, 4.8570795615831834e+01, 3.7170966895409670e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1370627835204665e+01, 4.8684198072431727e+01, 4.1705402200534948e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4321907398525411e+01, 4.7155768795268635e+01, 4.0757610130751999e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9838225430275202e+01, 4.6881834115903203e+01, 2.7670104924073712e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4731878748649493e+01, 4.9597445951135761e+01, 2.7563505481034220e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2542536704093550e+01, 4.4690318886459899e+01, 2.5349993841078959e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5429508892008613e+01, 4.6018815153986786e+01, 2.3841557864879491e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5428941974211924e+01, 4.5261866511832949e+01, 2.7277533247118850e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9610381167781469e+01, 4.8877535938366321e+01, 2.2950174115868190e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2502266643267944e+01, 5.1365133435766140e+01, 1.8886866397060501e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6717550829300492e+01, 5.1446221577954134e+01, 2.0044002311904872e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8317808591305479e+01, 5.2417748606158916e+01, 1.7002110387411570e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9738788048734008e+01, 4.8180756171702242e+01, 1.6176961534314721e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8818756053729473e+01, 4.7088834700738261e+01, 1.9403177331775080e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4529437106637388e+01, 4.6958386915717590e+01, 1.8445709864928450e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4795397142329250e+01, 4.9582139170624856e+01, 1.6058721379182987e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7438783650262224e+01, 4.4544998957905797e+01, 1.4955556038584460e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3911912447951963e+01, 4.4727886639121223e+01, 1.4707019276511179e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4046517630148429e+01, 4.7532334493096670e+01, 1.1401453884772710e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7029601281864061e+01, 4.8958926436712552e+01, 1.2406674727361370e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8713195959983935e+01, 5.3631273944515051e+01, 2.4151643002414499e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8686002803002239e+01, 5.9008848294152465e+01, 2.2290225108729718e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7912670236523766e+01, 5.6596613069193957e+01, 2.7508627838313661e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4130440361319927e+01, 5.9617755802328041e+01, 2.4017963785952638e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4500448709966136e+01, 5.6119249387112674e+01, 2.3944604623059661e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5850450059247834e+01, 6.1560696475178283e+01, 2.7853257166927591e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8879076107298360e+01, 6.0459137401670404e+01, 2.9263484083478730e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8878565881281332e+01, 6.2078027861926913e+01, 2.6139710331882061e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2561759920591136e+01, 5.5561969192956568e+01, 2.7938011377534242e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3809394813048719e+01, 5.8598532090160887e+01, 2.9201897913497220e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1016020753368814e+01, 5.8598097453183421e+01, 2.7062784785728887e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2750765610821446e+01, 5.5040499306292020e+01, 2.6359863409600560e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5911313430164071e+01, 5.9369672574492114e+01, 2.7959988890786310e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6432669933269267e+01, 5.5135023400261801e+01, 2.9930651843895181e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7523608746718978e+01, 5.3782376434595491e+01, 2.6869201255415728e+01);
-  mol.emplace_back(AtomicNumber(1), 8.1336603361023720e+01, 5.6549899042745878e+01, 2.6859714830950949e+01);
-  mol.emplace_back(AtomicNumber(1), 8.0178371405105736e+01, 5.8328962677830042e+01, 2.9657605335744570e+01);
-  mol.emplace_back(AtomicNumber(1), 8.3313710279755071e+01, 5.7279881295036688e+01, 3.2442456731214087e+01);
-  mol.emplace_back(AtomicNumber(1), 8.3848030303144824e+01, 5.3933289952077033e+01, 3.3476212436236644e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6339789900909921e+01, 5.4798992324897824e+01, 2.2892650856763030e+01);
-  mol.emplace_back(AtomicNumber(1), 8.0968579224665973e+01, 5.6827291920671186e+01, 2.0399554256735222e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7902064170535994e+01, 5.2684445634986488e+01, 1.9817461960343550e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6439794200247803e+01, 5.4644091485579487e+01, 1.7369227455294599e+01);
-  mol.emplace_back(AtomicNumber(1), 8.2496252611433462e+01, 5.3255690904201302e+01, 2.0029980545066490e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4364327043788990e+01, 5.8968559336066981e+01, 1.9890858917756312e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6935280354563602e+01, 6.2670060117020732e+01, 1.6176073363099889e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3094695740819446e+01, 6.3539088407582163e+01, 1.4235797203894140e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3198082649677644e+01, 5.9929844049411386e+01, 1.5117165405163741e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9593657092778813e+01, 6.0008985773830709e+01, 1.6847511904251480e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0272371078988058e+01, 6.2954539467404786e+01, 1.8622814984617531e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6684197165594640e+01, 6.3637108494631597e+01, 1.5579864813570390e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9536757443250025e+01, 6.5488850991252690e+01, 1.4586114607734959e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0632023729214538e+01, 6.1677840589236382e+01, 1.1661801434277240e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7413196760371164e+01, 6.0484100681985090e+01, 1.2291911668049400e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5476511080544512e+01, 6.4094195416850908e+01, 1.0424578932019049e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8261721523951948e+01, 6.6087988616065132e+01, 1.0884765004860331e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4594174415831063e+01, 6.3126372251584556e+01, 2.2314829341106499e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5544423129399718e+01, 6.8720622583120701e+01, 2.1424617222208379e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1869302923252391e+01, 6.6018201035291369e+01, 2.5278486609655200e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2517422245699720e+01, 6.9548190285483486e+01, 2.5054157237501009e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0405351096833982e+01, 6.6494771032457280e+01, 2.0559557356223849e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8342677385320712e+01, 6.7801875601788694e+01, 2.3134327913496239e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9160399615280781e+01, 6.8771134958806684e+01, 1.7713762297609080e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7587349204327936e+01, 6.3346204075884927e+01, 2.4273303561586321e+01);
-  mol.emplace_back(AtomicNumber(1), 8.1238469890414947e+01, 6.3070001725332695e+01, 2.6718722374911660e+01);
-  mol.emplace_back(AtomicNumber(1), 8.0989026059866958e+01, 6.6683252302600152e+01, 2.7261243809093671e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5416488679944408e+01, 6.4125905018946341e+01, 2.8942892069444881e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7188314664490704e+01, 6.4943551659866856e+01, 3.4412004745989449e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1994553961803319e+01, 6.3099179094602853e+01, 3.2005230829139165e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3269627675621180e+01, 6.8607843736097180e+01, 3.3712031342403961e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3902175655919137e+01, 6.7454487273230825e+01, 3.0445375408779000e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1912237497722472e+01, 6.2023320294545378e+01, 3.6409350630062995e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3433259049008683e+01, 6.5050453459064585e+01, 3.7356802549167931e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0146666506199779e+01, 6.5050018822087111e+01, 3.6100966245918087e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8895535620662542e+01, 6.5627632467884851e+01, 3.1292671850466931e+01);
-  mol.emplace_back(AtomicNumber(1), 6.8861709525459446e+01, 6.8649077557177179e+01, 3.3093939765921839e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9687085145674985e+01, 6.8648548433900245e+01, 2.9673762492950523e+01);
-  mol.emplace_back(AtomicNumber(1), 7.9445252207673178e+01, 5.6798133448660920e+01, 3.5716690466054935e+01);
-  mol.emplace_back(AtomicNumber(1), 7.8329161141309882e+01, 5.9177752003049278e+01, 4.1117168294679026e+01);
-  mol.emplace_back(AtomicNumber(1), 8.1072457462281292e+01, 5.7313896362838690e+01, 4.0225746751147945e+01);
-  mol.emplace_back(AtomicNumber(1), 8.1726888469531886e+01, 6.2310426364054145e+01, 4.0600611695585876e+01);
-  mol.emplace_back(AtomicNumber(1), 8.2866242062819765e+01, 6.0946951268470855e+01, 3.7679870104247371e+01);
-  mol.emplace_back(AtomicNumber(1), 7.9872065719548729e+01, 6.4225058941589168e+01, 3.6153160477734275e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7679170990133457e+01, 6.3809678271947071e+01, 3.8711925055879831e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1621975585812081e+01, 5.3843187816921507e+01, 3.6665389604312608e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4734429878734630e+01, 4.9035441442007162e+01, 3.8015183083735529e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2087282816083544e+01, 4.9310566648745670e+01, 3.5853355449579418e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6780114953606812e+01, 4.9048764010229611e+01, 3.3793724196908428e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4841860801209293e+01, 5.1567315219329252e+01, 3.2572696646375974e+01);
-  mol.emplace_back(AtomicNumber(1), 7.8665513470091994e+01, 5.3878317823057017e+01, 3.4230364283926768e+01);
-  mol.emplace_back(AtomicNumber(1), 7.9055911962159513e+01, 5.1841514460333151e+01, 3.6921088427884200e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6356381695093333e+01, 5.3186961569981371e+01, 4.1419297685800352e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2364505618669853e+01, 5.1500040974120850e+01, 4.5203946410270099e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6069861440641162e+01, 5.0288499848053164e+01, 4.6905569074325037e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7907733348502987e+01, 5.2590318383474397e+01, 4.4909772765562465e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6897088992325905e+01, 5.7028396560420568e+01, 4.6220618992352101e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3619661620563647e+01, 5.7258999822858243e+01, 4.2339272989025218e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1187036252183844e+01, 5.9777380956618870e+01, 4.6959690826650004e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3014571358885846e+01, 6.1942288844137046e+01, 4.1668080112252206e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1763799521286529e+01, 6.3908888886369574e+01, 4.4282591607073265e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5193236451603951e+01, 6.2172230702478565e+01, 4.7189859452110205e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6453532508187834e+01, 6.0282504713478573e+01, 4.4454122035094791e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3837849383253584e+01, 6.6035321952751701e+01, 4.2710925399281848e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6899583430631395e+01, 6.7790745115713477e+01, 4.2397892289204002e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9372294590427359e+01, 5.6842730982001321e+01, 4.1440859459334838e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5154955306256284e+01, 6.0440259039040285e+01, 4.0470296191384435e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6306044097935839e+01, 5.5036341909116217e+01, 3.8158235341102831e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4059027616195621e+01, 5.7500204448094202e+01, 3.6870727230277353e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7670369570214191e+01, 6.0420246840816780e+01, 3.6056368712577694e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9926891373679084e+01, 5.8033919759167468e+01, 3.7346465748008100e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2039075906104159e+01, 5.7730864402311539e+01, 3.3397807704953038e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0444260554947505e+01, 5.6023081231532458e+01, 3.0734371204276766e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1414771834307693e+01, 6.0387403403127955e+01, 4.1507302225108077e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9038724862038549e+01, 5.5211538405556411e+01, 4.3513227465171688e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9554563365255881e+01, 5.7520216646317706e+01, 4.7053326749404953e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8579767111090121e+01, 6.0569686372026908e+01, 4.5311811969722214e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4290315883178799e+01, 5.9330857602678066e+01, 4.5184179876425162e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5030937292787684e+01, 5.6113315647507207e+01, 4.6448387665806266e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6450593942023929e+01, 5.7912126919176416e+01, 5.0487847042632779e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6048384662525173e+01, 6.1199286379782023e+01, 4.9223884917630237e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1800016077614714e+01, 5.7381529655984998e+01, 5.0394967010273433e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4202934953447439e+01, 6.3868089702267056e+01, 4.9611996841251063e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0986659114689218e+01, 6.5223098825419626e+01, 5.0222869664455196e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7918122053751020e+01, 5.9178602379744333e+01, 5.0554629959084039e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6612089925043875e+01, 5.3760701277501660e+01, 4.0462151472371851e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4482822269678230e+01, 5.7902829467310539e+01, 3.6874090942537769e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5252337589658922e+01, 5.2163901714056550e+01, 3.6259570948174861e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3537297871082082e+01, 5.4498053461149574e+01, 3.3986797501204563e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9151182455643941e+01, 5.4963152821562247e+01, 3.5294072145874978e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6253287651512437e+01, 5.1406764099303807e+01, 3.1704518732509591e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9230777714300622e+01, 5.2946191581722879e+01, 3.0637069213103160e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9230248591023695e+01, 5.0921312389989602e+01, 3.3514328209434780e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4968746410489693e+01, 5.7367337813807609e+01, 3.2126494545853291e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7986336458764448e+01, 5.8700350526448211e+01, 3.3348013425142895e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7985901821786975e+01, 5.6726493936417931e+01, 3.0435511039116420e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0574150828550408e+01, 5.8695569519696036e+01, 3.6638857851427048e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7084639509042681e+01, 5.5188238084112044e+01, 3.9675439645891259e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6637322470186490e+01, 6.1114853422593505e+01, 3.8940959845746633e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0391414325414111e+01, 6.0278063857404419e+01, 4.1509097464797627e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7750578947566275e+01, 6.1503551161270927e+01, 4.3548546443906098e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3276010161772525e+01, 5.7086448942802654e+01, 4.1436853240238165e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3671567605789996e+01, 6.0124391339978942e+01, 4.3165782444834150e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2453922664777849e+01, 6.0123937805741583e+01, 3.9864846881768727e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6751065077464396e+01, 5.6807109647108668e+01, 4.4673349147078682e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9786380755515978e+01, 5.5952122020645511e+01, 4.3114306308893788e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9785870529498951e+01, 5.8077156689795792e+01, 4.5918414012191221e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3696228529946445e+01, 5.3851294741414321e+01, 3.7935871283977200e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1605738051875086e+01, 5.6792407578914244e+01, 3.3317078610702957e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4330817414312541e+01, 5.3680123361330701e+01, 3.1392846225143824e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2701136618658829e+01, 5.1117484844907686e+01, 3.3323144631127647e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1549235244803995e+01, 5.6112257400953368e+01, 2.8329562602455042e+01);
-  mol.emplace_back(AtomicNumber(1), 3.9217729114095569e+01, 4.9121537358066000e+01, 3.1860440023861980e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8217723915236547e+01, 5.5580375124089429e+01, 2.4983632663591528e+01);
-  mol.emplace_back(AtomicNumber(1), 3.5910368482667550e+01, 4.8506110295228375e+01, 2.8498636386690873e+01);
-  mol.emplace_back(AtomicNumber(1), 3.5710643342890137e+01, 5.1537022911725579e+01, 2.4923766144260011e+01);
-  mol.emplace_back(AtomicNumber(1), 3.7745424698805778e+01, 5.7088641024949894e+01, 3.3835921778242799e+01);
-  mol.emplace_back(AtomicNumber(1), 3.3605677563743036e+01, 5.6792596551513149e+01, 3.5704407247126440e+01);
-  mol.emplace_back(AtomicNumber(1), 3.1607292330375543e+01, 5.2972742231868331e+01, 3.4734580972311747e+01);
-  mol.emplace_back(AtomicNumber(1), 3.4416785752741617e+01, 5.2916863034373606e+01, 3.2618371323530098e+01);
-  mol.emplace_back(AtomicNumber(1), 3.4416483396583381e+01, 5.1037454949273538e+01, 3.5592705543916651e+01);
-  mol.emplace_back(AtomicNumber(1), 3.7155943573797117e+01, 5.7753654497738879e+01, 3.9004549125276476e+01);
-  mol.emplace_back(AtomicNumber(1), 3.7868351374390230e+01, 5.8238614878295948e+01, 4.3165858033873711e+01);
-  mol.emplace_back(AtomicNumber(1), 3.4689076370496629e+01, 5.6543133823705261e+01, 4.3682679194605321e+01);
-  mol.emplace_back(AtomicNumber(1), 3.9393322452993452e+01, 5.3125564372598760e+01, 4.0651464221949873e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0195983566821205e+01, 5.0400749571799764e+01, 4.5790290590137019e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0669246543506361e+01, 4.8505845733589908e+01, 4.0243302305585757e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1283709846089600e+01, 4.6670279291434653e+01, 4.3273402339907697e+01);
-  mol.emplace_back(AtomicNumber(1), 3.6819232197077099e+01, 4.6831340637477119e+01, 4.4447300124274499e+01);
-  mol.emplace_back(AtomicNumber(1), 3.6024885877600951e+01, 4.8984456634823943e+01, 4.1840253047109996e+01);
-  mol.emplace_back(AtomicNumber(1), 3.9067552589749745e+01, 4.4536608574514638e+01, 4.0038380419338601e+01);
-  mol.emplace_back(AtomicNumber(1), 3.6137759210923925e+01, 4.3539513553678681e+01, 4.1764909671928564e+01);
-  mol.emplace_back(AtomicNumber(1), 3.6426036910545868e+01, 4.7367266927957523e+01, 3.7266341366074499e+01);
-  mol.emplace_back(AtomicNumber(1), 3.5330581651982456e+01, 4.4071187960683829e+01, 3.7074779842569569e+01);
-  mol.emplace_back(AtomicNumber(1), 3.1788158004782733e+01, 4.4883543368835149e+01, 3.9801956800854811e+01);
-  mol.emplace_back(AtomicNumber(1), 3.3208211496476672e+01, 4.7749747468131119e+01, 4.1110629842757085e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4415722802998310e+01, 4.9741953297514591e+01, 4.6830924897759544e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8425551276317300e+01, 5.2538067459878555e+01, 4.3547752758990718e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8363379291279202e+01, 5.2665151532638795e+01, 4.8300149059687257e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9124957762106085e+01, 4.9232634348959316e+01, 4.8283784032622520e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2994341799922594e+01, 5.0057839893835833e+01, 4.5617626326522092e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2206288267989819e+01, 5.3480152557174719e+01, 4.5468375767910871e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0919611636599498e+01, 5.5117883585541570e+01, 4.9818430508289424e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3316558978306986e+01, 5.4469065064478308e+01, 5.2345787840497799e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0660775867886173e+01, 5.0396176434906394e+01, 4.0677920385795865e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9111691885663312e+01, 4.4877760807308810e+01, 3.9631371235827778e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2918072459006559e+01, 4.8388928386650477e+01, 3.6940155763113211e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1165294912429395e+01, 4.5430562350870979e+01, 3.5797948683581943e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8986006210134924e+01, 5.0694205120631580e+01, 3.6920691585426511e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9701210805191749e+01, 4.7396104146549654e+01, 3.2004909575721030e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7885184129762749e+01, 5.0405020352534912e+01, 3.2157561641112451e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1346141689576690e+01, 5.0404491229257992e+01, 3.2790468669348336e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6675305962565389e+01, 4.5460476713276854e+01, 3.6033559719890462e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5516091349133120e+01, 4.8206267472553741e+01, 3.7902158572333441e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5206006211598108e+01, 4.8205984013655389e+01, 3.4397510547653823e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1226200781054857e+01, 4.1463214917784704e+01, 4.0024112988121644e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6010703526304503e+01, 4.2147352417582375e+01, 4.3443213117279235e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2443203215230753e+01, 3.9729958240673909e+01, 4.5180343732667488e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2418202140396282e+01, 3.7750262397337615e+01, 4.2111674390910061e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5311561602154178e+01, 3.5039034726399542e+01, 4.3509485807713467e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7250269288789056e+01, 3.7575859585812807e+01, 4.5040390625922150e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1967219033121431e+01, 3.8961482269987165e+01, 4.6665101442224788e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9655871575526170e+01, 4.0477496047402532e+01, 4.2393961659146882e+01);
-  mol.emplace_back(AtomicNumber(1), 6.0730804409849043e+01, 4.0480557403504704e+01, 3.7162935559956424e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3333089377521262e+01, 3.8333223967684233e+01, 4.2122294650968243e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4970310179871078e+01, 3.7993129981443900e+01, 3.8984895974990877e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7609841646786506e+01, 4.0631168564828009e+01, 4.2298341524103485e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9370541848447061e+01, 3.4851063682273711e+01, 4.0522377039641277e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1327485390875793e+01, 3.1743144731724751e+01, 3.6142086683438727e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9592414576815550e+01, 3.0703719848735194e+01, 3.9141629848518541e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5648424156953325e+01, 3.4900555605925618e+01, 3.7236502592708185e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2602110273645764e+01, 3.0864025304382064e+01, 3.4469320135235819e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1319345375052670e+01, 3.6484826286063658e+01, 3.5643898220958661e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9143401487758730e+01, 3.3853836380618525e+01, 3.4541866715953532e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2115449139698583e+01, 3.3622401638745693e+01, 3.9629349229019546e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8961987792814725e+01, 3.5032723041596277e+01, 3.9398065665225836e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7256018758985093e+01, 3.0868031523478738e+01, 3.9344737597816263e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8778136351344919e+01, 3.0312206418334171e+01, 3.6295419050186190e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1475455639003961e+01, 3.0037950485550599e+01, 4.1427725863711288e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0654501977602685e+01, 2.6597798808875549e+01, 3.5454717752199869e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3008835998258228e+01, 2.4235811397964561e+01, 3.6651348940214341e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4239860199272499e+01, 2.7432490778216849e+01, 4.2451447123732258e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0450940694067604e+01, 3.2169693681961832e+01, 3.0644023404742679e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4073658798539952e+01, 3.5155404052802162e+01, 2.7107892545086319e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1856859035363826e+01, 3.2987756062599928e+01, 2.3575371062068950e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8914215519812807e+01, 2.9313070493430089e+01, 2.6313035999593140e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2206741802227178e+01, 2.8158334530591752e+01, 2.5659115218359581e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4600438815233588e+01, 3.0005409404020021e+01, 2.3860984248046410e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4599853000176999e+01, 3.0079222101150361e+01, 2.7378557998490791e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1832689439964518e+01, 3.7668172700375465e+01, 2.4022782587224590e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8138558590367872e+01, 4.1303873222392234e+01, 2.6312166725638200e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9419849502689537e+01, 3.9952227811500087e+01, 2.0737512852607981e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7850904500322287e+01, 4.2948936387596397e+01, 2.2142146180231681e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3316899128985007e+01, 4.1247710565999149e+01, 2.2940895561262199e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0522240055632587e+01, 4.4632436579416826e+01, 1.9031978455755809e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3512995994863537e+01, 4.5896757752357281e+01, 2.0385362414557832e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3512447974326733e+01, 4.2810646239721379e+01, 1.8695758407792933e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9689229942421491e+01, 4.5302268853477770e+01, 2.4935066705674227e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2734334401096085e+01, 4.4154317006939941e+01, 2.6270876212778550e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2733861969598841e+01, 4.6581254300092866e+01, 2.3723563374126329e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7548302677703724e+01, 3.5453300457708117e+01, 2.2544109795351872e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2099032124043653e+01, 3.6551004490198437e+01, 2.1678483011570638e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1631249352726591e+01, 3.1850178811741706e+01, 2.0817637234541582e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4401379782741806e+01, 3.3307762261577196e+01, 1.9170759932387970e+01);
-  mol.emplace_back(AtomicNumber(1), 4.4063421186869043e+01, 2.9514855434535509e+01, 2.3160859666381800e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5491222555117879e+01, 3.4030469068810348e+01, 2.6929861459662629e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1247918435857940e+01, 3.1507647078975570e+01, 2.9389018580927999e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5813572014321501e+01, 3.4315647617810342e+01, 3.1559916899831311e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3245774545948521e+01, 3.2622094083728427e+01, 3.3490158614035472e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8625503183213389e+01, 3.1578341728224064e+01, 3.3413738095040308e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3076681864452802e+01, 3.7962459728642429e+01, 2.9106258881193927e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8568060216337258e+01, 3.9524828484567962e+01, 3.2396668670500617e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3023089235404754e+01, 4.2332186516566473e+01, 2.9629618493847481e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0597285777845244e+01, 4.3823010246548456e+01, 3.1800346737411779e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6688760811607068e+01, 4.0489835958110703e+01, 3.1442659402213856e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0451266650675208e+01, 4.2567362915897519e+01, 3.6252767934614461e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9303291203688019e+01, 3.9560298641381486e+01, 3.5269600194317427e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3052512269053487e+01, 4.1671179262874162e+01, 4.0060905953127481e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9645652861115153e+01, 3.9716994720389373e+01, 3.9946048407516059e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8829711676774195e+01, 3.7727188843011930e+01, 2.6293307260267980e+01);
-  mol.emplace_back(AtomicNumber(1), 3.6217373366840491e+01, 3.9005626269090207e+01, 2.2891479226649849e+01);
-  mol.emplace_back(AtomicNumber(1), 3.2972770535507166e+01, 3.8426368561682040e+01, 2.6606548240204621e+01);
-  mol.emplace_back(AtomicNumber(1), 3.2848558846250192e+01, 4.2010441769679332e+01, 2.6567846651949903e+01);
-  mol.emplace_back(AtomicNumber(1), 3.3797409162586980e+01, 3.7964273865591871e+01, 2.1101587461648720e+01);
-  mol.emplace_back(AtomicNumber(1), 3.0699543554299499e+01, 3.8809321533352886e+01, 1.9603922923586552e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0516292121956702e+01, 4.1927369415202890e+01, 2.3568568048508549e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8835513135560433e+01, 4.7527099952107136e+01, 2.2721951908176660e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3891021484892569e+01, 4.4518297129681230e+01, 2.2578975239848919e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1737697617686962e+01, 4.8722710688087552e+01, 2.6262240165008819e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1896434600762959e+01, 4.5267441203500496e+01, 2.6940859664918609e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2720147262108171e+01, 4.9778991926898989e+01, 2.0669841764941889e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5408206892421113e+01, 4.9576129841979835e+01, 2.2929935150525999e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5407621077364524e+01, 4.7605996012147891e+01, 2.0014900531674272e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6463883418916069e+01, 4.5262716888528004e+01, 2.7122745791359861e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6726914379324981e+01, 4.8292363388612578e+01, 2.5354472491672890e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5595573224230456e+01, 4.8291853162595551e+01, 2.8685964923980439e+01);
-  mol.emplace_back(AtomicNumber(1), 3.7288866899863379e+01, 4.8423548166768960e+01, 1.8996924038659859e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8772301801228380e+01, 4.4975932072437359e+01, 1.4417532152256269e+01);
-  mol.emplace_back(AtomicNumber(1), 3.4210559955562047e+01, 4.8205984013655389e+01, 1.5877591143137341e+01);
-  mol.emplace_back(AtomicNumber(1), 3.5068023123070802e+01, 4.7093861371868996e+01, 1.2477652835508211e+01);
-  mol.emplace_back(AtomicNumber(1), 3.4843372497498478e+01, 4.2636545784354809e+01, 1.4182072294026870e+01);
-  mol.emplace_back(AtomicNumber(1), 3.3249124064138520e+01, 4.3962320846457544e+01, 1.7016396715888408e+01);
-  mol.emplace_back(AtomicNumber(1), 3.2983825432542808e+01, 4.6855566924656095e+01, 1.0813749102193709e+01);
-  mol.emplace_back(AtomicNumber(1), 2.9570148816973649e+01, 4.6120312336855974e+01, 1.0213798895205990e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8625224427504506e+01, 4.7337125798432972e+01, 1.0354470097827150e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2987033263534641e+01, 5.0503739638200265e+01, 1.0478095972027530e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1721257001582664e+01, 5.2089068564892152e+01, 6.1073865265892096e+00);
-  mol.emplace_back(AtomicNumber(1), 4.2015430646290291e+01, 4.8567809848769222e+01, 6.6240376119818096e+00);
-  mol.emplace_back(AtomicNumber(1), 3.7510059326875833e+01, 4.7949075765450843e+01, 6.4936843132605899e+00);
-  mol.emplace_back(AtomicNumber(1), 3.6822577012077630e+01, 5.1357291072911785e+01, 6.8581179702392401e+00);
-  mol.emplace_back(AtomicNumber(1), 3.8120214054204155e+01, 5.2345296511740663e+01, 2.6811243359333101e+00);
-  mol.emplace_back(AtomicNumber(1), 4.0177539841168560e+01, 4.9390974489577616e+01, 2.5060790175722398e+00);
-  mol.emplace_back(AtomicNumber(1), 3.6795610622214596e+01, 4.8840402822682471e+01, -4.0940913551685004e-01);
-  mol.emplace_back(AtomicNumber(1), 3.6144467738184872e+01, 4.6842036486574855e+01, 2.4171863070496800e+00);
-  mol.emplace_back(AtomicNumber(1), 3.2267713769011259e+01, 4.8712166017068931e+01, 2.2447866050732097e+00);
-  mol.emplace_back(AtomicNumber(1), 3.3867499099518987e+01, 5.1371104969891377e+01, 3.7663183823764501e+00);
-  mol.emplace_back(AtomicNumber(1), 4.3670263694857589e+01, 5.4478475899903529e+01, 1.0216954737607621e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3400713179786628e+01, 5.8547547282977675e+01, 1.1050286104236839e+01);
-  mol.emplace_back(AtomicNumber(1), 3.7987725365115359e+01, 5.7784740490257931e+01, 8.6806264058105089e+00);
-  mol.emplace_back(AtomicNumber(1), 3.9090588349555645e+01, 6.0956891227172996e+01, 9.6861873990771894e+00);
-  mol.emplace_back(AtomicNumber(1), 4.1660710180895101e+01, 6.1311876254206652e+01, 6.1460314230642599e+00);
-  mol.emplace_back(AtomicNumber(1), 4.3169713074891270e+01, 5.8178257030207291e+01, 6.8576644360018797e+00);
-  mol.emplace_back(AtomicNumber(1), 4.3455212877309386e+01, 5.6973140972502215e+01, 3.3073039396483503e+00);
-  mol.emplace_back(AtomicNumber(1), 4.1673617009399969e+01, 5.4931537705766281e+01, 1.4892533676851309e+01);
-  mol.emplace_back(AtomicNumber(1), 3.8483929615306984e+01, 5.7925884124376338e+01, 1.8496808055671011e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2731617898861401e+01, 5.3759850900806612e+01, 1.8902532225509308e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0995167584829190e+01, 5.5002591402952682e+01, 2.1687950538775532e+01);
-  mol.emplace_back(AtomicNumber(1), 3.9450770123059044e+01, 5.1026872483735140e+01, 1.9177733021287381e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0188840402582777e+01, 5.9992904205664324e+01, 2.2102726496101141e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5650526455990580e+01, 6.1939983378430476e+01, 2.1266730615827427e+01);
-  mol.emplace_back(AtomicNumber(1), 4.1067865343626018e+01, 6.4955419139077762e+01, 2.3772129332043630e+01);
-  mol.emplace_back(AtomicNumber(1), 4.0472696143390472e+01, 6.5675177973768086e+01, 1.9612369998757380e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6251024683515105e+01, 6.5116707252238925e+01, 2.5054459593659249e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5878540793823319e+01, 6.7631592392919899e+01, 2.2623119238951961e+01);
-  mol.emplace_back(AtomicNumber(1), 4.3828528246436335e+01, 6.7630987680603425e+01, 2.5482539221947420e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8311071675903683e+01, 6.0775968860986140e+01, 2.4331148074109610e+01);
-  mol.emplace_back(AtomicNumber(1), 4.5813760986920400e+01, 5.8853834071274790e+01, 2.9278545199611060e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1530975788560781e+01, 5.8931426220383130e+01, 2.7954036253920961e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9544136780986072e+01, 5.6803349092390562e+01, 3.0177865797776160e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0058973729429226e+01, 5.6582572405095689e+01, 2.4447933140229811e+01);
-  mol.emplace_back(AtomicNumber(1), 5.0949639382564712e+01, 5.1763619955066574e+01, 2.6689998539878861e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3362592703399031e+01, 5.4012847416213930e+01, 2.5467950537312340e+01);
-  mol.emplace_back(AtomicNumber(1), 5.2528410960074758e+01, 5.4012715135394700e+01, 2.8885973522656201e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7397219084883169e+01, 5.2299243889388734e+01, 2.6367025471098870e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6027186640118060e+01, 5.5025457087419582e+01, 2.8117894394427150e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6048578338313540e+01, 5.5025173628521230e+01, 2.4599602548106951e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7532353390356562e+01, 6.0749890642337945e+01, 3.3094393300159197e+01);
-  mol.emplace_back(AtomicNumber(1), 4.9771073975005081e+01, 6.6132416074066526e+01, 3.1991416932159570e+01);
-  mol.emplace_back(AtomicNumber(1), 4.7132733035462728e+01, 6.3623880412708587e+01, 3.6715656315620009e+01);
-  mol.emplace_back(AtomicNumber(1), 4.8573951458233466e+01, 6.6800528697477475e+01, 3.6748405267009382e+01);
-  mol.emplace_back(AtomicNumber(1), 4.6485142836292319e+01, 7.0292799016929152e+01, 3.3926949879132927e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2632520667998243e+01, 6.3228889886487813e+01, 3.3937286680292758e+01);
-  mol.emplace_back(AtomicNumber(1), 4.2118930938707820e+01, 7.1021760817185907e+01, 3.1770243402407012e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3734018346536978e+01, 6.6804723889173061e+01, 3.3261482872106583e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6290156205557828e+01, 6.2509792455893646e+01, 3.6343550371126021e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8190861502553922e+01, 6.3290759515367668e+01, 3.2056801451378973e+01);
-  mol.emplace_back(AtomicNumber(1), 5.8256510583411774e+01, 6.6794840622250589e+01, 3.2695245376762621e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1370892396843125e+01, 6.5974434981386139e+01, 3.6328942789231050e+01);
-  mol.emplace_back(AtomicNumber(1), 5.9609478802496220e+01, 6.1016077445148476e+01, 3.6000999741099989e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2625953912437474e+01, 6.0812232702715050e+01, 3.4202642003668139e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2625424789160547e+01, 6.2020920342539334e+01, 3.7506865689954424e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3792292792848272e+01, 6.3332938199442154e+01, 3.1767654477802079e+01);
-  mol.emplace_back(AtomicNumber(1), 6.2081089218029099e+01, 6.6317439145649516e+01, 3.1033231369437122e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4679424658384320e+01, 6.6316891125112704e+01, 3.3405442197948595e+01);
-  mol.emplace_back(AtomicNumber(1), 5.6545155830513487e+01, 6.3264945858357926e+01, 4.0305153037205727e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7541249296575280e+01, 6.8957424146802296e+01, 4.1900289641780518e+01);
-  mol.emplace_back(AtomicNumber(1), 5.5825850530060528e+01, 6.4389559588931604e+01, 4.4898132053470235e+01);
-  mol.emplace_back(AtomicNumber(1), 5.4541044727399317e+01, 6.8557047901512874e+01, 4.7792058433024827e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7506478338377683e+01, 6.6692568651725907e+01, 4.8115617316861410e+01);
-  mol.emplace_back(AtomicNumber(1), 5.7505930317840871e+01, 6.9692773220901870e+01, 4.6277820998039132e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1975968464450503e+01, 6.5131031375235537e+01, 4.3289105962876285e+01);
-  mol.emplace_back(AtomicNumber(1), 5.1998966429736633e+01, 6.8127078547235698e+01, 4.5132458076106232e+01);
-  mol.emplace_back(AtomicNumber(1), 5.3010423368088986e+01, 6.8126530526698886e+01, 4.1762623103481872e+01);
-  mol.emplace_back(AtomicNumber(1), 6.1337916678335070e+01, 6.9673724782932752e+01, 4.3658150551268101e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5088833793901173e+01, 6.5118559183708143e+01, 4.3560206053258227e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5204409435388399e+01, 7.0777173582429640e+01, 4.2588924689432005e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7705839727027708e+01, 6.9734781829637342e+01, 4.4840476513545845e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9534905511780806e+01, 6.6801265690613192e+01, 4.1799510554787155e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6603770427502795e+01, 6.4233392633200651e+01, 3.9938187147401820e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4098409505806387e+01, 6.6699296076246753e+01, 4.0069617589936769e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6430803807729632e+01, 6.6699107103647847e+01, 3.7435471842089996e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7468660218148315e+01, 7.1271129058694342e+01, 3.8649034974965915e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0256232819041998e+01, 7.1329672769833564e+01, 4.0793987356040255e+01);
-  mol.emplace_back(AtomicNumber(1), 7.0255665901245308e+01, 6.9236593367157269e+01, 3.7965955721722082e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6836981511805277e+01, 6.3647445295791414e+01, 4.6779486556338959e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5350239589959543e+01, 6.5992368481021742e+01, 5.2028975278441948e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3750227492333124e+01, 6.2036718451807381e+01, 5.2650147108286141e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5372349384030827e+01, 6.0761947094147764e+01, 4.9753518420567275e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9537551128165418e+01, 6.1150077915028461e+01, 5.2579509150817316e+01);
-  mol.emplace_back(AtomicNumber(1), 6.7245011147350169e+01, 6.1143841819264772e+01, 5.5267795548248941e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9232190305602899e+01, 5.6855883474884756e+01, 5.3189701672665421e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6002402926023322e+01, 5.7049467005197918e+01, 5.4553800377825070e+01);
-  mol.emplace_back(AtomicNumber(1), 6.6470488053498627e+01, 5.8391418121766492e+01, 4.8892804924357435e+01);
-  mol.emplace_back(AtomicNumber(1), 6.5163629148545795e+01, 5.4456951920888820e+01, 5.4254581164726808e+01);
-  mol.emplace_back(AtomicNumber(1), 6.3400458109029124e+01, 5.1988119402559768e+01, 5.2424305955340749e+01);
-  mol.emplace_back(AtomicNumber(1), 6.4836971114087262e+01, 5.5196515083943858e+01, 4.6438202042725557e+01);
-  mol.emplace_back(AtomicNumber(1), 6.9096659157671823e+01, 6.8490756313818750e+01, 5.2433660098986302e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4155890267202295e+01, 6.5891343729649805e+01, 5.0882308445576641e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2174115725278099e+01, 7.1053413727501663e+01, 5.2319520649250698e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5648358058794713e+01, 7.0053427425902527e+01, 5.2951123766554169e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6697911873085317e+01, 6.9959148996311299e+01, 4.8863268507149371e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3274370887853564e+01, 6.7117435745832779e+01, 4.7324804784984686e+01);
-  mol.emplace_back(AtomicNumber(1), 7.1034837721029788e+01, 6.9829910635923596e+01, 4.7282285950232193e+01);
-  mol.emplace_back(AtomicNumber(1), 7.3838888732547545e+01, 6.9829646074285151e+01, 4.5157175692042344e+01);
-  mol.emplace_back(AtomicNumber(1), 7.2239708114356290e+01, 7.3917142285752035e+01, 4.8826437747623757e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5268504237745816e+01, 7.4405107330631608e+01, 5.0547789151003862e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5268050703508464e+01, 7.4080754761879646e+01, 4.7044426139996759e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7259141594558429e+01, 6.5076739547571577e+01, 5.3172391782606176e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5644748682155722e+01, 6.3297562528928069e+01, 5.8498357715483998e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7898228026778327e+01, 6.0648733610146770e+01, 5.4727560682513619e+01);
-  mol.emplace_back(AtomicNumber(1), 8.0774126420397877e+01, 6.2062021882800096e+01, 5.6382866162578168e+01);
-  mol.emplace_back(AtomicNumber(1), 8.0091595187690842e+01, 5.9887476392738009e+01, 6.0070685327371557e+01);
-  mol.emplace_back(AtomicNumber(1), 7.6625081833469253e+01, 5.9385243916641478e+01, 5.9353912259743865e+01);
-  mol.emplace_back(AtomicNumber(1), 7.8020190942108385e+01, 5.5404139278355288e+01, 5.8668943280511030e+01);
-  mol.emplace_back(AtomicNumber(1), 7.8640625778816869e+01, 5.6821414872845402e+01, 5.5465876626415920e+01);
-  mol.emplace_back(AtomicNumber(1), 8.2536957309236513e+01, 5.5416762647961811e+01, 5.9518545187905538e+01);
-  mol.emplace_back(AtomicNumber(1), 8.0696609860329090e+01, 5.7654784033994396e+01, 5.3270166205277043e+01);
-  mol.emplace_back(AtomicNumber(1), 8.4025059833794344e+01, 5.7532480967986324e+01, 5.2061705332571428e+01);
-  mol.emplace_back(AtomicNumber(1), 8.6613549801746885e+01, 5.5641696732432479e+01, 5.8100343627680822e+01);
-  mol.emplace_back(AtomicNumber(1), 7.5814767329386058e+01, 6.6776415793857836e+01, 6.0660260938679663e+01);
-  mol.emplace_back(AtomicNumber(1), 7.9018627668396547e+01, 6.8463487567797486e+01, 6.3834093531724953e+01);
-  mol.emplace_back(AtomicNumber(1), 8.1071777160925251e+01, 6.9211856853961265e+01, 6.0970138206355891e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7726508626157909e+01, 7.1577472538771133e+01, 6.5464416834214916e+01);
-  mol.emplace_back(AtomicNumber(1), 7.7725431482344163e+01, 7.6728733303965896e+01, 6.3542830065040377e+01);
-  mol.emplace_back(AtomicNumber(1), 7.4517470437937547e+01, 7.5454755631221659e+01, 6.2946016803194404e+01);
-  mol.emplace_back(AtomicNumber(1), 7.8916412389651526e+01, 7.3924266552730558e+01, 6.7862649189594933e+01);
-      
-  return mol;
-}
-
-
-
-BasisSet<double> make_631Gd( const Molecule& mol, SphericalType sph ) {
-
-  std::string basis_path = GAUXC_REF_DATA_PATH  "/../basis/old/6-31g-star.g94";
-  return parse_basis( mol, basis_path, sph );
-
-}
-
-
-
-BasisSet<double> make_ccpvdz( const Molecule& mol, SphericalType sph ) {
-
-  std::string basis_path = GAUXC_REF_DATA_PATH  "/../basis/old/cc-pvdz.g94";
-  return parse_basis( mol, basis_path, sph );
-
-}
-
-
-
-
-}
diff --git a/third_party/gauxc/tests/standards.hpp b/third_party/gauxc/tests/standards.hpp
deleted file mode 100644
index 93a6b29..0000000
--- a/third_party/gauxc/tests/standards.hpp
+++ /dev/null
@@ -1,24 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include <gauxc/basisset.hpp>
-#include <gauxc/molecule.hpp>
-
-namespace GauXC {
-
-Molecule         make_water();
-Molecule         make_benzene();
-Molecule         make_ubiquitin();
-Molecule         make_taxol();
-BasisSet<double> make_631Gd( const Molecule&, SphericalType );
-BasisSet<double> make_ccpvdz( const Molecule&, SphericalType );
-
-}
diff --git a/third_party/gauxc/tests/ut_common.hpp.in b/third_party/gauxc/tests/ut_common.hpp.in
deleted file mode 100644
index 827f6fe..0000000
--- a/third_party/gauxc/tests/ut_common.hpp.in
+++ /dev/null
@@ -1,24 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "catch2/catch.hpp"
-#include "standards.hpp"
-
-#include <random>
-#include <algorithm>
-
-#include <fstream>
-#include <gauxc/external/cereal.hpp>
-#include <cereal/archives/binary.hpp>
-#include "eigen3_matrix_serialization.hpp"
-
-#cmakedefine GAUXC_REF_DATA_PATH "@GAUXC_REF_DATA_PATH@"
-#cmakedefine GAUXC_ONEDFT_MODEL_PATH "@GAUXC_ONEDFT_MODEL_PATH@"
\ No newline at end of file
diff --git a/third_party/gauxc/tests/ut_main.cxx b/third_party/gauxc/tests/ut_main.cxx
deleted file mode 100644
index 7542051..0000000
--- a/third_party/gauxc/tests/ut_main.cxx
+++ /dev/null
@@ -1,37 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#define CATCH_CONFIG_RUNNER
-#include "catch2/catch.hpp"
-#include <gauxc/gauxc_config.hpp>
-
-#ifdef GAUXC_HAS_MPI
-#include <mpi.h>
-#endif
-#ifdef GAUXC_HAS_CUDA
-#include <cuda_runtime.h>
-#endif
-
-int main( int argc, char* argv[] ) {
-#ifdef GAUXC_HAS_MPI
-  MPI_Init(&argc, &argv);
-  int rank;
-  MPI_Comm_rank(MPI_COMM_WORLD, &rank);
-#ifdef GAUXC_HAS_CUDA
-  cudaSetDevice(rank);
-#endif
-  int result = Catch::Session().run( argc, argv );
-  MPI_Finalize();
-#else
-  int result = Catch::Session().run( argc, argv );
-#endif
-  return result;
-}
diff --git a/third_party/gauxc/tests/weight_derivative_test.cxx b/third_party/gauxc/tests/weight_derivative_test.cxx
deleted file mode 100644
index ec53daf..0000000
--- a/third_party/gauxc/tests/weight_derivative_test.cxx
+++ /dev/null
@@ -1,398 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/molecule.hpp>
-#include <gauxc/molmeta.hpp>
-#include <gauxc/xc_task.hpp>
-#include <gauxc/external/hdf5.hpp>
-#include <gauxc/load_balancer.hpp>
-#include <gauxc/molecular_weights.hpp>
-#include <gauxc/runtime_environment.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-#include <gauxc/xc_integrator/local_work_driver.hpp>
-
-// Include weights implementation
-#include "xc_integrator/local_work_driver/host/reference/weights.hpp"
-
-using namespace GauXC;
-
-// Helper function to compute weights for a task
-void compute_weights_task(XCWeightAlg weight_alg, const Molecule& mol, const MolMeta& meta, XCTask& task) {
-  // Construct local work driver
-  auto lwd = LocalWorkDriverFactory::make_local_work_driver( ExecutionSpace::Host, "Default", LocalWorkSettings() );
-  auto* lwd_host = dynamic_cast<LocalHostWorkDriver*>(lwd.get());
-
-  std::vector<XCTask> tasks = {task};
-  lwd_host->partition_weights(weight_alg, mol, meta, tasks.begin(), tasks.end());
-
-  // Copy the computed weights back to the original task
-  task.weights = tasks[0].weights;
-}
-
-// Helper function to compute weights for a task
-void compute_int(XCWeightAlg weight_alg, const Molecule& mol, const MolMeta& meta, XCTask& task, 
-                 double* f_eval, double* result) {
-  std::vector<XCTask> tasks = {task};
-  
-  auto lwd = LocalWorkDriverFactory::make_local_work_driver( ExecutionSpace::Host, "Default", LocalWorkSettings() );
-  auto* lwd_host = dynamic_cast<LocalHostWorkDriver*>(lwd.get());
-  lwd_host->partition_weights(weight_alg, mol, meta, tasks.begin(), tasks.end());
-
-  for (size_t i = 0; i < task.points.size(); i++) {
-    result[0] += tasks[0].weights[i] * f_eval[i];
-  }
-}
-
-
-// Test function that reads molecule and basis from reference file
-void test_weight_1st_deri_host_fdiff(const std::string& reference_file, XCWeightAlg weight_alg,
-                                        PruningScheme pruning_scheme, double fdiff_step, double fdiff_tolerance) {
-
-  // Create runtime environment
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  Molecule mol;
-  BasisSet<double> basis;
-  
-  // Read molecule and basis from HDF5 reference file
-  read_hdf5_record(mol, reference_file, "/MOLECULE");
-  read_hdf5_record(basis, reference_file, "/BASIS");
-  
-  // Set shell tolerance for numerical stability
-  for(auto& sh : basis) {
-    sh.set_shell_tolerance(std::numeric_limits<double>::epsilon());
-  }
-  auto mg = MolGridFactory::create_default_molgrid(mol, pruning_scheme,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-  // Construct Load Balancer
-  LoadBalancerFactory lb_factory(ExecutionSpace::Host, "Default");
-  auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-
-  
-  // Get all XC tasks
-  auto& tasks = lb.get_tasks();
-  size_t natoms = mol.size();
-  size_t ntask = tasks.size();
-
-  auto get_xyz_pointer = [](Atom& atom, size_t i_coord) {
-    switch(i_coord) {
-      case 0: return &atom.x; // X coordinate
-      case 1: return &atom.y; // Y coordinate
-      case 2: return &atom.z; // Z coordinate
-      default: throw std::out_of_range("Invalid coordinate index");
-    }
-  };
-
-  // Calculate finite difference derivatives as ref
-  std::vector<std::vector<double>> weight_derivatives_ref(ntask);
-  for(size_t i_task = 0; i_task < ntask; i_task++) {
-    weight_derivatives_ref[i_task].resize(3 * natoms * tasks[i_task].npts);
-  }
-  for( size_t i_atom = 0; i_atom < mol.size(); i_atom++ ) {
-    for( size_t i_coord = 0; i_coord < 3; i_coord++ ) {
-      // Create perturbed molecules
-      Molecule mol_plus = mol;
-      Molecule mol_minus = mol;
-      
-      // Perturb atom coordinates
-      double* coord_ptr_plus = get_xyz_pointer(mol_plus[i_atom], i_coord);
-      double* coord_ptr_minus = get_xyz_pointer(mol_minus[i_atom], i_coord);
-      double delta = fdiff_step; // Use provided finite difference step
-      *coord_ptr_plus += delta;   // Perturb in positive direction
-      *coord_ptr_minus -= delta;  // Perturb in negative direction
-      
-      // Create metadata for perturbed molecules
-      MolMeta meta_plus(mol_plus);
-      MolMeta meta_minus(mol_minus);
-      
-      // Compute weights for perturbed geometries
-      for(size_t itask = 0; itask < ntask; itask++) {
-        XCTask task_plus = tasks[itask];
-        XCTask task_minus = tasks[itask];      
-        if (i_atom == (size_t)task_plus.iParent) {
-          for(size_t ipt = 0; ipt < task_plus.npts; ipt++) {
-            task_plus.points[ipt][i_coord] += delta;
-            task_minus.points[ipt][i_coord] -= delta;
-          }
-        }
-        task_plus.dist_nearest = meta_plus.dist_nearest()[task_plus.iParent];
-        task_minus.dist_nearest = meta_minus.dist_nearest()[task_minus.iParent];
-
-        // Compute weights for perturbed geometries
-        compute_weights_task(weight_alg, mol_plus, meta_plus, task_plus);
-        compute_weights_task(weight_alg, mol_minus, meta_minus, task_minus);
-      
-        // Compute centered finite difference
-        for(size_t ipt = 0; ipt < task_plus.npts; ipt++) {
-          weight_derivatives_ref[itask][3 * natoms * ipt + 3 * i_atom + i_coord] =
-            (task_plus.weights[ipt] - task_minus.weights[ipt]) / (2.0 * delta);
-        }
-      }
-    }
-  }
-
-
-  // Test derivatives for all tasks
-  for(size_t task_idx = 0; task_idx < ntask; task_idx++) {
-    auto& task = tasks[task_idx];
-    
-    INFO("Testing task " << task_idx << " with " << task.npts << " points");
-    
-    // Create MolMeta
-    MolMeta meta(mol);    // Compute analytical derivatives
-    std::vector<double> analytical_derivatives(3 * natoms * task.npts);
-    compute_weights_task(weight_alg, mol, meta, task);
-  
-    switch( weight_alg ) {
-      case XCWeightAlg::Becke:
-        reference_becke_weights_1st_derivative_host(mol, meta, task, analytical_derivatives.data());
-        break;
-      case XCWeightAlg::SSF:
-        reference_ssf_weights_1st_derivative_host(mol, meta, task, analytical_derivatives.data());
-        break;
-      default:
-        GAUXC_GENERIC_EXCEPTION("Weight Alg Not Supported");
-    }
-
-    // Compare with numerical derivatives
-    double max_error = 0.0;
-    for(size_t ipt = 0; ipt < task.npts; ipt++) {
-      for(size_t iatom = 0; iatom < natoms; iatom++) {        
-        for(size_t icoord = 0; icoord < 3; icoord++) {
-          size_t idx = 3 * natoms * ipt + 3 * iatom + icoord;
-          double error = std::abs(analytical_derivatives[idx] - weight_derivatives_ref[task_idx][idx]);
-          max_error = std::max(max_error, error);
-          
-          INFO("Task " << task_idx << ", Point " << ipt << ", Atom " << iatom << ", Coord " << icoord 
-                << " iParent: " << task.iParent);
-          INFO("Analytical: " << analytical_derivatives[idx]);
-          INFO("Numerical: " << weight_derivatives_ref[task_idx][idx]);
-          INFO("Error: " << error);
-          
-          REQUIRE(analytical_derivatives[idx] == Approx(weight_derivatives_ref[task_idx][idx]).margin(fdiff_tolerance));
-          
-        }
-      }
-    }
-    
-    // Report statistics for this task
-    INFO("Task " << task_idx << " - Total derivatives tested: " << (task.npts * natoms * 3));
-    INFO("Task " << task_idx << " - Maximum error: " << max_error);
-  }
-
-
-}
-
-
-
-// Test function that reads molecule and basis from reference file
-void test_weight_1st_deri_host_fdiff_contracted(const std::string& reference_file, XCWeightAlg weight_alg,
-                                        PruningScheme pruning_scheme, double fdiff_step, double fdiff_tolerance) {
-
-  // Create runtime environment
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  Molecule mol;
-  BasisSet<double> basis;
-  
-  // Read molecule and basis from HDF5 reference file
-  read_hdf5_record(mol, reference_file, "/MOLECULE");
-  read_hdf5_record(basis, reference_file, "/BASIS");
-  
-  // Set shell tolerance for numerical stability
-  for(auto& sh : basis) {
-    sh.set_shell_tolerance(std::numeric_limits<double>::epsilon());
-  }
-  auto mg = MolGridFactory::create_default_molgrid(mol, pruning_scheme,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-  // Construct Load Balancer
-  LoadBalancerFactory lb_factory(ExecutionSpace::Host, "Default");
-  auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-  
-  // Get all XC tasks
-  auto& tasks = lb.get_tasks();
-  size_t natoms = mol.size();
-  size_t ntask = tasks.size();
-
-  // Sort tasks on size (XXX: maybe doesnt matter?)
-  auto task_comparator = []( const XCTask& a, const XCTask& b ) {
-    return (a.points.size() * a.bfn_screening.nbe) > (b.points.size() * b.bfn_screening.nbe);
-  };
-  std::stable_sort( tasks.begin(), tasks.end(), task_comparator );
-  
-  // generate a random f_eval vector
-  std::vector<std::vector<double>> f_evals(ntask);
-  for(size_t i_task = 0; i_task < ntask; i_task++) {
-    f_evals[i_task].resize(tasks[i_task].npts);
-    for(size_t i_pt = 0; i_pt < tasks[i_task].npts; i_pt++) {
-      f_evals[i_task][i_pt] = static_cast<double>(rand()) / RAND_MAX; // Random value between 0 and 1
-    }
-  }
-
-
-  auto get_xyz_pointer = [](Atom& atom, size_t i_coord) {
-    switch(i_coord) {
-      case 0: return &atom.x; // X coordinate
-      case 1: return &atom.y; // Y coordinate
-      case 2: return &atom.z; // Z coordinate
-      default: throw std::out_of_range("Invalid coordinate index");
-    }
-  };
-
-  // Calculate finite difference derivatives as ref
-  std::vector<std::vector<double>> exc_grad_w_ref(ntask);
-  for(size_t i_task = 0; i_task < ntask; i_task++) {
-    exc_grad_w_ref[i_task].resize(3 * natoms);
-  }
-  for( size_t i_atom = 0; i_atom < mol.size(); i_atom++ ) {
-    for( size_t i_coord = 0; i_coord < 3; i_coord++ ) {
-      // Create perturbed molecules
-      Molecule mol_plus = mol;
-      Molecule mol_minus = mol;
-      
-      // Perturb atom coordinates
-      double* coord_ptr_plus = get_xyz_pointer(mol_plus[i_atom], i_coord);
-      double* coord_ptr_minus = get_xyz_pointer(mol_minus[i_atom], i_coord);
-      double delta = fdiff_step; // Use provided finite difference step
-      *coord_ptr_plus += delta;   // Perturb in positive direction
-      *coord_ptr_minus -= delta;  // Perturb in negative direction
-      
-      // Create metadata for perturbed molecules
-      MolMeta meta_plus(mol_plus);
-      MolMeta meta_minus(mol_minus);
-      
-      // Compute weights for perturbed geometries
-      for(size_t itask = 0; itask < ntask; itask++) {
-        XCTask task_plus = tasks[itask];
-        XCTask task_minus = tasks[itask];      
-        if (i_atom == (size_t)task_plus.iParent) {
-          for(size_t ipt = 0; ipt < task_plus.npts; ipt++) {
-            task_plus.points[ipt][i_coord] += delta;
-            task_minus.points[ipt][i_coord] -= delta;
-          }
-        }
-        task_plus.dist_nearest = meta_plus.dist_nearest()[task_plus.iParent];
-        task_minus.dist_nearest = meta_minus.dist_nearest()[task_minus.iParent];
-
-        // Compute weights for perturbed geometries
-        double result_plus = 0.0, result_minus = 0.0;
-        compute_int(weight_alg, mol_plus, meta_plus, task_plus, f_evals[itask].data(), &result_plus);
-        compute_int(weight_alg, mol_minus, meta_minus, task_minus, f_evals[itask].data(), &result_minus);
-      
-        // Compute centered finite difference
-        exc_grad_w_ref[itask][3 * i_atom + i_coord] =
-          (result_plus - result_minus) / (2.0 * delta);
-      }
-    }
-  }
-  
-  // Construct Weights Module
-  MolecularWeightsFactory mw_factory(ExecutionSpace::Host, "Default", MolecularWeightsSettings{weight_alg, false});
-  auto mw = mw_factory.get_instance();
-  // Apply partition weights
-  mw.modify_weights(lb);
-
-  // check lb.state().xc_weight_alg() == weight_alg;
-  REQUIRE(lb.state().weight_alg == weight_alg);
-
-  auto lwd = LocalWorkDriverFactory::make_local_work_driver( ExecutionSpace::Host, "Default", LocalWorkSettings() );
-  auto* lwd_host = dynamic_cast<LocalHostWorkDriver*>(lwd.get());
-
-  // Create MolMeta
-  MolMeta meta(mol);    
-  
-  // Test derivatives for all tasks
-  std::vector<std::vector<double>> w_times_fs(ntask);
-  for(size_t task_idx = 0; task_idx < ntask; task_idx++) {
-    auto& task = tasks[task_idx];
-    
-    INFO("Testing task " << task_idx << " with " << task.npts << " points");
-    
-    auto w_times_f = w_times_fs[task_idx];
-    w_times_f.resize(task.npts);
-    for(size_t i = 0; i < task.npts; i++) {
-      w_times_f[i] = task.weights[i] * f_evals[task_idx][i];
-    }
-
-    // Compute analytical derivatives
-    std::vector<double> analytical_derivatives(3 * natoms);
-    lwd_host->eval_weight_1st_deriv_contracted(weight_alg, mol, meta, task, w_times_f.data(), analytical_derivatives.data());
-
-    // Compare with numerical derivatives
-    double max_error = 0.0;
-    for(size_t iatom = 0; iatom < natoms; iatom++) {        
-      for(size_t icoord = 0; icoord < 3; icoord++) {
-        size_t idx = 3 * iatom + icoord;
-        double error = std::abs(analytical_derivatives[idx] - exc_grad_w_ref[task_idx][idx]);
-        max_error = std::max(max_error, error);
-        
-        INFO("Task " << task_idx << ", Atom " << iatom << ", Coord " << icoord 
-              << " iParent: " << task.iParent);
-        INFO("Analytical: " << analytical_derivatives[idx]);
-        INFO("Numerical: " << exc_grad_w_ref[task_idx][idx]);
-        INFO("Error: " << error);
-        
-        REQUIRE(analytical_derivatives[idx] == Approx(exc_grad_w_ref[task_idx][idx]).margin(fdiff_tolerance));
-        
-      }
-    }
-    
-    // Report statistics for this task
-    INFO("Task " << task_idx << " - Total derivatives tested: " << (task.npts * natoms * 3));
-    INFO("Task " << task_idx << " - Maximum error: " << max_error);
-  }
-
-
-}
-
-TEST_CASE("Weights First Derivative uncontracted HOST fidiff", "[weights_fdiff]") {
-  
-
-  SECTION( "H3 Becke" ) {
-  test_weight_1st_deri_host_fdiff(GAUXC_REF_DATA_PATH "/h3_blyp_cc-pvdz_ssf_gks.bin", XCWeightAlg::Becke,
-                                      PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-  SECTION( "H3 SSF" ) {
-  test_weight_1st_deri_host_fdiff(GAUXC_REF_DATA_PATH "/h3_blyp_cc-pvdz_ssf_gks.bin", XCWeightAlg::SSF,
-                                      PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-  
-}
-
-
-TEST_CASE("Weights First Derivative contracted HOST fidiff", "[weights_fdiff]") {
-  
-
-  SECTION( "H3 Becke" ) {
-  test_weight_1st_deri_host_fdiff_contracted(GAUXC_REF_DATA_PATH "/h3_blyp_cc-pvdz_ssf_gks.bin", XCWeightAlg::Becke,
-                                      PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-
-  // SECTION( "Benzene Becke" ) {
-  // test_weight_1st_deri_host_fdiff_contracted(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5", XCWeightAlg::Becke,
-  //                                     PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-
-  // SECTION( "Cytosine Becke" ) {
-  // test_weight_1st_deri_host_fdiff_contracted(GAUXC_REF_DATA_PATH "/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5", XCWeightAlg::Becke,
-  //                                     PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-  
-
-  SECTION( "H3 SSF" ) {
-  test_weight_1st_deri_host_fdiff_contracted(GAUXC_REF_DATA_PATH "/h3_blyp_cc-pvdz_ssf_gks.bin", XCWeightAlg::SSF,
-                                      PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-  // SECTION( "Benzene SSF" ) {
-  // test_weight_1st_deri_host_fdiff_contracted(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5", XCWeightAlg::SSF,
-  //                                     PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-
-  // SECTION( "Cytosine SSF" ) {
-  // test_weight_1st_deri_host_fdiff_contracted(GAUXC_REF_DATA_PATH "/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5", XCWeightAlg::SSF,
-  //                                     PruningScheme::Unpruned, 1.0e-5, 1.0e-6);}
-  
-
-}
\ No newline at end of file
diff --git a/third_party/gauxc/tests/weights.cxx b/third_party/gauxc/tests/weights.cxx
deleted file mode 100644
index e9069a5..0000000
--- a/third_party/gauxc/tests/weights.cxx
+++ /dev/null
@@ -1,94 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/molgrid.hpp>
-#include <gauxc/basisset.hpp>
-#include <gauxc/load_balancer.hpp>
-#include <gauxc/util/div_ceil.hpp>
-#include <fstream>
-#include <string>
-
-#include "weights_generate.hpp"
-#include "weights_host.hpp"
-#include "weights_cuda.hpp"
-#include "weights_hip.hpp"
-
-//#define GENERATE_TESTS
-TEST_CASE( "Partition Weights", "[weights]" ) {
-
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-#ifdef GENERATE_TESTS
-  if(rt.comm_size() > 1) return;
-#endif
-
-  Molecule mol = make_benzene();
-
-#ifdef GENERATE_TESTS
-  BasisSet<double> basis = make_631Gd( mol, SphericalType(true) );
-  for( auto& sh : basis ) sh.set_shell_tolerance( 1e-6 );
-
-  {
-  std::ofstream ref_data( "benzene_weights_becke.bin", std::ios::binary );
-  generate_weights_data( mol, basis, ref_data, XCWeightAlg::Becke );  
-  }
-  {
-  std::ofstream ref_data( "benzene_weights_ssf.bin", std::ios::binary );
-  generate_weights_data( mol, basis, ref_data, XCWeightAlg::SSF );  
-  }
-  {
-  std::ofstream ref_data( "benzene_weights_lko.bin", std::ios::binary );
-  generate_weights_data( mol, basis, ref_data, XCWeightAlg::LKO );  
-  }
-  return;
-#else
-
-
-#ifdef GAUXC_HAS_HOST
-  SECTION("Becke") {
-  std::ifstream ref_data( GAUXC_REF_DATA_PATH "/benzene_weights_becke.bin", 
-                          std::ios::binary );
-  test_host_weights( ref_data, XCWeightAlg::Becke );
-  }
-  SECTION("LKO") {
-  std::ifstream ref_data( GAUXC_REF_DATA_PATH "/benzene_weights_lko.bin", 
-                          std::ios::binary );
-  test_host_weights( ref_data, XCWeightAlg::LKO );
-  }
-#endif
-
-
-  SECTION("SSF") {
-
-  std::ifstream ref_data( GAUXC_REF_DATA_PATH "/benzene_weights_ssf.bin", 
-                          std::ios::binary );
-
-#ifdef GAUXC_HAS_HOST
-  SECTION( "Host Weights" ) {
-    test_host_weights( ref_data, XCWeightAlg::SSF );
-  }
-#endif
-
-#ifdef GAUXC_HAS_DEVICE
-  SECTION( "Device Weights" ) {
-#ifdef GAUXC_HAS_CUDA
-    test_cuda_weights( ref_data );
-#elif defined(GAUXC_HAS_HIP)
-    test_hip_weights( ref_data );
-#endif
-  }
-#endif
-#endif
-
-  }
-}
-
-
diff --git a/third_party/gauxc/tests/weights_cuda.hpp b/third_party/gauxc/tests/weights_cuda.hpp
deleted file mode 100644
index 3951cda..0000000
--- a/third_party/gauxc/tests/weights_cuda.hpp
+++ /dev/null
@@ -1,120 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "weights_generate.hpp"
-#include <fstream>
-#include <string>
-#include <gauxc/util/div_ceil.hpp>
-
-#ifdef GAUXC_HAS_CUDA
-#include "device_specific/cuda_util.hpp"
-#include "device/cuda/cuda_aos_scheme1.hpp"
-#include "device/cuda/cuda_aos_scheme1_weights.hpp"
-      
-
-
-                        
-void test_cuda_weights( std::ifstream& in_file ) {
-
-  ref_weights_data ref_data;
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  //std::vector< std::array<double,3> > points;
-  std::vector< double > points_x, points_y, points_z;
-  std::vector< double >               weights, weights_ref;
-  std::vector< double >               dist_nearest;
-  std::vector< int32_t >              iparent;
-
-  for( auto& task : ref_data.tasks_unm ) {
-    for( auto pt : task.points ) {
-      points_x.emplace_back(pt[0]);
-      points_y.emplace_back(pt[1]);
-      points_z.emplace_back(pt[2]);
-    }
-    weights.insert( weights.end(),
-                    task.weights.begin(),
-                    task.weights.end() );
-
-    size_t npts = task.points.size();
-    dist_nearest.insert( dist_nearest.end(), npts,
-                         task.dist_nearest );
-    iparent.insert( iparent.end(), npts, task.iParent );
-  }
-
-  for( auto& task : ref_data.tasks_mod ) {
-    weights_ref.insert( weights_ref.end(),
-                        task.weights.begin(),
-                        task.weights.end() );
-  }
-
-  size_t npts   = points_x.size();
-  size_t natoms = ref_data.mol.natoms();
-
-  constexpr auto weight_unroll = alg_constants::CudaAoSScheme1::weight_unroll;
-
-  size_t LDatoms = util::div_ceil( natoms, weight_unroll ) * weight_unroll;
-
-  std::vector< double >  coords( 3 * natoms );
-  for( auto iat = 0 ; iat < natoms; ++iat ) {
-    coords[ 3*iat + 0 ] = ref_data.mol.at(iat).x;
-    coords[ 3*iat + 1 ] = ref_data.mol.at(iat).y;
-    coords[ 3*iat + 2 ] = ref_data.mol.at(iat).z;
-  }
-
-
-  //auto* points_d  = util::cuda_malloc<double>( 3*npts );
-  auto* points_x_d  = util::cuda_malloc<double>( npts );
-  auto* points_y_d  = util::cuda_malloc<double>( npts );
-  auto* points_z_d  = util::cuda_malloc<double>( npts );
-  auto* weights_d = util::cuda_malloc<double>( npts   );
-  auto* iparent_d = util::cuda_malloc<int32_t>( npts  );
-  auto* distnea_d = util::cuda_malloc<double>( npts   );
-  auto* rab_d     = util::cuda_malloc<double>( natoms*LDatoms );
-  auto* coords_d  = util::cuda_malloc<double>( 3*natoms );
-  auto* dist_scr_d= util::cuda_malloc<double>( npts*LDatoms );
-
-  //util::cuda_copy( 3*npts, points_d,  points.data()->data() );
-  util::cuda_copy( npts, points_x_d,  points_x.data() );
-  util::cuda_copy( npts, points_y_d,  points_y.data() );
-  util::cuda_copy( npts, points_z_d,  points_z.data() );
-  util::cuda_copy( npts,   weights_d, weights.data() );
-  util::cuda_copy( npts,   iparent_d, iparent.data() );
-  util::cuda_copy( npts,   distnea_d, dist_nearest.data() );
-
-  std::vector<double> rab_inv(natoms*natoms);
-  for( auto i = 0; i < natoms*natoms; ++i )
-    rab_inv[i] = 1./ref_data.meta->rab().data()[i];
-
-  util::cuda_copy_2d( rab_d, LDatoms * sizeof(double),
-                      rab_inv.data(), natoms * sizeof(double),
-                      natoms * sizeof(double), natoms, "RAB H2D");
-
-  util::cuda_copy( 3*natoms, coords_d, coords.data() );
-
-  cudaStream_t stream = 0;
-  cuda_aos_scheme1_weights_wrapper( npts, natoms, points_x_d, points_y_d, points_z_d, rab_d,
-    LDatoms, coords_d, dist_scr_d, LDatoms, iparent_d, distnea_d,
-    weights_d, stream );
-
-  util::cuda_device_sync();
-  util::cuda_copy( npts, weights.data(), weights_d );
-  util::cuda_free( points_x_d, points_y_d, points_z_d, weights_d, iparent_d, distnea_d,
-                   rab_d, coords_d, dist_scr_d );
-
-  for( auto i = 0ul; i < npts; ++i )
-    CHECK( weights.at(i) == Approx( weights_ref.at(i) ) );
-
-}
-#endif
diff --git a/third_party/gauxc/tests/weights_generate.hpp b/third_party/gauxc/tests/weights_generate.hpp
deleted file mode 100644
index 465c0bf..0000000
--- a/third_party/gauxc/tests/weights_generate.hpp
+++ /dev/null
@@ -1,107 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include <gauxc/molgrid.hpp>
-#include <gauxc/molgrid/defaults.hpp>
-#include <gauxc/load_balancer.hpp>
-
-
-using namespace GauXC;
-
-struct ref_weights_data {
-  Molecule                  mol;
-  std::shared_ptr<MolMeta>  meta;
-  std::vector< XCTask > tasks_unm;
-  std::vector< XCTask > tasks_mod; // This is only the weights
-
-  template <typename Archive>
-  void load( Archive& ar ) {
-    ar( mol, tasks_unm, tasks_mod );
-    meta = std::make_shared<MolMeta>(mol);
-  }
-  template <typename Archive>
-  void save( Archive& ar ) const {
-    ar( mol, tasks_unm, tasks_mod );
-  }
-};
-
-
-#ifdef GAUXC_HAS_HOST
-#include "host/reference/weights.hpp"
-
-void generate_weights_data( const Molecule& mol, const BasisSet<double>& basis,
-                            std::ofstream& out_file, XCWeightAlg weight_alg,
-                            size_t ntask_save = 15 ) {
-
-
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-  auto mg = MolGridFactory::create_default_molgrid(mol, PruningScheme::Unpruned,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::FineGrid);
-
-  LoadBalancerFactory lb_factory(ExecutionSpace::Host, "Default");
-  auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-  auto& tasks = lb.get_tasks();
-
-  ref_weights_data   ref_data;
-  ref_data.mol       = mol;
-
-  auto abs_comparator = []( const auto& a, const auto& b ) {
-    return std::abs(a) < std::abs(b);
-  };
-
-  std::sort( tasks.begin(), tasks.end(),
-    [&]( const auto& a, const auto& b ) {
-      auto a_max =
-        *std::max_element( a.weights.begin(), a.weights.end(),
-                           abs_comparator );
-      auto b_max =
-        *std::max_element( b.weights.begin(), b.weights.end(),
-                           abs_comparator );
-
-      return a_max < b_max;
-    });
-
-  if( tasks.size() > ntask_save )
-    tasks.erase( tasks.begin() + ntask_save, tasks.end() );
-
-  ref_data.tasks_unm = tasks; // Make a copy of un modified tasks
-
-
-  switch( weight_alg ) {
-    case XCWeightAlg::Becke:
-      reference_becke_weights_host( 
-        mol, lb.molmeta(), tasks.begin(), tasks.end() );
-      break;
-    case XCWeightAlg::SSF:
-      reference_ssf_weights_host( 
-        mol, lb.molmeta(), tasks.begin(), tasks.end() );
-      break;
-    case XCWeightAlg::LKO:
-      reference_lko_weights_host( 
-        mol, lb.molmeta(), tasks.begin(), tasks.end() );
-      break;
-  }
-
-  // Clear out unneeded data
-  for( auto& task : tasks ) {
-    task.points.clear();
-    task.bfn_screening.shell_list.clear();
-  }
-  ref_data.tasks_mod = tasks;
-
-  {
-    cereal::BinaryOutputArchive ar( out_file );
-    ar( ref_data );
-  }
-
-}
-#endif
diff --git a/third_party/gauxc/tests/weights_hip.hpp b/third_party/gauxc/tests/weights_hip.hpp
deleted file mode 100644
index 478a755..0000000
--- a/third_party/gauxc/tests/weights_hip.hpp
+++ /dev/null
@@ -1,131 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "weights_generate.hpp"
-#include <fstream>
-#include <string>
-#include <gauxc/util/div_ceil.hpp>
-
-#ifdef GAUXC_HAS_HIP
-#include "device_specific/hip_util.hpp"
-#include "device/hip/hip_aos_scheme1.hpp"
-//#include "device/hip/hip_aos_scheme1_weights.hpp"
-#include "device/hip/kernels/grid_to_center.hpp"
-#include "device/hip/kernels/hip_ssf_1d.hpp"
-#include "device/hip/kernels/hip_ssh_2d.hpp"
-      
-
-
-                        
-void test_hip_weights( std::ifstream& in_file ) {
-
-  ref_weights_data ref_data;
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  //std::vector< std::array<double,3> > points;
-  std::vector< double > points_x, points_y, points_z;
-  std::vector< double >               weights, weights_ref;
-  std::vector< double >               dist_nearest;
-  std::vector< int32_t >              iparent;
-
-  for( auto& task : ref_data.tasks_unm ) {
-    //points.insert( points.end(),
-    //               task.points.begin(),
-    //               task.points.end() );
-    for( auto pt : task.points ) {
-      points_x.emplace_back(pt[0]);
-      points_y.emplace_back(pt[1]);
-      points_z.emplace_back(pt[2]);
-    }
-    weights.insert( weights.end(),
-                    task.weights.begin(),
-                    task.weights.end() );
-
-    size_t npts = task.points.size();
-    dist_nearest.insert( dist_nearest.end(), npts,
-                         task.dist_nearest );
-    iparent.insert( iparent.end(), npts, task.iParent );
-  }
-
-  for( auto& task : ref_data.tasks_mod ) {
-    weights_ref.insert( weights_ref.end(),
-                        task.weights.begin(),
-                        task.weights.end() );
-  }
-
-  size_t npts   = points_x.size();
-  size_t natoms = ref_data.mol.natoms();
-
-  //constexpr auto weight_unroll = alg_constants::HipAoSScheme1::weight_unroll;
-
-  //size_t LDatoms = util::div_ceil( natoms, weight_unroll ) * weight_unroll;
-  size_t LDatoms = natoms;
-
-  std::vector< double >  coords( 3 * natoms );
-  for( auto iat = 0 ; iat < natoms; ++iat ) {
-    coords[ 3*iat + 0 ] = ref_data.mol.at(iat).x;
-    coords[ 3*iat + 1 ] = ref_data.mol.at(iat).y;
-    coords[ 3*iat + 2 ] = ref_data.mol.at(iat).z;
-  }
-
-
-  //auto* points_d  = util::hip_malloc<double>( 3*npts );
-  auto* points_x_d  = util::hip_malloc<double>( npts );
-  auto* points_y_d  = util::hip_malloc<double>( npts );
-  auto* points_z_d  = util::hip_malloc<double>( npts );
-  auto* weights_d = util::hip_malloc<double>( npts   );
-  auto* iparent_d = util::hip_malloc<int32_t>( npts  );
-  auto* distnea_d = util::hip_malloc<double>( npts   );
-  auto* rab_d     = util::hip_malloc<double>( natoms*LDatoms );
-  auto* coords_d  = util::hip_malloc<double>( 3*natoms );
-  auto* dist_scr_d= util::hip_malloc<double>( npts*LDatoms );
-
-  //util::hip_copy( 3*npts, points_d,  points.data()->data() );
-  util::hip_copy( npts, points_x_d,  points_x.data() );
-  util::hip_copy( npts, points_y_d,  points_y.data() );
-  util::hip_copy( npts, points_z_d,  points_z.data() );
-  util::hip_copy( npts,   weights_d, weights.data() );
-  util::hip_copy( npts,   iparent_d, iparent.data() );
-  util::hip_copy( npts,   distnea_d, dist_nearest.data() );
-
-  std::vector<double> rab_inv(natoms*natoms);
-  for( auto i = 0; i < natoms*natoms; ++i )
-    rab_inv[i] = 1./ref_data.meta->rab().data()[i];
-
-  util::hip_copy_2d( rab_d, LDatoms * sizeof(double),
-                      rab_inv.data(), natoms * sizeof(double),
-                      natoms * sizeof(double), natoms, "RAB H2D");
-
-  util::hip_copy( 3*natoms, coords_d, coords.data() );
-
-  hipStream_t stream = 0;
-  //hip_aos_scheme1_weights_wrapper( npts, natoms, points_x_d, points_y_d, points_z_d, rab_d,
-  //  LDatoms, coords_d, dist_scr_d, LDatoms, iparent_d, distnea_d,
-  //  weights_d, stream );
-  compute_grid_to_center_dist( npts, natoms, coords_d, points_x_d, points_y_d, points_z_d,
-    dist_scr_d, LDatoms, stream );
-  partition_weights_ssf_2d( npts, natoms, rab_d, LDatoms, coords_d, dist_scr_d, LDatoms,
-    iparent_d, distnea_d, weights_d, stream );
-
-  util::hip_device_sync();
-  util::hip_copy( npts, weights.data(), weights_d );
-  util::hip_free( points_x_d, points_y_d, points_z_d, weights_d, iparent_d, distnea_d,
-                   rab_d, coords_d, dist_scr_d );
-
-  for( auto i = 0ul; i < npts; ++i )
-    CHECK( weights.at(i) == Approx( weights_ref.at(i) ) );
-
-}
-#endif
diff --git a/third_party/gauxc/tests/weights_host.hpp b/third_party/gauxc/tests/weights_host.hpp
deleted file mode 100644
index f9c5141..0000000
--- a/third_party/gauxc/tests/weights_host.hpp
+++ /dev/null
@@ -1,61 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#pragma once
-#include "weights_generate.hpp"
-#include <fstream>
-#include <string>
-
-#ifdef GAUXC_HAS_HOST
-#include "host/reference/weights.hpp"
-using namespace GauXC;
-
-void test_host_weights( std::ifstream& in_file, XCWeightAlg weight_alg ) {
-
-  ref_weights_data ref_data;
-  {
-    cereal::BinaryInputArchive ar( in_file );
-    ar( ref_data );
-  }
-
-  switch(weight_alg) {
-    case XCWeightAlg::Becke:
-      reference_becke_weights_host( 
-        ref_data.mol, *ref_data.meta, ref_data.tasks_unm.begin(), 
-        ref_data.tasks_unm.end() );
-      break;
-    case XCWeightAlg::SSF:
-      reference_ssf_weights_host( 
-        ref_data.mol, *ref_data.meta, ref_data.tasks_unm.begin(), 
-        ref_data.tasks_unm.end() );
-      break;
-    case XCWeightAlg::LKO:
-      reference_lko_weights_host( 
-        ref_data.mol, *ref_data.meta, ref_data.tasks_unm.begin(), 
-        ref_data.tasks_unm.end() );
-      break;
-  }
-
-
-  size_t ntasks = ref_data.tasks_unm.size();
-  for( size_t itask = 0; itask < ntasks; ++itask ) {
-    auto& task     = ref_data.tasks_unm.at(itask);
-    auto& ref_task = ref_data.tasks_mod.at(itask);
-
-    size_t npts = task.weights.size();
-    for( size_t i = 0; i < npts; ++i ) {
-      CHECK( task.weights.at(i) ==
-             Approx(ref_task.weights.at(i)) );
-    }
-  }
-
-}
-#endif
diff --git a/third_party/gauxc/tests/xc_integrator.cxx b/third_party/gauxc/tests/xc_integrator.cxx
deleted file mode 100644
index 3b294da..0000000
--- a/third_party/gauxc/tests/xc_integrator.cxx
+++ /dev/null
@@ -1,515 +0,0 @@
-/**
- * GauXC Copyright (c) 2020-2024, The Regents of the University of California,
- * through Lawrence Berkeley National Laboratory (subject to receipt of
- * any required approvals from the U.S. Dept. of Energy).
- *
- * (c) 2024-2025, Microsoft Corporation
- *
- * All rights reserved.
- *
- * See LICENSE.txt for details
- */
-#include "ut_common.hpp"
-#include <gauxc/xc_integrator.hpp>
-#include <gauxc/xc_integrator/impl.hpp>
-#include <gauxc/xc_integrator/integrator_factory.hpp>
-#include <gauxc/molecular_weights.hpp>
-
-#include <gauxc/molgrid/defaults.hpp>
-
-#include <gauxc/external/hdf5.hpp>
-#include <highfive/H5File.hpp>
-#include <Eigen/Core>
-
-using namespace GauXC;
-
-
-void test_xc_integrator( ExecutionSpace ex, const RuntimeEnvironment& rt,
-  std::string reference_file, 
-  functional_type& func, 
-  PruningScheme pruning_scheme,
-  bool check_grad,
-  bool check_integrate_den,
-  bool check_k,
-  std::string integrator_kernel = "Default",  
-  std::string reduction_kernel  = "Default",
-  std::string lwd_kernel        = "Default") {
-
-  // Read the reference file
-  using matrix_type = Eigen::MatrixXd;
-  Molecule mol;
-  BasisSet<double> basis;
-  matrix_type P, Pz, Py, Px, VXC_ref, VXCz_ref, VXCy_ref, VXCx_ref, K_ref;
-  double EXC_ref;
-  std::vector<double> EXC_GRAD_ref_HellFey, EXC_GRAD_ref_Full;
-  bool has_k = false, has_exc_grad_HellFey = false, has_exc_grad_full = false, rks = true, uks = false, gks = false;
-  {
-    read_hdf5_record( mol,   reference_file, "/MOLECULE" );
-    read_hdf5_record( basis, reference_file, "/BASIS"    );
-
-    HighFive::File file( reference_file, HighFive::File::ReadOnly );
-    
-    std::string den="/DENSITY";
-    std::string den2="/DENSITY_Z";
-    std::string den3="/DENSITY_Y";
-    std::string den4="/DENSITY_X";
-    std::string vxc="/VXC";
-    std::string vxc2="VXC_Z";
-    std::string vxc3="VXC_Y";
-    std::string vxc4="VXC_X";
-
-    if (file.exist("/DENSITY_Z")) { rks = false; }
-
-    if (file.exist("/DENSITY_Z") and not file.exist("/DENSITY_Y") and not file.exist("/DENSITY_X")) {
-       den="/DENSITY_SCALAR";
-       vxc="/VXC_SCALAR";
-       uks=true;
-    }
-     
-    if (file.exist("/DENSITY_X") and file.exist("/DENSITY_Y") and file.exist("/DENSITY_Z")) {
-       den="/DENSITY_SCALAR";
-       vxc="/VXC_SCALAR";
-       gks=true;
-    }
- 
-    auto dset = file.getDataSet(den);
-    
-    auto dims = dset.getDimensions();
-    P        = matrix_type( dims[0], dims[1] );
-    VXC_ref  = matrix_type( dims[0], dims[1] );
-    if (not rks) {
-      Pz       = matrix_type( dims[0], dims[1] );
-      VXCz_ref = matrix_type( dims[0], dims[1] );
-    } 
-    if (gks) {
-      Py       = matrix_type( dims[0], dims[1] );
-      VXCy_ref = matrix_type( dims[0], dims[1] );
-      Px       = matrix_type( dims[0], dims[1] );
-      VXCx_ref = matrix_type( dims[0], dims[1] );
-    }
-
-
-    dset.read( P.data() );
-    dset = file.getDataSet(vxc);
-    dset.read( VXC_ref.data() );
-
-    if (not rks) {
-      dset = file.getDataSet(den2);
-      dset.read( Pz.data() );
-      dset = file.getDataSet(vxc2);
-      dset.read( VXCz_ref.data() );
-    }
-
-    if (gks) {
-      dset = file.getDataSet(den3);
-      dset.read( Py.data() );
-      dset = file.getDataSet(vxc3);
-      dset.read( VXCy_ref.data() );
-      dset = file.getDataSet(den4);
-      dset.read( Px.data() );
-      dset = file.getDataSet(vxc4);
-      dset.read( VXCx_ref.data() );
-    }    
-
-    dset = file.getDataSet("/EXC");
-    dset.read( &EXC_ref );
-
-    // Check for new unified /EXC_GRAD dataset with attribute
-    if( file.exist("/EXC_GRAD") ) {
-      dset = file.getDataSet("/EXC_GRAD");
-      EXC_GRAD_ref_Full.resize( 3*mol.size() );
-      
-      // Check for attribute indicating whether weight derivatives are included
-      bool exc_grad_includes_weight_derivatives = false; // Default to Hellmann-Feynman
-      try {
-        auto attr = dset.getAttribute("includes_weight_derivatives");
-        int attr_value;
-        attr.read( attr_value );
-        exc_grad_includes_weight_derivatives = (attr_value != 0);
-      } catch(... ) { }
-      
-      if( exc_grad_includes_weight_derivatives ) {
-        dset.read( EXC_GRAD_ref_Full.data() );
-        has_exc_grad_full = true;
-      } else {
-        dset.read( EXC_GRAD_ref_HellFey.data() );
-        has_exc_grad_HellFey = true;
-      }
-    }
-    // Check for other type of EXC_GRAD
-    if( file.exist("/EXC_GRAD_HELLFEY") and not has_exc_grad_HellFey ) {
-      EXC_GRAD_ref_HellFey.resize( 3*mol.size() );
-      dset = file.getDataSet("/EXC_GRAD_HELLFEY");
-      dset.read( EXC_GRAD_ref_HellFey.data() );
-      has_exc_grad_HellFey = true;
-    }
-    if( file.exist("/EXC_GRAD_FULL") and not has_exc_grad_full ) {
-      EXC_GRAD_ref_Full.resize( 3*mol.size() );
-      dset = file.getDataSet("/EXC_GRAD_FULL");
-      dset.read( EXC_GRAD_ref_Full.data() );
-      has_exc_grad_full = true;
-    }
-    
-    has_k = file.exist("/K");
-    if(has_k) {
-        K_ref = matrix_type(dims[0], dims[1]);
-        dset = file.getDataSet("/K");
-        dset.read( K_ref.data() );
-    }
-  }
-
-  if( gks and ex == ExecutionSpace::Device and func.is_mgga() ) return;
-
-  for( auto& sh : basis ) 
-    sh.set_shell_tolerance( std::numeric_limits<double>::epsilon() );
-
-  auto mg = MolGridFactory::create_default_molgrid(mol, pruning_scheme,
-    BatchSize(512), RadialQuad::MuraKnowles, AtomicGridSizeDefault::UltraFineGrid);
-
-  // Construct Load Balancer
-  LoadBalancerFactory lb_factory(ExecutionSpace::Host, "Default");
-  auto lb = lb_factory.get_instance(rt, mol, mg, basis);
-
-  // Construct Weights Module
-  MolecularWeightsFactory mw_factory( ex, "Default", MolecularWeightsSettings{} );
-  auto mw = mw_factory.get_instance();
-
-  // Apply partition weights
-  mw.modify_weights(lb);
-
-  // Construct XC Functional
-  //auto Spin = uks ? ExchCXX::Spin::Polarized : ExchCXX::Spin::Unpolarized;
-  //functional_type func( ExchCXX::Backend::builtin, func_key, Spin );
-
-  // Construct XCIntegrator
-  XCIntegratorFactory<matrix_type> integrator_factory( ex, "Replicated", 
-    integrator_kernel, lwd_kernel, reduction_kernel );
-  auto integrator = integrator_factory.get_instance( func, lb );
-
-  // Integrate Density
-  if( check_integrate_den and rks) {
-    auto N_EL_ref = std::accumulate( mol.begin(), mol.end(), 0ul,
-      [](const auto& a, const auto &b) { return a + b.Z.get(); });
-    auto N_EL = integrator.integrate_den( P );
-    // Factor of 2 b/c P is the alpha density for RKS
-    CHECK( N_EL == Approx(N_EL_ref/2.0).epsilon(1e-6) );
-  }
-
-  // Integrate EXC/VXC
-  if ( rks ) {
-    auto [ EXC, VXC ] = integrator.eval_exc_vxc( P );
-
-    // Check EXC/VXC
-    auto VXC_diff_nrm = ( VXC - VXC_ref ).norm();
-    CHECK( EXC == Approx( EXC_ref ) );
-    CHECK( VXC_diff_nrm / basis.nbf() < 1e-10 ); 
-    // Check if the integrator propagates state correctly
-    {
-      auto [ EXC1, VXC1 ] = integrator.eval_exc_vxc( P );
-      CHECK( EXC1 == Approx( EXC_ref ) );
-      auto VXC1_diff_nrm = ( VXC1 - VXC_ref ).norm();
-      CHECK( VXC1_diff_nrm / basis.nbf() < 1e-10 ); 
-    }
-
-    // Check EXC-only path
-    auto EXC2 = integrator.eval_exc( P );
-    CHECK(EXC2 == Approx(EXC));
-
-  } else if (uks) {
-    auto [ EXC, VXC, VXCz ] = integrator.eval_exc_vxc( P, Pz );
-
-    // Check EXC/VXC
-    auto VXC_diff_nrm = ( VXC - VXC_ref ).norm();
-    auto VXCz_diff_nrm = ( VXCz - VXCz_ref ).norm();
-    CHECK( EXC == Approx( EXC_ref ) );
-    CHECK( VXC_diff_nrm / basis.nbf() < 1e-10 );
-    CHECK( VXCz_diff_nrm / basis.nbf() < 1e-10 );
-    // Check if the integrator propagates state correctly
-    {
-      auto [ EXC1, VXC1, VXCz1 ] = integrator.eval_exc_vxc( P, Pz );
-      CHECK( EXC1 == Approx( EXC_ref ) );
-      auto VXC1_diff_nrm = ( VXC1 - VXC_ref ).norm();
-      auto VXCz1_diff_nrm = ( VXCz1 - VXCz_ref ).norm();
-      CHECK( VXC1_diff_nrm / basis.nbf() < 1e-10 );
-      CHECK( VXCz1_diff_nrm / basis.nbf() < 1e-10 );
-    }
-
-    // Check EXC-only path
-    auto EXC2 = integrator.eval_exc( P, Pz );
-    CHECK(EXC2 == Approx(EXC));
-  } else if (gks) {
-    auto [ EXC, VXC, VXCz, VXCy, VXCx ] = integrator.eval_exc_vxc( P, Pz, Py, Px );
-
-    // Check EXC/VXC
-    auto VXC_diff_nrm = ( VXC - VXC_ref ).norm();
-    auto VXCz_diff_nrm = ( VXCz - VXCz_ref ).norm();
-    auto VXCy_diff_nrm = ( VXCy - VXCy_ref ).norm();
-    auto VXCx_diff_nrm = ( VXCx - VXCx_ref ).norm();
-
-    CHECK( EXC == Approx( EXC_ref ) );
-    CHECK( VXC_diff_nrm / basis.nbf() < 1e-10 );
-    CHECK( VXCz_diff_nrm / basis.nbf() < 1e-10 );
-    CHECK( VXCy_diff_nrm / basis.nbf() < 1e-6 );
-    CHECK( VXCx_diff_nrm / basis.nbf() < 1e-6 );
-    // Check if the integrator propagates state correctly
-    {
-      auto [ EXC1, VXC1, VXCz1, VXCy1, VXCx1] = integrator.eval_exc_vxc( P, Pz, Py, Px );
-      CHECK( EXC1 == Approx( EXC_ref ) );
-      auto VXC1_diff_nrm = ( VXC1 - VXC_ref ).norm();
-      auto VXCz1_diff_nrm = ( VXCz1 - VXCz_ref ).norm();
-      auto VXCy1_diff_nrm = ( VXCy1 - VXCy_ref ).norm();
-      auto VXCx1_diff_nrm = ( VXCx1 - VXCx_ref ).norm();
-      CHECK( VXC1_diff_nrm / basis.nbf() < 1e-10 );
-      CHECK( VXCz1_diff_nrm / basis.nbf() < 1e-10 );
-      CHECK( VXCy_diff_nrm / basis.nbf() < 1e-6 );
-      CHECK( VXCx_diff_nrm / basis.nbf() < 1e-6 );
-    }
-
-    // Check EXC-only path
-    auto EXC2 = integrator.eval_exc( P, Pz, Py, Px );
-    CHECK(EXC2 == Approx(EXC));
-  }
-
-
-
-  // Check EXC Grad
-  if( check_grad and has_exc_grad_full ) {
-    IntegratorSettingsEXC_GRAD exc_grad_settings;
-    exc_grad_settings.include_weight_derivatives = true; // Use full gradient (default)
-    auto EXC_GRAD = rks ? integrator.eval_exc_grad( P, exc_grad_settings ) : integrator.eval_exc_grad( P, Pz, exc_grad_settings );
-    using map_type = Eigen::Map<Eigen::MatrixXd>;
-    map_type EXC_GRAD_ref_map( EXC_GRAD_ref_Full.data(), mol.size(), 3 );
-    map_type EXC_GRAD_map( EXC_GRAD.data(), mol.size(), 3 );
-    auto EXC_GRAD_diff_nrm = (EXC_GRAD_ref_map - EXC_GRAD_map).norm();
-    INFO("comparing full gradient");
-    CHECK( EXC_GRAD_diff_nrm / std::sqrt(3.0*mol.size()) < 1e-8 );
-  }
-  if( check_grad and has_exc_grad_HellFey ) {
-    IntegratorSettingsEXC_GRAD exc_grad_settings;
-    exc_grad_settings.include_weight_derivatives = false; // Use Hellmann-Feynman gradient
-    auto EXC_GRAD = rks ? integrator.eval_exc_grad( P, exc_grad_settings ) : integrator.eval_exc_grad( P, Pz, exc_grad_settings );
-    using map_type = Eigen::Map<Eigen::MatrixXd>;
-    map_type EXC_GRAD_ref_map( EXC_GRAD_ref_HellFey.data(), mol.size(), 3 );
-    map_type EXC_GRAD_map( EXC_GRAD.data(), mol.size(), 3 );
-    auto EXC_GRAD_diff_nrm = (EXC_GRAD_ref_map - EXC_GRAD_map).norm();
-    INFO("comparing Hellmann-Feynman gradient");
-    CHECK( EXC_GRAD_diff_nrm / std::sqrt(3.0*mol.size()) < 1e-8 );
-  }
-
-
-  // Check K
-  if( has_k and check_k and rks ) {
-    auto max_l = basis.max_l();
-    if(max_l > 2 and ex == ExecutionSpace::Device) {
-      std::cout << "Skiping device sn-K + L > 2" << std::endl;
-      return;
-    }
-    auto K = integrator.eval_exx( P );
-    CHECK((K - K.transpose()).norm() < std::numeric_limits<double>::epsilon()); // Symmetric
-    CHECK( (K - K_ref).norm() / basis.nbf() < 1e-7 );
-  }
-
-}
-
-void test_integrator(std::string reference_file, functional_type& func, PruningScheme pruning_scheme) {
-
-#ifdef GAUXC_HAS_DEVICE
-  auto rt = DeviceRuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD,) 0.9);
-#else
-  auto rt = RuntimeEnvironment(GAUXC_MPI_CODE(MPI_COMM_WORLD));
-#endif
-
-#ifdef GAUXC_HAS_HOST
-    SECTION( "Host" ) {
-      SECTION("Reference") {
-        test_xc_integrator( ExecutionSpace::Host, rt, reference_file, func,
-          pruning_scheme, true, true, true );
-      }
-      SECTION("ShellBatched") {
-        test_xc_integrator( ExecutionSpace::Host, rt, reference_file, func,
-          pruning_scheme, false, false, false, "ShellBatched" );
-      }
-    }
-#endif
-
-#ifdef GAUXC_HAS_DEVICE
-  SECTION( "Device" ) {
-    bool check_grad = true;
-    bool check_k    = true;
-    #ifdef GAUXC_HAS_HIP
-    check_grad = false;
-    check_k    = false;
-    #endif
-    SECTION( "Incore - MPI Reduction" ) {
-      test_xc_integrator( ExecutionSpace::Device, rt,
-        reference_file, func, pruning_scheme,  
-        check_grad, true, check_k, "Default" );
-    }
-
-    #ifdef GAUXC_HAS_MAGMA
-    SECTION( "Incore - MPI Reduction - MAGMA" ) {
-      if(not func.is_mgga() and not func.is_polarized()) {
-        test_xc_integrator( ExecutionSpace::Device, rt,
-          reference_file, func, pruning_scheme,
-          false, true, check_k, "Default", "Default", 
-          "Scheme1-MAGMA" );
-      }
-    }
-    #endif
-
-    #ifdef GAUXC_HAS_CUTLASS
-    SECTION( "Incore - MPI Reduction - CUTLASS" ) {
-      test_xc_integrator( ExecutionSpace::Device, rt, 
-        reference_file, func, pruning_scheme,
-        true, true, false, "Default", "Default", 
-        "Scheme1-CUTLASS" );
-    }
-    #endif
-
-
-    #ifdef GAUXC_HAS_NCCL
-    SECTION( "Incore - NCCL Reduction" ) {
-      test_xc_integrator( ExecutionSpace::Device, rt,
-        reference_file, func, pruning_scheme, 
-        false, false, false, "Default", "NCCL" );
-    }
-    #endif
-
-    // SECTION( "ShellBatched" ) {
-    //   test_xc_integrator( ExecutionSpace::Device, rt, 
-    //     reference_file, func, pruning_scheme,  
-    //     false, false, false, "ShellBatched" );
-    // }
-  }
-#endif
-
-}
-
-functional_type make_functional(ExchCXX::Functional func_key, ExchCXX::Spin spin) {
-  return functional_type(ExchCXX::Backend::builtin, func_key, spin);
-}
-
-
-TEST_CASE( "XC Integrator", "[xc-integrator]" ) {
-
-  auto pol     = ExchCXX::Spin::Polarized;
-  auto unpol   = ExchCXX::Spin::Unpolarized;
-  auto svwn5   = ExchCXX::Functional::SVWN5;
-  auto pbe0    = ExchCXX::Functional::PBE0;
-  auto blyp    = ExchCXX::Functional::BLYP;
-  auto scan    = ExchCXX::Functional::SCAN;
-  auto r2scanl = ExchCXX::Functional::R2SCANL;
-  auto m062x   = ExchCXX::Functional::M062X;
-
-  // LDA Test
-  SECTION( "Benzene / SVWN5 / cc-pVDZ" ) {
-    auto func = make_functional(svwn5, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-  SECTION( "Benzene / SVWN5 / cc-pVDZ (Treutler)" ) {
-    auto func = make_functional(svwn5, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf_treutler_prune.hdf5", 
-        func, PruningScheme::Treutler );
-  }
-  SECTION( "Benzene / SVWN5 / cc-pVDZ (Robust)" ) {
-    auto func = make_functional(svwn5, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/benzene_svwn5_cc-pvdz_ufg_ssf_robust_prune.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  // GGA Test
-  SECTION( "Benzene / PBE0 / cc-pVDZ" ) {
-    auto func = make_functional(pbe0, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/benzene_pbe0_cc-pvdz_ufg_ssf.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-
-  // MGGA Test (TAU Only)
-  SECTION( "Cytosine / SCAN / cc-pVDZ") {
-    auto func = make_functional(scan, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/cytosine_scan_cc-pvdz_ufg_ssf_robust.hdf5", 
-        func, PruningScheme::Robust );
-  }
-  // This tests gradients
-  SECTION( "Benzene / M06-2X / def2-svp") {
-    auto func = make_functional(m062x, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/benzene_m062x_def2-svp_ufg_ssf.hdf5",
-        func, PruningScheme::Unpruned );
-  }
-
-  // MGGA Test (TAU + LAPL)
-  SECTION( "Cytosine / R2SCANL / cc-pVDZ") {
-    auto func = make_functional(r2scanl, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  //UKS LDA Test
-  SECTION( "Li / SVWN5 / sto-3g" ) {
-    auto func = make_functional(svwn5, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/li_svwn5_sto3g_uks.bin",
-        func, PruningScheme::Unpruned );
-  }
-  // + grad
-  SECTION( "Cytosine (doublet) / SVWN5 / cc-pVDZ") {
-    auto func = make_functional(svwn5, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/cytosine_svwn5_cc-pvdz_ufg_ssf_robust_uks.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  //UKS GGA Test
-  SECTION( "Li / BLYP / sto-3g" ) {
-    auto func = make_functional(blyp, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/li_blyp_sto3g_uks.bin",
-        func, PruningScheme::Unpruned );
-  }
-  // + grad
-  SECTION( "Cytosine (doublet) / BLYP / cc-pVDZ") {
-    auto func = make_functional(blyp, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/cytosine_blyp_cc-pvdz_ufg_ssf_robust_uks.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  // UKS MGGA Test (TAU Only)
-  SECTION( "Cytosine (doublet) / SCAN / cc-pVDZ") {
-    auto func = make_functional(scan, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/cytosine_scan_cc-pvdz_ufg_ssf_robust_uks.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  // UKS MGGA Test (TAU + LAPL)
-  SECTION( "Cytosine (doublet) / R2SCANL / cc-pVDZ") {
-    auto func = make_functional(r2scanl, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/cytosine_r2scanl_cc-pvdz_ufg_ssf_robust_uks.hdf5", 
-        func, PruningScheme::Robust );
-  }
-
-  // GKS GGA Test
-  SECTION( "H3 / BLYP / cc-pvdz" ) {
-    auto func = make_functional(blyp, pol);
-    test_integrator(GAUXC_REF_DATA_PATH "/h3_blyp_cc-pvdz_ssf_gks.bin",
-        func, PruningScheme::Unpruned );
-  }
-
-  // sn-LinK Test
-  SECTION( "Benzene / PBE0 / 6-31G(d)" ) {
-    auto func = make_functional(pbe0, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/benzene_631gd_pbe0_ufg.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-
-  // sn-LinK + f functions
-  SECTION( "H2O2 / PBE0 / def2-TZVP" ) {
-    auto func = make_functional(pbe0, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/h2o2_def2-tzvp.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-
-  // sn-LinK + g functions
-  SECTION( "H2O2 / PBE0 / def2-QZVP" ) {
-    auto func = make_functional(pbe0, unpol);
-    test_integrator(GAUXC_REF_DATA_PATH "/h2o2_def2-qzvp.hdf5", 
-        func, PruningScheme::Unpruned );
-  }
-}